Crawling מול Indexing, ההבדל היסודי בגוגל

פרק 01

🧭 ההבדל הכי חשוב שאתם לא מבינים, crawling מול indexing

תקשיבו. אני אפתח עם השיחה הכי מתסכלת שיש לי כל שבוע. לקוח כותב, "שמוליק, העמוד שלי לא בגוגל". אני שואל, "בדקת ב-Search Console מה המצב?". הוא עונה, "כן, גוגל סורק אותו, ראיתי את ה-Googlebot בלוגים". ואז אני צריך להסביר לו את ההבדל היסודי שכל מקדם חייב להבין, סריקה זה לא הכללה באינדקס. גוגל יכול לסרוק עמוד 50 פעם ועדיין לא להכניס אותו לאינדקס. נקודה.

בואו נגדיר את שני המונחים בלי בלגן. Crawling זה התהליך שבו Googlebot (וגם Bingbot, ‏Yandex, ‏ובאחרונה גם ChatGPT-User ו-PerplexityBot) מגיע לעמוד שלכם, מוריד את ה-HTML, ‏ומגלה לינקים נוספים מתוכו. זה ביקור. אורח שנכנס לבית, מסתכל, ויוצא. Indexing זה התהליך שבו גוגל לוקח את מה שהוריד, ‏מנתח אותו, ‏מבין על מה העמוד, ‏ומחליט האם כדאי לאחסן אותו במאגר העצום שלו כך שכאשר מישהו יחפש משהו רלוונטי, ‏העמוד יוכל להופיע. זאת החלטה ערכית של גוגל, ‏לא תהליך טכני.

⚠️ הנקודה החשובה ביותר

סריקה היא תנאי הכרחי אבל לא מספיק להכללה באינדקס. גוגל סורק מיליארדי עמודים ביום ומשאיר מחוץ לאינדקס את רוב מה שהוא רואה. אם העמוד שלכם "Crawled, currently not indexed", הסריקה הצליחה, אבל ההחלטה הייתה לא לאחסן. שתי בעיות שונות, שני פתרונות שונים.

ולמה זה כל כך קריטי? כי ה-95% מהפעמים שלקוח אומר לי "גוגל לא רואה את האתר שלי", הוא בעצם מתכוון לאחד מ-3 דברים שונים לגמרי, גוגל לא מצליח להגיע (crawling), גוגל מגיע אבל לא מצליח לרנדר את ה-JS (rendering), או גוגל מגיע ורואה הכל אבל מחליט שזה לא שווה אינדוקס (indexing). הפתרון לכל אחד מהם שונה לחלוטין. במאמר הזה אני אעבור איתכם על כל שלב, איך לזהות, איך לתקן, ואיפה רוב המקדמים נופלים. אם אחרי המאמר אתם עדיין תקועים, יש לכם איך לדבר איתי ישירות.

אגב, השם שמוליק דורינבאום מאחורי המקלדת כאן, 20 שנה בעולם ה-SEO, ‏אני אישית טיפלתי במאות מקרים של "העמוד לא מופיע". בכל פעם, התחלתי באבחנה הזאת בדיוק. crawl או index? בלי האבחנה הזאת, אתם זורקים זמן.

פרק 02

🔄 3 השלבים, Crawl, Render, Index, וכיצד כל אחד יכול להיכשל

גוגל לא עובד בשלב אחד. הוא עובד בשלושה. רוב המקדמים יודעים על שניים, ומפספסים את האמצעי שעולה לי הכי הרבה זמן בדיבוגים. בואו נפרק.

שלב 1, Crawling

Googlebot מגיע ל-URL שלכם דרך אחת מ-4 דרכי discovery (סייטמאפ, ‏לינק חיצוני, ‏לינק פנימי, ‏הגשה ידנית). הוא בודק את robots.txt, ‏רואה אם מותר לו, ‏ואז שולח בקשת HTTP GET ומוריד את ה-HTML הראשוני. אם השרת מחזיר 200 OK, ‏הסריקה הצליחה. אם הוא מחזיר 4xx, ‏5xx, ‏או timeout, ‏הסריקה נכשלת ו-Googlebot ינסה שוב מאוחר יותר.

שלב 2, Rendering

הנה השלב שכולם מפספסים. גוגל לוקח את ה-HTML הגולמי שהוריד, ‏ומחליט אם הוא צריך להריץ עליו JavaScript כדי לראות את התוכן הסופי. אם האתר שלכם React, ‏Vue, ‏Angular, ‏או כל SPA אחר, ‏ה-HTML הראשוני בדרך כלל ריק כמעט (רק `

`), והתוכן האמיתי נטען רק אחרי שה-JS רץ. גוגל שם את העמוד הזה בתור רינדור (rendering queue), מחכה שיתפנו לו משאבי דפדפן (Chromium headless), ואז מריץ את ה-JS ושומר את ה-HTML הסופי.

⏱ ההמתנה הזאת היא בלתי-נראית

אורח של תור הרינדור היה פעם שבועות. ‏היום זה לרוב שעות, ‏אבל לאתרים גדולים ויקרי-משאבים זה עדיין ימים. ‏בזמן שאתם מחכים, ‏האינדקס שלכם פשוט לא מתעדכן.

שלב 3, Indexing

אחרי הרינדור, ‏גוגל מנתח את העמוד הסופי. הוא מסתכל על הכותרת, ‏ה-meta description, ‏ה-canonical, ‏ה-structured data, ‏איכות התוכן, ‏ייחודיות, ‏רלוונטיות. ואז מקבל החלטה, להכניס לאינדקס או לא. אם כן, באיזה priority. אם לא, באיזה סטטוס. זה השלב הערכי, ‏ופה רוב הבעיות שאני רואה אצל לקוחות.

איך כל אחד נכשל

Crawl נכשל
robots.txt חוסם, ‏השרת מחזיר 5xx, ‏ה-URL לא נמצא בכלל (אין סייטמאפ, ‏אין לינק).
Render נכשל
ה-JS זורק שגיאה, ‏טוקן ה-API פג, ‏התוכן ניטען אחרי 30 שניות (גוגל לא מחכה).
Index נכשל
תוכן דק, ‏duplicate של עמוד אחר, ‏canonical מצביע על אחר, ‏noindex, ‏איכות נמוכה.

בכל אבחנה שלי, אני שואל קודם, באיזה שלב זה תקוע? בלי התשובה לזה, אתם פותרים את הבעיה הלא נכונה.

פרק 03

🗺 איך גוגל מגלה בכלל את העמוד שלכם, 4 דרכי discovery

לפני שגוגל יכול לסרוק עמוד, הוא צריך לדעת שהעמוד קיים. נשמע טריוויאלי, אבל זה אחד המקומות הכי שכיחים שאני רואה בהם פספוסים. גוגל לא קוסם. אם אין דרך שהוא יגיע ל-URL שלכם, הוא לא ימצא אותו.

1. XML Sitemap

הדרך הנקייה ביותר. אתם מגישים ל-Search Console קובץ sitemap.xml עם רשימה של כל ה-URLs שאתם רוצים שגוגל יכיר. גוגל קורא את הקובץ, ‏מוסיף את כל ה-URLs לתור הסריקה שלו, ‏ובחלוף הזמן יתחיל לסרוק אותם. סייטמאפ נכון זה הצעד הראשון בכל אודיט שאני עושה.

2. קישורים חיצוניים

אם אתר אחר מקשר אליכם, ‏Googlebot שסורק את האתר ההוא יראה את הקישור, ‏ויוסיף את ה-URL שלכם לתור הסריקה. ככה גוגל גילה דברים לפני שהיו סייטמאפים בכלל. עד היום זאת אחת הסיבות שלינקים חיצוניים חשובים, ‏לא רק ל-authority, ‏גם ל-discovery.

3. קישורים פנימיים

כשגוגל סורק עמוד באתר שלכם, ‏הוא קורא את כל הלינקים שמופיעים בו ומוסיף אותם לתור. אם יש לכם עמוד שאף עמוד אחר לא מקשר אליו (מה שנקרא orphan page), ‏גוגל אולי לעולם לא יגיע אליו, ‏גם אם הוא בסייטמאפ. הסייטמאפ הוא רמז, ‏לא הוראה.

4. הגשה ידנית, Request Indexing

ב-Search Console יש כלי URL Inspection שמאפשר לכם להגיש URL ספציפי לסריקה. גוגל יסרוק אותו תוך שעות בדרך כלל. שימושי לעמודים חדשים שאתם רוצים שיופיעו מהר, אבל יש לזה גבולות (אני מסביר בפרק 9).

✅ מה כדאי לעשות

סייטמאפ מעודכן שמוגש ב-Search Console
כל עמוד חשוב מקבל לפחות לינק פנימי אחד
בניית קישורים חיצוניים כחלק מאסטרטגיית SEO
שימוש ב-Request Indexing לעמודים חדשים קריטיים

❌ מה לא לעשות

להשאיר עמודים יתומים (no internal links) ולקוות שהסייטמאפ יעבוד
לבנות סייטמאפ של 50,000 URL ולחכות שגוגל יסרוק הכל
להגיש את אותו URL ל-Request Indexing 10 פעמים ביום
להתבסס רק על Discovery אורגני בלי סייטמאפ

בסופו של דבר, ‏discovery זה לא הצעד שגוגל נכשל בו הכי הרבה. אבל כשהוא נכשל, ‏הוא נכשל בשקט מוחלט. אין דוח שיגיד לכם "גוגל לא מכיר את ה-URL הזה". הוא פשוט לא יופיע בשום מקום ב-Search Console. אם אתם מחפשים URL ב-URL Inspection וגוגל אומר "URL is unknown to Google", ‏זה discovery failure. ‏הגישו בסייטמאפ, ‏בנו לינק פנימי, ‏ולחצו Request Indexing.

פרק 04

📋 כל הסטטוסים ב-Coverage Report, מה כל אחד אומר באמת

דוח ה-Pages report ב-Search Console (לשעבר Coverage) הוא הכלי החשוב ביותר שלכם להבנת מצב האינדוקס. הבעיה, ‏רוב המקדמים מסתכלים עליו ורואים מספרים ירוקים ואדומים בלי להבין מה כל קטגוריה אומרת באמת. בואו נפרק את הסטטוסים העיקריים, ‏אחד אחד, עם תרגום לעברית של מה זה אומר בפועל ומה הדחיפות.

סטטוס	מה זה אומר	חומרה
Indexed	העמוד באינדקס, ‏יכול להופיע בתוצאות	תקין
Crawled, currently not indexed	גוגל סרק אבל החליט לא לאחסן	בינוני, חמור
Discovered, currently not indexed	גוגל יודע על ה-URL אבל לא סרק עדיין	בינוני
Page with redirect	העמוד מבצע 301/302 לעמוד אחר	תקין (אם מכוון)
Duplicate without user-selected canonical	גוגל מצא duplicate ובחר canonical אחר	בינוני
Duplicate, Google chose different canonical	הצהרתם canonical, גוגל התעלם	חמור
Excluded by 'noindex' tag	יש meta noindex	תקין (אם מכוון)
Blocked by robots.txt	robots.txt חוסם את הסריקה	תקין (אם מכוון)
Soft 404	גוגל חושב שזה דף לא קיים למרות 200 OK	חמור
Not found (404)	השרת מחזיר 404	חמור (אם לא מכוון)
Server error (5xx)	השרת קרס בזמן הסריקה	חמור
Alternate page with proper canonical tag	גוגל מזהה את העמוד כגרסה אלטרנטיבית של canonical אחר	תקין
Blocked due to access forbidden (403)	השרת מחזיר 403, אסור לבוט	חמור

הקטגוריות המתסכלות באמת הן Crawled/Discovered currently not indexed וה-Duplicate without user-selected canonical, כי הן אומרות שמשהו שלכם כן נסרק אבל גוגל לא רוצה אותו. בפרקים הבאים אני אצלול לעומק לכל אחת.

💡 איך לקרוא את הדוח נכון

אל תסתכלו רק על המספר הכולל. לחצו על כל סטטוס, ‏בדקו דוגמאות של URLs בכל קטגוריה. אם 70% מ-"Crawled, currently not indexed" הם עמודי טאגים או עמודי פילטרים אוטומטיים, ‏זה למעשה תקין, ‏גוגל פשוט בחר לא להכניס משהו לא חשוב. אם זה עמודי תוכן ראשיים שלכם, ‏יש בעיה אמיתית. הדוח לא מספר לכם מה תקין ומה לא, אתם צריכים לפענח את הדפוס.

אגב, גוגל מדגים רק חלק מה-URLs בכל קטגוריה (לרוב עד 1,000), ‏אז אם יש לכם אתר ענק עם 50,000 עמודים ב-Crawled not indexed, ‏אתם לא רואים את כולם. תורידו את הקובץ עם Export, ‏או חברו את ה-Search Console ל-BigQuery כדי לקבל את כל הנתונים. רוב המקדמים מסתפקים בדוגמאות, ולכן מפספסים את הדפוסים האמיתיים שגורמים לבעיות.

פרק 05

😤 Crawled, currently not indexed, הסיוט הקבוע של כל מקדם

זה הסטטוס שגורם לי הכי הרבה שיחות עם לקוחות. גוגל אומר ברורות, "כן, סרקתי. כן, ראיתי. החלטתי לא להכניס". אין סיבה. אין הסבר. נקודה. בואו נפרק את הסיבות האפשריות, ‏לפי שכיחות, ‏על סמך מאות אבחנות שעשיתי לאורך השנים.

1. איכות תוכן נמוכה

הסיבה הכי נפוצה. גוגל מסתכל על העמוד ומחליט שהוא לא מספיק טוב כדי להופיע בתוצאות. תוכן דק (פחות מ-300 מילים בנושא שדורש 2,000), ‏תוכן מועתק או דומה לעמודים אחרים שלכם, ‏תוכן AI גרידא בלי הוספת ערך, ‏תוכן ישן שלא עודכן שנים. כל אלו מורידים את ה-priority. במיוחד מאז עדכוני ה-Helpful Content של גוגל, הסף עלה משמעותית.

2. Duplicate או דמיון לעמוד אחר באתר שלכם

אם יש לכם 4 עמודים שכולם מכסים את אותו נושא, ‏גוגל יבחר אחד ויזרוק את השאר ל-"crawled not indexed". זאת בעצם קניבליזציה של מילות מפתח שמתבטאת באינדוקס.

3. אות חלש מהאתר עצמו

הקלאסי. עמוד שאין לו לינקים פנימיים נכנסים, ‏אין סייטמאפ עדכני, ‏אין mention במקום אחר באתר. גוגל מבין שאתם בעצמכם לא חושבים שהעמוד הזה חשוב, ‏אז למה הוא יחשוב אחרת? אם אתם לא מקשרים לעמוד מ-homepage או מעמוד עם authority, אתם בעצם מצביעים על חוסר אמון בעמוד.

4. אתר חדש או בעל סמכות נמוכה

אתר טרי (פחות מ-6 חודשים) או אתר ללא backlinks, ‏גוגל יבחר להיות שמרני. הוא ייקח את העמודים הראשיים שלכם (homepage, ‏שירותים) ויזניח את ה-200 פוסטי בלוג עד שיוכיחו את עצמם. זה לא אישי, זה איך גוגל מטפלת באתרים חדשים, היא מחכה שתוכיחו את עצמכם.

5. שגיאות טכניות שלא ראיתם

הכי מתסכל. ‏העמוד מחזיר 200 OK, ‏אבל יש בו בעיה שגוגל זיהה, ‏canonical שמצביע לעמוד אחר, ‏hreflang שגוי, ‏soft 404, ‏או redirect chain. ‏בדקו ב-URL Inspection את הסטטוס המדויק.

איך פותרים

שפרו את התוכן, ‏הוסיפו עומק, ‏מקוריות, ‏ערך אמיתי
חזקו לינקים פנימיים שמובילים לעמוד
בדקו canonicals שמכוונים נכון
אם זה duplicate, ‏החליטו לאחד או למחוק (ראו פרק 13)
סבלנות, ‏לפעמים זה עניין של זמן ושיפור הדרגתי של ה-authority של האתר
אל תהיו אובססיביים לעמודים בודדים אם 90% מהאתר באינדקס

תקשיבו, "Crawled, currently not indexed" זאת לא בעיה טכנית שאתם יכולים לתקן בקליק. זאת אבחנה איכותית של גוגל על העמוד שלכם. הפתרון לא ב-htaccess, ‏הפתרון בתוכן.שמוליק דורינבאום

פרק 06

🔭 Discovered, currently not indexed, ההבדל מ-Crawled ומה עושים

זה הסטטוס שמבלבל הכי הרבה אנשים. "Discovered" נשמע דומה ל-"Crawled", אבל זה שונה לחלוטין. אם תזכרו רק דבר אחד מהפרק הזה, שיהיה זה, Discovered = גוגל יודע שה-URL קיים אבל עדיין לא סרק אותו. בזמן ש-Crawled אומר שגוגל סרק והחליט לא להכניס, Discovered אומר שגוגל עדיין לא בא לבקר.

למה זה קורה

חוסר crawl budget
גוגל מקצה לכל אתר תקציב סריקה (ראו crawl budget optimization). אם האתר שלכם עצום (10,000+ עמודים) או איטי, ‏גוגל מחליט להתעדף עמודים אחרים ולדחות את ה-URL שלכם.
אות חלש על חשיבות העמוד
הסייטמאפ אומר שהעמוד קיים, ‏אבל אין לו לינקים פנימיים. גוגל בעדיפות נמוכה.
אתר חדש או בעל שיא טכני גרוע
אם השרת איטי, ‏גוגל מצמצם את הסריקה כדי לא להעמיס. עמודים בתור יחכו.
גוגל פשוט עוד לא הגיע
במיוחד בעמודים חדשים שעולים, ‏לפעמים זה לוקח שבועות פשוט בגלל סדר התור.

איך לאבחן את הסיבה האמיתית

תפתחו URL Inspection לעמוד הספציפי. אם גוגל אומר "URL is on Google" בעקבות "Discovered", פירוש הדבר שהיא נכנסה אבל לקח זמן. אם זה אומר "Crawled, not indexed", המצב השתנה. אם זה אומר "Discovered, currently not indexed", זה עדיין באותו מצב, וצריך פעולה.

💡 הפעולות שעובדות

1. ‏הוסיפו לינקים פנימיים חזקים לעמוד מעמודים שגוגל סורק תכופות (homepage, ‏עמודים פופולריים). ‏2. ‏שפרו את ה-server response time (הרבה מאתרי לקוחות שלי תקועים פה בגלל hosting חלש). ‏3. ‏אם זה דחוף, ‏בקשו Request Indexing, ‏אבל אם יש לכם 5,000 עמודים בסטטוס הזה, ‏זה לא יעבוד אחד-אחד. ‏4. ‏וודאו שהעמוד באמת בסייטמאפ ועם lastmod עדכני.

השוואה מעשית

🔍 Discovered

גוגל יודע על ה-URL
עדיין לא סרק אותו
המתנה בתור
פתרון: חזקו signals + סבלנות

📥 Crawled

גוגל סרק אותו
החליט לא להכניס
שיפוט איכותי
פתרון: שפרו תוכן + signals

גם זה וגם זה אומרים "לא באינדקס", אבל הפתרון לכל אחד שונה לגמרי. אם תפתרו את Discovered עם תיקוני תוכן, ‏אתם תפסידו זמן. אם תפתרו את Crawled עם שיפור crawl budget, ‏גם זה לא יעבוד. תאבחנו קודם, ‏תפעלו אחר כך.

פרק 07

🎬 Rendering, השלב שמשפיל הכי הרבה אתרים בלי שהם יודעים

הנה השלב שתשעים אחוז מהמקדמים לא מודעים אליו. גוגל לא קורא את ה-HTML הסופי של עמודי React/Vue/Angular מיד עם הסריקה. הוא לוקח את ה-HTML הראשוני (שלרוב ריק), ‏שם את העמוד בתור רינדור, ‏ורק אחרי כמה שעות (לפעמים ימים), ‏מריץ עליו Chromium headless כדי לראות את התוצאה הסופית.

למה זה בעיה

אם האתר שלכם SPA והשרת מחזיר HTML שנראה ככה,

<!DOCTYPE html>
<html>
<head><title>My App</title></head>
<body>
<div id="root"></div>
<script src="app.js"></script>
</body>
</html>

גוגל בשלב הראשון רואה כלום. אין כותרת, ‏אין תוכן, ‏אין links. כל מה שיש זה תג ריק. רק אחרי שהרינדור יקרה, ‏גוגל יראה את התוכן האמיתי. אבל בינתיים, ‏העמוד שלכם נחשב ריק.

3 הבעיות הנפוצות של רינדור

תור רינדור ארוך
אם האתר שלכם דורש הרבה משאבים (תמונות גדולות, ‏JS כבד, ‏API calls), גוגל מקצה לו פחות resources, ‏וההמתנה ארוכה יותר. עדכוני תוכן לא משפיעים על SEO לימים.
JS שזורק שגיאה
אם ה-JS שלכם נשבר באמצע (חסר polyfill, ‏API לא מגיב, ‏race condition), גוגל ירנדר HTML חלקי או ריק.
תוכן שדורש interaction
אם התוכן נטען רק אחרי click או scroll, ‏גוגל לא יראה אותו. הוא לא לוחץ, ‏הוא לא גולל. הוא טוען את העמוד וצופה במצב הסטטי.

איך מאבחנים

פתחו URL Inspection ב-Search Console, לחצו "Test Live URL", ולאחר מכן "View Tested Page". שני המצבים החשובים, "HTML" (מה שגוגל רואה אחרי הרינדור), "More Info > Page Resources" (אילו קבצים נטענו, אילו נכשלו). אם הסקרינשוט ריק או חלקי, יש בעיית רינדור.

⚠️ הפתרונות לפי סדר עדיפות

1. SSR (Server-Side Rendering), ‏השרת מחזיר HTML עם תוכן כבר רנדר. ‏Next.js, ‏Nuxt, ‏SvelteKit, ‏Astro, ‏כולם תומכים. ‏זה הפתרון הנקי ביותר. ‏2. SSG (Static Site Generation), ‏באתרים שהתוכן לא משתנה דינמית, ‏לייצר HTML סטטי בזמן build. ‏הכי מהיר ל-SEO. ‏3. Dynamic Rendering, ‏אם זיהיתם user-agent של גוגל, ‏החזירו לו גרסה rendered מראש (Rendertron, ‏Prerender.io). ‏גוגל אומר שזה תקין כפתרון זמני. ‏4. הימנעו מ-SPA רגיל ל-SEO, ‏אם האתר תלוי SEO, ‏אל תבחרו ב-CSR-only.

פרק 08

🚫 robots.txt מול noindex, הטעות הקלאסית שכל מתחיל עושה

תקשיבו, זאת הטעות הכי קלאסית בספר. אתם רוצים להסיר עמוד מתוצאות החיפוש, ‏אז אתם, ‏מוסיפים ל-robots.txt חסימה והוספים noindex במטא טאג. נשמע נכון, ‏לא? זה לא עובד. נחשו למה? כי שני המנגנונים האלה עושים דברים שונים לחלוטין, ופועלים בשלבים שונים של התהליך.

מה כל אחד עושה באמת

📄 robots.txt

נותן הוראות סריקה לבוטים
חוסם crawl, ‏לא indexing
גוגל לא ייכנס לעמוד
אבל גוגל יכול עדיין להכניס לאינדקס מבוסס על לינקים חיצוניים, ‏בלי לדעת על מה העמוד

🏷 meta noindex

תג HTML בתוך ה-head
חוסם indexing
גוגל סורק את העמוד ורואה את התג
ואז יודע שלא להכניס לאינדקס

למה השילוב לא עובד

אם תוסיפו Disallow: /private/ ב-robots.txt וגם <meta name="robots" content="noindex"> בעמוד, ‏גוגל יכבד את ה-robots.txt ולא ייכנס לעמוד. ‏לעולם לא יראה את ה-noindex. ‏ואם מישהו מקשר לעמוד הזה מאתר אחר, ‏גוגל יכול עדיין להציג את העמוד בתוצאות (עם תיאור "No information is available for this page"), ‏כי הוא יודע שהעמוד קיים אבל לא יודע על מה הוא. זאת הסיוט של הסיוטים, יש לכם עמוד פרטי שאתם רוצים להחביא, וגוגל מציג אותו עם הודעה שמושכת את העין.

הכלל הנכון

⚠️ כלל ברזל

אם אתם רוצים שגוגל לא יכניס עמוד לאינדקס, תנו לו לסרוק את העמוד כדי שיראה את ה-noindex. אל תחסמו ב-robots.txt. ‏זה אנטי-אינטואיטיבי, ‏אבל זה איך המערכת עובדת.

מתי להשתמש בכל אחד

robots.txt
למשאבים שלא חשובים ל-SEO ושאתם רוצים לחסוך בהם crawl budget. ‏לדוגמה, /admin/, /wp-admin/, /api/internal/, /cdn-cgi/. ‏גוגל לא צריך לסרוק את זה, ‏וזה לא יופיע בתוצאות בכל מקרה.
meta noindex
לעמודים שאתם רוצים שלא יופיעו בתוצאות אבל גוגל יכול לסרוק (כדי לראות את התג). ‏לדוגמה, ‏עמוד תודה אחרי טופס, ‏עמוד שכפול שמיועד לפילטר פנימי, ‏עמוד תוצאות חיפוש פנימי.
שילוב
רק במקרה אחד, ‏אתם רוצים גם לחסוך crawl וגם לוודא שלא יופיע. ‏בשלב ראשון רק noindex, ‏מחכים שגוגל יראה ויסיר מהאינדקס, ‏ואז מוסיפים גם robots.txt. ‏אף פעם לא בו זמנית.

💡 גוצ'ה נוספת, X-Robots-Tag

אם העמוד הוא לא HTML (PDF, תמונה, וידאו, JSON), אין לכם head ולא יכולים לשים meta noindex. הפתרון, HTTP header בשם X-Robots-Tag: noindex. ב-htaccess מגדירים את זה לפי סוג קובץ, וזה עובד בדיוק כמו meta noindex. רוב המקדמים שוכחים מהאופציה הזאת ומשאירים PDFs באינדקס בלי כוונה.

לפרטים מלאים על robots.txt, ‏ראו את המדריך המלא לrobots.txt.

פרק 09

🔁 Request Indexing, מתי כדאי ומתי לא

הכלי "Request Indexing" ב-URL Inspection הוא אחד מהדברים השימושיים ביותר ב-Search Console. הוא נותן לכם לבקש מגוגל לסרוק URL ספציפי מיד, מבלי לחכות לסבב הסריקה הטבעי. בעולם שבו דברים יכולים לקחת שבועות, זה משנה את כל המשחק. אבל יש לכלי הזה גבולות ברורים, ויש מצבים שהשימוש בו פשוט מבזבז זמן. בואו נסדר את זה.

מתי כן להשתמש

עמוד חדש קריטי
פרסמתם עמוד חדש שאתם רוצים שיהיה בגוגל מחר. הגישו דרך URL Inspection. גוגל בדרך כלל יסרוק תוך 1-24 שעות, ולפעמים אפילו מהר יותר. אם זה עמוד מכירות חשוב או דף נחיתה לקמפיין, זה ההבדל בין לידים ביום הראשון להמתנה של שבוע.
עמוד שעודכן משמעותית
שיפרתם תוכן, ‏הוספתם פרקים, ‏עדכנתם schema. הגישו כדי שגוגל יראה את הגרסה החדשה ולא ימשיך להציג snippet ישן. במיוחד חשוב כשעדכנתם meta title או description ואתם רוצים שזה ישפיע מהר על ה-CTR.
תיקון בעיה טכנית
היה לכם canonical שגוי, noindex בטעות, או robots.txt שחסם. תיקנתם. הגישו כדי שגוגל יבדוק שוב, אחרת הוא יזכור את הסטטוס השגוי לחודשים.
אחרי 301 redirect
העברתם עמוד מ-URL ישן ל-URL חדש. הגישו את שני ה-URLs (גם הישן וגם החדש) כדי שגוגל יבין את ההעברה מהר וירשת את ה-authority.

מתי לא להשתמש

כשהבעיה היא איכות תוכן
אם העמוד תקוע ב-"Crawled, currently not indexed" בגלל תוכן חלש, ‏Request Indexing לא יעזור. גוגל כבר ראה, ‏החליט לא, ‏ויחליט שוב לא. תקנו את התוכן קודם, ורק אחר כך תגישו.
על batches גדולים
גוגל מגביל את כמות ה-requests לדומיין. אם יש לכם 5,000 עמודים, ‏זה לא יעבוד. השתמשו ב-Indexing API (פרק 14) או חכו ל-discovery טבעי דרך סייטמאפ ולינקים פנימיים.
לעמודים שלא חשובים
אל תבזבזו quota על עמודי טאגים, archives, או עמודי פילטרים. שמרו את ה-Request Indexing לעמודים שבאמת מניבים תנועה והכנסה.
אותו URL שוב ושוב
אם הגשתם עמוד וגוגל החליט לא להכניס, ‏לא תעזור הגשה חוזרת אחרי שעה. ‏זה לא משנה את האבחנה האיכותית. רק תבזבזו את ה-quota היומי.

💡 הגישה שלי בפועל

‏אחרי שאני מפרסם עמוד חדש קריטי, ‏אני עושה 3 דברים מיד, ‏(1) ‏מוסיף לסייטמאפ עם lastmod של היום, ‏(2) ‏מקשר אליו מ-homepage או מעמוד עם authority גבוה, ‏(3) ‏מגיש Request Indexing. ‏השילוב הזה מבטיח שהעמוד יהיה באינדקס תוך 24-48 שעות. ‏בלי לפחות 2 ‏מתוך 3 ‏הצעדים האלה, ‏זה יקח שבועות.

תקשיבו, רוב המקדמים משתמשים ב-Request Indexing כפתרון פלסטר. הם רואים שהעמוד לא באינדקס, לוחצים על הכפתור, ומקווים. אבל אם הבעיה האמיתית היא תוכן חלש או signals חלשים, הכפתור הזה לא יעשה שום דבר חוץ מלגרום לכם להרגיש שעשיתם משהו. הכלי טוב, אבל רק כשמשתמשים בו במקום הנכון. רוב המקדמים לא יודעים מתי זה הנכון.

פרק 10

👻 Soft 404 מול 404 רגיל, הבדל קריטי

זה אחד הסטטוסים הכי לא מובנים. soft 404 לא קיים בעולם ה-HTTP. אין קוד תגובה כזה. זה תווית שגוגל ממציאה כדי לתאר עמוד שמתנהג כמו 404 למרות שהשרת מחזיר 200 OK. ובהרבה מקרים, ‏זה רעה גדולה לאינדקס שלכם. תקשיבו, רוב המקדמים אפילו לא יודעים שיש להם soft 404 באתר, עד שהם רואים את הדוח ב-Search Console ושואלים מה זה בכלל.

מה זה 404 רגיל

השרת מחזיר HTTP status 404 Not Found. ‏זאת אמירה ברורה, "העמוד לא קיים". גוגל מסיר אותו מהאינדקס, ‏וזה תקין. גוגל יחזור לבדוק מדי פעם אם אולי העמוד חזר, אבל אם הוא ימשיך לקבל 404, בסוף הוא יוותר.

מה זה soft 404

השרת מחזיר 200 OK (כלומר "כן, העמוד קיים ובסדר"), ‏אבל גוגל מסתכל על התוכן ומחליט שזה בעצם דף ריק או דף שגיאה. הסיבות הנפוצות,

תוכן "לא נמצא" מותאם אישית עם 200
עיצבתם דף שגיאה יפה עם הכותרת "העמוד לא נמצא", אבל מהשרת זה 200. גוגל קורא "לא נמצא" בכותרת ומסיק soft 404. גם פלאגינים של WordPress עושים את זה כברירת מחדל.
עמוד מוצר אזל מהמלאי
בחנויות eCommerce זאת בעיה ענקית. עמוד מוצר עם "אזל מהמלאי, אין תיאור", גוגל יסמן soft 404 ויסיר מהאינדקס. אם המוצר חוזר למלאי בעוד שבוע, תפסידו את כל הדירוג שצברתם.
עמוד עם תוכן זעיר
40 מילה, אין H1, אין תוכן ממשי. גוגל חושב "זה ניסיון לדמות עמוד".
JS-rendered עם רינדור כושל
אם הרינדור נכשל וגוגל רואה רק Loading..., יסמן soft 404. זאת אחת הסיבות הכי שכיחות באתרי SPA, ורוב המקדמים לא מקשרים בין הדברים.
עמוד עם redirect ב-JS
אם העמוד טוען ואז מבצע window.location ל-URL אחר, גוגל יראה את ה-HTML הראשוני שאומר "Redirecting..." ויסיק soft 404. השתמשו ב-301 בצד השרת.

למה זה גרוע

גוגל יסיר את העמוד מהאינדקס, ‏ובניגוד ל-404 רגיל, ‏גם יהיה לכם דוח שלם של "Soft 404" ב-Coverage report, ‏מה שגורם לאות איכות שלילי כללי על האתר. אם יש לכם 500 soft 404, ‏זה אומר שהאתר שלכם בעיני גוגל מלא בעמודים שמתחזים לתוכן ולא נותנים, וזה משפיע על כל האתר, לא רק על העמודים האלה.

איך פותרים

אם זה דף שגיאה אמיתי, ‏החזירו status 404 (לא 200) או 410 Gone
אם זה מוצר שאזל, ‏החזירו תוכן עשיר (תיאור מוצר, ‏מוצרים דומים, ‏אפשרות "הודיעו לי כשחוזר")
אם זה עמוד דק, ‏הוסיפו תוכן אמיתי או מחקו
אם זה JS rendering, ‏עברו ל-SSR או SSG
בדקו ב-URL Inspection מה גוגל רואה אחרי הרינדור

לעומק, ‏ראו את המדריך לsoft 404.

פרק 11

📱 Mobile-First Indexing, מה זה אומר ל-crawling/indexing שלכם

מאז 2024, גוגל עבר רשמית ל-mobile-first indexing על כל האתרים. זה לא רק עניין של עיצוב responsive ואם הוא נראה נחמד בטלפון. זה אומר שגוגל סורק את האתר שלכם בעיני מובייל, ומה שלא קיים בגרסה הניידת, ‏לא קיים גם באינדקס. נקודה. רוב המקדמים עדיין מעצבים בעיקר לדסקטופ ובודקים את המובייל בסוף, וזאת טעות שעולה ביוקר.

מה זה אומר בפועל

תוכן שמוסתר במובייל לא קיים ב-SEO
אם יש לכם תוכן שמוצג רק בדסקטופ (במדיה queries או JS conditionals), ‏גוגל לא יראה אותו. עמודים שמסתירים פסקאות במובייל "לקריאות" איבדו תנועה בצורה דרמטית. אם זה חשוב לקרוא בדסקטופ, זה חשוב באותה מידה במובייל.
structured data חייב להופיע בגרסה הניידת
JSON-LD שיש רק בדסקטופ ולא במובייל, ‏לא יחשב לאינדוקס ולא יזכה לתצוגות עשירות ב-SERP. וודאו שאתם מזריקים את אותו schema בשני המצבים.
navigation במובייל קובע discovery
אם המגה-תפריט שלכם בדסקטופ מכיל 200 לינקים אבל במובייל יש רק hamburger עם 10 פריטים, ‏גוגל יסרוק רק את ה-10. שאר הלינקים יחשבו פחות חשובים. ה-internal linking שלכם בעצם נחתך.
מהירות במובייל קובעת crawl rate
אם האתר איטי בנייד, ‏גוגל יפחית את הסריקה. זה משפיע ישירות על כל ההתעדכנויות שלכם, ועל כמה מהר עמודים חדשים נכנסים לאינדקס.

איך לאבחן

💡 בדיקה ב-Search Console

‏ב-URL Inspection, ‏לחצו "Test Live URL", ‏ובחרו "Mobile" כ-Crawler. ‏תראו בדיוק מה Googlebot Smartphone רואה כשהוא סורק את העמוד. ‏הסקרינשוט, ‏ה-HTML, ‏ה-resources שנטענו או נכשלו. ‏אם הסקרינשוט במובייל ריק או שונה מהדסקטופ, ‏יש לכם בעיה.

מה לבדוק

אותו תוכן בדיוק במובייל ובדסקטופ (לא מסתירים בגרסת מובייל)
אותו structured data בשני המצבים
אותה navigation (לפחות אותם לינקים מרכזיים)
אותו meta title, description, robots tags
אותם images עם אותו alt text
מובייל מהיר (LCP מתחת ל-2.5 שניות)
Viewport meta tag נכון
fonts קריאים (לא קטנים מ-12px)

הרבה אתרים שאני אבדק נופלים על mobile-first בלי לדעת. דסקטופ נראה מעולה, ‏אבל גוגל סורק את המובייל ורואה תוכן חצוי. ‏אם אתם רואים ירידה הדרגתית במיקומים בלי סיבה ברורה, ‏זה אחד הדברים הראשונים שאני בודק. בדיקה של 5 דקות שיכולה לחסוך לכם חודשים של ניחושים.

⚠️ ה-User-Agent של Googlebot Smartphone

אם אתם משתמשים ב-server-side rendering לפי User-Agent (כפי שמומלץ ל-SPAs), וודאו שאתם מזהים את ה-string החדש, ‏Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html). אם אתם עוד מסתמכים על User-Agent ישן, ייתכן שאתם מגישים תוכן לא נכון.

פרק 12

💥 Index Bloat, כשגוגל מכניס לאינדקס דברים שלא רציתם

הצד השני של המטבע. רוב המאמרים על אינדוקס מדברים על איך להכניס עמודים לאינדקס. אבל יש בעיה ההפוכה, ‏וחמורה לא פחות, ‏index bloat. ‏זה כשגוגל מכניס לאינדקס אלפי עמודים שאתם לא רוצים שיהיו שם, ‏ומדלל את ה-authority של האתר. במקרה אחד ראיתי אתר עם 200 עמודים אמיתיים ועוד 80,000 עמודי "זבל" באינדקס. רוב המקדמים אפילו לא יודעים שזה קורה להם.

הסיבות הנפוצות

עמודי פילטרים בחנות
WooCommerce/Shopify יוצרים URLs כמו /shop?color=red&size=M&sort=price לכל קומבינציה. גוגל סורק ומכניס לאינדקס מאות אלפי וריאציות, ‏רובן עם תוכן זהה.
עמודי טאגים אוטומטיים
WordPress יוצר עמוד לכל tag, ‏לכל category, ‏לכל author, ‏לכל ארכיון תאריך. אם לא חסמתם, ‏גוגל מכניס. כל פעם שכותב כותב פוסט עם 5 תגיות, יש לכם 5 עמודי tag חדשים פוטנציאליים באינדקס.
עמודי search results פנימיים
הסיוט. כל חיפוש פנימי של משתמש יוצר URL כמו /?s=keyword וגוגל סורק את כולם. ‏יש אתרים עם 50,000 עמודי search באינדקס, כולם עם תוצאות חיפוש שונות, כולם בעצם תוכן דק.
סשנים ופרמטרים
UTM tags, ‏session IDs, ‏tracking parameters. כל אחד יוצר URL חדש מבחינת גוגל. אם אין canonical חזק, גוגל מכניס את כל הגרסאות.
גרסאות מודפסות, AMP, ‏או mobile
אם לא הוגדרו canonical כמו שצריך, ‏גוגל מכניס את כולן בנפרד.

למה זה גרוע

גוגל מפזר את ה-crawl budget ואת ה-authority של האתר על אלפי עמודי "זבל". העמודים האמיתיים שאתם רוצים שידורגו, ‏מקבלים פחות תשומת לב. ‏המיקומים יורדים, ‏הסריקה איטית יותר, ‏גוגל מבולבל מה האתר שלכם בעצם. בנוסף, האותות איכותיים השליליים מהעמודים הריקים מתפזרים על האתר כולו.

איך לזהות ולפתור

הרצו site:yoursite.co.il ב-גוגל. אם המספר גבוה משמעותית ממה שאתם מצפים, ‏יש bloat
בדקו ב-Search Console > Pages > Indexed, ‏ראו דוגמאות של URLs ומצאו את הדפוסים
חסמו פרמטרים מיותרים ב-robots.txt, ‏לדוגמה Disallow: /*?s=
הוסיפו canonical חזק לעמודים הראשיים
השתמשו ב-noindex לעמודים שאתם לא רוצים אבל גוגל צריך לסרוק
קבעו פרמטרים ב-Search Console (אופציה ישנה אבל עוד עובדת)
הוסיפו rel="nofollow" ללינקים פנימיים שמובילים לפילטרים

⚠️ אל תחסמו הכל בבת אחת

אם יש לכם 50,000 עמודי זבל באינדקס ואתם פתאום חוסמים את כולם ב-robots.txt, ‏גוגל יראה ירידה דרמטית באינדקס וזה ישלח אותות שליליים. עדיף בהדרגה, ‏עם noindex תחילה, ‏לחכות שגוגל יסיר, ‏ואז לחסום סריקה.

פרק 13

🗑 איך להסיר עמוד מהאינדקס לתמיד, 3 דרכים (אחת מהן רעה)

לקוח שואל אותי "שמוליק, יש עמוד באינדקס שאני רוצה להסיר, איך אני עושה?". יש 3 דרכים, ‏ולכל אחת מצב שמתאים לה. אבל אחת מהן זה כמעט תמיד טעות.

הדרך 1, meta noindex (הכי טובה)

הוסיפו ל-head של העמוד,

<meta name="robots" content="noindex,follow">

למה "follow" ולא "nofollow"? כי גם אם אתם לא רוצים שהעמוד יהיה באינדקס, ‏אתם רוצים שגוגל יזרום דרכו ללינקים שיוצאים ממנו. עכשיו תחכו, ‏גוגל יסרוק את העמוד בפעם הבאה, ‏יראה את התג, ‏ויסיר מהאינדקס. בדרך כלל תוך כמה ימים עד שבועיים.

הדרך 2, HTTP header (לקבצים שאינם HTML)

אם זה PDF, ‏Word, ‏או כל סוג קובץ אחר שאי אפשר להוסיף לו meta tag, ‏השתמשו ב-HTTP header,

X-Robots-Tag: noindex

בקובץ .htaccess, אפשר להגדיר לפי סוג קובץ או נתיב. גם פה גוגל צריך לסרוק כדי לראות את ההוראה.

הדרך 3, Removals Tool ב-Search Console (לזמני בלבד)

זאת הדרך שכולם פונים אליה ראשונה. ‏פתחו Search Console > Removals > New Request. ‏גוגל יסיר את העמוד מתוצאות החיפוש תוך שעות. ‏מהיר, ‏נכון? ‏אבל יש בעיה, ‏זה זמני (6 חודשים בלבד). ‏אחרי 6 חודשים, ‏אם לא הוספתם noindex או הסרתם את העמוד מהשרת, ‏הוא יחזור לאינדקס. ‏הכלי הזה מיועד לחירום, ‏לא לפתרון קבוע.

הדרך הרעה, 301 לעמוד אחר

אנשים חושבים, ‏"אני אעשה 301 מהעמוד הישן לעמוד אחר, ‏וכך אסיר". זה לא מסיר את העמוד מהאינדקס, ‏זה פשוט מאחד את ה-authority. ‏הסיגנל לגוגל הוא "זה אותו עמוד, ‏רק עבר". אם אתם רוצים שהעמוד הקודם פשוט יעלם, ‏301 זה לא הפתרון.

410 Gone, הדרך שאתם שוכחים

אם אתם מוחקים עמוד לתמיד, ‏השרת בדרך כלל מחזיר 404 (Not Found). זה אומר לגוגל "אולי טעות, ‏נסה שוב מאוחר יותר". זה מצב לימינלי שיכול להישאר ב-Coverage report לחודשים. ‏פתרון נקי יותר, ‏החזירו 410 Gone. ‏זה אומר "נמחק לתמיד, ‏לא יחזור". גוגל יסיר מהאינדקס מהר יותר. ‏ב-htaccess זה RedirectMatch 410 ^/old-page/?$.

✅ הזרימה הנכונה

‏(1) ‏הוסיפו meta noindex לעמוד. ‏(2) ‏אם דחוף, ‏השתמשו ב-Removals Tool לזמן ביניים. ‏(3) ‏אם בכלל לא רוצים שהעמוד יהיה נגיש (לא רק לא באינדקס), ‏מחקו אותו והחזירו 410. ‏(4) ‏וודאו שאין לינקים פנימיים שמובילים אליו. ‏(5) ‏הסירו מסייטמאפ.

פרק 14

⚡ Indexing API, האם זה רלוונטי לאתר שלכם?

גוגל יש לה API בשם Indexing API שמאפשר להגיש URLs לאינדוקס באופן תכנותי. ‏זה ה-Holy Grail שכולם רוצים, ‏פטור מההמתנה הארוכה. ‏אבל יש את המוקש הענקי, זה מיועד רק לסוגי תוכן ספציפיים. רוב המקדמים שמדברים על Indexing API כפתרון לכל הבעיות שלהם, פשוט לא קראו את התיעוד עד הסוף.

למי זה רשמית מיועד

גוגל מצהירה במפורש שה-Indexing API מיועד אך ורק ל-2 סוגי תוכן,

JobPosting, ‏מודעות דרושים שיש להן נטייה להיווצר ולהיעלם במהירות
BroadcastEvent embedded in VideoObject, ‏שידורים חיים שצריך לסמן מתי הם מתחילים

זהו. ‏אם אתם לא בלוח דרושים או אתר שידורים חיים, ‏רשמית גוגל לא יעבד את הבקשות שלכם. הם יכולים לקבל את הקריאה ל-API ולהחזיר 200 OK, אבל זה לא אומר שהם יעשו עם זה משהו.

אבל מה שאומרים בקהילה

הרבה מקדמים השתמשו ב-Indexing API לכל סוגי התוכן, ‏וזה עבד. ‏גוגל עדיין מקבל את הבקשות, ‏ולפעמים מאנדקס. ‏אבל,

⚠️ הסיכון

גוגל עלולה בכל רגע לאכוף את המגבלה. ‏היו מקרים של אתרים שהחשבון שלהם הוגבל. ‏גרוע מזה, ‏זה יכול להוות אות שלילי כשגוגל יבחין שאתם מנסים לעקוף את התהליך הרגיל. אם תקבלו הגבלה על ה-API, יכול להיות שזה ישפיע גם על אינדוקס רגיל של האתר שלכם.

החלופה, IndexNow

IndexNow היא יוזמה של Bing ו-Yandex שמאפשרת להודיע למנועי חיפוש על URLs חדשים או מעודכנים. גוגל לא תומכת רשמית, ‏אבל Bing, ‏Yandex, ‏Naver, ‏Seznam, ‏וכל מנועי החיפוש האירופיים והאסיאתיים תומכים. ‏זה פתרון נקי לאתרים שמעניין אותם תנועה מ-Bing וחבריו. וורדפרס יש פלאגין שמיישם את זה אוטומטית.

מי באמת צריך Indexing API

✅ כן רלוונטי

לוחות דרושים עם מאות מודעות חדשות ביום
אתרי שידורים חיים
אתרים שמשנים URLs באופן מסיבי וצריכים עדכון מהיר
חדשות בזמן אמת (אם כי News API עדיף)

❌ לא רלוונטי

בלוגים ואתרי תוכן רגילים
אתרי מסחר עם עמודי מוצר
אתרי שירותים מקומיים
אתרים קטנים עד בינוניים (עד 1,000 עמודים)

מה כן עובד לרוב האתרים

השילוב המוכח, סייטמאפ מעודכן + ping ל-Google על שינויים + Request Indexing למקרים בודדים + תוכן איכותי + internal linking חזק. ‏פחות סקסי מ-API, ‏אבל זה מה שעובד באמינות. ‏אל תנסו לחפש shortcut למקום שאין לו. תאמינו לי, ראיתי הרבה אתרים שניסו את זה והגיעו לבעיות במקום לפתרונות.

פרק 15

✅ צ'ק ליסט של 12 נקודות לאודיט indexability חודשי

אם אחרי כל המאמר אתם רוצים רק דבר אחד, שזאת תהיה הרשימה הזאת. אני עובד לפיה ב-90% מהאתרים שאני מנהל. הריצו אותה פעם בחודש, ‏ותפסו את הבעיות לפני שהן הופכות לקטסטרופה. רוב המקדמים מסתפקים בהסתכלות ב-Search Console פעם בשבועיים. זה לא מספיק, צריך שיטה.

1. השוו את מספר העמודים שלכם למה שב-Google, ‏הריצו site:yoursite.co.il והשוו למספר העמודים בסייטמאפ. ‏חריגה גדולה לכל כיוון = בעיה
2. בדקו את Coverage Report, ‏עברו על כל הסטטוסים בעיקר Crawled/Discovered currently not indexed
3. הריצו URL Inspection על 5 עמודים אקראיים, ‏וודאו שגוגל רואה אותם בצורה תקינה, ‏גם בגרסת מובייל
4. בדקו את robots.txt, ‏וודאו שאין שורה ששוברת לכם משהו חשוב (זה קורה אחרי deployments)
5. בדקו canonical URLs, ‏לפחות 5 עמודי דוגמה, ‏שאין canonical loop או canonical שגוי
6. בדקו Soft 404, ‏אם יש שלם, ‏מצאו את הדפוס ותקנו
7. בדקו 404 ו-5xx, ‏עם רצוי שתהיה תכנית redirect או הסבר למה הם נמחקו
8. בדקו את crawl stats, ‏ב-Settings > Crawl Stats. ‏ירידה הדרגתית = בעיית server response time
9. בדקו את הסייטמאפ, ‏וודאו שהוא מעודכן, ‏שכל ה-URLs מחזירים 200, ‏ושאין כפילויות
10. בדקו mobile-first, ‏השוו 3 עמודים בתצוגת מובייל מול דסקטופ, ‏וודאו שאותו תוכן בדיוק
11. בדקו תוצאות בגוגל בפועל, ‏חפשו את שם המותג + 3 קווריז ראשיות, ‏וודאו שאתם מופיעים
12. בדקו את ה-rendering, ‏אם האתר JS-heavy, ‏פתחו URL Inspection וצפו ב-Tested Page > Screenshot

✅ אם הולכים לפי זה, רוב הבעיות נתפסות מוקדם

אני מנהל אתרים גדולים שבעבר היו רוויי בעיות אינדוקס, ‏אחרי שמכניסים את ה-checklist הזה לרוטינה חודשית, ‏הבעיות נתפסות בעודן קטנות. ‏זה לא קסם, ‏זאת רק משמעת. השקיעו 30 דקות בחודש בזה, ותחסכו לעצמכם שעות של דיבוג ולקוחות שמתעצבנים.

תקשיבו, ההבדל בין מקדם חובבן למקצוען הוא לא רק הידע, זאת ה-routine. הידע יש בכל מקום, השאלה היא אם אתם באמת מבצעים את הבדיקות בקצב קבוע. כל פעם שלקוח מגיע אלי עם בעיית indexing, השאלה הראשונה שלי היא "מתי בדקת את זה לאחרונה?" התשובה כמעט תמיד היא "חודשים". אז אל תהיו הלקוח הזה.

📖 מילון מושגים

Crawling: תהליך שבו Googlebot מגיע לעמוד, מוריד את ה-HTML, ומגלה לינקים נוספים. תנאי הכרחי אבל לא מספיק לאינדוקס.
Indexing: תהליך שבו גוגל מנתח עמוד שסרק ומחליט האם לאחסן אותו במאגר התוצאות שלו. החלטה ערכית, לא טכנית.
Rendering: שלב הביניים שבו גוגל מריץ JavaScript על ה-HTML הראשוני כדי לראות את התוכן הסופי, במיוחד באתרי SPA.
Crawl Budget: כמות העמודים שגוגל מקצה לסרוק באתר שלכם בפרק זמן נתון, מבוסס על authority, server speed, וחשיבות.
Soft 404: עמוד שמחזיר HTTP 200 OK אבל גוגל מסיק שזה דף ריק או שגיאה לפי התוכן, ולכן מוציא מהאינדקס.
Index Bloat: מצב שגוגל מכניס לאינדקס אלפי עמודים שאתם לא רוצים, כמו פילטרים או חיפושים פנימיים, ומדלל את ה-authority.
URL Inspection: כלי ב-Search Console שמראה איך גוגל רואה URL ספציפי, מה הסטטוס, מתי סרק לאחרונה, ומה הוא רואה אחרי רינדור.
Mobile-First Indexing: המדיניות של גוגל מאז 2024 לסרוק ולאנדקס את הגרסה הניידת של האתר, גם אם המשתמשים בעיקר בדסקטופ.
robots.txt: קובץ בשורש האתר שמורה לבוטים אילו נתיבים מותר ואסור להם לסרוק. חוסם crawl, לא indexing.
noindex: תג meta או HTTP header שאומר לגוגל לא לכלול את העמוד בתוצאות החיפוש. דורש שגוגל יסרוק את העמוד כדי לראות אותו.

פרק 16

❓ שאלות נפוצות

מה ההבדל בקצרה בין crawling ל-indexing?

Crawling זה כשגוגל מבקר בעמוד שלכם ומוריד את ה-HTML. Indexing זה כשגוגל מחליט לאחסן את העמוד במאגר התוצאות שלו. הסריקה היא תהליך טכני, האינדוקס היא החלטה ערכית. עמוד יכול להיסרק מאות פעמים ועדיין לא להיות באינדקס.

למה העמוד שלי מסומן 'Crawled, currently not indexed'?

הסיבות הנפוצות, איכות תוכן נמוכה, דמיון לעמוד אחר באתר (duplicate או cannibalization), אות חלש (אין לינקים פנימיים, לא בסייטמאפ עדכני), או אתר חדש עם authority נמוך. הפתרון רוב פעמים הוא לא טכני אלא תוכני, שפרו את העמוד, חזקו את ה-internal linking, וחכו.

מה ההבדל בין Discovered ל-Crawled currently not indexed?

Discovered = גוגל יודע שה-URL קיים אבל עדיין לא סרק אותו. Crawled = גוגל סרק אותו והחליט לא לאחסן. הפתרון לכל אחד שונה. ב-Discovered, חזקו signals (לינקים פנימיים, server speed) וחכו. ב-Crawled, שפרו את התוכן והאיכות של העמוד.

האם robots.txt חוסם את העמוד מהאינדקס?

לא. robots.txt חוסם רק את הסריקה, לא את האינדקס. גוגל יכול עדיין להכניס עמוד לאינדקס אם הוא מקושר מבחוץ, גם אם robots.txt חוסם את הסריקה (פשוט בלי לדעת מה התוכן). אם אתם רוצים שעמוד לא יהיה באינדקס, השתמשו ב-meta noindex ואל תחסמו ב-robots.txt.

כמה זמן לוקח לעמוד חדש להופיע בגוגל?

תלוי מאוד באתר. אתר עם authority גבוה, סייטמאפ מעודכן, ו-Request Indexing, יכול לראות אינדוקס תוך שעות עד יום. אתר חדש בלי authority יכול לחכות שבועות. ההמלצה, לפרסם, להוסיף לסייטמאפ, לקשר מעמודים חזקים, ולעשות Request Indexing. אם תוך שבוע אין שינוי, יש בעיה לאבחן.

האם Request Indexing באמת עוזר?

כן, לעמודים בודדים ובמיוחד עמודים חדשים או מעודכנים. גוגל בדרך כלל יסרוק תוך 1-24 שעות. אבל יש מגבלות, 10-20 בקשות ביום לדומיין, ולא יעזור אם הבעיה היא איכות תוכן או אות חלש. זה לא קסם, רק מאיץ את הסריקה.

מה זה Rendering Queue ולמה זה משנה לי?

כשגוגל סורק עמוד שדורש JavaScript לרינדור (אתרי SPA כמו React, Vue, Angular), הוא לא מריץ את ה-JS מיד. הוא שם את העמוד בתור רינדור ומחכה למשאבים. ההמתנה יכולה להיות שעות עד ימים. בזמן הזה, האינדקס לא מתעדכן. אם האתר שלכם SPA והעדכונים שלכם לא מופיעים מהר בגוגל, זה הסיבה.

מה זה Soft 404 ולמה זה גרוע?

Soft 404 זה כשהשרת מחזיר HTTP 200 OK (העמוד קיים) אבל גוגל מסיק לפי התוכן שזה דף ריק או שגיאה. גוגל מוציא מהאינדקס ומסמן ב-Coverage Report. גרוע כי זה סיגנל איכות שלילי כללי על האתר. הפתרון, או לתקן את התוכן לעמוד ראוי, או להחזיר 404/410 אמיתי.

האם mobile-first indexing משפיע על אתר רספונסיבי?

כן, על כל אתר. גוגל סורק את הגרסה הניידת, גם אם 100% מהמשתמשים שלכם בדסקטופ. וודאו שכל התוכן, ה-structured data, ה-navigation, וה-meta tags זהים בשני המצבים. אם אתם מסתירים תוכן במובייל, גוגל יראה רק מה שמוצג.

האם canonical loop פוגע ב-SEO?

כן. אם עמוד A מצביע ב-canonical על עמוד B, ועמוד B מצביע ב-canonical על עמוד A, יצרתם loop וגוגל יתעלם משניהם או יבחר אקראית. תמיד תבדקו ידנית את כיוון ה-canonicals. ב-Search Console, יופיעו כ-Duplicate without user-selected canonical.

מתי להשתמש ב-410 Gone ולא ב-404?

404 אומר 'העמוד לא נמצא' (עשוי לחזור). 410 Gone אומר 'נמחק לתמיד'. אם אתם מוחקים עמוד בכוונה ולתמיד, החזירו 410. גוגל יסיר מהאינדקס מהר יותר. ב-404, גוגל ינסה שוב במשך חודשים. ב-htaccess זה RedirectMatch 410 ^/old-page/?$.

האם Indexing API מתאים לאתר שלי?

ברוב המקרים לא. Indexing API מיועד רשמית רק ל-JobPosting ו-BroadcastEvent (שידורים חיים). אם אתם בלוג, חנות, או אתר שירותים, השתמשו בסייטמאפ + Request Indexing. אתם עלולים להיענש אם תנסו להשתמש לסוגי תוכן לא נכונים.

איך לפתור Index Bloat?

זהו את הדפוסים (פילטרים, חיפושים פנימיים, פרמטרים), הוסיפו noindex לעמודים הלא רצויים, חכו שגוגל יסיר מהאינדקס (כמה שבועות), ואז חסמו את הסריקה ב-robots.txt. אל תחסמו ב-robots.txt קודם, כי אז גוגל לא יוכל לראות את ה-noindex.

האם backlinks חיצוניים משפיעים על indexing?

כן, מאוד. עמודים עם backlinks חיצוניים נוטים להיכנס לאינדקס מהר יותר ולהישאר שם. גוגל מסיק שאם אחרים מקשרים לעמוד, הוא חשוב. עמוד בודד ללא backlinks ובלי לינקים פנימיים יכול להישאר ב-'Crawled not indexed' לתקופה ארוכה.

כמה פעמים בשנה צריך לעשות אודיט indexability?

באתר פעיל שמוסיף תוכן באופן קבוע, פעם בחודש. באתר שלא משתנה הרבה, פעם ברבעון. אחרי כל redesign, מעבר פלטפורמה, או שינוי גדול במבנה האתר, מיד אחרי deployment. השתמשו ב-checklist 12 הנקודות מפרק 15.

צריכים לקפוץ למישהו שכבר ראה את הסרט?

שמוליק דורינבאום, 20 שנה ב SEO, 1,200 בוגרים בקורס. אם יש לכם אתר ולא בטוחים מאיפה להתחיל או שאתם תקועים במצב לא טוב, שלחו הודעה. תשובה תוך 24 שעות, בלי דמי ייעוץ למפגש הראשון.

שלחו הודעה

Crawling מול Indexing, ההבדל היסודי במנוע החיפוש

🧭 ההבדל הכי חשוב שאתם לא מבינים, crawling מול indexing

🔄 3 השלבים, Crawl, Render, Index, וכיצד כל אחד יכול להיכשל

שלב 1, Crawling

שלב 2, Rendering

שלב 3, Indexing

איך כל אחד נכשל

Crawl נכשל

Render נכשל

Index נכשל

🗺 איך גוגל מגלה בכלל את העמוד שלכם, 4 דרכי discovery

1. XML Sitemap

2. קישורים חיצוניים

3. קישורים פנימיים

4. הגשה ידנית, Request Indexing

✅ מה כדאי לעשות

❌ מה לא לעשות

📋 כל הסטטוסים ב-Coverage Report, מה כל אחד אומר באמת

😤 Crawled, currently not indexed, הסיוט הקבוע של כל מקדם

1. איכות תוכן נמוכה

2. Duplicate או דמיון לעמוד אחר באתר שלכם

3. אות חלש מהאתר עצמו

4. אתר חדש או בעל סמכות נמוכה

5. שגיאות טכניות שלא ראיתם

איך פותרים

🔭 Discovered, currently not indexed, ההבדל מ-Crawled ומה עושים

למה זה קורה

חוסר crawl budget

אות חלש על חשיבות העמוד

אתר חדש או בעל שיא טכני גרוע

גוגל פשוט עוד לא הגיע

איך לאבחן את הסיבה האמיתית

השוואה מעשית

🔍 Discovered

📥 Crawled

🎬 Rendering, השלב שמשפיל הכי הרבה אתרים בלי שהם יודעים

למה זה בעיה

3 הבעיות הנפוצות של רינדור

תור רינדור ארוך

JS שזורק שגיאה

תוכן שדורש interaction

איך מאבחנים

🚫 robots.txt מול noindex, הטעות הקלאסית שכל מתחיל עושה

מה כל אחד עושה באמת

📄 robots.txt

🏷 meta noindex

למה השילוב לא עובד

הכלל הנכון

מתי להשתמש בכל אחד

robots.txt

meta noindex

שילוב

🔁 Request Indexing, מתי כדאי ומתי לא

מתי כן להשתמש

עמוד חדש קריטי

עמוד שעודכן משמעותית

תיקון בעיה טכנית

אחרי 301 redirect

מתי לא להשתמש

כשהבעיה היא איכות תוכן

על batches גדולים

לעמודים שלא חשובים

אותו URL שוב ושוב

👻 Soft 404 מול 404 רגיל, הבדל קריטי

מה זה 404 רגיל

מה זה soft 404

תוכן "לא נמצא" מותאם אישית עם 200

עמוד מוצר אזל מהמלאי

עמוד עם תוכן זעיר

JS-rendered עם רינדור כושל

עמוד עם redirect ב-JS

למה זה גרוע

איך פותרים

📱 Mobile-First Indexing, מה זה אומר ל-crawling/indexing שלכם

מה זה אומר בפועל

תוכן שמוסתר במובייל לא קיים ב-SEO

structured data חייב להופיע בגרסה הניידת

navigation במובייל קובע discovery

מהירות במובייל קובעת crawl rate

איך לאבחן