meta robots ו-X-Robots-Tag, השליטה המלאה ב-crawlers

Q: מה קורה אם יש קונפליקט בין meta robots ל-X-Robots-Tag?

ההוראה המגבילה ביותר גוברת. ‏אם meta אומר index ו-X-Robots-Tag אומר noindex, ‏העמוד לא יהיה באינדקס. ‏גוגל הולך עם ה-restrictive interpretation כדי לכבד את ה-publisher.

פרק 01

🤖 מה זה meta robots, ההגדרה המדויקת לפני שמתבלבלים

תקשיבו. ‏אני אפתח עם השיחה הכי שכיחה שיש לי בשטח. ‏לקוח כותב לי, ‏"שמוליק, ‏יש לי עמוד שלא רוצה שיופיע בגוגל, ‏מה עושים, ‏robots.txt או noindex או canonical או X-Robots-Tag?". ‏אני שואל, ‏"זה עמוד HTML או PDF?", "אתה רוצה לחסום סריקה או רק להוציא מהאינדקס?", "מי שמקשר אליו, ‏מאתרים חיצוניים?". ‏הוא לא יודע לענות. ‏וזה הרגע שאני עוצר ומסביר את ההגדרות, ‏כי בלי ההגדרות הברורות, ‏הוא לעולם לא יבחר את הכלי הנכון. ‏שלושה מנגנונים שונים, ‏כל אחד עושה דבר אחר, ‏ורוב המקדמים מערבבים ביניהם.

‏meta robots ‏זה תג HTML בתוך ה-head של העמוד ‏שנותן הוראות ל-crawlers, ‏מה לעשות עם העמוד הזה ספציפית מבחינת אינדוקס. ‏הוא נראה ככה,

<meta name="robots" content="noindex,follow">

‏זה כל הסיפור. ‏שורה אחת בתוך ה-head ‏שאומרת ל-Googlebot, ‏Bingbot, ‏וכל crawler אחר, ‏"אל תכניסו את העמוד הזה לאינדקס, ‏אבל כן תעקבו אחרי הלינקים בו". ‏ה-tag הזה כבר חצי-עתיק (קיים מ-1996, ‏הציג Sun Microsystems), ‏אבל הוא עדיין הכלי הראשי לשליטה ברמת עמוד בודד.

⚠️ הנקודה החשובה ביותר

meta robots חוסם indexing, ‏לא crawling. ‏זה אומר שגוגל חייב להגיע לעמוד, ‏לסרוק אותו, ‏ולקרוא את ה-head ‏כדי לראות את ה-tag. ‏רק אז הוא ידע שאסור להכניס לאינדקס. ‏אם תחסמו את הסריקה ב-robots.txt, ‏גוגל לעולם לא יראה את ה-tag, ‏וזה היפוך מהיר של מה שניסיתם להשיג.

למה ההבחנה הזאת קריטית? ‏כי רוב הטעויות בנושא הזה נובעות מבלבול בין שני המנגנונים. ‏robots.txt ‏הוא קובץ אחד באתר שאומר ל-crawlers איפה מותר להם להיכנס בכלל. ‏meta robots ‏הוא tag לכל עמוד שאומר מה לעשות עם העמוד הזה אחרי הסריקה. ‏הם פועלים בשלבים שונים של התהליך, ‏וצריך לדעת מתי כל אחד מתאים. ‏אני אסביר את זה בפירוט בפרק 3, ‏אבל ההגדרה הבסיסית חשוב להפנים מההתחלה.

אגב, ‏השם שמוליק דורינבאום מאחורי המקלדת כאן, ‏20 שנה בעולם ה-SEO, ‏ראיתי את הטעות הזאת מאות פעמים, ‏כולל אצל מקדמים שעבדו בתחום ‏10 ‏שנים. ‏זה לא מורכב מבחינה רעיונית, ‏אבל קל ליפול אם לא מקפידים. ‏במאמר הזה אני אעבור איתכם על כל ה-directives, ‏מתי להשתמש ב-X-Robots-Tag, ‏איך לאמת שזה עובד, ‏ועל הטעויות הקלאסיות. ‏אם אחרי המאמר אתם רוצים אבחנה אישית, ‏יש לכם איך לדבר איתי ישירות. ‏וכדאי גם לקרוא את המדריך ל-crawling מול indexing ‏שמשלים את הנושא הזה ב-100%.

פרק 02

📜 כל ה-directives שצריך להכיר, מה כל אחד עושה באמת

נחשו למה רוב המקדמים מכירים רק 2 directives (noindex, nofollow) ולא יודעים שיש עוד 10? ‏כי ‏Yoast/RankMath ‏מציגים להם רק את ה-2 האלה ב-UI, ‏ושאר ה-directives נשארים בלתי-ידועים. ‏אבל יש מצבים שאתם חייבים אותם, ‏וכאן נעבור על כל הרשימה המלאה, ‏עם מתי להשתמש בכל אחד.

1. index, ‏all (ברירת המחדל)

אם אין בכלל meta robots tag בעמוד, ‏גוגל מתייחס לזה כ-index,follow. ‏אותו דבר אם תכתבו במפורש <meta name="robots" content="index,follow">. ‏אין סיבה להוסיף את זה, ‏זה מובן מאליו. ‏אבל אם רוצים להיות מפורשים, ‏יש גם את all, ‏שזה מילה אחת ששקולה ל-index,follow.

2. noindex

ההוראה הקלאסית. ‏"אל תכניסו את העמוד הזה לאינדקס". ‏זה אומר שגוגל יסרוק, ‏יקרא, ‏יבין את התוכן, ‏אבל לא יכלול את העמוד בתוצאות החיפוש שלו. ‏העמוד יישאר נגיש למשתמשים שמגיעים אליו ישירות (מלינק, ‏מ-bookmark, ‏מ-email), ‏אבל הוא לא יופיע ב-SERP.

3. nofollow

"אל תעקבו אחרי הלינקים בעמוד הזה". ‏גוגל לא ימשיך מהעמוד לקישורים שיוצאים ממנו, ‏לא יעביר link equity דרכם. ‏שימו לב, ‏זה ההבדל מ-nofollow attribute ‏ספציפי ללינק (<a rel="nofollow">), ‏שהוא מקומי לקישור אחד. ‏ה-meta nofollow הוא גורף לכל הלינקים בעמוד.

4. noarchive

"אל תשמרו cached version של העמוד". ‏גוגל לא יציג את הקישור "Cached" בתוצאות, ‏ולא יאחסן עותק ארכיון. ‏שימושי לעמודים עם תוכן רגיש שמשתנה תכופות, ‏או שאתם רוצים שמשתמשים תמיד יראו את הגרסה החיה.

5. nosnippet

"אל תציגו snippet (תיאור) בתוצאות החיפוש". ‏הכותרת תופיע, ‏אבל בלי טקסט תיאור מתחתיה. ‏יורד drastically ב-CTR, ‏אז זה נדיר, ‏אבל יש מקרים (תוכן בתשלום שלא רוצים שמשתמשים יראו ב-SERP בלי לקלוט).

6. max-snippet:[number]

"השתמשו עד N תווים ב-snippet". ‏לדוגמה, ‏max-snippet:160 ‏מגביל את ה-snippet ל-160 ‏תווים. ‏אם תכתבו max-snippet:-1, ‏אתם נותנים לגוגל אישור להשתמש בכל אורך שירצה. ‏זה השליטה הכי מדויקת על מה שמופיע ב-SERP.

7. max-image-preview:[none/standard/large]

שולט בגודל תמונת ה-preview ב-SERP. ‏none ‏ללא תמונה, ‏standard ‏גודל רגיל, ‏large ‏גדול. ‏חשוב במיוחד ל-Discover, ‏שמתבסס בעיקר על תמונות.

8. noimageindex

"אל תכניסו את התמונות בעמוד לאינדקס של Google Images". ‏שימושי לעמודים עם תמונות שאינן רוצים שיופיעו בחיפוש תמונות (למשל, ‏תמונות עם זכויות יוצרים מוגבלות).

9. notranslate

"אל תציעו תרגום אוטומטי לעמוד הזה בתוצאות". ‏שימושי לתוכן שתרגום אוטומטי יעוות אותו, ‏או שלא רוצים שיתורגם לסיבות עסקיות.

10. unavailable_after:[date]

"הוציאו את העמוד מהאינדקס אחרי תאריך X". ‏פורמט, ‏unavailable_after:2026-12-31T00:00:00+02:00. ‏שימושי לעמודי קמפיין זמני, ‏או הצעות שתוקפן פג בתאריך מסוים.

11. none

קיצור של noindex,nofollow. ‏מילה אחת ששקולה לשתי הוראות. ‏שימו לב, ‏זה אגרסיבי מאוד, ‏גם לא להיות באינדקס וגם לא להעביר link equity. ‏רוב הזמן עדיף noindex,follow ‏שמשמר את ה-equity.

💡 איך מצרפים כמה directives

אפשר לשרשר אותם בפסיק, ‏או בכמה meta tags נפרדים. ‏שני הפורמטים האלה זהים,

<meta name="robots" content="noindex, nofollow, noarchive">

או,

<meta name="robots" content="noindex">
<meta name="robots" content="nofollow">
<meta name="robots" content="noarchive">

אני אישית מעדיף את הראשון (פסיק), ‏יותר נקי, ‏ופחות סיכון של duplicate tags שגוגל יתבלבל מהם.

פרק 03

⚔️ meta robots מול robots.txt, ההבדל הקריטי שכולם מבלבלים

זה הפרק שמסדר את כל הבלבול. ‏אם אתם מבינים את ההבדל הזה, ‏אתם מבינים 80% מהנושא. ‏אם לא, ‏אתם תמשיכו לעשות טעויות שגורמות לעמודים להישאר באינדקס למרות שניסיתם להוציא אותם. ‏בואו נסדר את ההבדל אחת ולתמיד, ‏כי זה ההבדל הקריטי.

robots.txt, חוסם crawl

קובץ אחד באתר (/robots.txt) ‏שאומר ל-crawlers איפה מותר להם להיכנס. ‏כשגוגל מגיע לאתר, ‏הוא בודק את הקובץ הזה קודם כל. ‏אם הקובץ אומר Disallow: /private/, ‏גוגל לא יסרוק שום עמוד ב-/private/. ‏בכלל. ‏הוא לא ייכנס. ‏לא יוריד את ה-HTML.

meta robots, חוסם indexing

תג HTML בתוך ה-head של עמוד ספציפי. ‏הוא אומר לגוגל, ‏"אחרי שסרקת אותי, ‏אל תכניס אותי לאינדקס". ‏גוגל חייב לסרוק את העמוד כדי לקרוא את ה-tag הזה. ‏אם הוא לא יסרוק, ‏הוא לעולם לא יראה את ה-tag, ‏ויהיה לו ידיעה על העמוד רק מקישורים חיצוניים שמובילים אליו.

ההבדל בטבלה

היבט	robots.txt	meta robots
איפה נמצא	קובץ אחד בשורש האתר	tag בתוך head של כל עמוד
מה הוא חוסם	crawling (כניסה לעמוד)	indexing (הכללה באינדקס)
גוגל סורק את העמוד?	לא	כן, אבל לא יכליל באינדקס
גוגל יכול להוסיף לאינדקס בלי לסרוק?	כן (דרך לינקים חיצוניים)	לא
שליטה ברמת אתר/תיקייה	מצוין	קשה (צריך להוסיף לכל עמוד)
שליטה ברמת עמוד בודד	אפשרי אבל מסורבל	מצוין

תרחיש אמיתי שמדגים את ההבדל

נניח שיש לכם עמוד /admin/secret/ ‏שאתם לא רוצים שמשתמשים יראו בגוגל. ‏יש לכם 2 דרכים,

אופציה 1, robots.txt
הוסיפו Disallow: /admin/. ‏גוגל לא יסרוק את העמוד. ‏אבל, ‏אם מישהו מקשר ל-/admin/secret/ ‏מאתר חיצוני, ‏גוגל יודע שהעמוד קיים, ‏ויכול להציג אותו בתוצאות עם הודעה ‏"No information is available for this page". ‏לא רואים את התוכן, ‏אבל ה-URL מופיע. ‏זה הסיוט.
אופציה 2, meta noindex
השאירו את ה-URL זמין לסריקה, ‏אבל הוסיפו <meta name="robots" content="noindex">. ‏גוגל יסרוק, ‏יראה את ה-tag, ‏ולא יכליל באינדקס. ‏ה-URL לא יופיע בתוצאות בכלל, ‏גם אם מישהו מקשר אליו מבחוץ.

⚠️ אם אתם רוצים שעמוד לא יופיע בגוגל, ‏השתמשו ב-noindex, ‏לא ב-robots.txt

זה אחד הכללים הכי לא-אינטואיטיביים ב-SEO, ‏אבל הוא קריטי. ‏robots.txt לא מבטיח שעמוד לא יופיע באינדקס, ‏רק שלא ייסרק. ‏noindex מבטיח שלא יופיע. ‏לעומק, ‏ראו את המדריך השלם ל-robots.txt.

חשוב לזכור, ‏הם לא תחליפים. ‏הם שני כלים שונים לבעיות שונות. ‏robots.txt ‏ל-crawl budget management ‏(לחסוך crawl על אזורים לא חשובים כמו ‏/cgi-bin/), ‏meta robots ‏לאינדוקס management (לוודא שעמוד לא יופיע בתוצאות).

פרק 04

💀 הטעות הקלאסית, robots.txt block + noindex, וזה לא עובד

אם תזכרו רק טעות אחת מהמאמר הזה, ‏שזאת תהיה. ‏הטעות הזאת אצל לפחות 30% מהאתרים שאני בודק, ‏וגם אצל מקדמים מנוסים. ‏היא נראית הגיונית מאוד, ‏אבל היא הופכת את הניסיון להוציא עמוד מהאינדקס לבלתי-אפשרי מבחינה טכנית. ‏בואו נפרק את זה.

הסיטואציה הקלאסית

אתם רוצים שעמוד מסוים לא יופיע בגוגל. ‏אתם, ‏באופן הגיוני אבל שגוי, ‏עושים את הדברים האלה,

מוסיפים ל-robots.txt, ‏Disallow: /private-page/
מוסיפים ל-HTML של העמוד, ‏<meta name="robots" content="noindex">

אתם חושבים, ‏"גם robots.txt חוסם את הסריקה, ‏וגם noindex אם בכל זאת יסרקו, ‏הוא יוציא מהאינדקס. ‏double protection!". ‏זה לא עובד ככה.

למה זה לא עובד

גוגל מכבד את ה-robots.txt ‏לפני הכל. ‏הוא לא יסרוק את העמוד. ‏לעולם. ‏זה אומר שהוא לעולם לא יראה את ה-meta noindex tag. ‏מבחינתו, ‏העמוד לא ידוע, ‏אבל הוא יודע על קיומו מקישורים חיצוניים. ‏מה הוא עושה?

הוא יציג את העמוד בתוצאות החיפוש עם הודעה כמו ‏"No information is available for this page" ‏או הודעה דומה. ‏לפעמים גם עם ה-URL ‏ועם anchor text של קישורים שמובילים אליו. ‏בקיצור, ‏העמוד כן יופיע באינדקס, ‏רק בלי תיאור.

⚠️ זה הסיוט של הסיוטים

אתם רוצים שהעמוד הפרטי שלכם לא יופיע בגוגל, ‏ובמקום זה הוא מופיע עם הודעה שמושכת תשומת לב ("מה זה? למה אין מידע?"). ‏זה גרוע יותר ממה שניסיתם להשיג. ‏גוגל לא רק לא חסם את העמוד, ‏הוא הציג אותו בצורה חשודה.

הפתרון הנכון

אם אתם רוצים שעמוד לא יופיע בגוגל, ‏עשו רק noindex, ‏בלי robots.txt block. ‏גוגל יסרוק את העמוד, ‏יראה את ה-tag, ‏ולא יכליל אותו באינדקס. ‏ה-URL לא יופיע בתוצאות. ‏זאת הדרך הנכונה והיחידה.

# robots.txt - בלי disallow לעמוד הזה

<!-- בתוך ה-head של העמוד -->
<meta name="robots" content="noindex">

הסדר הנכון אם אתם רוצים גם וגם

יש מצב נדיר שבו אתם רוצים גם noindex ‏וגם robots.txt block. ‏לדוגמה, ‏אחרי שאתם בטוחים שגוגל הוציא את העמוד מהאינדקס, ‏אתם רוצים גם לחסוך crawl budget. ‏הסדר הנכון הוא,

שלב 1, רק noindex
הוסיפו <meta name="robots" content="noindex"> ‏לעמוד. ‏אל תוסיפו עדיין ל-robots.txt.
שלב 2, חכו
חכו ‏4-8 ‏שבועות עד שגוגל יסרוק, ‏יראה את ה-tag, ‏ויסיר את העמוד מהאינדקס. ‏בדקו ב-GSC > URL Inspection ‏שהעמוד באמת לא באינדקס.
שלב 3, הוסיפו robots.txt
רק עכשיו הוסיפו Disallow: /private-page/ ‏ל-robots.txt. ‏גוגל כבר יודע שהעמוד לא באינדקס, ‏אז הוא לא יחזור אותו לתוכו, ‏ובכל זאת תחסכו crawl budget בעתיד.

אבל באמת, ‏לרוב המוחלט של המקרים, ‏רק noindex מספיק. ‏ה-crawl budget שתחסכו במניעת סריקה של עמוד יחיד הוא נדיר ולא משמעותי. ‏הסיכון של לאבד שליטה גדול יותר מהתועלת.

פרק 05

🌐 מה זה X-Robots-Tag, ה-HTTP header version של meta robots

X-Robots-Tag ‏זה אותו רעיון כמו meta robots, ‏אבל במקום tag ב-HTML, ‏זה HTTP header ‏שהשרת מחזיר עם התגובה. ‏זה אומר שאפשר להחיל אותו על קבצים שאינם HTML (PDFs, ‏תמונות, ‏Videos, ‏JSON, ‏וכו'), ‏ועל קבוצות שלמות של עמודים בלי לגעת בקבצים עצמם. ‏זה הכלי החזק ביותר ב-toolkit שלכם לשליטה ב-crawlers.

איך זה נראה

כשגוגל מבקש URL, ‏השרת מחזיר HTTP response headers כמו,

HTTP/1.1 200 OK
Date: Tue, 30 May 2026 12:00:00 GMT
Content-Type: application/pdf
X-Robots-Tag: noindex, nofollow

גוגל קורא את ה-header הזה ומבין שאסור להכליל את הקובץ הזה באינדקס ולא לעקוב אחרי לינקים בו. ‏זה עובד בדיוק כמו meta robots, ‏רק שזה ברמת ה-HTTP response, ‏לא ברמת ה-HTML.

למה זה קיים

הסיבה העיקרית, ‏PDF ‏אין לו <head>. ‏אי אפשר לשים בו meta robots tag. ‏אם יש לכם 500 ‏PDFs באתר שאתם לא רוצים שיופיעו בגוגל (למשל, ‏invoices, ‏מסמכים פנימיים), ‏ה-X-Robots-Tag ‏הוא הדרך היחידה. ‏אותו דבר לתמונות, ‏וידאו, ‏JSON files, ‏או כל סוג קובץ אחר שאינו HTML.

איך מגדירים, Apache (.htaccess)

אם השרת שלכם Apache, ‏הקטע ב-htaccess נראה ככה,

<FilesMatch "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>

זה אומר ל-Apache, ‏"לכל קובץ שמסתיים ב-.pdf, ‏הוסיפו את ה-header הזה לתגובה". ‏פשוט, ‏מהיר, ‏ולא צריך לגעת בקבצי PDF עצמם. ‏אפשר לעשות אותו דבר ל-DOCX, ‏XLSX, ‏וכל סוג קובץ אחר,

<FilesMatch "\.(pdf|docx|xlsx)$">
  Header set X-Robots-Tag "noindex"
</FilesMatch>

איך מגדירים, Nginx

אם השרת שלכם Nginx, ‏הקטע ב-nginx.conf,

location ~* \.(pdf|docx|xlsx)$ {
  add_header X-Robots-Tag "noindex, nofollow";
}

אותה לוגיקה, ‏סינטקס שונה. ‏זכרו לעשות restart ל-nginx אחרי שינוי configuration.

איך מגדירים, ‏PHP

אם אתם רוצים שליטה דינמית (לדוגמה, ‏רק עמודים מסוימים בתנאי מסוים), ‏אפשר בקוד PHP,

<?php
if ($special_condition) {
  header('X-Robots-Tag: noindex, nofollow', true);
}
?>

זה שולח את ה-header לפני שה-HTML מגיע. ‏שימושי ל-conditional logic, ‏לדוגמה, ‏עמודים שמיועדים רק למשתמשים מחוברים, ‏עמודי searche results פנימיים, ‏עמודי thank-you אחרי טופס.

💡 כל ה-directives של meta robots עובדים גם ב-X-Robots-Tag

noindex, ‏nofollow, ‏noarchive, ‏nosnippet, ‏max-snippet, ‏max-image-preview, ‏noimageindex, ‏notranslate, ‏unavailable_after, ‏none, ‏all. ‏כל המילים האלה עובדות בדיוק כמו ב-meta robots, ‏רק בשליחה דרך HTTP header במקום HTML tag. ‏אם הבנתם איך עובד אחד, ‏אתם יודעים גם את השני.

פרק 06

⚖️ מתי X-Robots-Tag עדיף על meta robots

השאלה שאני מקבל הכי הרבה אחרי שמסבירים על X-Robots-Tag, ‏"מתי להשתמש בו ומתי במטא?". ‏התשובה תלויה ב-3 שיקולים, ‏סוג הקובץ, ‏היקף השליטה הרצוי, ‏וגישה לשרת. ‏בואו נסדר את זה.

שיקול 1, סוג הקובץ

📄 קובץ HTML

שניהם עובדים
meta robots יותר פשוט להגדיר
אפשר לעשות דרך CMS (Yoast/RankMath)
X-Robots-Tag נכון אם רוצים שליטה ברמת תיקייה

📋 קובץ שאינו HTML (PDF, ‏תמונה, ‏JSON)

רק X-Robots-Tag עובד
meta robots לא רלוונטי (אין head)
חובה דרך .htaccess או nginx.conf

שיקול 2, היקף השליטה

אם אתם רוצים להחיל הוראה על תיקייה שלמה או סוג קובץ שלם, ‏X-Robots-Tag הוא הפתרון. ‏לדוגמה, ‏"כל קבצי ה-PDF ב-/downloads/ לא ייכללו באינדקס". ‏זה שורות בודדות ב-.htaccess.

<LocationMatch "^/downloads/">
  <FilesMatch "\.pdf$">
    Header set X-Robots-Tag "noindex"
  </FilesMatch>
</LocationMatch>

אם הייתם רוצים לעשות את אותו דבר עם meta robots, ‏הייתם צריכים לפתוח כל PDF, ‏או להוסיף לכל עמוד HTML ש-embedding PDF. ‏לא יעבוד.

שיקול 3, גישה לשרת

אם אין לכם גישה לשרת (אתר shared hosting בלי .htaccess access), ‏אז meta robots הוא הברירה היחידה לקבצי HTML. ‏ל-PDF במצב כזה, ‏פתרון, ‏שמרו אותם בתיקייה שמוגנת ב-robots.txt ‏או בלינק שלא בסייטמאפ. ‏זה לא מושלם, ‏אבל זה מה שיש בלי גישת שרת.

מקרים אופייניים בשטח

‏PDFs ב-/wp-content/uploads/
אתר WordPress עם הרבה PDFs שנעלה כקבצים. ‏בלי X-Robots-Tag, ‏הם יוצגו בתוצאות החיפוש כקבצים נפרדים, ‏לפעמים עם snippets לא מתאימים. ‏הוסיפו ל-.htaccess בתיקייה הזאת,
```
<FilesMatch "\.pdf$">
  Header set X-Robots-Tag "noindex"
</FilesMatch>
```
‏עמודי search results פנימיים
הם נוצרים דינמית בעת חיפוש משתמש. ‏לא מעשי להוסיף meta robots לכל אחד. ‏הוסיפו ב-PHP,
```
if (isset($_GET['s']) || strpos($_SERVER['REQUEST_URI'], '/search/') !== false) {
  header('X-Robots-Tag: noindex, nofollow');
}
```
‏תוכן בתשלום (paywall)
עמודים שמוצגים ל-paying users בלבד. ‏אם משתמש לא מחובר, ‏הוא רואה preview קטן. ‏אם גוגל מנסה לסרוק, ‏הוא רואה את ה-preview. ‏אם אתם לא רוצים שה-preview יופיע באינדקס, ‏הוסיפו X-Robots-Tag ‏בתנאי על-pop משתמש לא-מחובר.

💡 הכלל הפשוט שאני עובד לפיו

קובץ HTML יחיד = meta robots. ‏תיקייה שלמה או סוג קובץ = X-Robots-Tag. ‏קובץ שאינו HTML = X-Robots-Tag חובה. ‏שליטה דינמית עם תנאים = X-Robots-Tag ב-PHP. ‏זה ה-rule of thumb שחוסך שעות של מחשבה לכל החלטה.

פרק 07

🔀 קומבינציות directives, ‏index/noindex × follow/nofollow

הקומבינציות בין index/noindex ל-follow/nofollow מבלבלות הרבה מקדמים. ‏רובם חושבים שאם עמוד הוא noindex, ‏הוא בהכרח גם nofollow. ‏זה לא נכון. ‏בואו נסדר את כל 4 הקומבינציות, ‏מה כל אחת אומרת, ‏ומתי משתמשים בכל אחת.

1. index, follow (ברירת המחדל)

גוגל יכלול את העמוד באינדקס, ‏ויעקוב אחרי הלינקים בעמוד. ‏זה ההגדרה הסטנדרטית, ‏וזה מה שאתם מקבלים אם לא תכתבו meta robots בכלל. ‏אין סיבה לכתוב את זה במפורש, ‏אבל זה לא מזיק.

<meta name="robots" content="index, follow">

2. noindex, follow (הצירוף הכי שימושי)

גוגל לא יכלול את העמוד באינדקס, ‏אבל כן יעקוב אחרי הלינקים בעמוד ויעביר link equity דרכם. ‏זה הצירוף שאתם רוצים ברוב המקרים של noindex, ‏כי שמירת ה-follow מאפשרת ל-link equity לזרום למקומות אחרים באתר.

<meta name="robots" content="noindex, follow">

שימוש קלאסי, ‏עמודי tag archives ב-WordPress. ‏אתם לא רוצים שהעמוד עצמו יופיע בתוצאות, ‏אבל אתם רוצים שגוגל ימשיך לקרוא את הקישורים לפוסטים מהעמוד הזה.

3. noindex, nofollow (הצירוף האגרסיבי)

גוגל לא יכלול את העמוד באינדקס, ‏וגם לא יעקוב אחרי הלינקים בעמוד. ‏link equity לא זורם החוצה דרך הקישורים בעמוד הזה. ‏זה הצירוף שצריך להשתמש בו במשורה, ‏כי הוא קוטע את זרימת ה-equity.

<meta name="robots" content="noindex, nofollow">

או הקיצור,

<meta name="robots" content="none">

מתי כן להשתמש, ‏עמודי thank-you, ‏עמודי checkout, ‏עמודי admin, ‏עמודים שגוגל לא צריך לראות בכלל ולא לעקוב אחרי הלינקים בהם.

4. index, nofollow (הצירוף הנדיר)

גוגל יכלול את העמוד באינדקס, ‏אבל לא יעקוב אחרי הלינקים בעמוד. ‏שימוש נדיר, ‏עמודים שאתם רוצים שיופיעו בחיפוש אבל יש בהם הרבה user-generated links שאתם לא רוצים להעביר אליהם authority. ‏לפעמים פוסטים שמכילים הרבה affiliate links.

<meta name="robots" content="index, nofollow">

קומבינציה	גוגל ב-SERP?	עוקב אחרי לינקים?	שימוש קלאסי
index, follow	כן	כן	ברירת מחדל, ‏רוב העמודים
noindex, follow	לא	כן	עמודי tag, ‏archive, ‏duplicate
noindex, nofollow	לא	לא	thank-you, ‏admin, ‏checkout
index, nofollow	כן	לא	נדיר, ‏עמודי UGC עם הרבה אאוטבאונד

טעות נפוצה, ברירת המחדל של תוספי SEO

חלק מתוספי SEO (במיוחד גרסאות ישנות) מגדירים אוטומטית noindex, nofollow ‏לעמודים מסוימים (לדוגמה, ‏עמודי tag). ‏אם אתם לא יודעים שזה כך, ‏אתם מאבדים link equity בלי לדעת. ‏בדקו ידנית מה התוסף מגדיר, ‏ושנו ל-noindex, follow ‏אם רלוונטי. ‏ההבדל הזה משמעותי לאתר עם הרבה תוכן.

⚠️ כלל ברזל

‏אם אתם בספק, ‏השתמשו ב-noindex, follow, ‏לא ב-noindex, nofollow. ‏שמירת ה-follow כמעט תמיד נכונה, ‏כי אתם רוצים ש-link equity ימשיך לזרום באתר. ‏רק במקרים ספציפיים מאוד (admin, ‏private content) ‏יש סיבה גם ל-nofollow.

פרק 08

🎯 Per-bot directives, ‏googlebot מול bingbot מול אחרים

פיצ'ר שרוב המקדמים לא מכירים. ‏אפשר להגדיר directives שונים ל-bots שונים. ‏זה אומר שגוגל יראה דבר אחד, ‏Bing יראה דבר אחר, ‏ו-Yandex אולי דבר שלישי. ‏שימושי לתרחישים מאוד ספציפיים, ‏אבל חשוב לדעת שזה קיים.

איך זה עובד

במקום name="robots" ‏שחל על כל הbots, ‏אפשר להשתמש ב-name="[botname]" ‏שחל רק על bot מסוים. ‏ה-botnames הנפוצים,

googlebot, ‏עבור Googlebot (גוגל search)
googlebot-news, ‏עבור Google News crawler
googlebot-image, ‏עבור Google Images
bingbot, ‏עבור Bing
yandex, ‏עבור Yandex
baiduspider, ‏עבור Baidu

דוגמה, ‏הוצאה מ-Google News אבל לא מ-Google רגיל

<meta name="googlebot-news" content="noindex">
<meta name="googlebot" content="index, follow">

זה אומר, ‏Google News לא יכליל את העמוד, ‏אבל Google Search כן יכליל. ‏שימושי לתוכן שלא רלוונטי ל-News (לדוגמה, ‏עמוד "about") ‏אבל כן רלוונטי ל-Search.

דוגמה, ‏הוצאה מ-Image Search

<meta name="googlebot" content="noimageindex">

גוגל ימשיך לכלול את העמוד באינדקס Search, ‏אבל לא יציג את התמונות שלו ב-Google Images. ‏שימושי לעמודי תוכן עם תמונות עם זכויות יוצרים שלא רוצים שיופיעו בחיפוש תמונות.

סדר עדיפויות בין directives שונים

מה קורה אם יש לכם גם robots ‏וגם googlebot ‏בעמוד אחד עם הוראות סותרות? ‏לפי גוגל הרשמית, ‏ה-bot-specific tag גובר על ה-generic tag לאותו bot.

<meta name="robots" content="noindex">
<meta name="googlebot" content="index, follow">

במקרה הזה, ‏Googlebot יראה את ה-googlebot tag (index, follow) ‏ויתעלם מה-robots tag. ‏שאר ה-bots יראו את ה-robots tag (noindex) ‏ולא יכללו את העמוד.

X-Robots-Tag per-bot

אותו דבר עובד גם ב-X-Robots-Tag. ‏הסינטקס,

X-Robots-Tag: noindex
X-Robots-Tag: googlebot: index, follow

זה אומר, ‏לכל ה-bots noindex, ‏ל-Googlebot ספציפית index+follow. ‏שולחים שני headers נפרדים, ‏או אחד עם פסיק אם אותו bot עם כמה directives.

💡 מתי באמת להשתמש ב-per-bot

‏ברוב המקרים, ‏אל תשתמשו. ‏ה-default של אותה הוראה לכל ה-bots הוא הנכון. ‏ה-per-bot שמור למקרים מאוד ספציפיים, ‏בעיקר Google News, ‏Google Images, ‏או כשאתם רוצים לחסום bot מסוים בלי לחסום אחרים. ‏שימוש לרעה (לדוגמה, ‏לתת לגוגל גרסה אחת ול-Bing אחרת) ‏יכול להיתפס כ-cloaking ולגרור עונשים.

פרק 09

💻 דוגמאות קוד מלאות לכל תרחיש

פרק זה הוא הכי שימושי בפועל. ‏8 ‏דוגמאות קוד מלאות לתרחישים אמיתיים שתפגשו. ‏שמרו את הפרק הזה בסימנייה, ‏תזדקקו לו.

דוגמה 1, ‏noindex בסיסי ל-thank-you page

<!DOCTYPE html>
<html lang="he">
<head>
  <meta charset="UTF-8">
  <title>תודה על הפנייה</title>
  <meta name="robots" content="noindex, nofollow">
</head>
<body>
  <h1>תודה, הפנייה התקבלה</h1>
</body>
</html>

דוגמה 2, ‏noindex follow לעמוד duplicate

<meta name="robots" content="noindex, follow">
<link rel="canonical" href="https://example.co.il/original-page/">

‏שילוב של noindex + canonical חזק יותר מ-canonical לבד. ‏הראשון אומר במפורש שלא לכלול, ‏השני נותן רמז על מי הראשי. ‏גוגל יבין בדיוק מה אתם רוצים.

דוגמה 3, ‏X-Robots-Tag לכל PDFs באתר (Apache)

# .htaccess בשורש האתר
<FilesMatch "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>

דוגמה 4, ‏X-Robots-Tag בתיקייה ספציפית (Apache)

# .htaccess בתוך /private-docs/
Header set X-Robots-Tag "noindex"

כל קובץ בתיקייה הזאת (HTML, ‏PDF, ‏JPG, ‏הכל) ‏יקבל את ה-header. ‏פתרון מהיר ונקי לחסימה גורפת של תיקייה.

דוגמה 5, ‏X-Robots-Tag דינמי ב-PHP

<?php
// בתחילת הקובץ, לפני שום output
if (isset($_GET['preview'])) {
  header('X-Robots-Tag: noindex, nofollow');
}
if (date('Y-m-d') > '2026-12-31') {
  header('X-Robots-Tag: noindex');
}
?>

דוגמה 6, ‏max-snippet עם הגבלה ספציפית

<meta name="robots" content="max-snippet:120, max-image-preview:large">

זה אומר, ‏השתמשו בעד 120 ‏תווים ב-snippet, ‏והציגו תמונות בגודל large. ‏זה ה-default אם רוצים שליטה הדוקה על ה-SERP appearance.

דוגמה 7, ‏unavailable_after לקמפיין מוגבל בזמן

<meta name="robots" content="unavailable_after:2026-12-31T23:59:59+02:00">

אחרי 31 בדצמבר 2026, ‏גוגל יסיר אוטומטית את העמוד מהאינדקס. ‏אין צורך לזכור להוסיף ידנית noindex אחרי שהקמפיין מסתיים. ‏שימושי לעמודי ‏Black Friday, ‏עמודי "בקרוב", ‏הצעות מבצע.

דוגמה 8, ‏per-bot directive ב-Nginx

# nginx.conf
location /news/ {
  add_header X-Robots-Tag "googlebot-news: noindex";
  add_header X-Robots-Tag "index, follow";
}

‏Google News לא יכליל, ‏אבל שאר ה-bots וגם Googlebot רגיל כן יכללו. ‏שימושי לאתרים שיש להם תוכן "חדשותי" שהם לא רוצים שיופיע ב-Google News אבל כן בחיפוש רגיל.

💡 איפה לשמור את הקטעים האלה

אני שומר את כל קטעי הקוד האלה בקובץ snippets.md ‏בכל פרויקט. ‏כשאני צריך אחד מהם, ‏אני לא מנסה לזכור את הסינטקס, ‏אני copy-paste ‏ועורך. ‏זה חוסך שעות לאורך השנים, ‏ומונע שגיאות סינטקס שיכולות לשבור את האתר.

פרק 10

🔵 WordPress, ‏Yoast ו-Rank Math, ‏השליטה דרך התוסף

אם אתם על WordPress, ‏סביר שאתם משתמשים ב-Yoast SEO או Rank Math (או SEOPress, ‏כולם דומים בנושא הזה). ‏שני התוספים האלה נותנים שליטה מלאה על meta robots מבלי לערוך קוד. ‏בואו נסדר איך עובדים עם כל אחד.

Yoast SEO, איך מגדירים meta robots

בעריכת עמוד או פוסט, ‏גוללו למטה ל-Yoast SEO meta box, ‏לחצו על ה-Advanced tab. ‏שם יש לכם,

Allow search engines to show this Post in search results? ‏(Yes/No) ‏שווה ל-index/noindex
Should search engines follow links on this Post? ‏(Yes/No) ‏שווה ל-follow/nofollow
Meta robots advanced ‏(checkboxes) ‏ל-noimageindex, ‏noarchive, ‏nosnippet

זה ‏ממשק UI ‏שמתרגם לbacky meta tags ב-HTML של העמוד. ‏אתם מגדירים ב-3 ‏קליקים מה ש-HTML הוא 3 ‏שורות קוד.

Rank Math, איך מגדירים meta robots

דומה ל-Yoast, ‏בעריכת עמוד יש Rank Math meta box, ‏ה-Advanced tab. ‏Rank Math מציע גם options מתקדמים יותר ב-checkboxes, ‏כולל,

No Index
No Follow
No Archive
No Image Index
No Snippet
No Translate
Max Snippet Length
Max Video Preview
Max Image Preview

‏יותר אפשרויות ויזואליות מ-Yoast, ‏אבל אותה לוגיקה.

הגדרות גלובליות, taxonomies ו-post types

גם Yoast וגם Rank Math מציעים הגדרות גלובליות לסוגי תוכן שלמים. ‏לדוגמה,

Tag Archives
הוסיפו noindex לכל עמודי ה-tag, ‏בלי לעבור על כל אחד ידנית. ‏שווה ב-90% מהאתרים, ‏כי רוב ה-tag pages הם דקים.
Author Archives
אם יש לכם רק 1-2 ‏authors, ‏הוסיפו noindex (העמודים האלה דקים). ‏אם יש לכם בלוג עם הרבה authors כל אחד מהם פעיל, ‏שמרו indexed עם תיאור עשיר.
Date Archives
תמיד noindex. ‏אין סיבה לעמוד "כל הפוסטים מ-ספטמבר 2018" להיות באינדקס. ‏זה גם דק וגם duplicate של החיפוש הרגיל.
Attachment Pages
חשוב. ‏ב-Yoast/Rank Math הגדירו "Redirect attachment URLs to attached file/parent". ‏זה מסיר את עמודי ה-attachment האוטומטיים שיוצרים thin content.

Yoast Premium feature, ‏advanced editor

Yoast Premium מציע ‏editor שמאפשר לשנות meta robots בכמות (bulk). ‏שימושי אם זיהיתם 200 ‏פוסטים שצריכים noindex, ‏ולא רוצים לעדכן כל אחד בנפרד. ‏Rank Math גם תומך ב-bulk edit דרך פעולות מובנות בלוח הניהול.

גוצ'ה, ‏יש זמן בין שינוי לקבלה ב-GSC

אחרי שאתם משנים meta robots ב-Yoast/Rank Math, ‏השינוי מופיע מיד ב-HTML. ‏אבל גוגל צריך לסרוק את העמוד שוב כדי לראות את השינוי. ‏זה יכול לקחת ימים עד שבועות. ‏אם זה דחוף, ‏הגישו את ה-URL ל-Request Indexing ב-GSC. ‏גוגל יסרוק תוך 1-24 ‏שעות בדרך כלל.

⚠️ הגדרות התוסף ‏מצטברות, ‏לא דורסות

‏אם הוספתם noindex ידני ב-Advanced tab, ‏וגם יש לכם הגדרה גלובלית של noindex ל-tag pages, ‏שניהם יחולו. ‏זה לא בעיה אם זה אותה הוראה, ‏אבל יכול להיות בלגן אם הם סותרים. ‏תמיד תבדקו את ה-HTML הסופי דרך view-source או curl.

פרק 11

📦 Bulk implementation, ‏איך להחיל על אלפי עמודים

אם יש לכם אתר עם 5,000 ‏עמודים ואתם רוצים להוסיף noindex ל-2,000 ‏מהם, ‏לא תעדכנו אחד אחד. ‏יש 5 שיטות לעשות bulk implementation, ‏וכל אחת מתאימה למצב אחר.

שיטה 1, ‏robots.txt לתיקיות שלמות

‏אם העמודים נמצאים בתיקייה משותפת, ‏הכי קל ל-robots.txt. ‏לדוגמה, ‏כל ה-PDFs ב-/downloads/,

User-agent: *
Disallow: /downloads/

‏זוכרים מפרק 3, ‏זה חוסם crawl, ‏לא indexing. ‏אם העמודים כבר באינדקס, ‏זה לא יוציא אותם. ‏לכן שיטה זאת מתאימה ‏ל-PREVENTION של חדשים, ‏לא לטיפול בקיימים.

שיטה 2, ‏X-Robots-Tag ‏ברמת תיקייה (Apache/Nginx)

השיטה הנקייה ביותר אם יש לכם גישה לשרת. ‏פעם אחת מגדירים ב-.htaccess או nginx.conf, ‏וכל הקבצים בתיקייה מקבלים את ה-header. ‏זה גם משפיע מיד על אינדוקס, ‏לא רק על crawl.

# .htaccess ב-/private-content/
Header set X-Robots-Tag "noindex, follow"

שיטה 3, ‏עדכון template (WordPress/static)

אם העמודים שייכים ל-template מסוים, ‏ערכו את ה-template. ‏לדוגמה ב-WordPress, ‏ב-archive.php ‏ב-theme שלכם הוסיפו,

<?php if (is_tag()) : ?>
  <meta name="robots" content="noindex, follow">
<?php endif; ?>

או דרך WordPress hook,

add_action('wp_head', function() {
  if (is_tag() || is_date()) {
    echo '<meta name="robots" content="noindex, follow">';
  }
});

שיטה 4, ‏script שעובר על קבצים סטטיים

‏אם האתר שלכם HTML סטטי (כמו shmul.co.il), ‏סקריפט Python שעובר על הקבצים ומוסיף את ה-tag. ‏לדוגמה,

from pathlib import Path
import re

for html_file in Path('build/').rglob('thank-you/*.html'):
  content = html_file.read_text(encoding='utf-8')
  if 'meta name="robots"' not in content:
    content = content.replace('</head>', '  <meta name="robots" content="noindex">\n</head>')
    html_file.write_text(content, encoding='utf-8')

שיטה 5, ‏plugin/script bulk ב-CMS

‏ב-WordPress, ‏יש פלאגינים שמאפשרים bulk edit של meta robots לפי קריטריונים (כל הפוסטים מקטגוריה X, ‏כל הפוסטים שנכתבו לפני 2020). ‏Yoast Premium ו-Rank Math Pro תומכים בזה. ‏שימושי במיוחד אחרי אודיט שגילה שצריך לטפל בכמות גדולה.

✅ מתי לבחור בכל שיטה

תיקייה שלמה לא-HTML, ‏X-Robots-Tag
template ספציפי, ‏עריכת template
קבצים סטטיים מפוזרים, ‏script Python
WordPress עם הרבה תוכן, ‏bulk edit דרך plugin
חסימת crawl גורפת, ‏robots.txt

❌ מתי לא להשתמש בכל שיטה

robots.txt לעמודים שכבר באינדקס
X-Robots-Tag בשרת shared בלי גישה
script ידני אם יש פתרון template
plugin bulk ללא בדיקה דגימה לפני

💡 תמיד תעשו דגימה לפני bulk גורף

לפני שאתם מחילים שינוי על 5,000 ‏עמודים, ‏החילו על 5 ‏עמודים. ‏בדקו ידנית שזה עובד כצפוי (לבדקו עם curl או view-source). ‏רק אז הריצו את ה-bulk הגורף. ‏רגרסיה של 5,000 ‏עמודים זה סיוט שעיתים קשה לשחזר ממנו.

פרק 12

🔍 Verification, ‏curl ו-GSC URL Inspection

הוספתם meta robots או X-Robots-Tag. ‏איך אתם יודעים שזה באמת עובד? ‏יש 2 ‏דרכים אמינות, ‏curl לבדיקה טכנית מיידית, ‏ו-GSC URL Inspection לאימות מה גוגל באמת רואה. ‏בלי שתעשו את שתי הבדיקות, ‏אתם רק מקווים שזה עובד.

שיטה 1, ‏curl לבדיקת X-Robots-Tag

זאת הדרך הכי מהירה לבדוק אם X-Robots-Tag header מוחזר. ‏טרמינל,

curl -I https://example.co.il/document.pdf

‏ה--I מציג רק את ה-headers (HEAD request) ‏בלי לטעון את גוף הקובץ. ‏אם יש X-Robots-Tag, ‏תראו אותו ברשימת ה-headers,

HTTP/2 200
date: Tue, 30 May 2026 12:00:00 GMT
content-type: application/pdf
x-robots-tag: noindex, nofollow

אם הוא לא מופיע, ‏הוא לא מוגדר נכון בשרת. ‏זה כלי הבדיקה הטוב ביותר ל-X-Robots-Tag, ‏כי לא ניתן לראות את ה-header ב-view-source של דפדפן.

שיטה 2, ‏view-source לבדיקת meta robots

פתחו את העמוד בדפדפן, ‏Ctrl+U (או Cmd+Option+U במק) ‏לפתיחת view-source. ‏Ctrl+F ‏וחפשו name="robots". ‏תראו את ה-meta tag עם ה-content שלו. ‏זה מאמת שה-HTML מכיל את ה-tag.

‏אם אתם משתמשים בכלי devtools (F12), ‏לכו ל-Elements tab ‏וחפשו ב-DOM. ‏לפעמים tags מוזרקים על ידי JavaScript אחרי הטעינה הראשונית, ‏וגוגל לא רואה אותם. ‏view-source מציג רק את ה-HTML שהשרת החזיר, ‏וזה מה שגוגל רואה.

שיטה 3, ‏GSC URL Inspection, ‏המעמד הסופי

הכלי הכי חשוב. ‏גם curl וגם view-source מראים לכם מה אתם רואים. ‏אבל גוגל יכול לעיתים לפרש אחרת. ‏GSC URL Inspection מראה לכם בדיוק מה גוגל רואה.

פתחו Google Search Console
הקלידו את ה-URL בשורת החיפוש העליונה
חכו לתוצאות
הסתכלו על ‏"Indexing" ‏ועל ‏"Crawl"
אם יש noindex, ‏תראו ‏"Excluded by 'noindex' tag"
אם רוצים בדיקה לייב (אחרי שינוי), ‏לחצו ‏"Test Live URL"

‏הבדיקה הלייב סורקת את ה-URL בזמן אמת, ‏מציגה לכם בדיוק מה גוגל רואה כרגע. ‏הכי שימושי אחרי שעשיתם שינוי ורוצים לאמת שגוגל יראה אותו.

שיטה 4, ‏Chrome DevTools Network tab

אם אתם רוצים לראות את ה-headers שכל request מקבל באתר, ‏פתחו F12, ‏לכו ל-Network tab, ‏Refresh. ‏לכל בקשה אתם רואים את ה-headers, ‏כולל X-Robots-Tag אם קיים. ‏שימושי לבדיקה של כמה URLs במהירות.

✅ ה-workflow שאני עובד לפיו

אחרי כל שינוי משמעותי של meta robots או X-Robots-Tag, ‏אני עושה 3 ‏בדיקות, ‏(1) curl -I ‏לאימוט ה-header, ‏(2) view-source ‏לאימות ה-meta tag, ‏(3) GSC URL Inspection Live ‏לאימות מה גוגל רואה. ‏3 ‏הבדיקות יחד נותנות אישור מוחלט. ‏אם עברתם רק על 1 ‏או 2, ‏אתם פסחים על אישור קריטי.

פרק 13

⚡ Conflicts בין robots.txt + meta robots, ‏מי גובר על מי

הבנו את 2 ‏המנגנונים. ‏אבל מה קורה כשהם סותרים? ‏זה קורה הרבה יותר ממה שחושבים, ‏ולא תמיד יודעים מי גובר. ‏בואו נסדר את הסדר ההיררכי.

סדר עדיפויות בסיסי

גוגל קורא את ה-instructions בסדר הזה,

שלב 1, robots.txt
‏לפני שגוגל נכנס לעמוד, ‏הוא בודק את robots.txt. ‏אם יש Disallow, ‏הוא לא ייכנס. ‏זה ה-firstcheck.
שלב 2, meta robots או X-Robots-Tag
‏רק אם robots.txt ‏מאפשר את ה-crawl, ‏גוגל ייכנס לעמוד וייקרא את ה-meta robots או X-Robots-Tag. ‏אם robots.txt חוסם, ‏הוא לעולם לא יראה את ה-meta.

תרחיש 1, ‏robots.txt חוסם + meta noindex

‏גוגל לא נכנס. ‏לא יראה את ה-noindex. ‏אם יש קישורים חיצוניים לעמוד, ‏הוא יכול להיכלל באינדקס בכל זאת. ‏זה התרחיש הקלאסי הגרוע שדיברנו בפרק 4.

תרחיש 2, ‏robots.txt מאפשר + meta noindex

‏גוגל נכנס, ‏רואה את ה-noindex, ‏ולא כולל באינדקס. ‏זאת הדרך הנכונה והיחידה להוציא עמוד מהאינדקס.

תרחיש 3, ‏robots.txt מאפשר + X-Robots-Tag noindex

‏גוגל מקבל את ה-HTTP response, ‏רואה את ה-X-Robots-Tag header, ‏ולא כולל באינדקס. ‏שווה בדיוק ל-meta noindex, ‏רק דרך header במקום HTML tag.

תרחיש 4, ‏meta robots + X-Robots-Tag סותרים

‏אם meta robots ‏אומר index ‏ו-X-Robots-Tag אומר noindex, ‏ההוראה המגבילה ביותר ‏גוברת. ‏זה אומר noindex (כי הוא מגביל יותר מ-index). ‏גוגל תמיד הולך עם ה-restrictive interpretation כדי להיות בטוח שהוא מכבד את ה-publisher.

תרחיש 5, ‏per-bot tag + generic tag

כיסינו את זה בפרק 8. ‏ה-per-bot tag גובר על ה-generic לאותו bot ספציפי. ‏Googlebot tag גובר על robots tag עבור Googlebot, ‏Bingbot tag גובר על robots tag עבור Bingbot, ‏וכו'.

תרחיש 6, ‏meta noindex + canonical

‏זה תרחיש שמבלבל. ‏אם עמוד יש לו גם noindex וגם canonical לעמוד אחר, ‏מה קורה? ‏גוגל יראה את שניהם. ‏ה-noindex אומר "אל תכלול", ‏וזאת ההוראה הסופית. ‏ה-canonical נשאר נקודת ייחוס לעמוד הראשי, ‏אבל לא משנה את ה-noindex.

תרחיש	תוצאה
robots.txt disallow + meta noindex	גוגל לא רואה את ה-noindex, ‏העמוד יכול להיכלל
robots.txt allow + meta noindex	גוגל רואה ולא כולל, ‏הדרך הנכונה
meta index + X-Robots noindex	noindex גובר (restrictive)
googlebot index + robots noindex	Googlebot רואה index, ‏שאר ה-bots רואים noindex
meta noindex + canonical	noindex גובר על canonical

⚠️ Audit conflicts כל רבעון

אחת לרבעון, ‏הריצו Screaming Frog על האתר, ‏וייצאו את עמודת meta robots + X-Robots-Tag + robots.txt status. ‏מצאו את כל הקונפליקטים והפנו אליהם. ‏לעולם אל תניחו שהכל בסדר רק כי אתם הגדרתם נכון לפני שנה, ‏פלאגינים מתעדכנים, ‏themes משתנים, ‏ושום דבר לא יציב.

פרק 14

🚀 הטעות של noindex לפני launch שלא הוסר, ‏הסיוט של כל מפתח

זאת הטעות הכי הרסנית בנושא הזה. ‏ראיתי אותה אצל לפחות 30 ‏לקוחות בקריירה שלי. ‏אתר חדש משתחרר, ‏ולפעמים שבועות אחרי שהוא live, ‏אף עמוד לא מופיע בגוגל. ‏הסיבה, ‏noindex נשאר על האתר מתקופת הפיתוח. ‏אף אחד לא זוכר להסיר אותו, ‏וגוגל בנימוס לא כולל שום עמוד באינדקס. ‏וזה הרגע שמתחילה הפאניקה.

איך זה קורה

במהלך הפיתוח, ‏מפתחים שמים noindex על כל האתר כדי שגוגל לא יסרוק גרסת פיתוח. ‏זה הגיוני. ‏הם משתמשים באחד מהשניים,

WordPress, ‏Settings > Reading > Discourage search engines, ‏זה checkbox שמוסיף <meta name="robots" content="noindex, nofollow"> ‏לכל עמוד באתר
קוד בקובץ template, ‏מפתח מוסיף ידנית meta robots noindex ל-header.php

‏כשהאתר עולה לפרודקשן, ‏צריך להסיר את ה-noindex. ‏אבל לפעמים שוכחים. ‏ואז הסיוט מתחיל, ‏האתר חי, ‏אבל גוגל לא רואה אותו, ‏או רואה ולא כולל באינדקס.

הסימנים שזה קרה לכם

אחרי שבועיים מ-launch, ‏אתם בודקים ב-GSC ורואים,

‏Coverage report, ‏הרבה ‏"Excluded by 'noindex' tag"
‏Performance, ‏מעט מאוד impressions או clicks
‏URL Inspection, ‏מוצג ‏"Excluded by noindex tag"
‏בדפדפן, ‏view-source, ‏יש noindex ‏ב-meta robots

הפתרון, ‏checklist מסירה לפני launch

‏לפני כל launch (אתר חדש, ‏migration, ‏או major update), ‏אני עובד לפי checklist הזה,

בדיקת WordPress setting
‏Settings > Reading > וודאו ש-"Discourage search engines" לא מסומן. ‏אם מסומן, ‏הסירו.
בדיקת theme/plugin overrides
חפשו ‏ב-theme files, ‏plugins, ‏ו-functions.php אחרי המילה noindex. ‏אם תוסיף, ‏בדקו אם זה אמור להיות שם או שזה leftover מפיתוח.
בדיקת robots.txt
‏וודאו שאין ‏Disallow: / ‏שחוסם את כל האתר. ‏זה הקלאסי של development environments שעובר ל-production בטעות.
בדיקת .htaccess
חפשו ‏בקובץ אחרי X-Robots-Tag. ‏אם יש, ‏וזה לא אמור להיות שם, ‏הסירו.
בדיקה דרך view-source
פתחו ‏את ‏ה-homepage, ‏Ctrl+U, ‏חפשו ‏name="robots". ‏אם יש noindex, ‏יש בעיה.
בדיקה דרך curl
‏הריצו curl -I https://yoursite.co.il/ ‏ובדקו שאין X-Robots-Tag עם noindex.
בדיקה דרך GSC URL Inspection
‏הגישו את ‏ה-homepage ‏ל-URL Inspection, ‏בדקו ש-status הוא ‏"URL is on Google" ‏ולא ‏"Excluded by noindex tag".

⚠️ הזמן שלוקח להתאושש

גם אם אתם מסירים את ה-noindex היום, ‏גוגל לא יחזור מיד. ‏הוא צריך לסרוק את האתר שוב, ‏לראות שהוא הוסר, ‏ולהחיל בחזרה. ‏זה יכול לקחת ‏שבועות, ‏לאתר חדש אפילו חודשים. ‏בקשו Request Indexing לעמודים הראשיים כדי להאיץ, ‏אבל לא תוכלו לעשות 5,000 ‏עמודים אחד-אחד. ‏הסבלנות היא חברה כאן.

הסיוט שלי האישי

לקוח שלי עשה migration ל-Hostinger. ‏האתר עלה. ‏3 ‏שבועות אחרי, ‏הוא התקשר בפאניקה, ‏"שמוליק, ‏אין תנועה מגוגל, ‏מה קרה?". ‏אבחנה מהירה, ‏noindex על כל האתר. ‏הסבר, ‏המפתח שעשה את המigration שכח להסיר את ה-WordPress "discourage search engines" setting אחרי שהוא העלה את האתר. ‏3 ‏שבועות איבדנו, ‏ועוד ‏6 ‏שבועות לקח להתאושש מלא. ‏זה ‏3 ‏חודשים של תנועה אבודה בגלל ‏checkbox אחד. ‏לכן ה-launch checklist קריטי. ‏לעומק על מעבר אתר, ‏ראו את המדריך ל-canonical URLs.

פרק 15

📋 Audit חודשי + ‏checklist robots מקיפה

הנה ה-checklist שאני עובד לפיו, ‏פעם בחודש, ‏לכל אתר משמעותי שאני מטפל בו. ‏זה לא ארוך, ‏זה לוקח 30-60 ‏דקות, ‏וזה תופס בעיות לפני שהן הופכות לקריטיות. ‏שמרו את הפרק הזה ופעלו לפיו.

1. ‏בדיקת robots.txt

פתחו https://yoursite.co.il/robots.txt ‏בדפדפן
וודאו שאין Disallow: / ‏שחוסם את כל האתר
וודאו שכל ה-paths שאתם רוצים לאינדקס לא נחסמים
וודאו שיש Sitemap declaration בסוף הקובץ
הריצו curl https://yoursite.co.il/robots.txt ‏לאימות שהשרת מחזיר אותו

2. ‏בדיקת meta robots על עמודי המפתח

פתחו ‏את ‏ה-homepage ובדקו ב-view-source את meta robots
בדקו 5 ‏עמודים פופולריים, ‏שאמורים להיות באינדקס
בדקו ‏עמוד thank-you, ‏שאמור להיות noindex
בדקו ‏עמוד tag/category ספציפי, ‏לפי המדיניות שלכם

3. ‏בדיקת X-Robots-Tag

הריצו curl -I https://yoursite.co.il/sample.pdf ‏(אם יש PDFs) ‏ובדקו שיש X-Robots-Tag noindex
הריצו אותו דבר ל-DOCX, ‏XLSX, ‏ועוד
בדקו ‏לפחות 3 ‏עמודים שונים מסוגי קובץ שונים

4. ‏אודיט ב-Screaming Frog

הריצו ‏Screaming Frog על האתר
ייצאו ‏את ‏עמודת Meta Robots
ייצאו ‏את ‏עמודת X-Robots-Tag
סננו ‏לעמודים עם noindex, ‏וודאו שהם באמת צריכים להיות noindex
סננו ‏לעמודים עם robots disallow ב-robots.txt, ‏וודאו שזה מכוון

5. ‏בדיקת GSC Coverage Report

פתחו ‏GSC > Pages
בדקו ‏"Excluded by 'noindex' tag", ‏האם המספר הגיוני
בדקו ‏"Blocked by robots.txt", ‏האם המספר הגיוני
בדקו ‏"Crawled, currently not indexed", ‏האם יש עמודים שלא צריכים להיות שם

6. ‏בדיקת קונפליקטים

חפשו ‏עמודים שיש להם גם robots.txt block וגם meta noindex (הסיוט)
חפשו ‏עמודים שיש להם גם canonical וגם noindex (יכולים להיות מכוונים, ‏אבל לבדוק)
חפשו ‏עמודי per-bot ‏שאתם לא זוכרים שהגדרתם

7. ‏בדיקת התראות חדשות ב-GSC

פתחו ‏GSC > Messages
קראו ‏כל הודעה חדשה
במיוחד התראות על ‏"Indexing issues detected"

8. ‏בדיקת הגדרות תוסף SEO

Yoast/Rank Math > Search Appearance
וודאו שההגדרות הגלובליות עדיין נכונות (Tags noindex, ‏Author noindex, ‏וכו')
בדקו ‏שלא היה plugin update ששינה הגדרות

✅ אם הולכים לפי זה, אתם תופסים 99% מהבעיות לפני שהן פוגעות

אני מנהל אתרים שלא היה להם בעיית robots/indexing משמעותית כבר ‏5 ‏שנים, ‏בעיקר בזכות ‏ה-checklist הזה. ‏זה לא קסם, ‏זאת משמעת. ‏פעם בחודש, ‏שעה אחת, ‏שמירה על שליטה מלאה.

📖 מילון מושגים

Meta Robots Tag: תג HTML בתוך ה-head של עמוד שנותן הוראות ל-crawlers על indexing, ‏follow, ‏archive, ועוד directives. ‏פועל ברמת עמוד בודד.
X-Robots-Tag: HTTP response header עם אותן יכולות של meta robots, אבל פועל גם על קבצים שאינם HTML (PDF, ‏תמונות, ‏JSON) ‏וניתן להחיל ברמת תיקייה.
noindex: directive שאומר ל-crawler לסרוק את העמוד אבל לא לכלול אותו באינדקס החיפוש. ‏העמוד לא יופיע בתוצאות SERP.
nofollow: directive שאומר ל-crawler לא לעקוב אחרי הלינקים בעמוד הזה ולא להעביר link equity דרכם.
noarchive: directive שאומר לגוגל לא לשמור עותק cached של העמוד. ‏לא יופיע קישור Cached בתוצאות החיפוש.
max-snippet: directive שמגביל את אורך ה-snippet (התיאור) שמופיע בתוצאות החיפוש. ‏לדוגמה, ‏max-snippet:120 = עד 120 ‏תווים.
unavailable_after: directive שאומר ל-crawler להוציא את העמוד מהאינדקס אחרי תאריך מסוים. ‏שימושי לעמודי קמפיין מוגבל בזמן.
Per-bot directive: מצב שבו מגדירים directives שונים ל-bots שונים (Googlebot, ‏Bingbot, ‏Yandex). ‏ה-bot-specific tag גובר על generic.
URL Inspection: כלי בתוך Google Search Console שמראה מה גוגל יודע על עמוד מסוים, ‏כולל indexing status, ‏noindex, ‏canonical, ועוד.
Crawl-vs-Index: ההבחנה הקריטית בין crawling (גישה לעמוד) ל-indexing (הכללה באינדקס). ‏robots.txt חוסם crawl, ‏meta robots חוסם indexing.

פרק 16

❓ שאלות נפוצות

מה זה meta robots tag בקצרה?

תג HTML בתוך ה-head של עמוד שנותן הוראות ל-crawlers כמו Googlebot. ‏ה-directives הנפוצים, ‏noindex (אל תכליל באינדקס), ‏nofollow (אל תעקוב אחרי לינקים), ‏noarchive (אל תשמור cached). ‏פועל ברמת עמוד בודד, ‏גוגל חייב לסרוק את העמוד כדי לראות את ה-tag.

מה ההבדל בין meta robots ל-robots.txt?

robots.txt ‏חוסם crawling (כניסה לעמוד). ‏meta robots ‏חוסם indexing (הכללה באינדקס). ‏גוגל חייב לסרוק את העמוד כדי לראות את meta robots, ‏אז אם תחסמו ב-robots.txt, ‏הוא לעולם לא יראה את ה-tag. ‏רוב הטעויות בנושא נובעות מבלבול בין שני המנגנונים.

האם robots.txt + noindex זה double protection?

לא, ‏זאת הטעות הקלאסית. ‏robots.txt חוסם את הסריקה, ‏אז גוגל לעולם לא יראה את ה-noindex tag. ‏אם יש קישורים חיצוניים לעמוד, ‏הוא יכול להיכלל באינדקס בכל זאת (עם הודעה ‏'No information is available'). ‏הפתרון, ‏רק noindex, ‏בלי robots.txt block.

מה זה X-Robots-Tag?

HTTP response header עם אותן יכולות של meta robots, ‏אבל פועל גם על קבצים שאינם HTML (PDF, ‏תמונות, ‏JSON), ‏וניתן להחיל ברמת תיקייה דרך .htaccess או nginx.conf. ‏לקבצים שאין להם head (כל מה שאינו HTML), ‏זאת הדרך היחידה להגדיר directives.

מתי X-Robots-Tag עדיף על meta robots?

ב-3 ‏מצבים, ‏(1) קובץ שאינו HTML (PDF, ‏תמונה), ‏(2) רוצים להחיל ברמת תיקייה שלמה או סוג קובץ, ‏(3) רוצים שליטה דינמית עם תנאים ב-PHP. ‏לעמוד HTML יחיד, ‏meta robots פשוט יותר ועובד אותו דבר.

מה ההבדל בין noindex,follow ל-noindex,nofollow?

noindex,follow אומר 'אל תכליל באינדקס אבל כן עקוב אחרי הלינקים' (משמר link equity). ‏noindex,nofollow אומר 'אל תכליל ואל תעקוב אחרי הלינקים' (קוטע equity flow). ‏ברוב המקרים תרצו noindex,follow. ‏noindex,nofollow רק לעמודי admin/checkout/thank-you שאתם רוצים גם להוציא וגם לא להעביר authority.

האם meta noindex משפיע מיד?

לא. ‏גוגל צריך לסרוק את העמוד שוב כדי לראות את ה-tag. ‏זה יכול לקחת ימים עד שבועות. ‏אם דחוף, ‏הגישו את ה-URL ל-Request Indexing ב-GSC, ‏גוגל יסרוק תוך 1-24 ‏שעות בדרך כלל. ‏הסרת העמוד מהאינדקס תקרה אחרי שגוגל יראה את ה-tag.

מה זה per-bot directive?

directive ‏שחל רק על bot מסוים. ‏לדוגמה, <meta name=googlebot-news content=noindex> ‏מוציא את העמוד מ-Google News ‏אבל לא מ-Google Search. ‏שימושי בעיקר ל-News, ‏Images, ‏ולמצבים נדירים שצריך שליטה shifferential על מנועי חיפוש שונים.

איך מאמתים ש-X-Robots-Tag עובד?

הריצו curl -I [URL] בטרמינל ובדקו את ה-headers. ‏אם תראו 'x-robots-tag: noindex' זה אומר שהשרת מחזיר את ה-header נכון. ‏לא ניתן לראות אותו ב-view-source של דפדפן, ‏רק דרך curl או DevTools Network tab.

מה קורה אם יש קונפליקט בין meta robots ל-X-Robots-Tag?

ההוראה המגבילה ביותר גוברת. ‏אם meta אומר index ו-X-Robots-Tag אומר noindex, ‏העמוד לא יהיה באינדקס. ‏גוגל הולך עם ה-restrictive interpretation כדי לכבד את ה-publisher.

האם noindex פוגע בקישורים פנימיים שמובילים אל העמוד?

לא. ‏הקישורים עדיין עובדים פיזית, ‏משתמשים יכולים להגיע לעמוד. ‏רק שהעמוד לא יופיע בתוצאות החיפוש של גוגל. ‏link equity שזורם פנימה לעמוד הזה לא יורד לאחר, ‏הוא פשוט לא מועבר לקישורים יוצאים אם גם הגדרתם nofollow.

האם WordPress 'Discourage search engines' זה אותו דבר כמו noindex?

כן. ‏ההגדרה ב-Settings > Reading מוסיפה <meta name=robots content=noindex,nofollow> ‏לכל עמוד באתר וגם משנה את robots.txt. ‏זה הסיוט הקלאסי של development sites שנשארות עם זה אחרי launch, ‏וגוגל לא מוסיף שום עמוד לאינדקס.

האם yoast/rank math מאפשרים שליטה על כל ה-directives?

Yoast SEO מציע את הבסיסיים (index/noindex, ‏follow/nofollow, ‏noarchive, ‏noimageindex, ‏nosnippet). ‏Rank Math מציע יותר options (max-snippet, ‏max-image-preview, ‏max-video-preview, ‏notranslate). ‏לשליטה מלאה על כל ה-directives, ‏שני התוספים מספיקים לרוב המקרים.

האם 410 Gone משפיע על אינדקס כמו noindex?

שניהם מסירים את העמוד מהאינדקס, ‏אבל בדרכים שונות. ‏410 ‏אומר 'העמוד נמחק לתמיד, ‏אל תחזור', ‏וגוגל מסיר תוך ימים-שבועות. ‏noindex אומר 'העמוד קיים אבל אל תכלול', ‏וגוגל ימשיך לחזור לבדוק. ‏ל-permanent removal, ‏410 ‏עדיף. ‏ל-temporary or conditional, ‏noindex. ‏לעומק, ‏ראו את המדריך ל-404 ‏מול 410.

כמה פעמים בשנה צריך לעשות audit של meta robots?

אחת לחודש מומלץ, ‏לפחות אחת לרבעון. ‏ה-audit לוקח 30-60 ‏דקות, ‏וכולל בדיקה של robots.txt, ‏meta robots על עמודי המפתח, ‏X-Robots-Tag דרך curl, ‏GSC Coverage Report, ‏וקונפליקטים בין מנגנונים שונים. ‏ה-checklist המלא מופיע בפרק 15.

צריכים לקפוץ למישהו שכבר ראה את הסרט?

שמוליק דורינבאום, 20 שנה ב SEO, 1,200 בוגרים בקורס. אם יש לכם אתר ולא בטוחים מאיפה להתחיל או שאתם תקועים במצב לא טוב, שלחו הודעה. תשובה תוך 24 שעות, בלי דמי ייעוץ למפגש הראשון.

שלחו הודעה