🤖 מה זה meta robots, ההגדרה המדויקת לפני שמתבלבלים
תקשיבו. אני אפתח עם השיחה הכי שכיחה שיש לי בשטח. לקוח כותב לי, "שמוליק, יש לי עמוד שלא רוצה שיופיע בגוגל, מה עושים, robots.txt או noindex או canonical או X-Robots-Tag?". אני שואל, "זה עמוד HTML או PDF?", "אתה רוצה לחסום סריקה או רק להוציא מהאינדקס?", "מי שמקשר אליו, מאתרים חיצוניים?". הוא לא יודע לענות. וזה הרגע שאני עוצר ומסביר את ההגדרות, כי בלי ההגדרות הברורות, הוא לעולם לא יבחר את הכלי הנכון. שלושה מנגנונים שונים, כל אחד עושה דבר אחר, ורוב המקדמים מערבבים ביניהם.
meta robots זה תג HTML בתוך ה-head של העמוד שנותן הוראות ל-crawlers, מה לעשות עם העמוד הזה ספציפית מבחינת אינדוקס. הוא נראה ככה,
<meta name="robots" content="noindex,follow">זה כל הסיפור. שורה אחת בתוך ה-head שאומרת ל-Googlebot, Bingbot, וכל crawler אחר, "אל תכניסו את העמוד הזה לאינדקס, אבל כן תעקבו אחרי הלינקים בו". ה-tag הזה כבר חצי-עתיק (קיים מ-1996, הציג Sun Microsystems), אבל הוא עדיין הכלי הראשי לשליטה ברמת עמוד בודד.
meta robots חוסם indexing, לא crawling. זה אומר שגוגל חייב להגיע לעמוד, לסרוק אותו, ולקרוא את ה-head כדי לראות את ה-tag. רק אז הוא ידע שאסור להכניס לאינדקס. אם תחסמו את הסריקה ב-robots.txt, גוגל לעולם לא יראה את ה-tag, וזה היפוך מהיר של מה שניסיתם להשיג.
למה ההבחנה הזאת קריטית? כי רוב הטעויות בנושא הזה נובעות מבלבול בין שני המנגנונים. robots.txt הוא קובץ אחד באתר שאומר ל-crawlers איפה מותר להם להיכנס בכלל. meta robots הוא tag לכל עמוד שאומר מה לעשות עם העמוד הזה אחרי הסריקה. הם פועלים בשלבים שונים של התהליך, וצריך לדעת מתי כל אחד מתאים. אני אסביר את זה בפירוט בפרק 3, אבל ההגדרה הבסיסית חשוב להפנים מההתחלה.
אגב, השם שמוליק דורינבאום מאחורי המקלדת כאן, 20 שנה בעולם ה-SEO, ראיתי את הטעות הזאת מאות פעמים, כולל אצל מקדמים שעבדו בתחום 10 שנים. זה לא מורכב מבחינה רעיונית, אבל קל ליפול אם לא מקפידים. במאמר הזה אני אעבור איתכם על כל ה-directives, מתי להשתמש ב-X-Robots-Tag, איך לאמת שזה עובד, ועל הטעויות הקלאסיות. אם אחרי המאמר אתם רוצים אבחנה אישית, יש לכם איך לדבר איתי ישירות. וכדאי גם לקרוא את המדריך ל-crawling מול indexing שמשלים את הנושא הזה ב-100%.
📜 כל ה-directives שצריך להכיר, מה כל אחד עושה באמת
נחשו למה רוב המקדמים מכירים רק 2 directives (noindex, nofollow) ולא יודעים שיש עוד 10? כי Yoast/RankMath מציגים להם רק את ה-2 האלה ב-UI, ושאר ה-directives נשארים בלתי-ידועים. אבל יש מצבים שאתם חייבים אותם, וכאן נעבור על כל הרשימה המלאה, עם מתי להשתמש בכל אחד.
1. index, all (ברירת המחדל)
אם אין בכלל meta robots tag בעמוד, גוגל מתייחס לזה כ-index,follow. אותו דבר אם תכתבו במפורש <meta name="robots" content="index,follow">. אין סיבה להוסיף את זה, זה מובן מאליו. אבל אם רוצים להיות מפורשים, יש גם את all, שזה מילה אחת ששקולה ל-index,follow.
2. noindex
ההוראה הקלאסית. "אל תכניסו את העמוד הזה לאינדקס". זה אומר שגוגל יסרוק, יקרא, יבין את התוכן, אבל לא יכלול את העמוד בתוצאות החיפוש שלו. העמוד יישאר נגיש למשתמשים שמגיעים אליו ישירות (מלינק, מ-bookmark, מ-email), אבל הוא לא יופיע ב-SERP.
3. nofollow
"אל תעקבו אחרי הלינקים בעמוד הזה". גוגל לא ימשיך מהעמוד לקישורים שיוצאים ממנו, לא יעביר link equity דרכם. שימו לב, זה ההבדל מ-nofollow attribute ספציפי ללינק (<a rel="nofollow">), שהוא מקומי לקישור אחד. ה-meta nofollow הוא גורף לכל הלינקים בעמוד.
4. noarchive
"אל תשמרו cached version של העמוד". גוגל לא יציג את הקישור "Cached" בתוצאות, ולא יאחסן עותק ארכיון. שימושי לעמודים עם תוכן רגיש שמשתנה תכופות, או שאתם רוצים שמשתמשים תמיד יראו את הגרסה החיה.
5. nosnippet
"אל תציגו snippet (תיאור) בתוצאות החיפוש". הכותרת תופיע, אבל בלי טקסט תיאור מתחתיה. יורד drastically ב-CTR, אז זה נדיר, אבל יש מקרים (תוכן בתשלום שלא רוצים שמשתמשים יראו ב-SERP בלי לקלוט).
6. max-snippet:[number]
"השתמשו עד N תווים ב-snippet". לדוגמה, max-snippet:160 מגביל את ה-snippet ל-160 תווים. אם תכתבו max-snippet:-1, אתם נותנים לגוגל אישור להשתמש בכל אורך שירצה. זה השליטה הכי מדויקת על מה שמופיע ב-SERP.
7. max-image-preview:[none/standard/large]
שולט בגודל תמונת ה-preview ב-SERP. none ללא תמונה, standard גודל רגיל, large גדול. חשוב במיוחד ל-Discover, שמתבסס בעיקר על תמונות.
8. noimageindex
"אל תכניסו את התמונות בעמוד לאינדקס של Google Images". שימושי לעמודים עם תמונות שאינן רוצים שיופיעו בחיפוש תמונות (למשל, תמונות עם זכויות יוצרים מוגבלות).
9. notranslate
"אל תציעו תרגום אוטומטי לעמוד הזה בתוצאות". שימושי לתוכן שתרגום אוטומטי יעוות אותו, או שלא רוצים שיתורגם לסיבות עסקיות.
10. unavailable_after:[date]
"הוציאו את העמוד מהאינדקס אחרי תאריך X". פורמט, unavailable_after:2026-12-31T00:00:00+02:00. שימושי לעמודי קמפיין זמני, או הצעות שתוקפן פג בתאריך מסוים.
11. none
קיצור של noindex,nofollow. מילה אחת ששקולה לשתי הוראות. שימו לב, זה אגרסיבי מאוד, גם לא להיות באינדקס וגם לא להעביר link equity. רוב הזמן עדיף noindex,follow שמשמר את ה-equity.
אפשר לשרשר אותם בפסיק, או בכמה meta tags נפרדים. שני הפורמטים האלה זהים,
<meta name="robots" content="noindex, nofollow, noarchive">או,
<meta name="robots" content="noindex">
<meta name="robots" content="nofollow">
<meta name="robots" content="noarchive">אני אישית מעדיף את הראשון (פסיק), יותר נקי, ופחות סיכון של duplicate tags שגוגל יתבלבל מהם.
⚔️ meta robots מול robots.txt, ההבדל הקריטי שכולם מבלבלים
זה הפרק שמסדר את כל הבלבול. אם אתם מבינים את ההבדל הזה, אתם מבינים 80% מהנושא. אם לא, אתם תמשיכו לעשות טעויות שגורמות לעמודים להישאר באינדקס למרות שניסיתם להוציא אותם. בואו נסדר את ההבדל אחת ולתמיד, כי זה ההבדל הקריטי.
robots.txt, חוסם crawl
קובץ אחד באתר (/robots.txt) שאומר ל-crawlers איפה מותר להם להיכנס. כשגוגל מגיע לאתר, הוא בודק את הקובץ הזה קודם כל. אם הקובץ אומר Disallow: /private/, גוגל לא יסרוק שום עמוד ב-/private/. בכלל. הוא לא ייכנס. לא יוריד את ה-HTML.
meta robots, חוסם indexing
תג HTML בתוך ה-head של עמוד ספציפי. הוא אומר לגוגל, "אחרי שסרקת אותי, אל תכניס אותי לאינדקס". גוגל חייב לסרוק את העמוד כדי לקרוא את ה-tag הזה. אם הוא לא יסרוק, הוא לעולם לא יראה את ה-tag, ויהיה לו ידיעה על העמוד רק מקישורים חיצוניים שמובילים אליו.
ההבדל בטבלה
| היבט | robots.txt | meta robots |
|---|---|---|
| איפה נמצא | קובץ אחד בשורש האתר | tag בתוך head של כל עמוד |
| מה הוא חוסם | crawling (כניסה לעמוד) | indexing (הכללה באינדקס) |
| גוגל סורק את העמוד? | לא | כן, אבל לא יכליל באינדקס |
| גוגל יכול להוסיף לאינדקס בלי לסרוק? | כן (דרך לינקים חיצוניים) | לא |
| שליטה ברמת אתר/תיקייה | מצוין | קשה (צריך להוסיף לכל עמוד) |
| שליטה ברמת עמוד בודד | אפשרי אבל מסורבל | מצוין |
תרחיש אמיתי שמדגים את ההבדל
נניח שיש לכם עמוד /admin/secret/ שאתם לא רוצים שמשתמשים יראו בגוגל. יש לכם 2 דרכים,
אופציה 1, robots.txt
הוסיפו
Disallow: /admin/. גוגל לא יסרוק את העמוד. אבל, אם מישהו מקשר ל-/admin/secret/ מאתר חיצוני, גוגל יודע שהעמוד קיים, ויכול להציג אותו בתוצאות עם הודעה "No information is available for this page". לא רואים את התוכן, אבל ה-URL מופיע. זה הסיוט.אופציה 2, meta noindex
השאירו את ה-URL זמין לסריקה, אבל הוסיפו
<meta name="robots" content="noindex">. גוגל יסרוק, יראה את ה-tag, ולא יכליל באינדקס. ה-URL לא יופיע בתוצאות בכלל, גם אם מישהו מקשר אליו מבחוץ.
זה אחד הכללים הכי לא-אינטואיטיביים ב-SEO, אבל הוא קריטי. robots.txt לא מבטיח שעמוד לא יופיע באינדקס, רק שלא ייסרק. noindex מבטיח שלא יופיע. לעומק, ראו את המדריך השלם ל-robots.txt.
חשוב לזכור, הם לא תחליפים. הם שני כלים שונים לבעיות שונות. robots.txt ל-crawl budget management (לחסוך crawl על אזורים לא חשובים כמו /cgi-bin/), meta robots לאינדוקס management (לוודא שעמוד לא יופיע בתוצאות).
💀 הטעות הקלאסית, robots.txt block + noindex, וזה לא עובד
אם תזכרו רק טעות אחת מהמאמר הזה, שזאת תהיה. הטעות הזאת אצל לפחות 30% מהאתרים שאני בודק, וגם אצל מקדמים מנוסים. היא נראית הגיונית מאוד, אבל היא הופכת את הניסיון להוציא עמוד מהאינדקס לבלתי-אפשרי מבחינה טכנית. בואו נפרק את זה.
הסיטואציה הקלאסית
אתם רוצים שעמוד מסוים לא יופיע בגוגל. אתם, באופן הגיוני אבל שגוי, עושים את הדברים האלה,
- מוסיפים ל-robots.txt,
Disallow: /private-page/ - מוסיפים ל-HTML של העמוד,
<meta name="robots" content="noindex">
אתם חושבים, "גם robots.txt חוסם את הסריקה, וגם noindex אם בכל זאת יסרקו, הוא יוציא מהאינדקס. double protection!". זה לא עובד ככה.
למה זה לא עובד
גוגל מכבד את ה-robots.txt לפני הכל. הוא לא יסרוק את העמוד. לעולם. זה אומר שהוא לעולם לא יראה את ה-meta noindex tag. מבחינתו, העמוד לא ידוע, אבל הוא יודע על קיומו מקישורים חיצוניים. מה הוא עושה?
הוא יציג את העמוד בתוצאות החיפוש עם הודעה כמו "No information is available for this page" או הודעה דומה. לפעמים גם עם ה-URL ועם anchor text של קישורים שמובילים אליו. בקיצור, העמוד כן יופיע באינדקס, רק בלי תיאור.
אתם רוצים שהעמוד הפרטי שלכם לא יופיע בגוגל, ובמקום זה הוא מופיע עם הודעה שמושכת תשומת לב ("מה זה? למה אין מידע?"). זה גרוע יותר ממה שניסיתם להשיג. גוגל לא רק לא חסם את העמוד, הוא הציג אותו בצורה חשודה.
הפתרון הנכון
אם אתם רוצים שעמוד לא יופיע בגוגל, עשו רק noindex, בלי robots.txt block. גוגל יסרוק את העמוד, יראה את ה-tag, ולא יכליל אותו באינדקס. ה-URL לא יופיע בתוצאות. זאת הדרך הנכונה והיחידה.
# robots.txt - בלי disallow לעמוד הזה<!-- בתוך ה-head של העמוד -->
<meta name="robots" content="noindex">הסדר הנכון אם אתם רוצים גם וגם
יש מצב נדיר שבו אתם רוצים גם noindex וגם robots.txt block. לדוגמה, אחרי שאתם בטוחים שגוגל הוציא את העמוד מהאינדקס, אתם רוצים גם לחסוך crawl budget. הסדר הנכון הוא,
שלב 1, רק noindex
הוסיפו
<meta name="robots" content="noindex">לעמוד. אל תוסיפו עדיין ל-robots.txt.שלב 2, חכו
חכו 4-8 שבועות עד שגוגל יסרוק, יראה את ה-tag, ויסיר את העמוד מהאינדקס. בדקו ב-GSC > URL Inspection שהעמוד באמת לא באינדקס.
שלב 3, הוסיפו robots.txt
רק עכשיו הוסיפו
Disallow: /private-page/ל-robots.txt. גוגל כבר יודע שהעמוד לא באינדקס, אז הוא לא יחזור אותו לתוכו, ובכל זאת תחסכו crawl budget בעתיד.
אבל באמת, לרוב המוחלט של המקרים, רק noindex מספיק. ה-crawl budget שתחסכו במניעת סריקה של עמוד יחיד הוא נדיר ולא משמעותי. הסיכון של לאבד שליטה גדול יותר מהתועלת.
🌐 מה זה X-Robots-Tag, ה-HTTP header version של meta robots
X-Robots-Tag זה אותו רעיון כמו meta robots, אבל במקום tag ב-HTML, זה HTTP header שהשרת מחזיר עם התגובה. זה אומר שאפשר להחיל אותו על קבצים שאינם HTML (PDFs, תמונות, Videos, JSON, וכו'), ועל קבוצות שלמות של עמודים בלי לגעת בקבצים עצמם. זה הכלי החזק ביותר ב-toolkit שלכם לשליטה ב-crawlers.
איך זה נראה
כשגוגל מבקש URL, השרת מחזיר HTTP response headers כמו,
HTTP/1.1 200 OK
Date: Tue, 30 May 2026 12:00:00 GMT
Content-Type: application/pdf
X-Robots-Tag: noindex, nofollowגוגל קורא את ה-header הזה ומבין שאסור להכליל את הקובץ הזה באינדקס ולא לעקוב אחרי לינקים בו. זה עובד בדיוק כמו meta robots, רק שזה ברמת ה-HTTP response, לא ברמת ה-HTML.
למה זה קיים
הסיבה העיקרית, PDF אין לו <head>. אי אפשר לשים בו meta robots tag. אם יש לכם 500 PDFs באתר שאתם לא רוצים שיופיעו בגוגל (למשל, invoices, מסמכים פנימיים), ה-X-Robots-Tag הוא הדרך היחידה. אותו דבר לתמונות, וידאו, JSON files, או כל סוג קובץ אחר שאינו HTML.
איך מגדירים, Apache (.htaccess)
אם השרת שלכם Apache, הקטע ב-htaccess נראה ככה,
<FilesMatch "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>זה אומר ל-Apache, "לכל קובץ שמסתיים ב-.pdf, הוסיפו את ה-header הזה לתגובה". פשוט, מהיר, ולא צריך לגעת בקבצי PDF עצמם. אפשר לעשות אותו דבר ל-DOCX, XLSX, וכל סוג קובץ אחר,
<FilesMatch "\.(pdf|docx|xlsx)$">
Header set X-Robots-Tag "noindex"
</FilesMatch>איך מגדירים, Nginx
אם השרת שלכם Nginx, הקטע ב-nginx.conf,
location ~* \.(pdf|docx|xlsx)$ {
add_header X-Robots-Tag "noindex, nofollow";
}אותה לוגיקה, סינטקס שונה. זכרו לעשות restart ל-nginx אחרי שינוי configuration.
איך מגדירים, PHP
אם אתם רוצים שליטה דינמית (לדוגמה, רק עמודים מסוימים בתנאי מסוים), אפשר בקוד PHP,
<?php
if ($special_condition) {
header('X-Robots-Tag: noindex, nofollow', true);
}
?>זה שולח את ה-header לפני שה-HTML מגיע. שימושי ל-conditional logic, לדוגמה, עמודים שמיועדים רק למשתמשים מחוברים, עמודי searche results פנימיים, עמודי thank-you אחרי טופס.
noindex, nofollow, noarchive, nosnippet, max-snippet, max-image-preview, noimageindex, notranslate, unavailable_after, none, all. כל המילים האלה עובדות בדיוק כמו ב-meta robots, רק בשליחה דרך HTTP header במקום HTML tag. אם הבנתם איך עובד אחד, אתם יודעים גם את השני.
⚖️ מתי X-Robots-Tag עדיף על meta robots
השאלה שאני מקבל הכי הרבה אחרי שמסבירים על X-Robots-Tag, "מתי להשתמש בו ומתי במטא?". התשובה תלויה ב-3 שיקולים, סוג הקובץ, היקף השליטה הרצוי, וגישה לשרת. בואו נסדר את זה.
שיקול 1, סוג הקובץ
📄 קובץ HTML
- שניהם עובדים
- meta robots יותר פשוט להגדיר
- אפשר לעשות דרך CMS (Yoast/RankMath)
- X-Robots-Tag נכון אם רוצים שליטה ברמת תיקייה
📋 קובץ שאינו HTML (PDF, תמונה, JSON)
- רק X-Robots-Tag עובד
- meta robots לא רלוונטי (אין head)
- חובה דרך .htaccess או nginx.conf
שיקול 2, היקף השליטה
אם אתם רוצים להחיל הוראה על תיקייה שלמה או סוג קובץ שלם, X-Robots-Tag הוא הפתרון. לדוגמה, "כל קבצי ה-PDF ב-/downloads/ לא ייכללו באינדקס". זה שורות בודדות ב-.htaccess.
<LocationMatch "^/downloads/">
<FilesMatch "\.pdf$">
Header set X-Robots-Tag "noindex"
</FilesMatch>
</LocationMatch>אם הייתם רוצים לעשות את אותו דבר עם meta robots, הייתם צריכים לפתוח כל PDF, או להוסיף לכל עמוד HTML ש-embedding PDF. לא יעבוד.
שיקול 3, גישה לשרת
אם אין לכם גישה לשרת (אתר shared hosting בלי .htaccess access), אז meta robots הוא הברירה היחידה לקבצי HTML. ל-PDF במצב כזה, פתרון, שמרו אותם בתיקייה שמוגנת ב-robots.txt או בלינק שלא בסייטמאפ. זה לא מושלם, אבל זה מה שיש בלי גישת שרת.
מקרים אופייניים בשטח
PDFs ב-/wp-content/uploads/
אתר WordPress עם הרבה PDFs שנעלה כקבצים. בלי X-Robots-Tag, הם יוצגו בתוצאות החיפוש כקבצים נפרדים, לפעמים עם snippets לא מתאימים. הוסיפו ל-.htaccess בתיקייה הזאת,
<FilesMatch "\.pdf$"> Header set X-Robots-Tag "noindex" </FilesMatch>עמודי search results פנימיים
הם נוצרים דינמית בעת חיפוש משתמש. לא מעשי להוסיף meta robots לכל אחד. הוסיפו ב-PHP,
if (isset($_GET['s']) || strpos($_SERVER['REQUEST_URI'], '/search/') !== false) { header('X-Robots-Tag: noindex, nofollow'); }תוכן בתשלום (paywall)
עמודים שמוצגים ל-paying users בלבד. אם משתמש לא מחובר, הוא רואה preview קטן. אם גוגל מנסה לסרוק, הוא רואה את ה-preview. אם אתם לא רוצים שה-preview יופיע באינדקס, הוסיפו X-Robots-Tag בתנאי על-pop משתמש לא-מחובר.
קובץ HTML יחיד = meta robots. תיקייה שלמה או סוג קובץ = X-Robots-Tag. קובץ שאינו HTML = X-Robots-Tag חובה. שליטה דינמית עם תנאים = X-Robots-Tag ב-PHP. זה ה-rule of thumb שחוסך שעות של מחשבה לכל החלטה.
🔀 קומבינציות directives, index/noindex × follow/nofollow
הקומבינציות בין index/noindex ל-follow/nofollow מבלבלות הרבה מקדמים. רובם חושבים שאם עמוד הוא noindex, הוא בהכרח גם nofollow. זה לא נכון. בואו נסדר את כל 4 הקומבינציות, מה כל אחת אומרת, ומתי משתמשים בכל אחת.
1. index, follow (ברירת המחדל)
גוגל יכלול את העמוד באינדקס, ויעקוב אחרי הלינקים בעמוד. זה ההגדרה הסטנדרטית, וזה מה שאתם מקבלים אם לא תכתבו meta robots בכלל. אין סיבה לכתוב את זה במפורש, אבל זה לא מזיק.
<meta name="robots" content="index, follow">2. noindex, follow (הצירוף הכי שימושי)
גוגל לא יכלול את העמוד באינדקס, אבל כן יעקוב אחרי הלינקים בעמוד ויעביר link equity דרכם. זה הצירוף שאתם רוצים ברוב המקרים של noindex, כי שמירת ה-follow מאפשרת ל-link equity לזרום למקומות אחרים באתר.
<meta name="robots" content="noindex, follow">שימוש קלאסי, עמודי tag archives ב-WordPress. אתם לא רוצים שהעמוד עצמו יופיע בתוצאות, אבל אתם רוצים שגוגל ימשיך לקרוא את הקישורים לפוסטים מהעמוד הזה.
3. noindex, nofollow (הצירוף האגרסיבי)
גוגל לא יכלול את העמוד באינדקס, וגם לא יעקוב אחרי הלינקים בעמוד. link equity לא זורם החוצה דרך הקישורים בעמוד הזה. זה הצירוף שצריך להשתמש בו במשורה, כי הוא קוטע את זרימת ה-equity.
<meta name="robots" content="noindex, nofollow">או הקיצור,
<meta name="robots" content="none">מתי כן להשתמש, עמודי thank-you, עמודי checkout, עמודי admin, עמודים שגוגל לא צריך לראות בכלל ולא לעקוב אחרי הלינקים בהם.
4. index, nofollow (הצירוף הנדיר)
גוגל יכלול את העמוד באינדקס, אבל לא יעקוב אחרי הלינקים בעמוד. שימוש נדיר, עמודים שאתם רוצים שיופיעו בחיפוש אבל יש בהם הרבה user-generated links שאתם לא רוצים להעביר אליהם authority. לפעמים פוסטים שמכילים הרבה affiliate links.
<meta name="robots" content="index, nofollow">| קומבינציה | גוגל ב-SERP? | עוקב אחרי לינקים? | שימוש קלאסי |
|---|---|---|---|
| index, follow | כן | כן | ברירת מחדל, רוב העמודים |
| noindex, follow | לא | כן | עמודי tag, archive, duplicate |
| noindex, nofollow | לא | לא | thank-you, admin, checkout |
| index, nofollow | כן | לא | נדיר, עמודי UGC עם הרבה אאוטבאונד |
טעות נפוצה, ברירת המחדל של תוספי SEO
חלק מתוספי SEO (במיוחד גרסאות ישנות) מגדירים אוטומטית noindex, nofollow לעמודים מסוימים (לדוגמה, עמודי tag). אם אתם לא יודעים שזה כך, אתם מאבדים link equity בלי לדעת. בדקו ידנית מה התוסף מגדיר, ושנו ל-noindex, follow אם רלוונטי. ההבדל הזה משמעותי לאתר עם הרבה תוכן.
אם אתם בספק, השתמשו ב-noindex, follow, לא ב-noindex, nofollow. שמירת ה-follow כמעט תמיד נכונה, כי אתם רוצים ש-link equity ימשיך לזרום באתר. רק במקרים ספציפיים מאוד (admin, private content) יש סיבה גם ל-nofollow.
🎯 Per-bot directives, googlebot מול bingbot מול אחרים
פיצ'ר שרוב המקדמים לא מכירים. אפשר להגדיר directives שונים ל-bots שונים. זה אומר שגוגל יראה דבר אחד, Bing יראה דבר אחר, ו-Yandex אולי דבר שלישי. שימושי לתרחישים מאוד ספציפיים, אבל חשוב לדעת שזה קיים.
איך זה עובד
במקום name="robots" שחל על כל הbots, אפשר להשתמש ב-name="[botname]" שחל רק על bot מסוים. ה-botnames הנפוצים,
googlebot, עבור Googlebot (גוגל search)googlebot-news, עבור Google News crawlergooglebot-image, עבור Google Imagesbingbot, עבור Bingyandex, עבור Yandexbaiduspider, עבור Baidu
דוגמה, הוצאה מ-Google News אבל לא מ-Google רגיל
<meta name="googlebot-news" content="noindex">
<meta name="googlebot" content="index, follow">זה אומר, Google News לא יכליל את העמוד, אבל Google Search כן יכליל. שימושי לתוכן שלא רלוונטי ל-News (לדוגמה, עמוד "about") אבל כן רלוונטי ל-Search.
דוגמה, הוצאה מ-Image Search
<meta name="googlebot" content="noimageindex">גוגל ימשיך לכלול את העמוד באינדקס Search, אבל לא יציג את התמונות שלו ב-Google Images. שימושי לעמודי תוכן עם תמונות עם זכויות יוצרים שלא רוצים שיופיעו בחיפוש תמונות.
סדר עדיפויות בין directives שונים
מה קורה אם יש לכם גם robots וגם googlebot בעמוד אחד עם הוראות סותרות? לפי גוגל הרשמית, ה-bot-specific tag גובר על ה-generic tag לאותו bot.
<meta name="robots" content="noindex">
<meta name="googlebot" content="index, follow">במקרה הזה, Googlebot יראה את ה-googlebot tag (index, follow) ויתעלם מה-robots tag. שאר ה-bots יראו את ה-robots tag (noindex) ולא יכללו את העמוד.
X-Robots-Tag per-bot
אותו דבר עובד גם ב-X-Robots-Tag. הסינטקס,
X-Robots-Tag: noindex
X-Robots-Tag: googlebot: index, followזה אומר, לכל ה-bots noindex, ל-Googlebot ספציפית index+follow. שולחים שני headers נפרדים, או אחד עם פסיק אם אותו bot עם כמה directives.
ברוב המקרים, אל תשתמשו. ה-default של אותה הוראה לכל ה-bots הוא הנכון. ה-per-bot שמור למקרים מאוד ספציפיים, בעיקר Google News, Google Images, או כשאתם רוצים לחסום bot מסוים בלי לחסום אחרים. שימוש לרעה (לדוגמה, לתת לגוגל גרסה אחת ול-Bing אחרת) יכול להיתפס כ-cloaking ולגרור עונשים.
💻 דוגמאות קוד מלאות לכל תרחיש
פרק זה הוא הכי שימושי בפועל. 8 דוגמאות קוד מלאות לתרחישים אמיתיים שתפגשו. שמרו את הפרק הזה בסימנייה, תזדקקו לו.
דוגמה 1, noindex בסיסי ל-thank-you page
<!DOCTYPE html>
<html lang="he">
<head>
<meta charset="UTF-8">
<title>תודה על הפנייה</title>
<meta name="robots" content="noindex, nofollow">
</head>
<body>
<h1>תודה, הפנייה התקבלה</h1>
</body>
</html>דוגמה 2, noindex follow לעמוד duplicate
<meta name="robots" content="noindex, follow">
<link rel="canonical" href="https://example.co.il/original-page/">שילוב של noindex + canonical חזק יותר מ-canonical לבד. הראשון אומר במפורש שלא לכלול, השני נותן רמז על מי הראשי. גוגל יבין בדיוק מה אתם רוצים.
דוגמה 3, X-Robots-Tag לכל PDFs באתר (Apache)
# .htaccess בשורש האתר
<FilesMatch "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>דוגמה 4, X-Robots-Tag בתיקייה ספציפית (Apache)
# .htaccess בתוך /private-docs/
Header set X-Robots-Tag "noindex"כל קובץ בתיקייה הזאת (HTML, PDF, JPG, הכל) יקבל את ה-header. פתרון מהיר ונקי לחסימה גורפת של תיקייה.
דוגמה 5, X-Robots-Tag דינמי ב-PHP
<?php
// בתחילת הקובץ, לפני שום output
if (isset($_GET['preview'])) {
header('X-Robots-Tag: noindex, nofollow');
}
if (date('Y-m-d') > '2026-12-31') {
header('X-Robots-Tag: noindex');
}
?>דוגמה 6, max-snippet עם הגבלה ספציפית
<meta name="robots" content="max-snippet:120, max-image-preview:large">זה אומר, השתמשו בעד 120 תווים ב-snippet, והציגו תמונות בגודל large. זה ה-default אם רוצים שליטה הדוקה על ה-SERP appearance.
דוגמה 7, unavailable_after לקמפיין מוגבל בזמן
<meta name="robots" content="unavailable_after:2026-12-31T23:59:59+02:00">אחרי 31 בדצמבר 2026, גוגל יסיר אוטומטית את העמוד מהאינדקס. אין צורך לזכור להוסיף ידנית noindex אחרי שהקמפיין מסתיים. שימושי לעמודי Black Friday, עמודי "בקרוב", הצעות מבצע.
דוגמה 8, per-bot directive ב-Nginx
# nginx.conf
location /news/ {
add_header X-Robots-Tag "googlebot-news: noindex";
add_header X-Robots-Tag "index, follow";
}Google News לא יכליל, אבל שאר ה-bots וגם Googlebot רגיל כן יכללו. שימושי לאתרים שיש להם תוכן "חדשותי" שהם לא רוצים שיופיע ב-Google News אבל כן בחיפוש רגיל.
אני שומר את כל קטעי הקוד האלה בקובץ snippets.md בכל פרויקט. כשאני צריך אחד מהם, אני לא מנסה לזכור את הסינטקס, אני copy-paste ועורך. זה חוסך שעות לאורך השנים, ומונע שגיאות סינטקס שיכולות לשבור את האתר.
🔵 WordPress, Yoast ו-Rank Math, השליטה דרך התוסף
אם אתם על WordPress, סביר שאתם משתמשים ב-Yoast SEO או Rank Math (או SEOPress, כולם דומים בנושא הזה). שני התוספים האלה נותנים שליטה מלאה על meta robots מבלי לערוך קוד. בואו נסדר איך עובדים עם כל אחד.
Yoast SEO, איך מגדירים meta robots
בעריכת עמוד או פוסט, גוללו למטה ל-Yoast SEO meta box, לחצו על ה-Advanced tab. שם יש לכם,
- Allow search engines to show this Post in search results? (Yes/No) שווה ל-index/noindex
- Should search engines follow links on this Post? (Yes/No) שווה ל-follow/nofollow
- Meta robots advanced (checkboxes) ל-noimageindex, noarchive, nosnippet
זה ממשק UI שמתרגם לbacky meta tags ב-HTML של העמוד. אתם מגדירים ב-3 קליקים מה ש-HTML הוא 3 שורות קוד.
Rank Math, איך מגדירים meta robots
דומה ל-Yoast, בעריכת עמוד יש Rank Math meta box, ה-Advanced tab. Rank Math מציע גם options מתקדמים יותר ב-checkboxes, כולל,
- No Index
- No Follow
- No Archive
- No Image Index
- No Snippet
- No Translate
- Max Snippet Length
- Max Video Preview
- Max Image Preview
יותר אפשרויות ויזואליות מ-Yoast, אבל אותה לוגיקה.
הגדרות גלובליות, taxonomies ו-post types
גם Yoast וגם Rank Math מציעים הגדרות גלובליות לסוגי תוכן שלמים. לדוגמה,
Tag Archives
הוסיפו noindex לכל עמודי ה-tag, בלי לעבור על כל אחד ידנית. שווה ב-90% מהאתרים, כי רוב ה-tag pages הם דקים.
Author Archives
אם יש לכם רק 1-2 authors, הוסיפו noindex (העמודים האלה דקים). אם יש לכם בלוג עם הרבה authors כל אחד מהם פעיל, שמרו indexed עם תיאור עשיר.
Date Archives
תמיד noindex. אין סיבה לעמוד "כל הפוסטים מ-ספטמבר 2018" להיות באינדקס. זה גם דק וגם duplicate של החיפוש הרגיל.
Attachment Pages
חשוב. ב-Yoast/Rank Math הגדירו "Redirect attachment URLs to attached file/parent". זה מסיר את עמודי ה-attachment האוטומטיים שיוצרים thin content.
Yoast Premium feature, advanced editor
Yoast Premium מציע editor שמאפשר לשנות meta robots בכמות (bulk). שימושי אם זיהיתם 200 פוסטים שצריכים noindex, ולא רוצים לעדכן כל אחד בנפרד. Rank Math גם תומך ב-bulk edit דרך פעולות מובנות בלוח הניהול.
גוצ'ה, יש זמן בין שינוי לקבלה ב-GSC
אחרי שאתם משנים meta robots ב-Yoast/Rank Math, השינוי מופיע מיד ב-HTML. אבל גוגל צריך לסרוק את העמוד שוב כדי לראות את השינוי. זה יכול לקחת ימים עד שבועות. אם זה דחוף, הגישו את ה-URL ל-Request Indexing ב-GSC. גוגל יסרוק תוך 1-24 שעות בדרך כלל.
אם הוספתם noindex ידני ב-Advanced tab, וגם יש לכם הגדרה גלובלית של noindex ל-tag pages, שניהם יחולו. זה לא בעיה אם זה אותה הוראה, אבל יכול להיות בלגן אם הם סותרים. תמיד תבדקו את ה-HTML הסופי דרך view-source או curl.
📦 Bulk implementation, איך להחיל על אלפי עמודים
אם יש לכם אתר עם 5,000 עמודים ואתם רוצים להוסיף noindex ל-2,000 מהם, לא תעדכנו אחד אחד. יש 5 שיטות לעשות bulk implementation, וכל אחת מתאימה למצב אחר.
שיטה 1, robots.txt לתיקיות שלמות
אם העמודים נמצאים בתיקייה משותפת, הכי קל ל-robots.txt. לדוגמה, כל ה-PDFs ב-/downloads/,
User-agent: *
Disallow: /downloads/זוכרים מפרק 3, זה חוסם crawl, לא indexing. אם העמודים כבר באינדקס, זה לא יוציא אותם. לכן שיטה זאת מתאימה ל-PREVENTION של חדשים, לא לטיפול בקיימים.
שיטה 2, X-Robots-Tag ברמת תיקייה (Apache/Nginx)
השיטה הנקייה ביותר אם יש לכם גישה לשרת. פעם אחת מגדירים ב-.htaccess או nginx.conf, וכל הקבצים בתיקייה מקבלים את ה-header. זה גם משפיע מיד על אינדוקס, לא רק על crawl.
# .htaccess ב-/private-content/
Header set X-Robots-Tag "noindex, follow"שיטה 3, עדכון template (WordPress/static)
אם העמודים שייכים ל-template מסוים, ערכו את ה-template. לדוגמה ב-WordPress, ב-archive.php ב-theme שלכם הוסיפו,
<?php if (is_tag()) : ?>
<meta name="robots" content="noindex, follow">
<?php endif; ?>או דרך WordPress hook,
add_action('wp_head', function() {
if (is_tag() || is_date()) {
echo '<meta name="robots" content="noindex, follow">';
}
});שיטה 4, script שעובר על קבצים סטטיים
אם האתר שלכם HTML סטטי (כמו shmul.co.il), סקריפט Python שעובר על הקבצים ומוסיף את ה-tag. לדוגמה,
from pathlib import Path
import re
for html_file in Path('build/').rglob('thank-you/*.html'):
content = html_file.read_text(encoding='utf-8')
if 'meta name="robots"' not in content:
content = content.replace('</head>', ' <meta name="robots" content="noindex">\n</head>')
html_file.write_text(content, encoding='utf-8')שיטה 5, plugin/script bulk ב-CMS
ב-WordPress, יש פלאגינים שמאפשרים bulk edit של meta robots לפי קריטריונים (כל הפוסטים מקטגוריה X, כל הפוסטים שנכתבו לפני 2020). Yoast Premium ו-Rank Math Pro תומכים בזה. שימושי במיוחד אחרי אודיט שגילה שצריך לטפל בכמות גדולה.
✅ מתי לבחור בכל שיטה
- תיקייה שלמה לא-HTML, X-Robots-Tag
- template ספציפי, עריכת template
- קבצים סטטיים מפוזרים, script Python
- WordPress עם הרבה תוכן, bulk edit דרך plugin
- חסימת crawl גורפת, robots.txt
❌ מתי לא להשתמש בכל שיטה
- robots.txt לעמודים שכבר באינדקס
- X-Robots-Tag בשרת shared בלי גישה
- script ידני אם יש פתרון template
- plugin bulk ללא בדיקה דגימה לפני
לפני שאתם מחילים שינוי על 5,000 עמודים, החילו על 5 עמודים. בדקו ידנית שזה עובד כצפוי (לבדקו עם curl או view-source). רק אז הריצו את ה-bulk הגורף. רגרסיה של 5,000 עמודים זה סיוט שעיתים קשה לשחזר ממנו.
🔍 Verification, curl ו-GSC URL Inspection
הוספתם meta robots או X-Robots-Tag. איך אתם יודעים שזה באמת עובד? יש 2 דרכים אמינות, curl לבדיקה טכנית מיידית, ו-GSC URL Inspection לאימות מה גוגל באמת רואה. בלי שתעשו את שתי הבדיקות, אתם רק מקווים שזה עובד.
שיטה 1, curl לבדיקת X-Robots-Tag
זאת הדרך הכי מהירה לבדוק אם X-Robots-Tag header מוחזר. טרמינל,
curl -I https://example.co.il/document.pdfה--I מציג רק את ה-headers (HEAD request) בלי לטעון את גוף הקובץ. אם יש X-Robots-Tag, תראו אותו ברשימת ה-headers,
HTTP/2 200
date: Tue, 30 May 2026 12:00:00 GMT
content-type: application/pdf
x-robots-tag: noindex, nofollowאם הוא לא מופיע, הוא לא מוגדר נכון בשרת. זה כלי הבדיקה הטוב ביותר ל-X-Robots-Tag, כי לא ניתן לראות את ה-header ב-view-source של דפדפן.
שיטה 2, view-source לבדיקת meta robots
פתחו את העמוד בדפדפן, Ctrl+U (או Cmd+Option+U במק) לפתיחת view-source. Ctrl+F וחפשו name="robots". תראו את ה-meta tag עם ה-content שלו. זה מאמת שה-HTML מכיל את ה-tag.
אם אתם משתמשים בכלי devtools (F12), לכו ל-Elements tab וחפשו ב-DOM. לפעמים tags מוזרקים על ידי JavaScript אחרי הטעינה הראשונית, וגוגל לא רואה אותם. view-source מציג רק את ה-HTML שהשרת החזיר, וזה מה שגוגל רואה.
שיטה 3, GSC URL Inspection, המעמד הסופי
הכלי הכי חשוב. גם curl וגם view-source מראים לכם מה אתם רואים. אבל גוגל יכול לעיתים לפרש אחרת. GSC URL Inspection מראה לכם בדיוק מה גוגל רואה.
- פתחו Google Search Console
- הקלידו את ה-URL בשורת החיפוש העליונה
- חכו לתוצאות
- הסתכלו על "Indexing" ועל "Crawl"
- אם יש noindex, תראו "Excluded by 'noindex' tag"
- אם רוצים בדיקה לייב (אחרי שינוי), לחצו "Test Live URL"
הבדיקה הלייב סורקת את ה-URL בזמן אמת, מציגה לכם בדיוק מה גוגל רואה כרגע. הכי שימושי אחרי שעשיתם שינוי ורוצים לאמת שגוגל יראה אותו.
שיטה 4, Chrome DevTools Network tab
אם אתם רוצים לראות את ה-headers שכל request מקבל באתר, פתחו F12, לכו ל-Network tab, Refresh. לכל בקשה אתם רואים את ה-headers, כולל X-Robots-Tag אם קיים. שימושי לבדיקה של כמה URLs במהירות.
אחרי כל שינוי משמעותי של meta robots או X-Robots-Tag, אני עושה 3 בדיקות, (1) curl -I לאימוט ה-header, (2) view-source לאימות ה-meta tag, (3) GSC URL Inspection Live לאימות מה גוגל רואה. 3 הבדיקות יחד נותנות אישור מוחלט. אם עברתם רק על 1 או 2, אתם פסחים על אישור קריטי.
⚡ Conflicts בין robots.txt + meta robots, מי גובר על מי
הבנו את 2 המנגנונים. אבל מה קורה כשהם סותרים? זה קורה הרבה יותר ממה שחושבים, ולא תמיד יודעים מי גובר. בואו נסדר את הסדר ההיררכי.
סדר עדיפויות בסיסי
גוגל קורא את ה-instructions בסדר הזה,
שלב 1, robots.txt
לפני שגוגל נכנס לעמוד, הוא בודק את robots.txt. אם יש Disallow, הוא לא ייכנס. זה ה-firstcheck.
שלב 2, meta robots או X-Robots-Tag
רק אם robots.txt מאפשר את ה-crawl, גוגל ייכנס לעמוד וייקרא את ה-meta robots או X-Robots-Tag. אם robots.txt חוסם, הוא לעולם לא יראה את ה-meta.
תרחיש 1, robots.txt חוסם + meta noindex
גוגל לא נכנס. לא יראה את ה-noindex. אם יש קישורים חיצוניים לעמוד, הוא יכול להיכלל באינדקס בכל זאת. זה התרחיש הקלאסי הגרוע שדיברנו בפרק 4.
תרחיש 2, robots.txt מאפשר + meta noindex
גוגל נכנס, רואה את ה-noindex, ולא כולל באינדקס. זאת הדרך הנכונה והיחידה להוציא עמוד מהאינדקס.
תרחיש 3, robots.txt מאפשר + X-Robots-Tag noindex
גוגל מקבל את ה-HTTP response, רואה את ה-X-Robots-Tag header, ולא כולל באינדקס. שווה בדיוק ל-meta noindex, רק דרך header במקום HTML tag.
תרחיש 4, meta robots + X-Robots-Tag סותרים
אם meta robots אומר index ו-X-Robots-Tag אומר noindex, ההוראה המגבילה ביותר גוברת. זה אומר noindex (כי הוא מגביל יותר מ-index). גוגל תמיד הולך עם ה-restrictive interpretation כדי להיות בטוח שהוא מכבד את ה-publisher.
תרחיש 5, per-bot tag + generic tag
כיסינו את זה בפרק 8. ה-per-bot tag גובר על ה-generic לאותו bot ספציפי. Googlebot tag גובר על robots tag עבור Googlebot, Bingbot tag גובר על robots tag עבור Bingbot, וכו'.
תרחיש 6, meta noindex + canonical
זה תרחיש שמבלבל. אם עמוד יש לו גם noindex וגם canonical לעמוד אחר, מה קורה? גוגל יראה את שניהם. ה-noindex אומר "אל תכלול", וזאת ההוראה הסופית. ה-canonical נשאר נקודת ייחוס לעמוד הראשי, אבל לא משנה את ה-noindex.
| תרחיש | תוצאה |
|---|---|
| robots.txt disallow + meta noindex | גוגל לא רואה את ה-noindex, העמוד יכול להיכלל |
| robots.txt allow + meta noindex | גוגל רואה ולא כולל, הדרך הנכונה |
| meta index + X-Robots noindex | noindex גובר (restrictive) |
| googlebot index + robots noindex | Googlebot רואה index, שאר ה-bots רואים noindex |
| meta noindex + canonical | noindex גובר על canonical |
אחת לרבעון, הריצו Screaming Frog על האתר, וייצאו את עמודת meta robots + X-Robots-Tag + robots.txt status. מצאו את כל הקונפליקטים והפנו אליהם. לעולם אל תניחו שהכל בסדר רק כי אתם הגדרתם נכון לפני שנה, פלאגינים מתעדכנים, themes משתנים, ושום דבר לא יציב.
🚀 הטעות של noindex לפני launch שלא הוסר, הסיוט של כל מפתח
זאת הטעות הכי הרסנית בנושא הזה. ראיתי אותה אצל לפחות 30 לקוחות בקריירה שלי. אתר חדש משתחרר, ולפעמים שבועות אחרי שהוא live, אף עמוד לא מופיע בגוגל. הסיבה, noindex נשאר על האתר מתקופת הפיתוח. אף אחד לא זוכר להסיר אותו, וגוגל בנימוס לא כולל שום עמוד באינדקס. וזה הרגע שמתחילה הפאניקה.
איך זה קורה
במהלך הפיתוח, מפתחים שמים noindex על כל האתר כדי שגוגל לא יסרוק גרסת פיתוח. זה הגיוני. הם משתמשים באחד מהשניים,
- WordPress, Settings > Reading > Discourage search engines, זה checkbox שמוסיף
<meta name="robots" content="noindex, nofollow">לכל עמוד באתר - קוד בקובץ template, מפתח מוסיף ידנית meta robots noindex ל-header.php
כשהאתר עולה לפרודקשן, צריך להסיר את ה-noindex. אבל לפעמים שוכחים. ואז הסיוט מתחיל, האתר חי, אבל גוגל לא רואה אותו, או רואה ולא כולל באינדקס.
הסימנים שזה קרה לכם
אחרי שבועיים מ-launch, אתם בודקים ב-GSC ורואים,
- Coverage report, הרבה "Excluded by 'noindex' tag"
- Performance, מעט מאוד impressions או clicks
- URL Inspection, מוצג "Excluded by noindex tag"
- בדפדפן, view-source, יש
noindexב-meta robots
הפתרון, checklist מסירה לפני launch
לפני כל launch (אתר חדש, migration, או major update), אני עובד לפי checklist הזה,
בדיקת WordPress setting
Settings > Reading > וודאו ש-"Discourage search engines" לא מסומן. אם מסומן, הסירו.
בדיקת theme/plugin overrides
חפשו ב-theme files, plugins, ו-functions.php אחרי המילה
noindex. אם תוסיף, בדקו אם זה אמור להיות שם או שזה leftover מפיתוח.בדיקת robots.txt
וודאו שאין
Disallow: /שחוסם את כל האתר. זה הקלאסי של development environments שעובר ל-production בטעות.בדיקת .htaccess
חפשו בקובץ אחרי X-Robots-Tag. אם יש, וזה לא אמור להיות שם, הסירו.
בדיקה דרך view-source
פתחו את ה-homepage, Ctrl+U, חפשו
name="robots". אם יש noindex, יש בעיה.בדיקה דרך curl
הריצו
curl -I https://yoursite.co.il/ובדקו שאין X-Robots-Tag עם noindex.בדיקה דרך GSC URL Inspection
הגישו את ה-homepage ל-URL Inspection, בדקו ש-status הוא "URL is on Google" ולא "Excluded by noindex tag".
גם אם אתם מסירים את ה-noindex היום, גוגל לא יחזור מיד. הוא צריך לסרוק את האתר שוב, לראות שהוא הוסר, ולהחיל בחזרה. זה יכול לקחת שבועות, לאתר חדש אפילו חודשים. בקשו Request Indexing לעמודים הראשיים כדי להאיץ, אבל לא תוכלו לעשות 5,000 עמודים אחד-אחד. הסבלנות היא חברה כאן.
הסיוט שלי האישי
לקוח שלי עשה migration ל-Hostinger. האתר עלה. 3 שבועות אחרי, הוא התקשר בפאניקה, "שמוליק, אין תנועה מגוגל, מה קרה?". אבחנה מהירה, noindex על כל האתר. הסבר, המפתח שעשה את המigration שכח להסיר את ה-WordPress "discourage search engines" setting אחרי שהוא העלה את האתר. 3 שבועות איבדנו, ועוד 6 שבועות לקח להתאושש מלא. זה 3 חודשים של תנועה אבודה בגלל checkbox אחד. לכן ה-launch checklist קריטי. לעומק על מעבר אתר, ראו את המדריך ל-canonical URLs.
📋 Audit חודשי + checklist robots מקיפה
הנה ה-checklist שאני עובד לפיו, פעם בחודש, לכל אתר משמעותי שאני מטפל בו. זה לא ארוך, זה לוקח 30-60 דקות, וזה תופס בעיות לפני שהן הופכות לקריטיות. שמרו את הפרק הזה ופעלו לפיו.
1. בדיקת robots.txt
- פתחו
https://yoursite.co.il/robots.txtבדפדפן - וודאו שאין
Disallow: /שחוסם את כל האתר - וודאו שכל ה-paths שאתם רוצים לאינדקס לא נחסמים
- וודאו שיש Sitemap declaration בסוף הקובץ
- הריצו
curl https://yoursite.co.il/robots.txtלאימות שהשרת מחזיר אותו
2. בדיקת meta robots על עמודי המפתח
- פתחו את ה-homepage ובדקו ב-view-source את meta robots
- בדקו 5 עמודים פופולריים, שאמורים להיות באינדקס
- בדקו עמוד thank-you, שאמור להיות noindex
- בדקו עמוד tag/category ספציפי, לפי המדיניות שלכם
3. בדיקת X-Robots-Tag
- הריצו
curl -I https://yoursite.co.il/sample.pdf(אם יש PDFs) ובדקו שיש X-Robots-Tag noindex - הריצו אותו דבר ל-DOCX, XLSX, ועוד
- בדקו לפחות 3 עמודים שונים מסוגי קובץ שונים
4. אודיט ב-Screaming Frog
- הריצו Screaming Frog על האתר
- ייצאו את עמודת Meta Robots
- ייצאו את עמודת X-Robots-Tag
- סננו לעמודים עם noindex, וודאו שהם באמת צריכים להיות noindex
- סננו לעמודים עם robots disallow ב-robots.txt, וודאו שזה מכוון
5. בדיקת GSC Coverage Report
- פתחו GSC > Pages
- בדקו "Excluded by 'noindex' tag", האם המספר הגיוני
- בדקו "Blocked by robots.txt", האם המספר הגיוני
- בדקו "Crawled, currently not indexed", האם יש עמודים שלא צריכים להיות שם
6. בדיקת קונפליקטים
- חפשו עמודים שיש להם גם robots.txt block וגם meta noindex (הסיוט)
- חפשו עמודים שיש להם גם canonical וגם noindex (יכולים להיות מכוונים, אבל לבדוק)
- חפשו עמודי per-bot שאתם לא זוכרים שהגדרתם
7. בדיקת התראות חדשות ב-GSC
- פתחו GSC > Messages
- קראו כל הודעה חדשה
- במיוחד התראות על "Indexing issues detected"
8. בדיקת הגדרות תוסף SEO
- Yoast/Rank Math > Search Appearance
- וודאו שההגדרות הגלובליות עדיין נכונות (Tags noindex, Author noindex, וכו')
- בדקו שלא היה plugin update ששינה הגדרות
אני מנהל אתרים שלא היה להם בעיית robots/indexing משמעותית כבר 5 שנים, בעיקר בזכות ה-checklist הזה. זה לא קסם, זאת משמעת. פעם בחודש, שעה אחת, שמירה על שליטה מלאה.
📖 מילון מושגים
- Meta Robots Tag
- תג HTML בתוך ה-head של עמוד שנותן הוראות ל-crawlers על indexing, follow, archive, ועוד directives. פועל ברמת עמוד בודד.
- X-Robots-Tag
- HTTP response header עם אותן יכולות של meta robots, אבל פועל גם על קבצים שאינם HTML (PDF, תמונות, JSON) וניתן להחיל ברמת תיקייה.
- noindex
- directive שאומר ל-crawler לסרוק את העמוד אבל לא לכלול אותו באינדקס החיפוש. העמוד לא יופיע בתוצאות SERP.
- nofollow
- directive שאומר ל-crawler לא לעקוב אחרי הלינקים בעמוד הזה ולא להעביר link equity דרכם.
- noarchive
- directive שאומר לגוגל לא לשמור עותק cached של העמוד. לא יופיע קישור Cached בתוצאות החיפוש.
- max-snippet
- directive שמגביל את אורך ה-snippet (התיאור) שמופיע בתוצאות החיפוש. לדוגמה, max-snippet:120 = עד 120 תווים.
- unavailable_after
- directive שאומר ל-crawler להוציא את העמוד מהאינדקס אחרי תאריך מסוים. שימושי לעמודי קמפיין מוגבל בזמן.
- Per-bot directive
- מצב שבו מגדירים directives שונים ל-bots שונים (Googlebot, Bingbot, Yandex). ה-bot-specific tag גובר על generic.
- URL Inspection
- כלי בתוך Google Search Console שמראה מה גוגל יודע על עמוד מסוים, כולל indexing status, noindex, canonical, ועוד.
- Crawl-vs-Index
- ההבחנה הקריטית בין crawling (גישה לעמוד) ל-indexing (הכללה באינדקס). robots.txt חוסם crawl, meta robots חוסם indexing.
❓ שאלות נפוצות
מה זה meta robots tag בקצרה?
מה ההבדל בין meta robots ל-robots.txt?
האם robots.txt + noindex זה double protection?
מה זה X-Robots-Tag?
מתי X-Robots-Tag עדיף על meta robots?
מה ההבדל בין noindex,follow ל-noindex,nofollow?
האם meta noindex משפיע מיד?
מה זה per-bot directive?
איך מאמתים ש-X-Robots-Tag עובד?
מה קורה אם יש קונפליקט בין meta robots ל-X-Robots-Tag?
האם noindex פוגע בקישורים פנימיים שמובילים אל העמוד?
האם WordPress 'Discourage search engines' זה אותו דבר כמו noindex?
האם yoast/rank math מאפשרים שליטה על כל ה-directives?
האם 410 Gone משפיע על אינדקס כמו noindex?
כמה פעמים בשנה צריך לעשות audit של meta robots?
אתר שלא עולה בגוגל זה חוב, לא נכס
אם אתם פה, אתם כבר מבינים שמשהו לא בסדר. שלחו הודעה, נדבר. בלי התחייבות, בלי לחץ.