TF-IDF ו-SEO, מה זה ואיך משתמשים בפועל

פרק 01

🧮 מה זה TF-IDF, ‏הסבר חי בלי מתמטיקה מפחידה

תקשיבו. ‏אני אפתח עם השאלה שאני מקבל הכי הרבה ממקדמים מתחילים, "שמוליק, כל הכלים האלה (Clearscope, Surfer, Frase) מדברים על TF-IDF, ‏אבל מה זה בעצם?". ‏רובם מסתפקים בלהריץ את הכלי, ‏לקבל רשימת מילים, ‏ולדחוף אותן לטקסט. ‏הם לא מבינים שמתחת לקפוטה רץ אלגוריתם סטטיסטי בן 50 ‏שנה, ‏ושכשמבינים אותו, ‏פתאום יודעים מה לעשות כשהכלי טועה. ‏ויודעים גם מתי להתעלם מההמלצה של הכלי, ‏וזה הופך אתכם מאיש ביצוע למקצוען.

TF-IDF (Term Frequency-Inverse Document Frequency) הוא מדד סטטיסטי שמודד עד כמה מילה חשובה לטקסט מסוים, ‏ביחס לאוסף הטקסטים כולו. ‏בעברית פשוטה, ‏הוא עונה על שאלה אחת, ‏"איזה מילים מאפיינות באמת את הטקסט הזה, ולא סתם מופיעות בו כי הן מילים שכיחות?". ‏זה ההבדל בין "הוא" ל-"קיבולת אורגנית של אגם הכנרת". ‏שתי הביטויים מופיעים בטקסט, ‏אבל רק אחד מהם באמת אומר לנו על מה הטקסט מדבר.

⚠️ הנקודה החשובה ביותר

TF-IDF זה לא רשימה של מילות מפתח שצריך לדחוף. ‏זה מדד יחסי שמשווה את התדירות במסמך שלכם לתדירות בכל קורפוס המסמכים. ‏מילה שמופיעה הרבה אצלכם וגם הרבה אצל כולם ("מאמר", "דף", "אתר"), ‏מקבלת ציון נמוך. ‏מילה שמופיעה הרבה אצלכם אבל נדיר אצל אחרים ("backlink", "crawl budget", "כוונת חיפוש"), ‏מקבלת ציון גבוה. ‏זה המהות.

בואו ניקח דוגמה אינטואיטיבית. ‏דמיינו ספרייה עם מיליון ספרים. ‏ספר אחד מדבר על קונדיטוריה צרפתית. ‏המילה "הוא" תופיע בו אלפי פעמים, ‏אבל היא תופיע באותה תדירות בכל הספרים האחרים, ‏אז היא לא מספרת לנו כלום על הספר. ‏לעומת זאת, ‏המילה "קרואסון" תופיע בו אולי 200 ‏פעמים, ‏ובכל הספרים האחרים יחד תופיע פעמיים. ‏הציון של "קרואסון" בספר הזה יהיה גבוה במיוחד, ‏כי היא מאפיינת אותו. ‏זה TF-IDF בלי נוסחה, ‏פשוט ככה. ‏בדיוק אותו עקרון פועל ברגע שאתם מקלידים שאילתה בגוגל, ‏המנוע שואל את עצמו, "אילו מסמכים בקורפוס שלי הכי מאפיינים את המילים שהמשתמש חיפש?". ‏זה SEO 101, ‏רק שלרוב מסתירים אותו תחת ז'רגון.

במאמר הזה אני אעבור איתכם על כל מה שצריך לדעת על TF-IDF במונחי SEO. ‏הנוסחה (בגרסה ידידותית), ‏ההיסטוריה (לדעת מאיפה זה בא חשוב), ‏איך הכלים המודרניים בנויים סביב זה, ‏ואיך להשתמש בזה בפועל בלי להפוך לפאקר מילים. ‏בלי ז'רגון מיותר. ‏אם אחרי המאמר אתם עדיין תקועים, ‏יש לכם איך לדבר איתי ישירות. ‏שמי שמוליק דורינבאום, ‏20 ‏שנה במגרש, ‏ואני אישית השתמשתי ב-TF-IDF לפני שהיו כלי SEO שמסתירים את הנוסחה תחת UI נחמד. ‏אז זה לא תיאוריה משלי, ‏זה ניסיון מצטבר של עבודה עם הכלי הזה לפני ואחרי כל גלגול של אלגוריתם גוגל.

פרק 02

📐 הנוסחה (TF × IDF), ‏המתמטיקה הפשוטה

אני יודע שאמרתי "בלי מתמטיקה מפחידה". ‏אז זאת המתמטיקה הלא מפחידה. ‏הנוסחה של TF-IDF היא מכפלה של שני חלקים, ‏וכל אחד מהם הוא חישוב בסיסי שאפשר לעשות בראש או בגיליון. ‏אם תבינו את שני החלקים, ‏תבינו את כל מה שעושים הכלים המתוחכמים שמסתירים את זה מאחורי ציון יחיד.

חלק 1, TF (Term Frequency)

זה כמה פעמים מילה מסוימת מופיעה במסמך שלכם, ‏יחסית לכמות המילים בסך הכל באותו מסמך. ‏הנוסחה המינימלית,

TF(t,d) = ‏(כמה פעמים המילה t מופיעה במסמך d) / (כמות המילים הכוללת ב-d)

אם המילה "backlink" מופיעה 12 ‏פעמים במאמר של 2,000 ‏מילים, ‏ה-TF שלה הוא 12/2000 = 0.006. ‏זה הכל. ‏יש וריאציות (לוגריתמיות, ‏מנורמלות), ‏אבל הרעיון זהה, ‏עד כמה המילה דחוסה במסמך הזה. ‏ב-90% ‏מהשימושים בעולם ה-SEO, ‏זאת הוריאציה הפשוטה שתעבדו איתה.

חלק 2, IDF (Inverse Document Frequency)

זה החלק שמבדיל TF-IDF מ-keyword density. ‏IDF מודד עד כמה המילה נדירה בכל הקורפוס (אוסף המסמכים). ‏הנוסחה,

IDF(t) = log(סך כל המסמכים בקורפוס / מספר המסמכים שמכילים את t)

אם יש לי קורפוס של מיליון מסמכים, ‏והמילה "הוא" מופיעה ב-950,000 ‏מהם, ‏ה-IDF שלה יהיה log(1,000,000/950,000) = log(1.05) ≈ 0.02. ‏זעיר. ‏לעומת זאת, ‏אם "backlink" מופיעה רק ב-1,000 ‏מסמכים, ‏ה-IDF שלה יהיה log(1,000,000/1,000) = log(1,000) = 3. ‏פי 150 ‏יותר. ‏הלוגריתם פה הוא לא מתחכמות מתמטית, ‏פשוט דרך להפוך מספרים גדולים מאוד (יחס של מיליון ל-1) ‏לסקאלה ניתנת לטיפול.

החיבור, TF × IDF

הציון הסופי הוא מכפלת השניים. ‏ככה המילה "הוא" שמופיעה הרבה במסמך אבל גם בכל מקום אחר, ‏מקבלת ציון כמעט אפס. ‏המילה "backlink" שמופיעה במסמך וגם נדירה בקורפוס, ‏מקבלת ציון גבוה. ‏זה מסנן את הרעש. ‏כל מה שכלי SEO מודרני עושה הוא להריץ את החישוב הזה על top SERP results ולהציג לכם רשימה ממוינת מהציון הגבוה לנמוך. ‏כל היפר וכל UI יפה זה כסות, ‏הליבה היא מכפלה אחת.

💡 דוגמה מספרית בעברית

בכלי שלי הפנימי, ‏הרצתי TF-IDF על 100 ‏מאמרים שלי בנושא SEO. ‏המילה "של" קיבלה ציון 0.0001, ‏כי היא מופיעה בכל מאמר עברי בעולם. ‏המילה "קניבליזציה" קיבלה ציון 0.18, ‏גבוה מאוד, ‏כי מופיעה בעיקר במאמרים בנושא קניבליזציה של מילות מפתח. ‏זה אומר שאם אני רוצה שמאמר שלי ידורג ל-"קניבליזציה", ‏עליי לדאוג שהמילה תופיע בו מספיק פעמים יחסית למסמך, ‏אבל באופן טבעי שמתאים לקורפוס הכללי.

כל הכלים שעובדים עם TF-IDF (Surfer, ‏Clearscope, ‏Frase, ‏MarketMuse, ‏NeuronWriter) מבצעים בדיוק את החישוב הזה. ‏פשוט בעוצמה גדולה (מיליוני מסמכים) ועם ויזואליזציה יפה. ‏אבל הנוסחה היא הנוסחה, ‏ולא משתנה כבר 50 ‏שנה.

פרק 03

📚 מאיפה זה בא, ‏היסטוריה של 50 שנה בסטטיסטיקה

שמוליק, ‏למה אני צריך לדעת היסטוריה? ‏כי כשמבינים מאיפה כלי הגיע, ‏מבינים גם למה הוא נראה כמו שהוא נראה, ‏ולמה יש לו מגבלות שאין דרך לעקוף. ‏TF-IDF לא נולד בעולם ה-SEO. ‏הוא נולד בעולם אחזור המידע (Information Retrieval), ‏שני עשורים לפני שגוגל קיימת בכלל.

שורשים, ‏שנות ה-50

הרעיון של מדידת חשיבות מילים בטקסט התחיל עם הנס לוהן (Hans Peter Luhn) ב-IBM ב-1957, ‏במאמר שכותרתו "A Statistical Approach to Mechanized Encoding and Searching of Literary Information". ‏הוא הציע שמילים בעלות תדירות בינונית הן הכי מאפיינות (לא הנפוצות מדי, ‏לא הנדירות מדי). ‏זה היה הזרע. ‏לוהן לא קרא לזה TF-IDF, ‏אבל הוא שם את הבסיס לרעיון שתדירות מילה זה אות חשיבות.

הולדת ה-IDF, 1972

החתימה האמיתית הגיעה מ-קארן ספרק ג'ונס (Karen Spärck Jones), ‏בלשנית חישובית בריטית מאוניברסיטת קיימברידג'. ‏ב-1972 ‏היא פרסמה מאמר בשם "A Statistical Interpretation of Term Specificity and its Application in Retrieval". ‏שם היא הציגה רשמית את ה-IDF, ‏הרעיון שמילה נדירה בקורפוס היא אות לכך שמילה ספציפית, ‏ולכן חשובה יותר באבחנה בין מסמכים. ‏ספרק ג'ונס לא קיבלה אז את הקרדיט שמגיע לה, ‏אבל היום היא נחשבת לאמא של אחזור המידע המודרני.

השנים שאחרי, ‏שילוב TF + IDF

בשנות ה-80 ‏וה-90, ‏חוקרים שילבו את TF של לוהן עם ה-IDF של ספרק ג'ונס וקיבלו את TF-IDF כמו שאנחנו מכירים. ‏זה הפך לאלגוריתם הסטנדרטי של מנועי חיפוש מוקדמים, ‏לפני גוגל. ‏Inktomi, ‏AltaVista, ‏Lycos, ‏כולם השתמשו בגרסאות של TF-IDF כליבת האחזור שלהם.

גוגל, ‏1998

כשגוגל קמה ב-1998, ‏היא לא המציאה את TF-IDF. ‏היא הוסיפה לו את PageRank, ‏שיפט פרדיגמטי שאמר "חוץ מהתוכן עצמו, ‏בואו נסתכל על מי מקשר אליו". ‏אבל TF-IDF נשאר בליבה, ‏רכיב יסודי שעליו נבנו שכבות מורכבות יותר. ‏גם היום, ‏אחרי BERT ו-MUM, ‏ה-IR (Information Retrieval) ‏הראשוני של גוגל עדיין משתמש ב-וריאציות של TF-IDF כדי לאחזר מועמדים ראשונים. ‏רק אחר כך השכבות הסמנטיות בודקות את הרלוונטיות העדינה.

קארן ספרק ג'ונס פיתחה את IDF ב-1972, ‏ב-2026, ‏אחרי 54 ‏שנה ואחרי שגוגל שינתה כיוון 200 ‏פעם, ‏עדיין כל כלי SEO עובד על הרעיון שלה. ‏זאת אבן יסוד שלא משתנה.שמוליק דורינבאום

למה זה רלוונטי לכם היום

כשאתם רואים כלי SEO חדש שמבטיח "אנחנו השונים", ‏השאלה הראשונה לשאול היא, ‏מה תחת המנוע. ‏אם זה TF-IDF עם UI אחר, ‏תדעו לזהות. ‏אם זה משהו מהותית אחר (embeddings, ‏knowledge graph), ‏תדעו לתבוע הוכחות. ‏ההיסטוריה לא לימוד יבש, ‏היא היא הכלי הביקורתי שמאפשר לכם להבחין בין הבטחות לבין שיפורים אמיתיים. ‏כל פעם שאני קונה כלי חדש, ‏אני שואל את המוכר "איזה אלגוריתם לוז שאתם משתמשים?", ‏אם הוא לא יודע לענות, ‏זה דגל אדום.

פרק 04

🔍 למה גוגל (ולא רק) משתמשת ב-TF-IDF כאות דירוג

שאלה שלקוחות שואלים אותי תכופות, "שמוליק, ‏אם TF-IDF זה אלגוריתם של שנות ה-70, ‏למה גוגל המודרנית עוד תלויה בו?". ‏התשובה היא שגוגל לא תלויה בו, ‏אבל היא מתחילה ממנו. ‏בואו נבין למה אלגוריתם בן 54 ‏שנה עדיין מוטמע בכל אינדקס של כל מנוע חיפוש. ‏זאת לא נוסטלגיה הנדסית, ‏זאת בחירה ארכיטקטונית מודעת.

סיבה 1, מהירות אחזור (Retrieval Speed)

גוגל מאנדקסת מאות מיליארדי עמודים. ‏כשמישהו מקליד שאילתה, ‏יש לה מילישניות לאחזר את המועמדים הראשונים. ‏TF-IDF הוא הצורה היעילה ביותר לעשות זאת, ‏אינדקס הפוך (inverted index) ‏שמחזיר את כל המסמכים שמכילים את המילים מהשאילתה, ‏ממוין לפי ציון TF-IDF. ‏האלגוריתמים הסמנטיים הכבדים (BERT, ‏MUM) ‏רצים רק על ה-1,000 ‏המועמדים הראשונים, ‏אחרי שהאינדקס ההפוך ובחר אותם.

סיבה 2, אינטרפטביליות

TF-IDF הוא אלגוריתם שקוף. ‏אם מהנדס גוגל רוצה להבין למה עמוד מסוים אוחזר, ‏הוא יכול לראות בדיוק אילו מילים תרמו ובאיזה משקל. ‏זה לא קופסה שחורה. ‏לעומת זאת, ‏שכבת ה-embeddings של BERT היא בלתי-אינטרפרטבילית. ‏גוגל צריכה את שני העולמות, ‏שכבה בסיסית שקופה למיון ראשון, ‏ושכבה עמוקה לא שקופה לקירוב הבנת כוונה. ‏בלי השכבה השקופה, ‏אי אפשר לדבג בכלל למה התוצאות נראות איך שהן נראות.

סיבה 3, חוסן מול תוכן זבל

TF-IDF מתעמת היטב עם תוכן keyword-stuffing קלאסי. ‏אם דחפתם מילה 100 ‏פעמים בעמוד, ‏ה-TF שלה גבוה, ‏אבל ה-IDF שלה גם נהיה משוקלל-נמוך כי כעת היא מופיעה הרבה במסמכים מהסוג הזה. ‏זאת אחת הסיבות שגוגל יכלה לפלטר זבל כבר מ-2003, ‏לפני שהיו לה מנגנונים מתוחכמים יותר. ‏עד היום, ‏ה-baseline להגנה מספאם טקסטואלי מתחיל ב-TF-IDF.

גם Bing, ‏גם Yandex, ‏גם המנועים החדשים

כל המנועים בשוק (Bing, ‏Yandex, ‏Baidu, ‏Naver, ‏ועכשיו גם מנועי AI כמו Perplexity ו-You.com) משתמשים בגרסאות של TF-IDF בליבה. ‏ChatGPT עצמו, ‏כשהוא מבצע retrieval מהאינטרנט (במצב browse או RAG), ‏עובד עם BM25, ‏שהיא בעצם וריאציה משופרת של TF-IDF. ‏זה הסטנדרט התעשייתי, ‏לא רק של גוגל. ‏מי שחושב לבנות מנוע חיפוש חדש מאפס, ‏יוצא מאותה אבן יסוד.

⚠️ TF-IDF הוא לא הציון הסופי

אסור להתבלבל. ‏TF-IDF הוא רכיב אחד מתוך מאות ‏בדירוג. ‏גוגל מסתכלת על authority, ‏EEAT, ‏freshness, ‏user signals, ‏schema, ‏מהירות, ‏ועוד. ‏TF-IDF הוא הכרטיס הראשוני להיכנס לקבוצת 1,000 ‏המועמדים. ‏אחרי זה מתחילה התחרות האמיתית. ‏מי שחושב ש"אם אני מטופל ב-TF-IDF אני בעמוד הראשון", ‏טועה.

פרק 05

⚰️ TF-IDF מול keyword density, ‏הקץ של "כתבו את המילה 17 פעמים"

זה הפרק שאני הכי אוהב, ‏כי הוא קובר רעיון שגרם נזק עצום ל-SEO במשך 15 ‏שנה. ‏הרעיון של keyword density (צפיפות מילת מפתח), ‏המיתוס ש"מילת המפתח צריכה להופיע 2% ‏מהטקסט". ‏זה לא רק שגוי, ‏זה מסוכן. ‏ו-TF-IDF הוא ההסבר הסטטיסטי למה.

מה זה keyword density

נוסחה פשוטה,

Keyword Density = (כמה פעמים מילת המפתח מופיעה / כמות המילים בעמוד) × 100

אם המילה "קידום אתרים" מופיעה 20 ‏פעמים בעמוד של 1,000 ‏מילים, ‏הצפיפות היא 2%. ‏הכלל המיתי בקהילת ה-SEO היה, "שאפו ל-1-3% ‏צפיפות לכל מילת מפתח". ‏זה הומצא ב-2002 ‏בערך, ‏בעידן שבו מנועי החיפוש באמת היו מסתכלים על תדירות גולמית.

למה זה מת

ברגע שגוגל אימצה TF-IDF (ואחר כך embeddings), ‏צפיפות הפכה לא רק לחסרת ערך, ‏אלא סיגנל שלילי. ‏הנה למה,

צפיפות מתעלמת מהקורפוס
אם "קידום אתרים" מופיעה ב-2% ‏מהמילים שלכם, ‏אבל גם בכל מאמר אחר על SEO היא מופיעה ב-2%, ‏אז הצפיפות הזאת היא ברירת מחדל, ‏לא הצטיינות. ‏TF-IDF מסתכל על זה ואומר, ‏"גדול, ‏עוד מאמר רגיל". ‏אין בונוס.
צפיפות מעודדת חזרתיות לא טבעית
אם הכלל הוא "2%", ‏אנשים דוחפים את המילה לטקסט בכוח. ‏זה יוצר כתיבה רובוטית, ‏שגוגל לומדת לזהות כסיגנל ספאם. ‏TF-IDF, ‏לעומת זאת, ‏מודד איזון, ‏לא תדירות מקסימלית.
צפיפות לא רואה context
המילה "בנק" יכולה להיות בנק כספי או גדת נהר. ‏צפיפות לא מבחינה. ‏TF-IDF גם לא, ‏אבל הוא לפחות מסתכל על מילים שכנות (cohort), ‏אז המילים סביב "בנק" מספרות לאלגוריתם איזה "בנק" אתם.

❌ Keyword Density (מת)

מודד תדירות מוחלטת במסמך
אין הקשר חיצוני
מעודד חזרתיות מאולצת
מתעלם ממילים סמנטיות
סיגנל אפס (לעיתים שלילי) ב-2026

✅ TF-IDF (חי וקיים)

מודד תדירות יחסית לקורפוס
מבדיל בין מילות "מאפיינות" ל"רגילות"
מעודד טקסט בעל עומק נושאי
מגלה מילים סמנטיות שכיחות
סיגנל ראשוני ברירת מחדל בכל מנוע

תקשיבו, ‏אם אתם עוד שומעים יועץ SEO שמדבר על "שאפו ל-1.5% ‏צפיפות", ‏תרחיקו. ‏הוא חי בעידן 2008. ‏זה לא רק לא יעבוד, ‏זה ייצור עמוד שגוגל תעיף. ‏העולם עבר ל-TF-IDF (ומעבר אליו, ‏לקראת embeddings), ‏וצריך לשחק לפי הכללים החדשים.

הנה ההוכחה הסטטיסטית, ‏אם תיקחו 100 ‏עמודים מובילים בכל נישה ותחשבו את צפיפות מילת המפתח שלהם, ‏תקבלו ערכים בין 0.3% ‏ל-4%, ‏בלי שום קורלציה לדירוג. ‏העמודים שמובילים לא מתייחדים בצפיפות, ‏הם מתייחדים בעומק הסמנטי. ‏זה בדיוק מה ש-TF-IDF מודד, ‏וזה בדיוק מה שצפיפות לא יכולה למדוד. ‏אם אתם מודדים את הדבר הלא נכון, ‏לא משנה כמה אתם מטפלים, ‏אתם לא תגיעו ליעד.

פרק 06

🛠 למה כל כלי תוכן מודרני בנוי על TF-IDF (Clearscope, Surfer, MarketMuse, Frase)

אם פתחתם פעם Surfer SEO, ‏Clearscope, ‏Frase, ‏MarketMuse, ‏או NeuronWriter, ‏ראיתם רשימה של מילים עם תגיות "השתמשו ב-X ‏פעמים". ‏זה TF-IDF במסווה. ‏כל הכלים האלה עושים את אותו דבר תחת מסך נחמד, ‏ובואו נסיר את המסך.

איך הכלים פועלים, ‏שלב אחר שלב

איסוף ה-SERP
הכלי מקבל מילת מפתח, ‏שולח את השאילתה לגוגל (או משתמש ב-API של Bing/SerpAPI), ‏ולוקח את 10-20 ‏התוצאות הראשונות.
סריקת התוכן
הכלי סורק כל אחד מ-10-20 ‏העמודים האלה ושולף את כל הטקסט (לפעמים מנקה chrome כמו תפריט/פוטר).
חישוב TF-IDF
הכלי מריץ TF-IDF, ‏כאשר ה-"קורפוס" שלו הוא 20 ‏העמודים האלה. ‏הוא מחשב לכל מילה (או פראזה של 2-3 ‏מילים) ציון TF-IDF.
השוואה למסמך שלכם
אתם מזינים את המסמך שלכם או מתחילים לכתוב. ‏הכלי מחשב TF-IDF גם עליכם, ‏ומציג איזה מילים יש לכם בעודף, ‏איזה בחסר, ‏ואיזה חסרות לגמרי.
המלצות לכתיבה
הכלי מציג רשימה, "השתמשו ב-X ‏עוד 3 ‏פעמים", "הוסיפו את Y ‏שאין לכם בכלל", "הפחיתו את Z, ‏יש לכם יותר מדי".

ההבדלים בין הכלים

כלי	גודל הקורפוס	סוג ציון	תוספות מעבר ל-TF-IDF
Clearscope	top 30 ‏ב-SERP	Content Grade (A+ ‏עד F)	תוספי NLP של Google Cloud
Surfer SEO	top 20	Content Score (0-100)	NLP entities, ‏מבנה כותרות, ‏אורך
Frase	top 20	Topic Score	AI-generated outlines
MarketMuse	top 30	Content Score	Topical Authority modeling
NeuronWriter	top 30	Score (0-100)	תמיכה רב-לשונית עמוקה

למה זה חשוב לכם

כשאתם מבינים שתחת המעטה כולם משתמשים באותו TF-IDF, ‏אתם מבינים שכלי החינמי ב-Python עם sklearn יכול לעשות את אותה עבודה בסיסית. ‏מה שאתם משלמים עליו בכלי בתשלום זה ה-UI, ‏הגישה ל-SERP מעודכן, ‏ושכבות נוספות (entities, ‏outlines, ‏authority). ‏אם אתם מקדם בודד עם תקציב, ‏שווה לדעת שזה אפשרי לעשות ב-Sheets + ‏סקריפט קצר.

💡 הסוד שהכלים לא מספרים

כל הכלים האלה ממליצים על מילים לפי מה ש-top SERP results משתמשים בו. ‏אבל ה-top results לא בהכרח שם כי הם השתמשו במילים האלה. ‏הם שם בגלל authority, ‏backlinks, ‏freshness, ‏ו-UX. ‏אם אתם מסתכלים על המילים שהם השתמשו בהן ומחקים, ‏אתם בעצם מחקים סימפטום, ‏לא סיבה. ‏לכן TF-IDF הוא תוספת ‏לבריף תוכן, ‏לא תחליף לאסטרטגיה.

הקשר בין הכלי לתוצאה מורכב יותר ממה שהשיווק שלהם מספר לכם. ‏יש לקוח שלי שעבד עם Surfer במשך שנה, ‏הגיע לציון 95 ‏על כל מאמר, ‏ועדיין לא ראה שיפור משמעותי בדירוגים. ‏הסיבה, ‏האתר היה חדש בלי authority. ‏הכלי שעובד היה מצוין, ‏אבל הוא ניסה לתקן את הסימפטום ולא את הסיבה. ‏ברגע שעצרנו את הבריף, ‏השקענו 6 ‏חודשים בבניית backlinks, ‏ואז חזרנו ל-Surfer, ‏הדירוגים זינקו. ‏TF-IDF עובד בעיקר כשיש לכם את הבסיסים האחרים במקום.

פרק 07

📋 שימוש מעשי, ‏איך להוציא ערכי TF-IDF מ-SERP top results

אוקיי, ‏מספיק תאוריה. ‏בואו נראה איך עושים את זה בפועל. ‏יש לכם מילת מפתח שאתם רוצים לדרג עליה, ‏ורוצים לדעת אילו מילים סמנטיות הקורפוס של ה-SERP מצפה לראות בתוכן שלכם. ‏הנה ה-workflow המינימלי, ‏בלי לקנות כלי בתשלום. ‏השיטה הזאת עובדת בעברית, ‏באנגלית, ‏ובכל שפה שאתם רוצים לכתוב בה.

שלב 1, בחרו את מילת המפתח

תהיו ספציפיים. ‏לא "SEO" אלא "איך לבחור focus keyword". ‏ככל שהמילה ארוכת-זנב יותר, ‏ה-SERP חד יותר ו-TF-IDF יחזיר תוצאות ממוקדות. ‏ראו איך לבחור focus keyword. ‏מילה רחבה תחזיר רעש, ‏מילה ספציפית תחזיר אות.

שלב 2, אספו את 10 התוצאות הראשונות

חפשו בגוגל בדפדפן incognito (כדי שלא תקבלו תוצאות מותאמות אישית) או ב-VPN. ‏לקחו את 10 ‏ה-URLs הראשונים שאינם מודעות, ‏ידיעות, ‏או YouTube. ‏רק עמודי תוכן. ‏אם 3 ‏מ-10 ‏הם תוצאות חדשות (news), ‏זה אומר ש-כוונת החיפוש ‏שונה ממה שחשבתם, ‏זה רמז להחליף מילת מפתח.

שלב 3, שלפו את הטקסט מכל עמוד

פתחו כל URL, ‏העתיקו את הטקסט הראשי (בלי chrome, ‏בלי תפריטים, ‏רק את גוף המאמר), ‏ושמרו ב-text file. ‏יש כלי ידני (View > ‏Reader Mode בכרום), ‏או אוטומטי (Python + ‏BeautifulSoup, ‏Trafilatura). ‏הקפידו לנקות תפריטים ופוטר, ‏אחרת תקבלו רעש של מילים שחוזרות בכל עמוד באתר ולא מאפיינות.

שלב 4, הריצו TF-IDF

הכי פשוט עם sklearn ב-Python,

from sklearn.feature_extraction.text import TfidfVectorizer

docs = ‏[open(f'doc_{i}.txt').read() for i in range(1,11)]

vectorizer = ‏TfidfVectorizer(max_features=50, ngram_range=(1,2))
matrix = ‏vectorizer.fit_transform(docs)

print(vectorizer.get_feature_names_out())

זה יחזיר את 50 ‏הביטויים בעלי ה-TF-IDF הגבוה ביותר ב-10 ‏המסמכים. ‏אלה המילים והפראזות שמאפיינות את הקורפוס הספציפי הזה. ngram_range=(1,2) ‏אומר שהוא יחפש גם מילים בודדות וגם צמדים, ‏שזה רוב המידע השימושי לבריף.

שלב 5, השוו למסמך שלכם

הריצו את אותו TF-IDF גם על המסמך שלכם (כמסמך 11). ‏השוו, ‏אילו מילים מ-top 50 ‏חסרות אצלכם? ‏אלה המילים שכדאי לבחון להוסיף, ‏כשתשתלבנה טבעי.

מילה (TF-IDF)	מופיעה אצלי?	פעולה
backlink	כן, ‏12 ‏פעמים	תקין
anchor text	לא	הוסיפו 1-2 ‏פעמים אם רלוונטי
nofollow	כן, ‏1 ‏פעם	שקלו עוד הזכרה
domain authority	לא	הוסיפו אם מתאים לכוונה

זה לא מורכב. ‏זה ניתן לעשות ב-30 ‏דקות לכל מילת מפתח. ‏אם אין לכם Python, ‏יש כלי web חינמיים (TextRazor, ‏Online TF-IDF Calculators) ‏שיעשו את זה ב-UI. ‏הרעיון הוא להבין מה הכלי הזה מספר לכם, ‏ולא לקבל את ההמלצה באמת מבלי לחשוב.

פרק 08

📝 בניית content brief על בסיס TF-IDF

הנה איפה זה מתחיל להניב. ‏כל מה שעשינו עד כה זה איסוף נתונים. ‏עכשיו הופכים אותם לבריף תוכן שכותב יכול לעבוד לפיו. ‏זה הצעד שאפילו רוב המקדמים הוותיקים מקצרים בו, ‏ואז מקבלים תוכן בינוני. ‏בריף טוב הוא ההבדל בין מאמר שמדורג ל-מאמר שיש לו את כל המילים אבל לא מתאחד לנושא קוהרנטי.

מבנה הבריף המבוסס TF-IDF

מילת מפתח ראשית + ערך TF-IDF יעד
למשל, "קניבליזציה של מילות מפתח", ‏יעד TF-IDF גבוה (מילה ייחודית לנושא). ‏שאפו ל-8-15 ‏הופעות במאמר של 4,000 ‏מילים.
מילות מפתח משניות (TF-IDF בינוני, ‏רלוונטיות גבוהה)
20-30 ‏מילים שעלו ב-TF-IDF של ה-SERP. ‏לכל אחת ציינו, ‏כמה פעמים להופיע (אם בכלל), ‏ובאיזה context.
מונחים סמנטיים (NLP entities)
שמות עצם ספציפיים שעולים הרבה ב-SERP, ‏שמות כלים, ‏מותגים, ‏ערים, ‏אנשים. ‏גוגל אוהב לראות כיסוי שלם של ה-entity space סביב הנושא.
שאלות (long-tail)
מ-People Also Ask ‏(PAA) ‏בגוגל, ‏או מ-Frase. ‏הוסיפו אותן כסעיפי H2/H3 ‏או כ-FAQ.
מילים שלא להשתמש
חלק מהבריף שלא מספיק מקדמים עושים. ‏אם הצפיפות של מילה מסוימת אצלי גבוהה ב-300% ‏מהממוצע ב-SERP, ‏זה אומר שאני מפזר את הפוקוס, ‏צריך להפחית.

דוגמה מעשית, ‏בריף לעמוד "איך לעשות SEO לאתר חדש"

📋 דוגמה תמציתית של בריף

Focus keyword: SEO לאתר חדש (TF-IDF גבוה, 10-15 ‏הופעות)

Secondary keywords: סייטמאפ (3-5), ‏Search Console (4-6), ‏מבנה אתר (2-4), ‏אינדוקס (5-8), ‏הגשת אתר לגוגל (2-3), ‏robots.txt (2-3), ‏HTTPS (2-3)

Entities: Google Search Console, ‏Bing Webmaster, ‏Yoast SEO, ‏Rank Math, ‏Ahrefs

Questions to address: מתי לצפות לתוצאות? ‏כמה עולה? ‏איך לבחור פלטפורמה? ‏האם צריך תוכן לפני הלאנץ'?

Anti-pattern: אל תחזרו על המילה "גוגל" יותר מ-20 ‏פעמים, ‏זה השכיח מדי בקורפוס.

למה זה עובד

בריף מבוסס TF-IDF הוא לא רק "רשימת מילים לדחוף". ‏זה מפה סמנטית של הנושא. ‏היא אומרת לכותב, "כדי שהמאמר ייתפס בעיני גוגל כעמוק וכוללני בנושא, ‏הוא צריך לכסות את התחומים הסמנטיים הבאים". ‏אם הכותב כותב מתוך הבנה (לא רק מילים), ‏הוא יכניס את המילים האלה באופן טבעי, ‏כי הן באמת מאפיינות את הנושא.

טיפ מהשטח, ‏סדר חשוב

אני מסדר את הבריף בסדר ירידה של חשיבות, ‏מילת המפתח הראשית, ‏אחר כך 5 ‏המשניות החזקות, ‏אחר כך ה-entities, ‏אחר כך השאלות. ‏הכותב שלי קורא מלמעלה ויודע מה קריטי. ‏אם הוא יקצר את המאמר באמצע, ‏לפחות הוא יכסה את החלקים החשובים. ‏גם זה ההבדל בין בריף שעובד לבריף שלא, ‏מה הכותב יבחר לעשות כשיש לו 4 ‏שעות במקום 8.

לקריאה משלימה, ‏ראו איך כותבים content brief נכון ו-אשכולות סמנטיים של מילות מפתח. ‏שילוב של שלושת המקורות (TF-IDF + ‏בריף + ‏אשכולות) ‏נותן לכם תכנית תוכן שלמה לאתר ולא רק למאמר בודד.

פרק 09

🚨 הטעות הקלאסית, ‏Over-optimization (פאקינג של TF-IDF terms)

אם נתתי לכם רשימת 30 ‏מילים בבריף, ‏הפיתוי הראשון הוא לדחוף את כולן. "שמוליק אמר X ‏פעם, ‏אז אני אכניס בדיוק X ‏פעם". ‏זאת הטעות הקטסטרופלית של עידן ה-TF-IDF. ‏לפעמים אני קורא טקסט שמיועד לתוכן SEO, ‏ויודע בשלוש פסקאות הראשונות שמישהו עבד עם Surfer בלי לחשוב.

סימני אזהרה לפאקינג

חזרתיות לא טבעית
אם בכל פסקה מופיעה מילת המפתח, ‏בלי שזה מתבקש מהתוכן, ‏יש פאקינג. ‏לעיתים אני רואה משפטים כמו "קידום אתרים זה דרך לקדם אתרים, ‏כי קידום אתרים זה החלק החשוב בקידום אתרים". ‏גוגל מזהה את זה.
מילים תלושות מהקשר
הכלי המליץ להוסיף "long-tail keywords". ‏אבל הקטע שלכם הוא על תמחור שירותי SEO. ‏אם תדחפו את הביטוי שם, ‏זה ייראה זר. ‏הוסיפו אותו רק כשהוא מתאים תוכנית.
אורך לא טבעי
הכלי אמר "שאפו ל-3,500 ‏מילים". ‏אתם מותחים ל-3,500 ‏עם פטפוט. ‏זה לא אורך, ‏זה אורך מזויף. ‏גוגל בודקת dwell time, ‏אם אנשים יוצאים אחרי 30 ‏שניות, ‏האורך עזר אפס.
צפיפות נושאית מאולצת
אם המאמר על SEO וכבר התחלתם להתפזר ל-PPC, ‏design, ‏וקופירייטינג, ‏הציון של ה-NLP יורד כי הנושא מתפזר. ‏יותר זה לא יותר טוב.

איך גוגל מזהה

גוגל לא משתמשת רק ב-TF-IDF. ‏היא משתמשת ב-שכבות סמנטיות ‏(BERT, ‏MUM, ‏embeddings) ‏שמודדות עד כמה הטקסט קוהרנטי וזורם. ‏פאקינג גורם לטקסט להיות לא קוהרנטי, ‏גם אם הסטטיסטיקה תקינה. ‏זה ההבדל בין שפת אדם לשפת מכונה.

⚠️ הסיגנל השלילי שאתם לא רואים

גם אם הכלי שלכם נותן ציון 95/100, ‏זה לא אומר שגוגל ייתן 95/100. ‏הכלי מודד פייט TF-IDF. ‏גוגל מודד את הציון בנוסף ‏למאות סיגנלים אחרים, ‏בעיקר user signals. ‏אם דחפתם מילים, ‏האנשים יקראו 30 ‏שניות ויחזרו לגוגל. ‏זה ה-pogo-sticking, ‏הסיגנל השלילי הגרוע ביותר. ‏עדיף 60/100 ‏בכלי עם טקסט שאנשים נשארים בו 5 ‏דקות, ‏מ-95/100 ‏שאנשים בורחים ממנו ב-30 ‏שניות.

הכלל שלי, ‏אם הוצאתם את הכלי ופתחתם 3 ‏פסקאות לעריכה, ‏וזה נראה מאולץ, ‏זה מאולץ. ‏סמכו על האוזן של עברית טבעית, ‏לא על הציון של הכלי. ‏הכלי הוא יועץ, ‏לא בוס.שמוליק דורינבאום

איך להימנע בפועל

שתי טכניקות עוזרות. ‏הראשונה, ‏כשאני מקבל בריף, ‏אני מבליט את 10 ‏המילים המרכזיות בלבד וזורק את השאר. ‏שאר ה-20-30 ‏מילים אני אקבל בכל מקרה כי הן באמת חלק מהנושא. ‏לא צריך לעקוב אחריהן ידנית. ‏השנייה, ‏אחרי שאני כותב את המאמר בלי להציץ בבריף, ‏אני מריץ אותו דרך הכלי לבדיקה. ‏אם הציון מתחת לסף, ‏אני בוחן בלי דחיפה אם הנושא כוסה. ‏לעיתים הוא כן, ‏ופשוט הציון הסטטיסטי טועה. ‏עברית גמישה מאוד, ‏ולא תמיד הכלי קולט מילים נרדפות.

פרק 10

🧠 BERT ו-MUM, ‏איך גוגל עברה מ-TF-IDF ל-embeddings

שאלה לגיטימית, "שמוליק, ‏אם גוגל עברה ל-BERT (2019) ‏ול-MUM ‏(2021), ‏למה בכלל לדבר על TF-IDF?". ‏בואו נצלול בדיוק למה. ‏זה החלק שמסביר את ההווה והעתיד של SEO.

מה זה embeddings בלי מתמטיקה

embedding הוא ייצוג מספרי של מילה או משפט כווקטור (רצף של מספרים, ‏לרוב 768 ‏או 1,536 ‏ממדים). ‏שתי מילים שמופיעות בהקשרים דומים, ‏מקבלות וקטורים קרובים. ‏"חתול" ו-"כלב" יהיו קרובים. "חתול" ו-"מטוס" יהיו רחוקים. ‏זה לא תלוי בתדירות אלא בהקשר.

למה זה היה שיפט פרדיגמטי

TF-IDF מודד מילים בבידוד. ‏הוא לא מבדיל בין "בנק כספי" ל"בנק נהר". ‏embeddings מבדילים, ‏כי המילים סביב יוצרות וקטור הקשרי שונה. ‏זה איפשר לגוגל להבין כוונת חיפוש (intent) בעומק שלא היה זמין קודם, ‏ראו סיווג כוונת חיפוש.

BERT, ‏2019

BERT (Bidirectional Encoder Representations from Transformers) ‏היה הצעד הראשון של גוגל לעולם ה-embeddings בקנה מידה ענק. ‏הוא מבין את ההקשר של מילה לפי כל המילים שלפניה ושאחריה (ולא רק לפניה כמו במודלים קודמים). ‏השיפט היה דרמטי בעיקר לשאילתות long-tail עם מילות יחס ("can you get medicine for someone pharmacy" התחיל סוף סוף להבין שמדובר ב-someone ולא ה-self).

MUM, ‏2021

MUM (Multitask Unified Model) ‏הוא הצעד הבא, 1,000 ‏פעם חזק יותר מ-BERT, ‏ויודע לחבר בין שפות, ‏בין סוגי מדיה (טקסט+תמונה), ‏ובין נושאים. ‏הוא יכול לענות על שאלה אחת באמצעות נתונים בשפה אחרת, ‏ולקרוא תמונה כדי להבין הקשר.

איפה TF-IDF נשאר בתמונה

גם BERT וגם MUM הם שכבות עליונות שמופעלות אחרי שכבת האחזור הראשונית. ‏האחזור הראשוני (לקיחת 1,000 ‏מועמדים מתוך מיליארדים) ‏עדיין משתמש ב-TF-IDF/BM25, ‏כי זה האלגוריתם הכי מהיר ב-scale הזה. ‏רק על 1,000 ‏המועמדים האלה רץ BERT/MUM כדי לדרג אותם בעדינות. ‏זאת אדריכלות שכבתית, ‏TF-IDF זה השער, ‏embeddings זה השופט.

💡 משמעות מעשית לכתיבה

זה אומר שעמוד שלא עובר את שער ה-TF-IDF (כי אין בו מספיק מילים מאפיינות לקטגוריה), ‏לא יגיע אפילו ל-BERT. ‏עמוד שעובר את השער אבל לא קוהרנטי סמנטית, ‏לא ידורג גבוה. ‏צריך לעבור את שני המבחנים. ‏TF-IDF הוא הכרטיס להיכנס לאולם, ‏BERT הוא השופט שמחליט על המקום.

מה זה אומר על קצב השינוי

גוגל לא הולכת להחליף את TF-IDF ביום אחד. ‏האדריכלות שכבתית, ‏וכשהיא משנה משהו, ‏היא משנה את השכבות העליונות שמסתמכות על אותה אבן יסוד. ‏ב-2019 ‏עברה ל-BERT, ‏ב-2021 ‏ל-MUM, ‏ב-2024 ‏ל-SGE, ‏ב-2026 ‏לדור הבא של ranking signals מבוססי-AI. ‏בכל גלגול, ‏שכבת האחזור הראשונית נשארה דומה. ‏אז מי שלמד לכתוב לפי TF-IDF, ‏לא צריך ללמוד מחדש בכל פעם שיש עדכון אלגוריתם, ‏רק להוסיף שכבת אופטימיזציה למעלה לפי השכבות החדשות.

פרק 11

✅ למה TF-IDF עדיין מועיל ב-2026 (כ-proxy לעומק תוכן)

אם BERT ו-MUM כל כך חכמים, ‏למה אני עדיין משתמש בכלי TF-IDF בכל בריף תוכן שאני יוצר? ‏כי TF-IDF הוא ה-proxy הכי טוב לעומק תוכן ‏שיש לי. ‏עוצמת ה-embeddings היא בו-זמנית החולשה שלהם, ‏הם בלתי-אינטרפרטביליים. ‏TF-IDF נותן לי משהו מוחשי שאפשר לעבוד איתו. ‏בעולם שבו רוב המקדמים זורקים מילים מ-AI ומקווים שיעבוד, ‏מי שעובד עם הכלי בכלים מקבל יתרון שקט.

סיבה 1, ‏פוקוס נושאי

אם המאמר שלי על "קידום אתרים מקומי" וה-TF-IDF מראה שאני חסר "Google My Business", "NAP", "reviews", "citations", ‏אני יודע שהמאמר שלי לא מספיק עמוק. ‏זה מתורגם ישירות לעומק אצל גוגל. ‏הכלי לא יודע מה גוגל "חושבת" באמת, ‏אבל הוא מספר לי איך נראה מאמר עמוק לפי הקורפוס שלה.

סיבה 2, ‏גילוי entities שפיספסתי

לפעמים אני כותב על נושא ושוכח לציין משהו בסיסי. ‏TF-IDF של ה-SERP חושף את זה, ‏"כל 10 ‏המתחרים מציינים את X, ‏אתה לא, ‏שקול להוסיף". ‏זה כמו checklist אוטומטי לאיכות.

סיבה 3, ‏סטנדרטיזציה לכותבים חיצוניים

אם אני עובד עם כותב שאני לא רוצה ללמד את כל ה-SEO, ‏אני נותן לו בריף עם רשימת מילים מ-TF-IDF ואומר "כסה את הנושאים האלה". ‏הוא לא צריך להבין למה, ‏הוא מקבל מפה. ‏זה מקצר את ה-onboarding ב-90%.

סיבה 4, ‏בדיקה אחרי כתיבה

גם אחרי שכתבתי, ‏אני מריץ את הכלי על המאמר ובודק שכיסיתי. ‏אם פיספסתי טופיק, ‏אני מוסיף פסקה. ‏זה QA שלוקח 5 ‏דקות וחוסך לי הופעה מקצועית חלקית.

סיבה 5, ‏מדידה לאורך זמן

אני שומר את ציוני ה-TF-IDF של המאמרים שלי לאורך זמן. ‏אם המאמר ירד בדירוג, ‏אני יכול לבדוק האם המתחרים העלו ציון ואני נשארתי באותו, ‏מה שדורש audit תוכן מלא. ‏זה אינדיקטור מקדים, ‏לפני שאני רואה את הירידה ב-Search Console. ‏אם אני רואה שהמתחרים העלו ציון משמעותית, ‏זה הזמן לעדכן ולא לחכות עד שאני אאבד דירוג.

סיבה 6, ‏מציאת זוויות שפיספסתי

כשאני מסתכל על רשימת המילים שעלו ב-TF-IDF של ה-SERP ולא חשבתי להזכיר בכלל, ‏זה לרוב סימן לזווית של הנושא שלא חשבתי עליה. ‏לדוגמה, ‏הרצתי TF-IDF לנושא "כתיבת תוכן SEO" ו-"voice search" עלה בדירוג גבוה. ‏לא חשבתי שזה רלוונטי, ‏אבל מהמסמכים הבנתי שגוגל מתחיל לתעדף תוכן שמתאים לחיפוש קולי. ‏זה הוסיף לי פרק שלם שלא היה במחשבה הראשונית. ‏זאת התרומה החשובה ביותר של TF-IDF, ‏לא לוודא שיש את המילים, ‏לחשוף נושאים חדשים.

✅ הכלל המעשי שלי

אני מתחיל כל פרויקט תוכן עם בריף מבוסס TF-IDF, ‏אבל לא נצמד לציון. ‏אם הכלי אומר 80, ‏אני מסתפק. ‏אם הוא אומר 95 ‏ואני צריך לדחוף מילים מאולצות, ‏אני נשאר ב-80. ‏איכות הכתיבה תמיד מנצחת את הציון של הכלי. ‏אבל בלי הבריף, ‏הייתי מפספס נושאים חשובים. ‏זה אזון.

פרק 12

💸 כלים חינמיים מול בתשלום ל-TF-IDF

בואו נדבר על כסף. ‏Clearscope עולה $170 ‏לחודש בסיסי. ‏Surfer מ-$89. ‏MarketMuse $149. ‏זה הרבה כסף, ‏ולא תמיד שווה. ‏מה החלופות החינמיות, ‏ומתי כן לשלם? ‏זה תלוי בקצב הייצור שלכם וברמת התחרות בנישה.

החלופות החינמיות

sklearn TfidfVectorizer (Python)
30 ‏שורות קוד. ‏מקבל רשימת מסמכים, ‏מחזיר ציון TF-IDF. ‏מתאים אם אתם בקלות ב-Python.
Online TF-IDF Calculator
אתרים כמו seoreviewtools.com/tf-idf-tool ‏מאפשרים להזין URLs ולקבל ניתוח. ‏מוגבל ל-5 ‏מסמכים ולעיתים איטי, ‏אבל חינם.
SEMrush Topic Research
חינם ב-trial, ‏ולפעמים בחשבון הבסיסי. ‏לא TF-IDF טהור אבל קרוב.
Google Sheets + ‏פונקציות בסיסיות
אפשר לבנות מחשבון TF-IDF ב-Sheets עם COUNTIF + ‏לוגריתם. ‏מסורבל אבל עובד.
RankMath Content AI (חינם בסיסי)
תוסף ל-WordPress עם רכיב TF-IDF, ‏חינמי לעמודי בסיס.

מתי שווה לשלם

💰 שווה לשלם

סוכנות עם 10+ ‏לקוחות, ‏צריך scale
אתר eCommerce ‏עם 1,000+ ‏עמודי קטגוריה
כותבים חיצוניים שצריכים UI חזותי
תוכן בשפות שכלים חינמיים תומכים פחות
צורך באוטומציה (API)

🆓 לא שווה לשלם

בלוג אישי עם 1-5 ‏מאמרים בחודש
אתר עסקי קטן עם 30 ‏עמודי שירות סטטיים
קופירייטר עצמאי שכותב בעיקר עברית
תקציב צמוד, ‏הכסף יעיל יותר ב-backlinks

איזה כלי בתשלום לבחור

אם אתם החלטתם לשלם, ‏הנה ההמלצה המהירה שלי, ‏Clearscope אם איכות UI ודיוק חשובים יותר ממחיר, ‏Surfer אם אתם רוצים פיצ'רים נוספים מעבר ל-TF-IDF (auditor, ‏planner, ‏SERP analyzer), ‏Frase אם אתם רוצים שילוב חזק עם AI לכתיבה, ‏MarketMuse אם אתם בסקייל ארגוני וצריכים גם topical authority modeling, ‏NeuronWriter אם רוב התוכן שלכם בעברית או שפות פחות שכיחות (הם בנו במיוחד לזה).

💡 הטיפ שלי לחוסכים

אני לא משלם על כלי TF-IDF כל חודש. ‏אני קונה Surfer לחודש אחד פעם ברבעון, ‏מריץ batch של כל המאמרים שאני עומד לכתוב ברבעון, ‏מייצא את הבריפים, ‏ומבטל. ‏זה $89 ‏פעם ברבעון במקום $356. ‏אם אתם מתכננים תוכן מראש, ‏זה עובד.

מה לעשות במשטר היברידי

גישה שאני ממליץ עליה לסוכנויות בינוניות, ‏לחזיק מינוי לכלי אחד בתשלום (Surfer, ‏כי הוא היחיד שמשלב TF-IDF + ‏אאודיט עמוד + ‏planner) ‏לשימוש על מאמרי דגל, ‏ולהשתמש בכלי חינמי או Python לשאר התוכן. ‏זה מאפשר לכם להשקיע איפה שזה חשוב באמת ולא לבזבז על כל פוסט בלוג קצר. ‏כי לבסוף, ‏לא כל מאמר זקוק לאופטימיזציה עמוקה, ‏חלק מהם נכתבים כדי לתפוס long-tail ולא להיכנס לקרב על מילה תחרותית.

פרק 13

📊 Workflow ידני ל-TF-IDF analysis (Sheets + ‏פשטות)

אם אתם לא רוצים לקנות כלי ולא רוצים לכתוב Python, ‏הנה ה-workflow הידני שלי ב-Google Sheets. ‏זה לוקח שעה ראשונה ללמוד, ‏אבל אחר כך 30 ‏דקות לכל מילת מפתח. ‏עבד לי שנים לפני שכלים בתשלום היו נגישים. ‏ועדיין עובד לי כשאני רוצה להבין למה כלי בתשלום החזיר תוצאה מוזרה.

שלב 1, ‏Sheet עם 10 עמודות

צרו Google Sheet עם עמודות, A=Term, B=Doc1, C=Doc2, ... K=Doc10. ‏בכל שורה תכניסו מילה או ביטוי שאתם רוצים לבדוק, ‏ובעמודות B-K ‏תספרו כמה פעמים היא מופיעה בכל מסמך.

שלב 2, ‏איסוף הטקסטים

פתחו את 10 ‏ה-URLs של ה-SERP בטאבים. ‏הפעילו Reader Mode (כרום, ‏F12 ‏או Cmd+Shift+R). ‏העתיקו את הטקסט של כל עמוד ל-Sheet אחר (DocsRaw).

שלב 3, ‏ספירת מילים

בעמודה Document Length שמרו את כמות המילים הכוללת בכל מסמך. ‏אפשר בנוסחה =LEN(A1)-LEN(SUBSTITUTE(A1," ",""))+1.

שלב 4, ‏ספירת הופעות מילה

לכל מילה שאתם רוצים לבדוק, ‏השתמשו ב-COUNTIF או REGEXMATCH. ‏לעברית, =(LEN(A1)-LEN(SUBSTITUTE(A1,"מילה","")))/LEN("מילה"). ‏זה נותן את ה-count.

שלב 5, ‏חישוב TF

בעמודה חדשה, TF = ‏הופעות / כמות מילים. ‏זה הציון TF של המילה במסמך.

שלב 6, ‏חישוב DF (Document Frequency)

בעמודה חדשה ספרו כמה מ-10 ‏המסמכים מכילים את המילה (לפחות פעם אחת). =COUNTIF(B1:K1,">0").

שלב 7, ‏חישוב IDF

בעמודה חדשה, IDF = LOG10(10/DF). ‏אם המילה מופיעה ב-10 ‏מסמכים, ‏IDF=0. ‏ב-1 ‏מסמך, ‏IDF=1.

שלב 8, ‏חישוב TF-IDF

פשוט TF × IDF. ‏זה הציון שלכם.

שלב 9, ‏מיון לפי TF-IDF

מיינו את הטבלה מהגבוה לנמוך. ‏המילים בראש הן החשובות הסמנטיות לקורפוס הזה.

שלב 10, ‏השוואה למסמך שלכם

הריצו את אותו תהליך גם על המאמר שלכם (כעמודה 11). ‏השוו, ‏איפה אתם חסרים? ‏איפה אתם בעודף?

💡 קיצור דרך

אל תבדקו כל מילה. ‏בדקו רק את ה-50 ‏המילים המעניינות (לא stopwords כמו "של", "את", "זה"). ‏אם אין לכם זמן לזהות 50 ‏מילים ידנית, ‏הריצו פעם אחת ChatGPT, ‏"תוציא לי 50 ‏הביטויים הכי משמעותיים מ-10 ‏המסמכים האלה", ‏ותתחילו משם.

הטעות הקלאסית של מי שעובד עם Sheets

שוכחים לנקות stopwords עבריות. ‏עברית מלאה מילים שמופיעות בכל מסמך (של, ‏את, ‏זה, ‏הוא, ‏היא, ‏כן, ‏לא, ‏גם, ‏רק, ‏עוד). ‏אם תכניסו אותן לטבלה, ‏הן יקבלו IDF נמוך ויעמיסו על הניתוח. ‏לפני שאתם מתחילים, ‏הכינו רשימה של 100 ‏stopwords עבריות ותפטרו אותן אוטומטית. ‏יש רשימות מוכנות באינטרנט, ‏חיפוש "hebrew stopwords list github" יביא אתכם לאחת. ‏עבדתי שעות שלמות בלי הטריק הזה ויצא נתונים חסרי תועלת, ‏עד שלמדתי שהניקוי המקדים שווה את 10 ‏הדקות הראשונות.

פרק 14

🎭 הטעיות נפוצות ("TF-IDF הוא האלגוריתם", "יותר זה תמיד יותר טוב")

בכל ועידת SEO שאני הולך אליה, ‏אני שומע את אותן 5 ‏טעיות לגבי TF-IDF. ‏הגיע הזמן לפרק כל אחת.

הטעיה 1, "TF-IDF הוא האלגוריתם של גוגל"

לא. ‏גוגל לא חושפת איזה אלגוריתמים מדויקים היא משתמשת, ‏אבל אנחנו יודעים שיש מאות. ‏TF-IDF/BM25 ‏הם רכיב באחזור הראשוני, ‏אבל הדירוג הסופי מבוסס על מאות סיגנלים, ‏Authority, ‏freshness, ‏user signals, ‏EEAT, ‏schema, ‏speed. ‏אם תתמקדו רק ב-TF-IDF, ‏תפספסו את 99% ‏של התמונה.

הטעיה 2, "יותר ציון TF-IDF זה יותר טוב"

לא תמיד. ‏ציון גבוה מאוד יכול להעיד על over-optimization. ‏גוגל מודדת גם טבעיות. ‏אם הציון שלכם 95 ‏אבל הטקסט מאולץ, ‏ה-user signals יהיו גרועים והדירוג יירד. ‏70-80 ‏עם טקסט זורם עדיף על 95 ‏עם טקסט מאולץ.

הטעיה 3, "TF-IDF מודד איכות"

לא. ‏TF-IDF מודד חפיפה סמנטית ‏לקורפוס. ‏איכות זה משהו אחר לגמרי, ‏מקוריות, ‏עומק, ‏זווית ייחודית, ‏מומחיות. ‏אפשר לכתוב טקסט עם ציון TF-IDF מושלם שהוא תוכן זבל. ‏ואפשר לכתוב מאסטרפיס שמקבל ציון בינוני כי הוא ייחודי מדי. ‏ראו איך כותבים תוכן evergreen.

הטעיה 4, "מילים סמנטיות זה הכל"

לא. ‏יש סיגנלים אחרים שגוגל בודקת בעמוד, ‏מבנה כותרות (H1/H2/H3), ‏schema, ‏תמונות עם alt, ‏קישורים פנימיים, ‏מהירות טעינה. ‏TF-IDF מטפל רק בטקסט. ‏אם המבנה גרוע, ‏הציון לא יציל אתכם.

הטעיה 5, "כותב חדש = ‏בריף TF-IDF"

זאת טעות שיווקית. ‏אם נותנים לכותב חדש בריף עם 100 ‏מילים לדחוף, ‏הוא יחזיר טקסט רובוטי. ‏בריף TF-IDF מתאים לכותב מנוסה שמבין שהמילים הן נושאים לכסות, ‏לא משימות לדחוף. ‏לכותב חדש, ‏תנו רשימת נושאים, ‏לא רשימת מילים.

⚠️ הסיגנל הכי ערמומי

גוגל פתחה מערכת בשם Helpful Content System. ‏אחת מהבדיקות שלה היא "האם התוכן נראה שנכתב למנוע חיפוש או לאנשים?". ‏אם דחפתם מילים בלי טעם, ‏מערכת הזאת תזהה את זה. ‏עמוד יכול לקבל ציון TF-IDF גבוה ובו זמנית להיענש על-ידי Helpful Content. ‏זאת התרבית שאני רואה הכי הרבה ב-2026.

תקשיבו, ‏הטעיה הכי חשובה לזכור היא שאף אלגוריתם בודד הוא "הקסם". ‏גוגל זה מערכת של מאות סיגנלים, ‏ו-TF-IDF הוא אחד מהם. ‏אם תקבלו את זה, ‏תפסיקו לרדוף אחרי "הציון המושלם" ותתחילו לבנות תוכן באמת איכותי.

בכל אבחנה שאני עושה ללקוח, ‏אני שואל את אותן שאלות, ‏מה ה-EEAT שלכם? ‏איזה backlinks יש לכם? ‏איזה user signals? ‏איך השרת מגיב? ‏איך ה-internal linking? ‏רק אחרי שכל אלה במקום, ‏שווה לדבר על אופטימיזציית תוכן ב-TF-IDF. ‏אחרת זה כמו לטפל בצבע של מכונית שאין לה מנוע. ‏יראה יפה, ‏לא ייסע לשום מקום.

פרק 15

🚀 עתיד TF-IDF בעולם embeddings + AI

אחרי כל מה שאמרנו, ‏השאלה המתבקשת היא, "מה יקרה עם TF-IDF בשנים הקרובות?". ‏הנה ההערכה שלי, ‏מבוסס על מה שאני רואה בכלים, ‏בעדכוני גוגל, ‏ובכיוון של מנועי ה-AI.

תרחיש 1, ‏TF-IDF נשאר ברקע (סביר ביותר)

גוגל ושאר המנועים ימשיכו להשתמש ב-TF-IDF/BM25 ‏כשכבת אחזור ראשונית, ‏פשוט כי זה הכי מהיר ב-scale. ‏המנהלים שלהם לא ימחקו רכיב שעובד טוב, ‏גם אם יש להם משהו חדש יותר. ‏שכבות ה-embeddings יישארו מעל, ‏כדירוג סופי.

תרחיש 2, ‏כלי SEO ייעלו ל-embeddings (כבר קורה)

הכלים החדשים (NeuronWriter, ‏Frase 2026) ‏כבר מתחילים לכלול ניתוח embeddings (כלומר, ‏"איך גוגל "חושבת" על העמוד שלכם בייצוג סמנטי"). ‏זה ייתן יותר תובנה מ-TF-IDF, ‏אבל יהיה יקר יותר (דורש GPU). ‏הצפייה שלי, ‏בעוד 3-5 ‏שנים, ‏כל כלי גדול יציע גם embeddings analysis לצד TF-IDF.

תרחיש 3, ‏מנועי AI מחליפים את ה-SERP הקלאסי

אם ChatGPT/Perplexity/Gemini הופכים לאיפה שאנשים מחפשים מידע, ‏TF-IDF הופך לפחות רלוונטי, ‏כי מנועי AI לא משתמשים בו במישרין. ‏אבל RAG (Retrieval Augmented Generation) ‏כן משתמש ב-vector search שמשולב עם BM25/TF-IDF. ‏אז לא ייעלם.

תרחיש 4, ‏TF-IDF נשאר כלי לימוד גם כשלא משתמשים

גם אם בעוד 10 ‏שנים אף מקדם לא יריץ TF-IDF, ‏הוא יישאר אבן יסוד שמלמדים בקורסי SEO ו-NLP, ‏כי הוא מסביר היטב את הקונספט הבסיסי. ‏לפני שאתם לומדים embeddings, ‏אתם לומדים TF-IDF.

מה אני ממליץ לעשות ב-2026

ללמוד את הבסיס
אם לא הבנתם את TF-IDF עד היום, ‏זה הזמן. ‏הוא לא ייעלם השנה ולא בשנים הבאות.
להשתמש בכלי לבריף תוכן
זה עדיין ה-shortcut הכי טוב לבריף איכותי. ‏Surfer, ‏Frase, ‏או חינמיים.
לא להתאהב בציון
הכלי הוא יועץ. ‏ה-user signals הם השופט.
לעקוב אחרי embeddings tools
בעוד שנה-שנתיים, ‏יהיה כלי ראשון מצוין לניתוח embeddings בתוכן. ‏היו ראשונים לאמץ.
להמשיך לכתוב טקסט אנושי
בכל גלגול של אלגוריתם, ‏הפתרון הוא אותו פתרון, ‏כתבו לאנשים, ‏לא למכונה. ‏מי שעושה את זה, ‏לא צריך להתאים את עצמו לכל שיפט.

✅ הסיכום שלי

TF-IDF הוא לא העתיד של SEO, ‏אבל הוא חלק מההווה ויישאר בו עוד שנים. ‏ההבנה שלו עוזרת לכם להבין מה הכלים שלכם עושים, ‏לחשוב בעומק על תוכן, ‏ולא להיות עבד למספרים. ‏זה כלי בארגז כלים, ‏לא פתרון קסם.

📖 מילון מושגים

TF-IDF: Term Frequency-Inverse Document Frequency. ‏מדד סטטיסטי שמשקלל תדירות של מילה במסמך מסוים, ‏יחסית לקורפוס כולו, ‏כדי לזהות מילים שמאפיינות במיוחד את המסמך.
Term Frequency (TF): כמה פעמים מילה מופיעה במסמך, ‏יחסית לכמות המילים הכוללת באותו מסמך. ‏מודד את הצפיפות היחסית של המילה.
Inverse Document Frequency (IDF): מדד כמה מילה נדירה בקורפוס. ‏מילים נפוצות מקבלות IDF נמוך, ‏מילים נדירות IDF גבוה. ‏מבחין בין מילים מאפיינות לכלליות.
Corpus: אוסף המסמכים שאליהם משווים מסמך מסוים. ‏בהקשר של SEO, ‏בדרך כלל top 10-30 ‏תוצאות ה-SERP למילת מפתח נתונה.
BM25: וריאציה משופרת של TF-IDF שמשמשת את רוב מנועי החיפוש המודרניים. ‏מטפלת טוב יותר במסמכים ארוכים.
Keyword Density: מדד מיושן של אחוז מילת המפתח מסך המילים בעמוד. ‏הוחלף ב-TF-IDF, ‏ולעיתים נחשב סיגנל שלילי כשמופעל מאולץ.
Embeddings: ייצוג מספרי וקטורי של מילים או משפטים, ‏שמאפשר למודלים כמו BERT להבין הקשר סמנטי. ‏השכבה מעל TF-IDF במנועי חיפוש מודרניים.
Content Brief: מסמך הנחיה לכותב, ‏כולל מילת מפתח ראשית, ‏מילים משניות מבריף TF-IDF, ‏שאלות לכסות, ‏ומבנה מוצע.
Over-optimization: מצב שבו דחיפת מילים מבריף TF-IDF גורמת לטקסט מאולץ, ‏מה שגורם לסיגנלים שליליים מצד גוגל ופגיעה בדירוג.
Semantic SEO: גישת SEO שמתמקדת בכיסוי נושאי שלם (entities, ‏concepts, ‏relationships) ‏ולא רק במילות מפתח. ‏TF-IDF הוא אחד הכלים המעשיים לעשות זאת.

פרק 16

❓ שאלות נפוצות

מה זה TF-IDF בקצרה?

TF-IDF (Term Frequency-Inverse Document Frequency) ‏הוא מדד סטטיסטי שמודד עד כמה מילה חשובה למסמך מסוים, ‏יחסית לאוסף מסמכים שלם. ‏מילים נפוצות בכל מקום (כמו "של", "את") מקבלות ציון נמוך, ‏מילים שמופיעות בעיקר בנושא ספציפי (כמו "backlink" בעולם SEO) ‏מקבלות ציון גבוה. ‏זה הבסיס לכל כלי תוכן מודרני.

מה ההבדל בין TF-IDF ל-keyword density?

keyword density מודד רק את התדירות של מילה בעמוד בודד (אחוז מסך המילים). ‏TF-IDF משווה את התדירות הזאת לתדירות באוסף מסמכים שלם, ‏ומחזיר ציון יחסי. ‏Keyword density זה מדד מיושן, ‏לעיתים סיגנל שלילי. ‏TF-IDF הוא הסטנדרט המודרני, ‏אבל גם הוא לא תחליף לאיכות תוכן אמיתית.

האם גוגל באמת משתמשת ב-TF-IDF?

כן, ‏בשכבת האחזור הראשונית. ‏גוגל לא חושפת את כל האלגוריתמים שלה, ‏אבל ידוע ש-TF-IDF/BM25 ‏הוא חלק מהיסוד, ‏הצורה היעילה ביותר לאחזר מועמדים מתוך מיליארדי עמודים במילישניות. ‏אחר כך שכבות סמנטיות כמו BERT ו-MUM מדרגות את המועמדים בעדינות לפי כוונה.

אילו כלי SEO מבוססים על TF-IDF?

כמעט כולם. ‏Clearscope, ‏Surfer SEO, ‏Frase, ‏MarketMuse, ‏NeuronWriter, ‏ועוד. ‏כולם מבצעים בערך אותו תהליך, ‏לוקחים top 10-30 ‏SERP, ‏מחשבים TF-IDF, ‏ומציגים המלצות. ‏ההבדל ביניהם הוא ב-UI, ‏בתוספות מעבר ל-TF-IDF (entities, ‏outlines, ‏authority modeling), ‏ובמחיר.

האם אפשר לחשב TF-IDF בחינם?

כן. ‏יש כלי web חינמיים (seoreviewtools.com), ‏יש סקריפט Python קצר עם sklearn (30 ‏שורות), ‏ואפשר לבנות ב-Google Sheets עם COUNTIF ולוגריתמים. ‏אם אתם מקדם בודד ולא רוצים לשלם $89-170 ‏לחודש, ‏זה אפשרי לחלוטין.

כמה פעמים להשתמש במילת מפתח על פי TF-IDF?

אין מספר קסם. ‏הכלי שלכם ייתן המלצה (לדוגמה, ‏"השתמשו 8-12 ‏פעמים"). ‏אבל ההמלצה היא רק נקודת מוצא. ‏כתבו טבעי, ‏ואם המספר יוצא קרוב להמלצה זה טוב. ‏אל תכפו את עצמכם להגיע לציון מקסימלי, ‏זה מוביל לטקסט מאולץ ולסיגנל שלילי מצד גוגל.

מה זה over-optimization של TF-IDF?

מצב שבו דחיפת המילים מהבריף גורמת לטקסט מאולץ ולא טבעי. ‏גוגל מזהה את זה דרך user signals (pogo-sticking, ‏dwell time נמוך) ‏ודרך Helpful Content System. ‏עמוד עם ציון TF-IDF 95 ‏אבל טקסט מאולץ ידורג נמוך מעמוד עם ציון 70 ‏וטקסט זורם. ‏האיזון הוא הכל.

האם BERT ו-MUM החליפו את TF-IDF?

לא לחלוטין. ‏BERT (2019) ‏ו-MUM (2021) ‏הם שכבות סמנטיות שרצות אחרי שכבת האחזור הראשונית של TF-IDF/BM25. ‏האדריכלות שכבתית, ‏TF-IDF בוחר 1,000 ‏מועמדים מתוך מיליארדים, ‏BERT/MUM מדרגים את אותם 1,000 ‏לפי כוונה ועמקות סמנטית. ‏שני העולמות קיימים יחד.

האם TF-IDF עוזר ל-AI Overviews ול-ChatGPT?

כן, ‏בעקיפין. ‏מנועי AI שמשתמשים ב-RAG (Retrieval Augmented Generation) ‏עובדים עם vector search משולב ב-BM25/TF-IDF. ‏כשהם בוחרים מקור לציטוט, ‏הם בודקים גם רלוונטיות לקסיקלית (TF-IDF) ‏וגם סמנטית (embeddings). ‏עמוד עם פוקוס נושאי טוב (כמו ש-TF-IDF מעודד) ‏יש לו סיכוי גבוה יותר להיות מצוטט.

מי המציאה את TF-IDF ומתי?

את ה-Term Frequency חישבו עוד בשנות ה-50 ‏על-ידי הנס לוהן ב-IBM. ‏את ה-IDF המציאה ב-1972 ‏קארן ספרק ג'ונס, ‏בלשנית חישובית מאוניברסיטת קיימברידג'. ‏השילוב של שניהם ל-TF-IDF התגבש בשנות ה-80-90, ‏הרבה לפני שגוגל קיימת. ‏זה אלגוריתם בן 50+ ‏שנה.

האם TF-IDF עובד גם בעברית?

כן, ‏אבל יש אתגרים. ‏עברית היא שפה אגלוטינטיבית עם פיצולי מילים מורכבים (אותיות שימוש, ‏סיומות). ‏כלים שתומכים בעברית במיוחד (NeuronWriter, ‏לעיתים Clearscope) ‏מבצעים lemmatization שמזהה ש"קידום" ו"לקדם" הם אותו מושג. ‏לכלים שלא תומכים, ‏ה-TF-IDF פחות מדויק, ‏ולפעמים מחשיב "בקידום" ו"קידום" כשתי מילים שונות.

האם TF-IDF משפיע על מילים בכותרת H1 או רק בגוף הטקסט?

TF-IDF הוא חישוב על הטקסט הגולמי, ‏ללא הבחנה בין כותרת לגוף. ‏אבל גוגל בנפרד נותנת משקל גבוה יותר למילים בכותרות, ‏לכן מומלץ שמילות TF-IDF החשובות יופיעו גם ב-H1/H2 ‏וגם בפסקה הראשונה. ‏כך מקבלים את שני העולמות, ‏ציון TF-IDF טוב + ‏העדפת מיקום מצד גוגל.

מתי לא שווה להשתמש בכלי TF-IDF?

לבלוג אישי קטן, ‏לעמודי שירות סטטיים שאין להם תחרות, ‏ולכותב מקצועי שכבר מבין SEO בעומק (הוא יכניס את המילים באופן טבעי בלי בריף). ‏גם לתוכן בשפות פחות שכיחות שבהן הכלים פחות מדויקים. ‏שווה בעיקר ל-batch של תוכן רב, ‏לכותבים חיצוניים, ‏ולאתרים עם תחרות גבוהה שבהם כל מילה חשובה.

האם אפשר להריץ TF-IDF על האתר שלי כדי לזהות פערי תוכן?

כן, ‏טכניקה מצוינת. ‏לוקחים את כל המאמרים שלכם כקורפוס פנימי, ‏מריצים TF-IDF, ‏ובודקים אילו מונחים סמנטיים חסרים מהקורפוס שלכם לעומת קורפוסי המתחרים. ‏זה נותן רשימה של נושאים לכתוב עליהם. ‏גישה מתקדמת, ‏שילוב עם content audit ו-אשכולות סמנטיים.

מה יקרה ל-TF-IDF בעוד 5 שנים?

יישאר כשכבת אחזור בסיסית במנועי חיפוש, ‏אבל הכלים החדשים יציעו ניתוח embeddings בנוסף ל-TF-IDF, ‏זאת התובנה היותר עמוקה על איך גוגל "חושבת" סמנטית. ‏הצפי, ‏בעוד 3-5 ‏שנים, ‏TF-IDF יהיה רכיב בסיסי שכל כלי מציע, ‏אבל לא יהיה הציון העיקרי. ‏עדיין יהיה רלוונטי ללמידה ולהבנת היסודות של SEO סטטיסטי.

צריכים לקפוץ למישהו שכבר ראה את הסרט?

שמוליק דורינבאום, 20 שנה ב SEO, 1,200 בוגרים בקורס. אם יש לכם אתר ולא בטוחים מאיפה להתחיל או שאתם תקועים במצב לא טוב, שלחו הודעה. תשובה תוך 24 שעות, בלי דמי ייעוץ למפגש הראשון.

שלחו הודעה