חיפוש

למה ChatGPT לא רואה את האתר שלכם? המדריך לטיפול בתוכן מוסתר וג׳אווה סקריפט

Facebook
Twitter
LinkedIn
WhatsApp
Email
תוכן עניינים

מה ההבדלים באופן שבו מערכות בינה מלאכותית מטפלות בתוכן המעובד ב-JavaScript או מוסתר באופן אינטראקטיבי, בהשוואה לאינדוקס מסורתי של גוגל?

זוהי שאלה מצוינת מכיוון שמעבר להייפ של אופטימיזציית LLM, קיים אתגר טכני אמיתי מאוד: להבטיח שהתוכן שלכם אכן יימצא ויקרא על ידי AI.

במשך מספר שנים חלו שיפורים ביכולתו של גוגלבוט לסרוק ולעבד דפי ג'אווה סקריפט. כאשר מדובר בסורקים החדשים של מנועי ה-AI, ייתכן שזה לא המקרה.

איך גוגל סורק ומעבד תוכן מבוסס ג'אווה סקריפט?

גוגלבוט מעבד JS בשלושה שלבים עיקריים: סריקה, עיבוד ואינדוקס. כך עובד כל שלב:

סריקה

גוגלבוט מעביר דפים לסריקה כאשר הוא מגלה אותם באינטרנט. לא כל דף שנכנס לתור ייסרק, מכיוון שגוגלבוט יבדוק אם הסריקה מותרת. לדוגמה, הוא יבדוק אם הדף חסום באמצעות פקודת disallow בקובץ רובוטס.

אם הדף אינו כשיר לסריקה, גוגלבוט ידלג עליו. אם הדף כשיר לסריקה, הוא יעבור לעיבוד התוכן.

עיבוד (רינדור)

גוגלבוט יבדוק האם הדף כשיר להתווסף לאינדקס, כלומר שאין משהו שמונע זאת ממנו (כגון תגית noindex). לאחר מכן הדף ייכנס לתור לצורך עיבוד. העיבוד עשוי להתרחש תוך שניות, או שהוא עשוי להישאר בתור למשך זמן ארוך יותר. עיבוד הוא תהליך עתיר משאבים, ולכן ייתכן שהוא לא יהיה מיידי.

בינתיים, הבוט יקבל את תגובת ה-DOM; זהו התוכן שמעובד לפני ביצוע הג'אווה סקריפט. בדרך כלל זהו קובץ ה-HTML של הדף, שנהיה זמין ברגע שהדף נסרק.

לאחר ביצוע קוד ה-JS, גוגלבוט יקבל את הדף שנבנה במלואו (רינדור דפדפן).

אינדוקס

דפים ונתונים שזכאים להיכנס לאינדקס, יאוחסנו באינדקס של גוגל ויהיו זמינים לשמש כתוצאות חיפוש.

מדריך קידום אתרי JS >

איך גוגל סורק תוכן שמוסתר בצורה אינטראקטיבית?

לא כל התוכן זמין למשתמש כשהוא נכנס לדף. לדוגמה, ייתכן שיצטרך ללחוץ על כרטיסיות כדי למצוא תוכן משלים, או להרחיב פיצ'ר אקורדיון כדי לראות את כל המידע.

לגוגלבוט אין את היכולת לעבור בין כרטיסיות או ללחוץ כדי לפתוח אקורדיון. לכן, חשוב לוודא שהוא יכול לנתח את כל המידע בדף.

הדרך לעשות זאת היא לוודא שהמידע כלול בתוך ה-DOM בטעינה הראשונה של הדף. כלומר, תוכן עשוי להיות "מוסתר מהתצוגה" הרגילה לפני לחיצה על כפתור, אך הוא אינו מוסתר בקוד.

למעשה, תוכן ה-HTML "מוסתר בתיבה" והג'אווה סקריפט הוא המפתח לפתיחת התיבה. אם גוגלבוט צריך לפתוח את התיבה, ייתכן שהוא לא יראה את התוכן הזה מייד. עם זאת, אם השרת פתח את התיבה לפני שגוגלבוט מבקש אותה, אז הוא אמור להיות מסוגל להגיע לתוכן הזה דרך ה-DOM.

איך מאפשרים לגוגל לקרוא את התוכן?

המפתח להבטחת סריקת התוכן על ידי גוגלבוט, הוא להפוך אותו לנגיש בלי שהבוט יצטרך לעבד את הג'אווה סקריפט. דרך אחת לעשות זאת היא על ידי ביצוע העיבוד בשרת עצמו.

עיבוד בצד השרת (SSR) הוא התהליך שבו דף אינטרנט מעובד בשרת, ולא על ידי הדפדפן. משמעות הדבר היא שקובץ HTML מוכן ונשלח לדפדפן של המשתמש (או לבוט של מנוע החיפוש), ותוכן הדף נגיש להם בלי להמתין לטעינת ה-JavaScript.

הסיבה לכך היא שהשרת יצר למעשה קובץ שהתוכן בו כבר עובד, ולכן ה-HTML וה-CSS נגישים באופן מיידי. בינתיים, קובצי JavaScript המאוחסנים בשרת ניתנים להורדה על ידי הדפדפן.

מצב זה הוא בניגוד לעיבוד בצד הלקוח (CSR), הדורש מהדפדפן לאחזר ולקמפל את קוד ה-JavaScript לפני שהתוכן נגיש בדף האינטרנט. זה מפעיל פחות עומס על השרת, ולכן שיטה זו היא לרוב המועדפת על ידי מפתחי אתרים. עם זאת, המשמעות היא שבוטים מתקשים לראות את התוכן בדף מבלי לרנדר את קוד ה-JavaScript תחילה.

איך בוטים של בינה מלאכותית מעבדים ג'אווה סקריפט?

עד כאן הסברים לגבי גוגל. במה כל זה שונה מבוטים של בינה מלאכותית?

בניגוד לגוגלבוט, אין "גוף מנהל אחד" שמייצג את כל הבוטים במערכות בינה מלאכותית. כלומר, מה שבוט אחד עשוי להיות מסוגל לעשות – לא בהכרח יהיה הסטנדרט לכולם.

הבוטים שסורקים את האינטרנט כדי להפעיל את מאגרי הידע של ה-LLMs, אינם זהים לבוטים שמבקרים בדף דרך מנועי חיפוש. כמו כן לבוטים של קלוד אין אותה יכולת כמו לאלו של Open AI.

כאשר אנו רוצים להבטיח שבוטים של AI יוכלו לגשת לתוכן שלנו, עלינו להתאים את עצמנו לבוטים בעלי היכולות הנמוכות ביותר.

פחות ידוע על האופן שבו בוטים של LLM מעבדים JavaScript, בעיקר משום שבניגוד לגוגל, בוטים של בינה מלאכותית אינם משתפים מידע מסוג זה. עם זאת, כמה אנשים חכמים מאוד ביצעו בדיקות כדי לזהות כיצד כל אחד מהבוטים העיקריים מטפל בקוד זה בבינה המלאכותית.

בשנת 2024, חברת Vercel פרסמה מחקר על יכולות עיבוד ה-JavaScript של זחלני ה-LLM העיקריים, כולל Open AI, אנתרופיק, מטא, בייטדאנס ופרפלקסיטי. לפי ממצאי המחקר – אין אחד מהם שהצליח לעבד ג'אווה סקריפט. היחידים שכן הצליחו היו ג'מיני (שנעזר בתשתיות של גוגלבוט) וכן CCbot של ארגון CommonCrawl.

לאחרונה, גלן גייב אישר מחדש את ממצאי ורסל באמצעות ניתוח מעמיק משלו על האופן שבו פרפלקסיטי, צ'ט ג'יפיטי וקלוד מטפלים בג'אווה סקריפט. הוא גם מסביר איך לבדוק את אתר האינטרנט שלכם, כדי לראות איך ה-AI / LLM מטפל בתוכן.

מכיוון שאלו הם הבוטים הידועים והמתקדמים ביותר, סביר להניח שאם הם מתקשים עם JS, גם בוטים אחרים פחות מתקדמים יתקשו.

איך בינה מלאכותית סורקת תוכן שמוסתר באופן אינטראקטיבי?

תשובה: לא טוב. אם התוכן האינטראקטיבי דורש ביצוע מסוים של ג'אווה סקריפט, הבינה המלאכותית עלולה להתקשות בניתוח התוכן.

כדי להבטיח שהבוטים יוכלו לראות תוכן מוסתר מאחורי טאבים או באקורדיונים, כדאי לוודא שהוא נטען במלואו ב-DOM ללא צורך להפעיל JS. מבקרים אנושיים עדיין יכולים לקיים אינטראקציה עם התוכן כדי לחשוף אותו, אך הבוטים לא יצטרכו לעשות זאת.

איך בודקים בעיות בעיבוד ג'אווה סקריפט?

יש שתי דרכים קלות מאוד לבדוק אם גוגלבוט מסוגל לעבד את כל התוכן בדף:

בדיקת DOM באמצעות כלי פיתוח

DOM (מודל אובייקט מסמך) הוא ייצוג של דף אינטרנט באמצעות סדרה של "צמתים" ו"אובייקטים". הוא למעשה מקשר את קוד המקור של HTML בדף האינטרנט ל-JavaScript, מה שמאפשר לדף האינטרנט לפעול.

דף אינטרנט הוא כמו עץ משפחה. כל אלמנט בדף אינטרנט הוא "צומת" על העץ. לכן, תג כותרת <h1>, פסקה <p> וגוף הדף עצמו <body> הם כולם צמתים על עץ המשפחה.

כאשר דפדפן טוען דף אינטרנט, הוא קורא את ה-HTML והופך אותו לעץ המשפחה (DOM).

איך בודקים?
ניתן להשתמש בכלי המפתחים של דפדפן כרום:

  • קליק עכבר ימין על הדף הרצוי
  • בתפריט נבחר "בדיקה"
  • נצפה בטאב "אלמנטים"

כדי לראות האם תוכן גלוי בדף האינטרנט בלי להפעיל JavaScript, תוכלו לחפש אותו כאן. אם אתם מוצאים את התוכן במלואו בתוך ה-DOM כשאתם טוענים את הדף לראשונה (ואינכם מקיימים איתו אינטראקציה נוספת), הוא אמור להיות גלוי לגוגל ולבוטים של LLM.

בדיקה בגוגל קונסול

כדי לבדוק אם התוכן גלוי ספציפית לגוגל, תוכלו להשתמש בקונסולת החיפוש.

בחרו את הדף שברצונכם לבדוק והדביקו אותו בשדה "בדיקת כתובת URL. גוגל קונסול יעביר אתכם לאחר מכן לדף אחר, שבו תוכלו "לבדוק כתובת URL חיה". כשאתם בודקים דף חי, יוצג בפניכם מסך נוסף שבו תוכלו לבחור "הצג דף שנבדק".

איך בודקים אם בוט LLM יכול לראות את התוכן?

בהתאם לניסויים של גלן גייב, תוכלו לשאול את ה-LLMs עצמם מה הם יכולים לקרוא מתוך דף אינטרנט ספציפי. לדוגמה, תוכלו לבקש מהם לקרוא את הטקסט של מאמר. אם הם לא יכולים לעשות זאת בגלל JS, הם יגיבו עם הסבר.

צפייה בקוד המקור של HTML

אם אנו עובדים לפי המכנה המשותף הנמוך ביותר, נבון להניח שבשלב זה זחלני LLM אינם יכולים לקרוא תוכן ב-JavaScript. כדי לוודא שהתוכן זמין ב-HTML של דף אינטרנט, כך שהבוטים יוכלו לגשת אליו, ודאו שהוא נמצא ב-HTML המקורי.

כדי לבדוק זאת, תוכל לגשת לכרום וללחוץ לחיצה ימנית על הדף. מהתפריט, בחרו "הצג מקור דף". אם אתם יכולים למצוא את הטקסט בקוד זה, המשמעות שהוא נמצא ב-HTML המקורי של הדף.

לסיכום: מה זה אומר עבור אתר האינטרנט שלכם?

גוגל הרבה יותר טוב בטיפול ב-JavaScript מאשר זחלני LLM החדשים יותר. עם זאת, חשוב מאוד להבין שזחלני LLM אינם מנסים לסרוק ולעבד את האינטרנט באותו אופן כמו גוגלבוט. אל תניחו שהם אי פעם ינסו לחקות את התנהגותו. הם חיה אחרת לגמרי.

עליכם לבדוק אם דפי האתר טוענים את כל הפרטים הרלוונטיים ב-DOM בטעינה הראשונה, כדי לספק את צורכי גוגלבוט. כדי לוודא שהתוכן זמין עבור זחלני LLM, בדקו את ה-HTML הסטטי שלכם.

זקוקים לעזרה בנושאים הטכניים? צרו קשר ונשמח לסייע.

עד כמה הפוסט הזה עזר לכם?

דירוג ממוצע 5 / 5. כמות דירוגים: 1

אף אחד עדיין לא דירג את הפוסט, אתם יכולים להיות הראשונים 🙂

אנחנו מצטערים לשמוע שהפוסט לא עזר לכם

נשמח לשפר את הפוסט

ספרו לנו איך נוכל לשפר אותו

Facebook
Twitter
LinkedIn
WhatsApp
Email
על הכותב

מוכנים להתקדם?

צרו איתנו קשר עוד היום ונשמח לעזור