חסימת עמודים באתר באמצעות Robots.txt

חסימת עמודים באתר באמצעות Robots.txt

טוב, אחרי תקופה דיי ארוכה שהייתי עמוס מאוד במיזמים שונים החלטתי לחזור לכתוב את המדריך לקידום אתרים. כזכור אני עוקב אחר מסמך האופטימיזציה של גוגל (אגב, יצאה גרסה חדשה שלו ובקרוב אני יעדכן בפוסט מיוחד על השינויים) והפעם הנושא הוא חסימת דפים באתר.
כבעלי ומנהלי אתרים כמעט בכל אתר יהיו לנו עמודים שנרצה לחסום בפני רובוטים של. הסיבות לחסום יכולות להיות רבות ומגוונות והנה כמה מהם:

  • עמודים המוגנים מאחורי סיסמה
  • עמודי כניסה למערכת ניהול
  • מידע רגיש על משתמשים
  • עמודי תוכן כפולים
  • עמודים שנרצה להסיר מהאינדקס מסיבה כל שהיא

כמנהלי אתרים עומדות בפנינו שתי טכניקות עיקריות לחסום רובוטים מלסרוק את התכנים הרגישים או הלא רצויים אצלנו באתר: Robots.txt ו meta tag robots, היום נדבר על הקובץ robots.txt.

Robots.txt

Robots.txt הוא קובץ ייחודי הנמצא בתיקייה הראשית של הדומיין ויש לו תפקיד מאוד ספציפי, הוא עוזר לנו לשלוט בהרשאות שאנו מעניקים לרובוטים שבאים לסרוק את האתר לגבי תיקיות וקבצים שונים. הקובץ נכתב על פי הפרוטוקול הבא. באמצעות הקובץ robots.txt אנו מסוגלים לחסום רובוטים מלגשת לסרוק קובץ ספציפי, תיקייה שלמה או בכלל את האתר כולו. הסינטקסט של הקובץ הוא פשוט למדי ומי שקצת רגיל ל regular expression ישלוט בו בקלות.
בראש הקובץ אנו מגדירים את שמות הרובוטים אותם אנו רוצים לחסום, לרוב נשתמש בסימן כוכבית המסמן את כל סוגי הרובוטים, אלא אם נרצה לחסום רובוט ספציפי, לדוגמה הרובוט של גוגל, הרובוט של גוגל תמונות (כן, זה רובוט שונה), הרובוט של יהו או כל רובוט אחר.
לאחר מכן בקובץ אנו נגדיר את התיקיות או הקבצים בצירוף המילה Disallow או Allow, בהתאם למטרה.
הנה מספר דוגמאות שימושיות:

חסימת כל הדומיין באמצעות robots.txt

User-agent: *
Disallow: /

חסימת תיקייה ספציפית באמצעות robots.txt

User-agent: *
Disallow: /category/

חסימת קובץ ספציפי באמצעות robots.txt

User-agent: *
Disallow: /category/page.html

כדאי לשים לב שהסיטקסט הוא תורשתי, כלומר, אם חסמנו תיקיה אזי לרובוט אין גישה גם לקבצים ולתתי תיקיות היושבים תחת אותה התיקיה. כדאי להזהר בשימוש בכדי לא לחסום דברים לא רצויים.

Robots.txt ב Google Webmasters Tools

כלי המנהלים של גוגל מאפשר לנו לבצע שתי מטלות מאוד חשובות בקלות רבה

יצירת קובץ Robots.txt באמצעות Google Webmasters Tools

באמצעות כלי המנהלים של גוגל אנו יכולים ליצור בקלות קובץ Robots.txt ללא כל ידע טכני, להוריד אותו ולאחר מכן להעלות אותו עצמאית לשרת. תחת Site Configuration נמצא הקישור Crawler Access. שם תחת הלשונית Generate robots.txt תוכלו לבחור בדיוק כיצד אתם רוצים שהרובוטים יתנהגו לחלקים השונים באתר שלכם, ולהגדיר הגדרות מותאמות אישית.
יצירת קובץ robots.txt ב google webmasters tools

חשוב מאוד,
אחרי שייצרתם את הקובץ צריך להוריד אותו למחשב ולהעלות אותו לתיקיה הראשית של הדומיין שלכם בשם robots.txt על מנת שהוא יפעל.

בדיקת קובץ robots.txt באמצעות Google webmasters tools

כלי מנהלי האתרים של גוגל לא רק מאפשר לנו ליצור את הקובץ בצורה נוחה ומהירה, הוא גם מאפשר לנו לבדוק האם עשינו את העבודה כמו שצריך. זה כלי שימושי מאוד שיכול לעזור לנו להימנע מטעיות מביכות כמו חסימת אזורים שלמים באתר בטעות, או אי חסימת אזורים רגישים שניסינו לחסום.
באותו מקום, תחת Site Configuration נמצא הקישור Crawler Access ומשם הלשונית הראשונה נקראת Test robots.txt.
בתיבה הראשונה אנו נראה כיצד נראה הקובץ שיושב כרגע על השרת שלנו, נוכל לערוך אותו און ליין בשביל לבדוק ולתקן את עצמנו עד שנגיע לתוצאה הרצויה. בתיבה השנייה אנו בוחרים איזה אזורים באתר אנו רוצים לבדוק האם יש אליהם גישה. החלק האחרון בכלי הוא בחירה בין הרובוטים השונים של גוגל, כאשר googlebot, הרובוט האחראי על אנדוקס האתרים, נבחר אוטומטית ואליו ניתן להוסיף את הרובוטים הבאים:

  • googlbot-mobile האחראי על הסריקה לנייד
  • googlebot-image האחראי על הסריקה של גוגל תמונות
  • mediapartners-google האחראי על סריקת האתר עבור מודעות ה Adsense
  • adsbot-google האחראי על הסריקה עבור דפי הנחיתה של Google Adwords

יצירת קובץ robots.txt ב google webmasters tools

robots.txt וקידום אתרים

אז מה בדיוק כל זה אומר מבחינת קידום אתרים? התשובה על כך היא די ברורה, כל מה שאנו חוסמים באתר באמצעות הקובץ robots.txt הוא מעיין חור שחור באתר שלנו, גוגל (או כל רובוט שהגדרנו) לא יוכל לגשת לסרוק את הקובץ שכן אנו אוסרים עליו לבקר בו. קישורים שיוצאים מהעמוד או התוכן של העמוד לא יסרק והעמוד לא יכנס יאונדקס.
לכן מומלץ להשתמש בקובץ זה לחסום מקומות בעלי רגישות גבוהה שאינם נגישים באופן רגיל דרך האתר, לדוגמה גישה למערכת ניהול או קבצים בעלי רגישות.

בפוסט הבא נדבר על חסימת דפים באמצעות meta robots ומה ההבדל בין שתי השיטות.

יש לכם דגשים משלכם לגבי השימוש ב robots.txt? שתפו אותנו!

פוסטים קשורים:

  1. מדריך אופטימיזציה למנועי חיפוש
  2. האם גוגל אוהב SEO?
  3. כתובות URL וקידום אתרים
  4. אופטימיזציה של טקסטים ותוכן באתר
  5. אופטימיזציה של תמונות וגוגל Images
הרשמה לניוזלטר

רוצה להשאר מעודכן?

אהבת את הפוסט ואתה רוצה להשאר מעודכן? תרשם לניוזלטר של SEO Toughts ותקבל הודעה למייל על כל מחשבה חדשה.

About the Author