טוב, אחרי תקופה דיי ארוכה שהייתי עמוס מאוד במיזמים שונים החלטתי לחזור לכתוב את המדריך לקידום אתרים. כזכור אני עוקב אחר מסמך האופטימיזציה של גוגל (אגב, יצאה גרסה חדשה שלו ובקרוב אני יעדכן בפוסט מיוחד על השינויים) והפעם הנושא הוא חסימת דפים באתר.
כבעלי ומנהלי אתרים כמעט בכל אתר יהיו לנו עמודים שנרצה לחסום בפני רובוטים של. הסיבות לחסום יכולות להיות רבות ומגוונות והנה כמה מהם:
- עמודים המוגנים מאחורי סיסמה
- עמודי כניסה למערכת ניהול
- מידע רגיש על משתמשים
- עמודי תוכן כפולים
- עמודים שנרצה להסיר מהאינדקס מסיבה כל שהיא
כמנהלי אתרים עומדות בפנינו שתי טכניקות עיקריות לחסום רובוטים מלסרוק את התכנים הרגישים או הלא רצויים אצלנו באתר: Robots.txt ו meta tag robots, היום נדבר על הקובץ robots.txt.
Robots.txt
Robots.txt הוא קובץ ייחודי הנמצא בתיקייה הראשית של הדומיין ויש לו תפקיד מאוד ספציפי, הוא עוזר לנו לשלוט בהרשאות שאנו מעניקים לרובוטים שבאים לסרוק את האתר לגבי תיקיות וקבצים שונים. הקובץ נכתב על פי הפרוטוקול הבא. באמצעות הקובץ robots.txt אנו מסוגלים לחסום רובוטים מלגשת לסרוק קובץ ספציפי, תיקייה שלמה או בכלל את האתר כולו. הסינטקסט של הקובץ הוא פשוט למדי ומי שקצת רגיל ל regular expression ישלוט בו בקלות.
בראש הקובץ אנו מגדירים את שמות הרובוטים אותם אנו רוצים לחסום, לרוב נשתמש בסימן כוכבית המסמן את כל סוגי הרובוטים, אלא אם נרצה לחסום רובוט ספציפי, לדוגמה הרובוט של גוגל, הרובוט של גוגל תמונות (כן, זה רובוט שונה), הרובוט של יהו או כל רובוט אחר.
לאחר מכן בקובץ אנו נגדיר את התיקיות או הקבצים בצירוף המילה Disallow או Allow, בהתאם למטרה.
הנה מספר דוגמאות שימושיות:
חסימת כל הדומיין באמצעות robots.txt
Disallow: /
חסימת תיקייה ספציפית באמצעות robots.txt
Disallow: /category/
חסימת קובץ ספציפי באמצעות robots.txt
Disallow: /category/page.html
כדאי לשים לב שהסיטקסט הוא תורשתי, כלומר, אם חסמנו תיקיה אזי לרובוט אין גישה גם לקבצים ולתתי תיקיות היושבים תחת אותה התיקיה. כדאי להזהר בשימוש בכדי לא לחסום דברים לא רצויים.
Robots.txt ב Google Webmasters Tools
כלי המנהלים של גוגל מאפשר לנו לבצע שתי מטלות מאוד חשובות בקלות רבה
יצירת קובץ Robots.txt באמצעות Google Webmasters Tools
באמצעות כלי המנהלים של גוגל אנו יכולים ליצור בקלות קובץ Robots.txt ללא כל ידע טכני, להוריד אותו ולאחר מכן להעלות אותו עצמאית לשרת. תחת Site Configuration נמצא הקישור Crawler Access. שם תחת הלשונית Generate robots.txt תוכלו לבחור בדיוק כיצד אתם רוצים שהרובוטים יתנהגו לחלקים השונים באתר שלכם, ולהגדיר הגדרות מותאמות אישית.

חשוב מאוד,
אחרי שייצרתם את הקובץ צריך להוריד אותו למחשב ולהעלות אותו לתיקיה הראשית של הדומיין שלכם בשם robots.txt על מנת שהוא יפעל.
בדיקת קובץ robots.txt באמצעות Google webmasters tools
כלי מנהלי האתרים של גוגל לא רק מאפשר לנו ליצור את הקובץ בצורה נוחה ומהירה, הוא גם מאפשר לנו לבדוק האם עשינו את העבודה כמו שצריך. זה כלי שימושי מאוד שיכול לעזור לנו להימנע מטעיות מביכות כמו חסימת אזורים שלמים באתר בטעות, או אי חסימת אזורים רגישים שניסינו לחסום.
באותו מקום, תחת Site Configuration נמצא הקישור Crawler Access ומשם הלשונית הראשונה נקראת Test robots.txt.
בתיבה הראשונה אנו נראה כיצד נראה הקובץ שיושב כרגע על השרת שלנו, נוכל לערוך אותו און ליין בשביל לבדוק ולתקן את עצמנו עד שנגיע לתוצאה הרצויה. בתיבה השנייה אנו בוחרים איזה אזורים באתר אנו רוצים לבדוק האם יש אליהם גישה. החלק האחרון בכלי הוא בחירה בין הרובוטים השונים של גוגל, כאשר googlebot, הרובוט האחראי על אנדוקס האתרים, נבחר אוטומטית ואליו ניתן להוסיף את הרובוטים הבאים:
- googlbot-mobile האחראי על הסריקה לנייד
- googlebot-image האחראי על הסריקה של גוגל תמונות
- mediapartners-google האחראי על סריקת האתר עבור מודעות ה Adsense
- adsbot-google האחראי על הסריקה עבור דפי הנחיתה של Google Adwords

robots.txt וקידום אתרים
אז מה בדיוק כל זה אומר מבחינת קידום אתרים? התשובה על כך היא די ברורה, כל מה שאנו חוסמים באתר באמצעות הקובץ robots.txt הוא מעיין חור שחור באתר שלנו, גוגל (או כל רובוט שהגדרנו) לא יוכל לגשת לסרוק את הקובץ שכן אנו אוסרים עליו לבקר בו. קישורים שיוצאים מהעמוד או התוכן של העמוד לא יסרק והעמוד לא יכנס יאונדקס.
לכן מומלץ להשתמש בקובץ זה לחסום מקומות בעלי רגישות גבוהה שאינם נגישים באופן רגיל דרך האתר, לדוגמה גישה למערכת ניהול או קבצים בעלי רגישות.
בפוסט הבא נדבר על חסימת דפים באמצעות meta robots ומה ההבדל בין שתי השיטות.
יש לכם דגשים משלכם לגבי השימוש ב robots.txt? שתפו אותנו!

Loading ...
במקרים מסוימים, אם מזינים ב-Robots.txt כתובת של עמוד ספציפי שרוצים לחסום, כדאי להוסיף את הסימן דולר “$” בסוף ה-URL כדי לא לחסום בטעות כתובות נוספות שמתחילות אותו הדבר, אך הן למעשה עמודים שונים.
לדוגמא: אם רוצים לחסום את הגישה לעמוד article.aspx?id=14, אך לא לחסום גם את article.aspx?id=143, יש להשתמש בפקודה הבאה:
Disallow: /article.aspx?id=14$
צריך לזכור שלעיתים יש לחסום אף את סביבת הפיתוח לאתר. שלמעשה היא דומיין אחר.
אחרת היא מהווה את בעיית התוכן הכפול הכי גדולה שיכול להיות לאתר.