FTP-ga oma veebijuurikasse vaadates leiab sealt tavaliselt ühe faili nimega robots.txt. See juhib lehele pöörduvaid otsingumootoreid, kuid mida see veel kasulikku võiks teha?
Robots.txt ütleb kõige lihtsamas keeles, milliseid osi veebist võiks otsirobotid (serveriskriptid, mis otsivad internetiavarustest otsimootorite jaoks uusi lehekülgi või olemasolevate muudatusi) külastada ja indekseerida ning milliseid mitte.
Kui esialgu tundub, et hea oleks ju lasta võimalikult palju oma kodulehte läbi skännida, siis tegelikult see alati hea pole. Mõned puhtalt tehnilised kataloogid või teemasse mittepuutuvad failid näiteks võivad otsimootorit nii palju tegevuses hoida, et olulised sisuleheküljed saavad sellevõrra vähem tähelepanu. Parem juba suunata kontsentreeritult õigesse kohta.
Spämmirobotid, e-posti aadresside korjemootorid ja pahavara muidugi sellest välja ei tee ja käivad ikka nii palju lehekülgi läbi, kui võimalik. Eriti veel keelatuid. Ka otsimootorid võivad mõnikord ikagi robotitele varjatud katalooge näidata, kui näiteks teistest veebidest on varjatud aadressile piisavalt palju lingitud.
robots.txt - väike juhend
Fail robots.txt peab asuma kodulehe juurkataloogis ning on tõstutundlik ehk kirjutatud väikeste tähtedega. Tegemist on täiesti tavalise (plain text, UTF-8) tekstifailiga.
Sisu pole eriti standardiseeritud, kuid väga palju erinevaid käske sinna tavaliselt ei panda: põhiline on allow (lubatud indekseerida) ja disallow (keelatud).
Robotitele võib teha ka nimelisi piiranguid ja lubamisi, näiteks Google´i otsiroboti Googlebot jaoks kehtivad kõik selle User-agent rea järel olevad reeglid:
User-agent: Googlebot
Disallow: /minu-sala-asjad/
Teised olulised otsirobotid, mida võiks nimeliselt tunda, on Baidu Hiinast (Baiduspider), Microsofti Bing (Bingbot), Yahoo! (Slurp), Venemaalt pärit Yandex (Yandex).
Kõikidele robotitele ühised reeglid käivad selle rea taha, kus tärn tähistab mistahes otsiagenti, kes kodulehele vaatama tuleb:
User-agent: *
Keelata saab ka teatud tüüpi failide indekseerimise, näiteks mõnede isiklike piltide:
Disallow: /minu-isiklikud-pildid/*.jpg
Üks kaval nipp on ka oma indeksifaili õigesti indekseerimine, kasutades dollarimärki:
Disallow: /*.php$
See käsk robots.txt failis näiteks keelab indekseerida index.php faili ($ tähistab veebiaadressi lõppu), aga lubab kõiki aadresse, mis on pikemad, näiteks index.php?id=1. Mõnikord on see vajalik.
Selge see, Disallow keelab mõne lehe, kuid milleks üldse on vajalik käsk Allow ehk lubamine? Peale keelamise peaks ju ülejäänud kodulehe veebiaadresse kõik otsimootorid rõõmuga indekseerima.
Allow on vajalik erandi tegemiseks keelatud kohas. Näiteks
Disallow: /admin/
Allow: /admin/reports/search
Ülalolev robotitefail keelab küll admin-kataloogis ringi kolamise, kuid lubab siiski ühe erandi sealt, indekseerida näiteks saidi enda populaarsemaid otsingutulemusi (reports/search).
Kui koduleht ägab otsimootorite pideva kammimise all, on hea veel üks käsk lisada, mis aga peab hoogu kinni vaid kahel otsirobotil: Yahool ja Bing-il:
crawl-delay: 10
See rida ütleb, et robot peaks iga uue päringu eel 10 sekundit pausi pidama. Väikeste lehtedega on see hea asi, suurtega aga peab arvet pidama, et kui kaua kõikide lehtede läbikäimine niimoodi aega võtaks: minutis kuus lehekülge, tunnis 120 jne. Äkki niimoodi kulub ühe suure veebi jaoks terve päev või enam?
Veel paar näidet robots.txt kasutamisest:
User-agent: *
Disallow:
Ülalolevad read lubavad tegelikult kogu saiti indekseerida ja otsitulemustesse panna.
User-agent: *
Disallow: /
Need read üleval aga keelavad üleüldse kõigi saidi veebiaadresside indekseerimise kõigil otsirobotitel. See on ohtlik, kui pole tegemist just mõne testsaidi või ajutise tööga, mida ei taha otsimootoritesse lubada.
Kuidas robots.txt faili leida?
See on lihtne, sest see fail asub alati veebisaidi juurkataloogis ning peab olema väljast igipääsetav. Seega sisesta brauserisse lihtsalt rida www.domeeninimi.ee/robots.txt ja näedki selle tekstifaili sisu.
Wordpress, Drupal, Voog - kas ma peaksin midagi tegema?
Juhul, kui kasutad mõnda levinud sisuhaldustarkvara, siis ei pea tavaliselt midagi tegema. Vajalikud robots.txt failid on juba valmis tehtud ja keelavad või lubavad otsiroboteid erinevatesse kohtadesse. Siiski on mõnikord hea kontrollida, kas kõik on õige ja lisada oma privaatsed kataloogid, mille sisu pole oluline otsingumootorite tulemustes näidata.
Kuid näiteks Wordpressil oli administraatori kataloogi wp-admin otsimootoritel ligipääs keelatud, kuid paljud sisu genereerivad Wordpressi teemad kasutavad AJAXit, seega oleks mõistlik teha selline erand:
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Alates Wordpress 4.4-st see erand juba ka tehakse.
Erilisemaid käske, mida võiks ka kaaluda
Mõned otsimootorid toetavad natuke erilisemaid käske, aga kuna need pole kõigi jaoks kohustuslikud, siis ega alati suurt kasu neist polegi. Siiski võib lisada oma kodulehe kõigi veebiaadresside nimekirja ehk XML Sitemapi aadressi kuhugi teksti sisse, näiteks nii:
Sitemap: http://www.domeeninimi.ee/sitemap.xml
Yandex kasutab ka käsku host, mis ütleb, milliselt veebiaadressilt peaks tulemusi otsima. See on hea näiteks siis, kui lubatud on nii nimekujud http://www.domeeninimi.ee kui http://domeeninimi.ee. Käsk esimest varianti eelistada näeb välja selline:
Host: www.domeeninimi.ee
Kui tahad roboteid oma lehel juhtida õigetesse kohtadesse ning hoida eemal sealt, kuhu pole vaja minna, siis vaata oma robots.txt fail üle. Vaata hoolega, et seal poleks mõnda viga, mis otsimootoreid liiga eemal hoiaks, nii võib otsitulemustes tahapoole sattuda ja kui vaja, lisa keelatud aadressid, mida pole vaja või mida ei tahaks avalikult eksponeerida.