Veebilehtede roomamise eest vastutab otsingumootori robot. Programm loeb automaatselt kõigi saitide andmeid ja registreerib need otsingumootori enda jaoks arusaadavas vormis, nii et hiljem kuvab süsteem kasutaja jaoks kõige sobivamad tulemused.
Funktsioonid
Kogu indekseeritud teave salvestatakse ühisesse andmebaasi.
Otsingurobot on programm, mis liigub automaatselt Interneti-lehekülgedel, küsides vajalikke dokumente ja saades indekseeritud saitide struktuuri. Robot valib skannitavad lehed iseseisvalt. Enamasti valitakse skannitavad saidid juhuslikult.
Boti tüübid
Valesti töötav robot suurendab märkimisväärselt võrgu ja serveri koormust, mis võib põhjustada ressursi kättesaamatuse.
Igal otsingumootoril on mitu programmi, mida nimetatakse robotiteks. Igaüks neist saab täita kindlat funktsiooni. Näiteks Yandexis vastutavad mõned robotid RSS-uudisvoogude skannimise eest, mis on kasulik ajaveebide indekseerimiseks. On ka programme, mis otsivad ainult pilte. Kõige olulisem on siiski indekseerimisbott, mis on aluseks igale otsingule. Samuti on olemas kiire abirobot, mis on mõeldud uudistevoogude ja sündmuste värskenduste otsimiseks.
Skaneerimisprotseduur
Teine võimalus sisu roomamist takistada on registreerimispaneeli kaudu saidile juurdepääsu loomine.
Saiti külastades otsib programm failisüsteemist robots.txt käsufailide olemasolu. Dokumendi olemasolul algab dokumendis kirjutatud direktiivide lugemine. Robots.txt võib keelata või vastupidi lubada teatud saidi lehtede ja failide skannimist.
Skaneerimisprotsess sõltub programmi tüübist. Mõnikord loevad robotid ainult lehekülgede pealkirju ja mõnda lõiku. Mõnel juhul toimub skannimine kogu dokumendis sõltuvalt HTML-i märgistusest, mis võib töötada ka võtmefraaside täpsustamise vahendina. Mõned programmid on spetsialiseerunud peidetud või metasiltidele.
Loendisse lisamine
Iga veebimeister võib takistada otsingumootoril lehekülgede indekseerimist robots.txt või META märgendi kaudu. Samuti saab saidi looja saidi käsitsi indekseerimisjärjekorda lisada, kuid selle lisamine ei tähenda, et robot indekseerib kohe soovitud lehe. Saidi lisamiseks järjekorda pakuvad otsingumootorid ka spetsiaalseid liideseid. Saidi lisamine kiirendab indekseerimisprotsessi oluliselt. Samuti saab otsingumootoris kiireks registreerimiseks kasutada veebianalüüsi süsteeme, saidikatalooge jne.