botti

« takaisin hakemistoon

Botti, crawler tai spider tarkoittavat hyvin pitkälle samaa asiaa. Se on automatisoitu ohjelma, joka tekee netissä jotain. Millä nimellä moista sitten milloinkin kutsutaan, riippuu täysin kirjoittajasta ja mitä nimeä hän on tottunut käyttämään.

Niillä on, tai voisi olla, pienet aste-erot:

  • botti tekee määrättyä asiaa
  • spider ja crawler menevät sivuston sisältöä läpi

Jokaisen sivuston liikenteestä bottiliikenne on käytännössä aina suurempaa kuin ihmisliikenne, jos lasketaan tehtyjen pyyntöjen määrää. Jokainen pyyntö kuormittaa serveriä ja saattaa hidastaa, jopa estää toimintaa. Voidaan yleistää, että kun sivuston päivittäinen ihmiskäyntien määrä ylittää 1500 päivässä ja webhotellipalvelut eivät enää riitä luotettavaan toimintaan, niin ongelma ei ole ihmiskäynneissä. Ongelma on bottiliikenteessä.

Botit voidaan jakaa kolmeen luokkaan sivuston tai serverin suhteen:

  • hyödylliset
  • merkityksettömät
  • haitalliset

Hyödylliset tekevät jotain haluttua asiaa. Googlebot on hyvinkin hyödyllinen, kuten suurin osa muistakin hakukoneiden spidereista. Moodlen MoodleBot tarkistaa aika ajoin ulkoisten linkkien toimivuuden. Podcast-palvelun botti käy lukemassa RSS-syötteen, että se saisi jaettua julkaistun podcastin tilaajille.

Merkityksettömät eivät palvele itse sivustoa tai serveriä mitenkään. Ne ovat yleensä SEO- ja markkinointi-botteja tai indeksointi-crawlereita, jotka analysoivat sisältöä omiin tarkoituksiinsa. Ne eivät ole sinällään haitallisia, mutta voivat muuttua sellaisiksi, jos niiden käyntimäärät kasvavat suhteettomiksi (ja sen ne tekevät).

Haitalliset botit yrittävät löytää haavoittuvuuksia ja tekevät murto- sekä kirjautumisyrityksiä. Ne eivät pääsääntöisesti onnistu ja niiden haitta tuleekin täysin turhasta kuormasta.

Suurin osa boteista, myös haitallisista, identifioivat itsensä user agentilla, joka on täysin käsittämätöntä. Helpottaa ylläpitäjän työtä toki. Osa naamioi itsensä tavallisiksi käyttäjiksi ja niiden löytäminen sekä estäminen on huomattavasti vaikeampaa. Ne löytyvät- yleensä 404-osumien kautta.

Ne user agentit, jotka tiedetään, on syytä estää serverillä, kuten webserverin asetuksissa, reverse proxyllä tai .htaccess tiedostossa. Sen sijaan robots.txt on hyödyllinen ainoastaan luvallisten bottien ohjailussa.

Synonyymit:
crawler, spider