Mariusz Gąsiewski

Roboty i Googlebot

Prawie każda wyszukiwarka internetowa ( może nawet każda wyszukiwarka) indeksuje strony za pomocą robotów, czyli programów które przeglądają strony przechodząc pomiędzy nimi poprzez linki hipertekstowe. Rozwiązaniem wykorzystanym przez uznawaną za jedną z najlepszych na świecie wyszukiwarek jest robot (inaczej spider, crawler, agent) o nazwie Googlebot.

Kiedy strona internetowa zostaje zgłoszona do wyszukiwarki, adres witryny (URL) jest dodany do kolejki stron oczekujących na odwiedzenie przez robotów. Jeśli strona nie została zgłoszona tradycyjnie najczęściej robot i tak do niej dochodzi poprzez linki prowadzące z innych stron do tej witryny. Najczęściej nawet droga do indeksacji poprzez budowanie linków jest efektywniejsza i skuteczniejsza niż tradycyjne zgłaszanie do wyszukiwarki poprzez formularze.

Kiedy Googlebot dociera do strony docelowej, sprawdza czy dostępny jest plik robots.txt. Plik ten służy do ograniczenia działania robotów na danej witrynie internetowej.

Robots.txt powinien znajdować się w katalogu głównym serwera. Plik robots.txt jest plikiem tekstowym bez tagów HTML. Robots.txt używa specjalnego protokołu – Robots Exclusion Protocol, który pozwala administratorowi zdefiniować, które katalogi / pliki na jego serwerze nie zostaną odwiedzone przez robota Google i inne roboty. Możemy zakazać (disallow) “wstępu” do katalogu CGI, private lub np. katalogu tymczasowego

Składania pliku Robots.txt

User-agent: *
Disallow:

Gwiazdka (*) w sekcji User-agent (nazwa robota), jest po prostu skrótem dla “wszystkie roboty”. Jako, że nic nie jest zabronione, wszystko jest dozwolone. (sytuacja, jakby nie było w ogóle pliku robots.txt)

User-agent: *
Disallow: /cgi-bin/
Disallow: /moje/
Disallow: /nie_chce/

W tym przykładzie wszystkie roboty mogą zaglądać gdzie im się podoba z wyjątkiem trzech niżej wymienionych katalogów, czyli cgi-bin, moje, nie_chce

User-agent: CosBot
Disallow: /

W tym przypadku robot o nazwie CosBot nie może katalogować żadnego pliku i katalogu z tego serwera( “/” to skrót do “wszystkie katalogi”)

User-agent: CosBot
Disallow: /moje/
Disallow: /nie_chce/
Disallow: /linki/moje.html

User-agent: *
Disallow: /moje/
Disallow: /nie_chce/

Te komendy zabraniają dostępu (Cosmubotowi) do wymienionych katalogów oraz do pliku moje.html. Wszystkie pozostałe roboty nie mogą wejść w moje/ i nie_chce/.

Dokładny opis składni dla pliku Robots.txt można znaleźć na stronie Wikipedii i Robotstxt.org

Składnia metatagów dla robota

Po przeanalizowaniu pliku robots.txt Googlebot indeksuje tekst na stronie, meta tagi, znaczniki Title i ALT , tekst w hyperlinkach i linkach. Z uzyskanych informacji robot a poprzez niego również wyszukiwarka rozstrzyga, o czym jest strona docelowa.

Aby ograniczyć same działanie robota Google już na samej stronie bez ingerencji w plik robots.txt można użyć odpowiednich znaczników, które są umieszczane w metatagach.W swojej konstrukcji robot Googlebot przestrzega znaczników: noindex, index, nofollow, follow, noarchive, meta tagi.

Najważniejsze znaczniki wykorzystywane w metatagach:

META NAME=”robots” CONTENT=”noindex”

Z tym znacznikiem Googlebot nie będzie indeksować strony internetowej

META NAME=”robots” CONTENT=”nofollow”

Z tym znacznikiem Googlebot nie będzie podążać za linkami umieszczonymi na stronie do innych stron.

META NAME=”robots” CONTENT=”noarchive”
Z tym znacznikiem Google nie będzie prowadzić zarchiwizowanych kopii strony

W przypadku, kiedy uznasz strone za przydatna dodaj na swojej stronie link do niej.
Po prostu skopiuj i wklej link podany nizej (Ctrl+C to copy)
Wyglad linku po wklejeniu na stronie: Roboty i Googlebot

Dodaj link do:
| | | Y! MyWeb | +Google

21 Odpowiedzi to “Roboty i Googlebot”

  1. Wyniki uzupełniające w Googleon 17 stycznia 2007 at 1:18 przed południem

    [...] Jeżeli z jakiś powodów zależy nam na utrzymywaniu obu wersji danej podstrony (np. podstrony z podobną lub identyczną treścią dla Warszawy i Krakowa) wówczas powinniśmy jedną z nich wyindeksować z zasobów Google (np. poprzez dodanie tagu lub poprzez użycie pliku robots.txt – dokładany opis użycia tego pliku jest w poście Roboty i Googlebot). [...]

  2. JarTSWon 16 czerwca 2007 at 5:54 po południu

    I jak napisałem ten comment moze bede mial wreszcie google bota na forum :]

  3. adminon 17 czerwca 2007 at 11:59 po południu

    No cóż roboty bardzo lubią linki, im więcej tym lepiej. Na samych linkach z komentarzy bym jednak się nie opierał :)

  4. okoon 27 czerwca 2007 at 9:41 po południu

    Świetny artykuł

  5. piteron 17 lipca 2007 at 1:10 po południu

    pozdrawiam:)

  6. Zakaron 04 grudnia 2007 at 7:58 po południu

    Może teraz po tym commentcie będę miał wreszcie bota na stronie bo tak to nie chciał mnie odwiedzić…

  7. adminon 04 grudnia 2007 at 9:05 po południu

    Powodzenia :) .
    Zastanów się nad wprowadzeniem trochę bardziej przejrzystego szablonu. Dla robota nie będzie to miało wielkiego znaczenia, ale dla Twoich użytkownikom znaczenie to już będzie miało. Na podstronie Darmowe szablony www masz do wyboru wiele darmowych szablonów zoptymalizowanych dla potrzeb niedużej firmy. Razem szablonów do wyboru jest ponad 60. Z wszystkich można skorzystać bez żadnych opłat.

  8. krisuson 14 grudnia 2007 at 2:13 po południu

    Również liczę że i mnie robocik odwiedzi. Czekam i czekam :)

  9. piotron 22 lutego 2008 at 11:17 po południu

    Siemka :) ) tez licze na bota hehehe :P

  10. Aduinon 09 sierpnia 2008 at 10:38 przed południem

    Świetny artykuł!

  11. malarz2on 07 grudnia 2008 at 4:24 przed południem

    A boty na forum?? Jak je wyświetlać ??

  12. pateuszon 12 lutego 2009 at 12:09 po południu

    Ja też na bota czekam!!! :)

  13. shouteron 14 lutego 2009 at 1:35 po południu

    fajny artykuł

  14. Mortison 21 maja 2009 at 2:44 po południu

    Ja również czekam na chwile w która odwiedzi Mnie robocik :)

  15. adruson 22 maja 2009 at 3:16 po południu

    mnie wczoraj odwiedził robocik przesledził każda strone i podstrone ale nadal niema mojej strony w wyszukiwarce :( nie wiem dlaczego

  16. maxon 22 czerwca 2009 at 11:15 przed południem

    Musisz czekać cierpliwie,pozdrawiam

  17. madikon 23 czerwca 2009 at 12:41 po południu

    kolega ma racje cierpliwości

  18. glson 30 września 2009 at 10:19 przed południem

    no to czekamy :)

  19. x-programy.plon 14 grudnia 2009 at 10:47 po południu

    Witam,

    Tak się zastanawiam czy taki wpis jest prawidłowy:

    Strona będzie indeksowana i robocik będzie podążał za linkami. Ale czy dodatkowo nie będzie archiwizował strony ?

  20. Fon 29 grudnia 2009 at 12:58 przed południem

    Pytanko. Też czekam na bota. Czy instalacja pliku robots.txt, jest niezbędna do tego aby GoogleBot odwiedził stronę??

  21. wzbogacsie.blogspot.comon 24 stycznia 2010 at 9:19 przed południem

    Bardzo pomocny artykuł. Pozdrawiam.

Trackback URI | Comments RSS

Odpowiedz komentarzem