robots
Zacznijmy zatem od tego, że plik robots.txt to swoistego rodzaju komunikator pomiędzy robotami wyszukiwarki Google a naszą stroną. Gdy roboty Google trafiają na daną stronę to w pierwszym kroku szukają właśnie owego pliku. Plik ten jest napisany językiem zrozumiałym dla robotów Google i ma zasugerować im, które zasoby naszej witryny powinny one pominąć podczas indeksacji. Mogą to być całe podstrony, pliki graficzne, style lub też skrypty.
Wiemy zatem już czym jest plik robots.txt. Teraz zastanówmy się co powinniśmy na naszej stronie ukryć przed wścibskim ,,wzrokiem” robotów Google. Jest to szczególnie istotne w przypadku sklepów internetowych które to posiadają bardzo wiele podstron, z których część jest całkowicie niewartościowa pod względem pozycjonowania i może jedynie przysporzyć problemów. Mowa tutaj o niebezpiecznej duplikacji treści.
Podstrony takie jak koszyk danego klienta, etapy procesu zakupowego czy też panel klienta to tylko z niektórych elementów, które powinny być ukryte przed indeksacją. Przez swoją specyfikę mogą one spowodować w wynikach wyszukiwania Google więcej szkody niż korzyści. Warto zatem ukryć je wykorzystując do tego celu plik robots.txt.
Posiadając taką wiedzę możemy już przystąpić do odpowiedniego przygotowania pliku robots.txt. Trzeba tutaj bowiem wykazać się szczególną ostrożnością. Jedną błędną regułą we wspomnianym pliku jesteśmy w stanie nieopatrzenie zablokować te strony na których indeksacji nam zależy.
Przyjrzyjmy się zatem konstrukcji podstawowych wpisów w tym pliku. Najpierw wprowadzamy polecenie, a następnie po dwukropku definiujemy do czego ma się odnosić. I tak komenda:
User-agent: Googlebot
Disallow: /katalog/podstronazkoszykiem.html
Allow: /katalog/podstronadoineksacji.html