🢂robots.txt ‑ Cheatsheet (ściąga)

Ściąga z GITa która ma na celu szybkie przekazanie najważniejszych, kluczowych punktów, które pomagają zrozumieć daną kwestię bez zagłębiania się w szczegółowe i rozbudowane wyjaśnienia.

Czym jest robots.txt

Plik robots.txt to plik tekstowy umieszczony na serwerze strony internetowej, który informuje roboty wyszukiwarek (np. Googlebot), jak mają indeksować daną stronę.

Składnia pliku robots.txt:

Plik robots.txt składa się z dyrektyw, które określają instrukcje dla robotów. Dyrektywy składają się z nazwy dyrektywy, parametru i wartości.

Przykładowe dyrektywy:

  • User-agent: Określa, do jakich robotów dyrektywa jest kierowana.
  • Disallow: Zabrania robotom indeksowania określonej ścieżki.
  • Allow: Zezwala robotom na indeksowanie określonej ścieżki.
  • Crawl-delay: Określa czas (w sekundach), jaki roboty powinny odczekać między kolejnymi żądaniami do serwera.
  • Sitemap: Podaje adres URL pliku mapy strony.

Komentarze w pliku robots.txt:

Komentarze można dodawać do pliku robots.txt, aby ułatwić jego zrozumienie. Komentarze są ignorowane przez roboty.

Przykład komentarza:

# Ten plik informuje roboty wyszukiwarek, jak indeksować stronę https://www.example.com/

Przykładowy plik robots.txt:

User-agent: *
Crawl-delay: 10
Sitemap: https://www.example.com/sitemap.xml

Disallow: *.js
Disallow: *.css
Disallow: *.cgi

# WordPress
Disallow: /wp-admin/
Disallow: /wp-login.php

# Joomla
Disallow: /administrator/
Disallow: /login/

# Drupal
Disallow: /user/login/
Disallow: /user/register/
Disallow: /user/password/

# Magento
Disallow: /admin/
Disallow: /admin123/
Disallow: /index.php/admin/

# TYPO3
Disallow: /typo3/
Disallow: /typo3_src/

# PrestaShop
Disallow: /admin/
Disallow: /login/

# Shopify
Disallow: /admin/

# Blokowanie indeksowania stron wyników wyszukiwania
Disallow: /szukaj/
Disallow: /wyszukiwanie/
Disallow: /search?q=
Disallow: /*?q=

# Blokowanie indeksowania stronicowania
Disallow: /*?strona=
Disallow: /*&strona=
Disallow: /*?p=
Disallow: /*&p=
Disallow: /*?pager=
Disallow: /*&pager=

# Blokowanie indeksowania filtrów i parametrów URL
Disallow: /*?filtr=
Disallow: /*&rozmiar=
Disallow: /*?sortowanie=

# Blokowanie indeksowania sesji i identyfikatorów śledzenia
Disallow: /*?sesja=
Disallow: /*?tracking=

## Tagi kompani
Disallow: /*?utm_source=*
Disallow: /*?utm_medium=*

Dodatkowe informacje:

Podsumowanie:

Plik robots.txt to proste narzędzie, które pozwala kontrolować, jak roboty wyszukiwarek indeksują Twoją stronę internetową. Plik ten jest ważny dla SEO, ponieważ może pomóc w poprawie widoczności Twojej strony w wynikach wyszukiwania.