🢂robots.txt ‑ Cheatsheet (ściąga)
Ściąga z GITa która ma na celu szybkie przekazanie najważniejszych, kluczowych punktów, które pomagają zrozumieć daną kwestię bez zagłębiania się w szczegółowe i rozbudowane wyjaśnienia.
Czym jest robots.txt
Plik robots.txt
to plik tekstowy umieszczony na serwerze strony internetowej, który informuje roboty wyszukiwarek (np. Googlebot), jak mają indeksować daną stronę.
Składnia pliku robots.txt:
Plik robots.txt
składa się z dyrektyw, które określają instrukcje dla robotów. Dyrektywy składają się z nazwy dyrektywy, parametru i wartości.
Przykładowe dyrektywy:
- User-agent: Określa, do jakich robotów dyrektywa jest kierowana.
- Disallow: Zabrania robotom indeksowania określonej ścieżki.
- Allow: Zezwala robotom na indeksowanie określonej ścieżki.
- Crawl-delay: Określa czas (w sekundach), jaki roboty powinny odczekać między kolejnymi żądaniami do serwera.
- Sitemap: Podaje adres URL pliku mapy strony.
Komentarze w pliku robots.txt:
Komentarze można dodawać do pliku robots.txt
, aby ułatwić jego zrozumienie. Komentarze są ignorowane przez roboty.
Przykład komentarza:
# Ten plik informuje roboty wyszukiwarek, jak indeksować stronę https://www.example.com/
Przykładowy plik robots.txt:
User-agent: *
Crawl-delay: 10
Sitemap: https://www.example.com/sitemap.xml
Disallow: *.js
Disallow: *.css
Disallow: *.cgi
# WordPress
Disallow: /wp-admin/
Disallow: /wp-login.php
# Joomla
Disallow: /administrator/
Disallow: /login/
# Drupal
Disallow: /user/login/
Disallow: /user/register/
Disallow: /user/password/
# Magento
Disallow: /admin/
Disallow: /admin123/
Disallow: /index.php/admin/
# TYPO3
Disallow: /typo3/
Disallow: /typo3_src/
# PrestaShop
Disallow: /admin/
Disallow: /login/
# Shopify
Disallow: /admin/
# Blokowanie indeksowania stron wyników wyszukiwania
Disallow: /szukaj/
Disallow: /wyszukiwanie/
Disallow: /search?q=
Disallow: /*?q=
# Blokowanie indeksowania stronicowania
Disallow: /*?strona=
Disallow: /*&strona=
Disallow: /*?p=
Disallow: /*&p=
Disallow: /*?pager=
Disallow: /*&pager=
# Blokowanie indeksowania filtrów i parametrów URL
Disallow: /*?filtr=
Disallow: /*&rozmiar=
Disallow: /*?sortowanie=
# Blokowanie indeksowania sesji i identyfikatorów śledzenia
Disallow: /*?sesja=
Disallow: /*?tracking=
## Tagi kompani
Disallow: /*?utm_source=*
Disallow: /*?utm_medium=*
Dodatkowe informacje:
- Więcej informacji na temat pliku
robots.txt
można znaleźć na stronie Google Search Console: https://developers.google.com/search/docs/advanced/robots/intro. - Istnieje wiele narzędzi online, które pomagają w tworzeniu i testowaniu pliku
robots.txt
.
Podsumowanie:
Plik robots.txt
to proste narzędzie, które pozwala kontrolować, jak roboty wyszukiwarek indeksują Twoją stronę internetową. Plik ten jest ważny dla SEO, ponieważ może pomóc w poprawie widoczności Twojej strony w wynikach wyszukiwania.