Офіційні гайди від Google
Пам'ятайте, директиви robots.txt мають рекомендаційний характер і можуть виконуватись не усіма ботами. Якщо вам потрібно, щоб боти точно не мали туди доступу - скористайтесь іншими засобами.
Заборонити індексацію директорії (папки)
Disallow: /lib/
Заборонити індексацію усього, що починається з lib
Disallow: /lib
Наприклад для цієї dokuwiki актуальний наступний robots.txt
User-agent: * Crawl-delay: 5 Disallow: /webstat/ Disallow: /cgi-bin/ Disallow: /conf/ Disallow: /file/ Disallow: /inc/ Disallow: /vendor/ Disallow: /data/ Disallow: /bin/ Disallow: /lib/ Sitemap: https://wiki.djal.in/sitemap.xml.gz Host: https://wiki.djal.in
Приклад для сайту на wordpress
User-agent: *
Crawl-delay: 1
Disallow: /webstat/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Allow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /comments
Disallow: /wp-comments
Disallow: /xmlrpc.php
Disallow: */trackback
# Disallow: */feed
# Disallow: /feed/
Disallow: */comments
# Disallow: /category
# Disallow: /category/*/*
Disallow: /tag
# Disallow: /*?*
# Disallow: /*?
Disallow: /to/
Disallow: /&*
Disallow: /page/
Disallow: /goto/
Disallow: /goto/*
Sitemap: site.com/sitemap.xml.gz
Host: site.com
Зверніть увагу, що тут вже вказано домен без www та з протоколом https. У вашому випадку це може бути не так - відредагуйте файл під ваші потреби.
Існує думка, що в директиві Host протокол вказувати не можна, одначе аналізатор від яндекса не лається, значить тут все в порядку. Якщо ж не орієнтуватись на цю пошукову систему директиву Host взагалі можна не використовувати.