Офіційні гайди від Google
Пам'ятайте, директиви robots.txt мають рекомендаційний характер і можуть виконуватись не усіма ботами. Якщо вам потрібно, щоб боти точно не мали туди доступу - скористайтесь іншими засобами.
Заборонити індексацію директорії (папки)
Disallow: /lib/
Заборонити індексацію усього, що починається з lib
Disallow: /lib
Наприклад для цієї dokuwiki актуальний наступний robots.txt
User-agent: * Crawl-delay: 5 Disallow: /webstat/ Disallow: /cgi-bin/ Disallow: /conf/ Disallow: /file/ Disallow: /inc/ Disallow: /vendor/ Disallow: /data/ Disallow: /bin/ Disallow: /lib/ Sitemap: https://wiki.djal.in/sitemap.xml.gz Host: https://wiki.djal.in
Приклад для сайту на wordpress
User-agent: * Crawl-delay: 1 Disallow: /webstat/ Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Allow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: /wp-trackback Disallow: /wp-feed Disallow: /comments Disallow: /wp-comments Disallow: /xmlrpc.php Disallow: */trackback # Disallow: */feed # Disallow: /feed/ Disallow: */comments # Disallow: /category # Disallow: /category/*/* Disallow: /tag # Disallow: /*?* # Disallow: /*? Disallow: /to/ Disallow: /&* Disallow: /page/ Disallow: /goto/ Disallow: /goto/* Sitemap: site.com/sitemap.xml.gz Host: site.com
Зверніть увагу, що тут вже вказано домен без www та з протоколом https. У вашому випадку це може бути не так - відредагуйте файл під ваші потреби.
Існує думка, що в директиві Host протокол вказувати не можна, одначе аналізатор від яндекса не лається, значить тут все в порядку. Якщо ж не орієнтуватись на цю пошукову систему директиву Host взагалі можна не використовувати.