Зміст

Базова пошукова оптимізація сайтів

Основи

Офіційні гайди від Google

.htaccess

htaccess

sitemap

robots.txt

Пам'ятайте, директиви robots.txt мають рекомендаційний характер і можуть виконуватись не усіма ботами. Якщо вам потрібно, щоб боти точно не мали туди доступу - скористайтесь іншими засобами.

Заборонити індексацію директорії (папки)

Disallow: /lib/

Заборонити індексацію усього, що починається з lib

Disallow: /lib

Наприклад для цієї dokuwiki актуальний наступний robots.txt

| robots.txt
User-agent: *
Crawl-delay: 5  
Disallow: /webstat/
Disallow: /cgi-bin/
Disallow: /conf/
Disallow: /file/
Disallow: /inc/
Disallow: /vendor/
Disallow: /data/
Disallow: /bin/
Disallow: /lib/
Sitemap: https://wiki.djal.in/sitemap.xml.gz
Host: https://wiki.djal.in 

Приклад для сайту на wordpress

| robots.txt
User-agent: *
    Crawl-delay: 1  
    Disallow: /webstat/
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Allow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: /wp-trackback
    Disallow: /wp-feed
    Disallow: /comments
    Disallow: /wp-comments
    Disallow: /xmlrpc.php
    Disallow: */trackback
    # Disallow: */feed
    # Disallow: /feed/
    Disallow: */comments
    # Disallow: /category
    # Disallow: /category/*/*
    Disallow: /tag
    # Disallow: /*?*
    # Disallow: /*?
    Disallow: /to/
    Disallow: /&*
    Disallow: /page/
    Disallow: /goto/
    Disallow: /goto/*
 
    Sitemap: site.com/sitemap.xml.gz
    Host: site.com 

Зверніть увагу, що тут вже вказано домен без www та з протоколом https. У вашому випадку це може бути не так - відредагуйте файл під ваші потреби.

Існує думка, що в директиві Host протокол вказувати не можна, одначе аналізатор від яндекса не лається, значить тут все в порядку. Якщо ж не орієнтуватись на цю пошукову систему директиву Host взагалі можна не використовувати.

Корисні посилання