sitemape.xml и robots.txt

sitemape.xml и robots.txt

 

Доброго времени суток!

При регистрации сайта в поисковых системах вам понадобятся два файла robots.txt и sitemap.xml, которые предназначены для роботов поисковых систем и указывают им какие страницы вашего сайт отдавать в индексацию, а какие нет. А так же чтобы избежать от дублирования контента в индексации.

Файл sitemap.xml необходим поисковым системам Google, Yahoo, Яндекс, Bing для правильной индексации сайта.

Если ваш сайт построен на основе какой-нибудь CMS, то, как правило, существуют плагины, которые делают это в автоматическом режиме. Например, для WordPress это плагин Google XML Sitemaps .

Также вы можете написать его сами, кодировка файла обязательно должна быть utf-8. Приведу пример для одной страницы:

<?xml version=»1.0″ encoding=»UTF-8″?>

<urlset xmlns=»http://www.sitemaps.org/schemas/sitemap/0.9″>

<url>

<loc>http://example.com/</loc> — адрес страницы

<lastmod>2005-01-01</lastmod> -дата последнего обновления

<changefreq>monthly</changefreq> — периодичность обновления

<priority>0.8</priority> — приоритет индексации

</url>

</urlset>

 

Выделенный кусок кода должен повторяться для каждой страницы вашего сайта.

Или же вы можете прибегнуть к услугам сторонних сервисов, например, я пользовался http://www.mysitemapgenerator.com

Sitemap может помочь поисковикам определить местонахождение страниц сайта, время их последнего обновления, частоту обновления и важность относительно других страниц сайта для того, чтобы поисковая машина смогла более разумно индексировать сайт.

Файл robots.txt

Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.

Вот пример моего robots.txt:

User-agent: *

Disallow: /cgi-bin

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content

Disallow: /tag/

Disallow: /page/

Disallow: /trackback/

Disallow: /feed/

Disallow: /comments/

Disallow: */trackback/

Disallow: */feed/

Disallow: */comments/

Disallow: /?feed=

Disallow: /?s=

Host: example.com – адрес вашего сайта, с www или без, прописывается без http://

Sitemap: http:// example.com /sitemap.xml – адрес по которому находится файл sitemap.xml

 

В нём я запрещаю к индексации все ненужные файлы и папки, в индексацию попадают только статьи и главная страница.

Надеюсь эта информация будет полезна для вас и ваши творения будут быстро и правильно индексироваться.

Если возникнут вопросы или трудности с этими файлами спрашивайте, обязательно отвечу.

 

© 2012, Алексей. Все права защищены.