Доброго времени суток!
При регистрации сайта в поисковых системах вам понадобятся два файла robots.txt и sitemap.xml, которые предназначены для роботов поисковых систем и указывают им какие страницы вашего сайт отдавать в индексацию, а какие нет. А так же чтобы избежать от дублирования контента в индексации.
Файл sitemap.xml необходим поисковым системам Google, Yahoo, Яндекс, Bing для правильной индексации сайта.
Если ваш сайт построен на основе какой-нибудь CMS, то, как правило, существуют плагины, которые делают это в автоматическом режиме. Например, для WordPress это плагин
Также вы можете написать его сами, кодировка файла обязательно должна быть utf-8. Приведу пример для одной страницы:

<?xml version=»1.0″ encoding=»UTF-8″?>
<urlset xmlns=»http://www.sitemaps.org/schemas/sitemap/0.9″>
<url>
<loc>http://example.com/</loc> — адрес страницы
<lastmod>2005-01-01</lastmod> -дата последнего обновления
<changefreq>monthly</changefreq> — периодичность обновления
<priority>0.8</priority> — приоритет индексации
</url>
</urlset>
Выделенный кусок кода должен повторяться для каждой страницы вашего сайта.
Или же вы можете прибегнуть к услугам сторонних сервисов, например, я пользовался http://www.mysitemapgenerator.com
Sitemap может помочь поисковикам определить местонахождение страниц сайта, время их последнего обновления, частоту обновления и важность относительно других страниц сайта для того, чтобы поисковая машина смогла более разумно индексировать сайт.
Файл robots.txt
Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.
Вот пример моего robots.txt:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag/
Disallow: /page/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Host: example.com – адрес вашего сайта, с www или без, прописывается без http://
Sitemap: http:// example.com /sitemap.xml – адрес по которому находится файл sitemap.xml
В нём я запрещаю к индексации все ненужные файлы и папки, в индексацию попадают только статьи и главная страница.
Надеюсь эта информация будет полезна для вас и ваши творения будут быстро и правильно индексироваться.
Если возникнут вопросы или трудности с этими файлами спрашивайте, обязательно отвечу.
© 2012,