Что такое robots.txt: основы для новичков

Содержание статьи

Для того, чтобы добиться успешной индексации недавно созданного веб-ресурса, важно учитывать некоторые составляющие. К ним стоит отнести файл robots.txt, о котором должен знать, а также уметь должным образом заполнять каждый человек, считающий себя веб-разработчиком.

Главное о robots.txt

Файл представляет собой  документ формата .txt, где содержатся указания для поисковиков, связанные с индексацией определенного ресурса. Документ помогает роботам-поисковикам выбрать страницы веб-сайта для индексации, и в то же время определяют страницы, которые не стоит индексировать. После того, как поисковый робот окажется на вашем ресурсе, он сразу же станет пробовать найти robots.txt. В том случае, если поисковику не удалось обнаружить файл или он неверно оформлен, робот приступит к изучению сайта так, как ему захочется. Стоит принять во внимание, что он не всегда начинает с таких страниц, которые должны быть введены в поиск прежде всего (свежие статьи, обзоры, отчёты в виде фотографий и тому подобное).

Может потребоваться длительное время для того, чтобы новый сайт был проиндексирован. Именно поэтому владельцу сайта следует уделить должное внимание документу robots.txt, оформить его вовремя и должным образом. Для удобства можно доверить автоматическое создание этого документа специальным сервисам в интернете,  Для просмотра файла нужно просто добавить к домену «/robots.txt». В случае если там появятся непонятные компоненты наподобие «noflashhtml» и «backhtml», не стоит беспокоиться, ведь они принадлежат к структуре сайтов на платформе и не оказывают влияние на отношение поисковых систем.

Для чего необходим robots.txt

Может возникнуть вопрос: почему определенное содержимое сайта не нужно допускать к индексации? Дело в том, что поисковикам требуется не весь контент, который наполняет сайт. Ведь существуют файлы системы, копии страниц, рубрики слов-ключей и другие моменты, которые совсем не являются обязательными для индексации. Стоит выделить важный момент: в файле robots.txt находятся лишь предписания для поисковиков, а не строгие правила. Эти предписания боты могут не рассматривать для исполнения. Гугл предостерегает о том, что с помощью robots.txt невозможно блокировать страницу для отображения в Гугл.

Несмотря на то, что доступ к странице в файле robots.txt будет закрыт, в случае обнаружения на какой-нибудь другой странице ссылки на эту, есть риск ее попадания в индекс. Рекомендуется воспользоваться одновременно и ограничениями в robots, и другими способами запрета, к примеру, запрет на индексацию сайта, Яндекс Блокировка индексации, Гугл. Так или иначе, при отсутствии robots.txt может возникнуть высокий шанс того, что информация, которая подразумевалась быть скрытой, может быть выдана. Вполне вероятно, что это станет причиной рассекречивания персональных данных и приведет к иным вовсе неприятным последствиям.

Отличительные черты robots.txt

Файл не может иметь никаких иных названий кроме  «robots.txt», прописанное символами нижнего регистра (малыми буквами), иной вариант не допускается. Файл, в количестве одного экземпляра, помещается в корневой каталог, имеющим вид https://site.com/robots.txt Отвечая на запрос, он отдаст HTTP-код, имеющий статус 200 ОК. Вес документа не может быть больше 32 КБ. Это предел, допустимый для нормального восприятия Яндексом, для Гугл допустимый размер файла —  до 500 КБ. Внутреннее содержимое следует писать на латинице, все наименования на русском языке рекомендуется преобразовать с помощью Punycode, конвертера, предназначенного для эих целей. Каждый префикс URL должен быть написан на отдельной строке. В файле robots.txt особая терминология применяется для того, чтобы прописать директивы.

Общая информация о директивах для поисковиков

«Us-agent:» — главная команда в robots.txt. Применяется для выбора конкретного поисковика, который будет получать предписания. Например, User-agent: Googlebot или User-agent: Yandex. В файле robots.txt есть возможность использовать все прочие поисковые системы одновременно. Директива в таком случае примет следующий вид: User-agent: *. Специальный знак «*» расшифровывается как  «любой текст». Следом за главной директивой идут четкие инструкции. С помощью директивы «Disallow:» бот может получить запрет на индексацию веб-сайта полностью или определенной его части, в зависимости от ее расширения.

User-agent: Yandex Disallow:/ — исходя из этого, поисковому роботу Yandex не разрешается приступать к индексации данного сайта, поскольку запрещающий символ «/» не несёт за собой уточняющих элементов.

User-agent: Yandex Disallow: /wp-admin.

В этом случае уже присутствуют уточнения и они связаны с  системной папкой wp-admin в системе управления контентом сайта WordPress. Это означает, что роботу-поисковику не рекомендуется индексировать всю эту папку.  Директива «Allow:» напротив, позволяет осуществить индексацию в robots.txt. Использование тех же самых уточнений, но с применением данной команды в файле robots.txt, позволяет роботу- индексатору получить разрешение на внесение необходимых составляющих сайта в поисковую базу.  User-agent: * Allow: /catalog Disallow: / Данная команда разрешает провести  сканирование всего, что начинается с «/catalog», но все прочее запрещает. Директива «Allow:» применяется совсем нечасто. Она используется автоматически, потому в ней нет необходимости.

Чтобы внести запрет на  индексацию определенного контента, владелец сайта просто использует команду «Disallow:». Все  остальное содержимое ресурса поисковик  воспринимает в качестве разрешённого  для индексации.

Карта сайта будет доступна с использованием директивы «Sitemap:». Таким образом  робот поисковик находит нужный путь к карте сайта представлен файлами sitemap.xml и sitemap.xml.gz в случае с системой управления содержимым сайта WordPress. Индексация карты сайта произойдет быстрее, если прописать команду в файле robots.txt. Таким образом, страницы ресурса будут попадать в выдачу намного быстрее.

Что следует за созданием файла robots.txt

Вот наконец вам удалось разработать текстовый документ robots.txt, в соответствии со спецификой, присущей сайту. Используя наш инструмент, его возможно создать автоматически. Какие действия нужно совершить далее: необходимо проверить, насколько корректен полученный документ. Это можно совершить, воспользовавшись сервисом Яндекса; используя FTP-клиента, нужно произвести скачивание готового файла в корневую папку своего сайта. Если говорится о  WordPress, то в большинстве случаев подразумевается системная папка Public_html. После всего этого нужно будет ждать появления поисковых роботов, которые приступят к изучению вашего файла robots.txt, и затем начнут индексировать ваш сайт.

Способ просмотра robots.txt стороннего сайта

В том случае, если вам хотелось бы сначала изучить образцы файла robots.txt, сделанные кем-то еще, то это вполне легко осуществить. Следует в строке поиска в браузере сделать запрос site.ru/robots.txt, где «site.ru» нужно заменить на  название сайта, который вас интересует.

Комментарии 0

Оставить комментарий

Ваш email не будет опубликован.