Что за файл Robots.txt и зачем он нужен
Robots.txt – представляет собой стандартный текстовый файл в популярном кодировании символов UTF-8. В его структуру входят символы, а также знаки латиницы. Они помогают поисковым роботам разделить веб-ресурсы на две группы: подлежащие индексированию и нет. Неиспользование данного индексного файла приведет к сканированию абсолютно всех страниц, без сортировки.
Владельцы онлайн-сервисов должны помнить: если не проводить сбор, проверку, внесение информации о контенте в поисковую базу, есть большой риск понизить позицию сайта в выдаче. Файл позволяет уменьшить нагрузку на ваш сервер за счет фильтрации (снижения) количества получаемых поисковых запросов.
Что собой представляет Robots.txt
Это стандартный файл, состоящий из нескольких текстовых строк (минимальное количество 2). Число используемых символов, знаков формируется индивидуально. Набор слов зависит от необходимости осуществления сканирования конкретной группы страниц. Каждая строчка в Robots.txt является отдельной командой в виде руководящего указания. Данная директива характеризует отдельную рубрику, категорию или страницу.
Изменять индексный файл разрешается в любой момент. Как правило, редактирование требуется при необходимости скрыть от базы поисковой системы:
- дубли страниц;
- личную информацию;
- лицензионное (пользовательское) соглашение;
- новые страницы ресурса.
Чтобы изменить Robots.txt, его необходимо выгрузить через специальную программу (файловый менеджер), которая разрешает управлять им на ПК. После завершения редактирования, измененный файл загружается обратно на сервер. Его обязательно проверяют по ссылке yoursite.ru/robots.txt . Здесь вместо yoursite.ru нужно вписать название вашего веб-ресурса.
Документ дает возможность поставить запрет или наоборот дать разрешение на добавление сведений о контенте, размещенного на всех страницах онлайн-сервиса. Он разрешает скрывать отдельные категории от конкретных систем поиска.
Основное предназначение файла Robots.txt
Одной из главных функций документа является управление числом реальных посетителей вашего онлайн-сервиса, которые попадают на него по ссылкам из страницы с результатами поисковиков. Robots.txt, в зависимости от типа файла, может блокировать демонстрацию контента в Google. Как влияет данный стандарт на различное информационное содержание сайта?
Веб-страница. Robots.txt применяется для управления индексацией только не медийных страниц (например, формат HTML или PDF). Файл разрешает исключить сканирование бесполезных и абсолютно идентичных Web page. Стоит помнить, что стандарт не запрещает показывать страницы в поисковой выдаче. Для полной их блокировки рекомендуется применить сложный пароль или команду noindex. Использование Robots.txt для Web page разрешает осуществлять полный контроль над трафиком.
Медиаконтент. Индексный файл Роботс прекрасно подходит для:
- управления числом реальных посетителей, попадающих на ваш ресурс по ссылкам с поисковой выдачи;
- запрет на демонстрацию картинок, видеороликов, звукозаписей.
Файлы онлайн-сервисов. Robots.txt помогает исключить из поиска картинки, которые не несут пользователям полезной информации. Данный стандарт разрешает блокировать небольшие программы (скрипты)действий, выполняемых системой и различные файлы, не имеющие никакого влияния на ресурс.
Правила создания файла Robots.txt
Составить его можно несколькими способами. Для этого можно использовать такие программы:
- стандартный блокнот, который есть на каждом ПК;
- программное обеспечение Notepad, являющееся редактором текстовых файлов;
- проприетарная программа для изменения текстовых данных – Sublime Text;
- другие сервисы, предназначенные для исправления файлов.
В структуру Robots.txt обязательно должны входить два важных элемента. Первым является User-agent – буквенно-цифровая строка, которая идентифицирует программу. С ее помощью направляется запрос на сервер, а также запрашивается доступ к онлайн-сервису. User-agent – это визитная карточка для поисковых роботов. Стоит помнить, что файл Robots.txt поддерживают не все поисковики.
Второй важный элемент – директива Disallow . Данное правило подсказывает, какой контент не нужно индексировать. Рекомендацию стоит применять, если ваш веб-ресурс находится на стадии доработки, а вы не желаете, чтобы он показывался в поиске.
Каждый обязан помнить: директива Disallow обязательно снимается, когда сайт находится в полной готовности и его свободно можно «светить» в поисковой выдаче.
Создатели Google отмечают, что размер созданного файла Robots.txt не должен быть более 500 Кб. В ином случае существует высокий риск возникновения ошибок в процессе сканирования.
Также обязательно нужно устанавливать:
- правило Allow – необходимо для индексации отдельных файлов, страниц;
- директива Host – указывает поисковикам, который URL-адрес зеркала при индексации нужно ставить в преимущество;
- специальный XML-файл Sitemap – это карта сайта. Она вмещает в себе всю важную информацию о страницах веб-ресурса для поисковиков, подлежащих сканированию;
- Crawl-delay – директива дает возможность установить минимальный промежуток времени (в секундах), через который будет происходить загрузка страниц веб-ресурса.
Немаловажным является правило Clean-param . Данное руководящее указание помогает противостоять динамическим CGI-параметрам, приводящие к изменению информационного содержания документа. Директива дает возможность исключить появление дубликата сайта.
К основным символам файла Robots.txt относится:
- косая черта (слеш, /) – необходима для скрытия от поисковиков контента;
- * (звездочка) – определяет расположение символом в любом порядке;
- $ (доллар) – знак нужен, чтобы ограничить действия, разрешенные звездочкой;
- # (решетка) – используется для пояснений, оставленных веб-специалистами другим вебмастерам. При индексации они не берутся во внимание.
Разрешение основных инструкций файла Robots.txt
Данный атрибут был разработан исключительно для компьютерных систем, предназначенных для поиска нужной информации в интернете. Посещая конкретный сайт, сканер первым делом обращается к Robots.txt. При отсутствии файла происходит индексация всего контента онлайн-ресурса, без разбора. Его наличие разрешает установить запрет на сканирование всего онлайн-сервиса или отдельных его страниц, медиафайлов.
Robots.txt – это атрибут, позволяющий создать ограничения для отдельных программ поисковых роботов. С его помощью можно определить адрес основной точной копии вашего сайта. Файл позволяет не только создавать определенные инструкции поисковикам, но и реализовать эффективную рекламу собственного бренда.
Составление и реализация Robots.txt – ответственный процесс, который стоит доверить профессиональным вебмастерам. При самостоятельной настройке файла есть большая вероятность совершения ошибок. Это приведет к сканированию абсолютно всех страниц сайта, а также возможной утечке конфиденциальной информации.
Помните: наличие индексного текстового документа Robots.txt является важным и необходимым для каждого веб-ресурса.