Русский
военный
корабль

Що за файл Robots.txt і навіщо він потрібний

Robots.txt – це стандартний текстовий файл у популярному кодуванні символів UTF-8. До його структури входять символи, а також знаки латиниці. Вони допомагають пошуковим роботам розділити веб-ресурси на дві групи: які підлягають індексуванню і ні. Невикористання цього індексного файлу призведе до сканування всіх сторінок, без сортування.

Власники онлайн-сервісів повинні пам'ятати: якщо не проводити збір, перевірку, внесення інформації про контент у пошукову базу, існує великий ризик знизити позицію сайту у видачі. Файл дозволяє зменшити навантаження на ваш сервер коштом фільтрації (зниження) кількості пошукових запитів.

Що являє собою Robots.txt

Це стандартний файл, що складається з кількох текстових рядків (мінімальна кількість 2). Число символів, що використовуються, символів формується індивідуально. Набір слів залежить від необхідності сканування конкретної групи сторінок. Кожен рядок у Robots.txt є окремою командою у вигляді керівної вказівки. Ця директива характеризує окрему рубрику, категорію чи сторінку.

Змінювати індексний файл дозволяється будь-якої миті. Як правило, редагування потрібно при необхідності приховати від бази пошукової системи:

  • дублі сторінок;
  • особисту інформацію;
  • ліцензійну (користувацьку) угоду;
  • нові сторінки ресурсу.

Щоб змінити Robots.txt, його потрібно вивантажити через спеціальну програму (файловий менеджер), яка дозволяє керувати ним на ПК. Після завершення редагування змінений файл завантажується назад на сервер. Його обов'язково перевіряють за посиланням yoursite.ru/robots.txt. Тут замість yoursite.ru потрібно вписати назву вашого веб-ресурсу.

Документ дає можливість поставити заборону або навпаки дати дозвіл на додавання відомостей про контент, розміщений на всіх сторінках онлайн-сервісу. Він дозволяє приховувати окремі категорії від конкретних систем пошуку.

Основне призначення файлу Robots.txt

Що за файл Robots.txt і навіщо він потрібний, Фото № 1 - google-seo.pro

Однією з головних функцій документа є керування кількістю реальних відвідувачів вашого онлайн-сервісу, які потрапляють на нього за посиланнями зі сторінки з результатами пошукових систем. Robots.txt, залежно від типу файлу, може блокувати демонстрацію контенту в Google. Як впливає цей стандарт на різний інформаційний зміст сайту?

Вебсторінка. Robots.txt застосовується для керування індексацією тільки медійних сторінок (наприклад, формат HTML або PDF). Файл дозволяє виключити сканування марних та абсолютно ідентичних Web page. Варто пам'ятати, що стандарт не забороняє показувати сторінки пошукової видачі. Для повного блокування рекомендується застосувати складний пароль або команду noindex. Використання Robots.txt для Web page дозволяє здійснювати повний контроль над трафіком.

Медіаконтент. Індексний файл Роботс чудово підходить для:

  • керування числом реальних відвідувачів, які потрапляють на ваш ресурс за посиланнями з пошукової видачі;
  • заборона демонстрацію картинок, відеороликів, звукозаписів.

Файли онлайн-сервісів. Robots.txt допомагає виключити з пошуку зображення, які не несуть користувачам корисної інформації. Цей стандарт дозволяє блокувати невеликі програми (скрипти) дій, що виконуються системою та різні файли, що не мають жодного впливу на ресурс.

Правила створення файлу Robots.txt

Скласти його можна кількома способами. Для цього можна використовувати такі програми:

  • стандартний блокнот, який є кожному ПК;
  • програмне забезпечення Notepad, що є редактором текстових файлів;
  • пропрієтарна програма зміни текстових даних – Sublime Text;
  • інші послуги, призначені для виправлення файлів.

До структури Robots.txt обов'язково повинні входити два важливі елементи. Першим є User-agent - буквено-цифровий рядок, який ідентифікує програму. З її допомогою надсилається запит на сервер, а також запитує доступ до онлайн-сервісу. User-agent – ​​це візитна картка для пошукових роботів. Варто пам'ятати, що файл Robots.txt підтримують не всі пошукові системи.

Другий важливий елемент - директива Disallow. Це правило нагадує, який контент не потрібно індексувати. Рекомендацію варто використовувати, якщо ваш веб-ресурс знаходиться на стадії доробки, а ви не бажаєте, щоб він з'являвся в пошуку.

Кожен зобов'язаний пам'ятати: директива Disallow обов'язково знімається, коли сайт знаходиться в повній готовності і його вільно можна світити в пошуковій видачі.

Творці Google зазначають, що розмір створеного файлу Robots.txt не повинен перевищувати 500 Кб. В іншому випадку існує високий ризик помилок у процесі сканування.

 Що за файл Robots.txt і навіщо він потрібний, Фото № 2 - google-seo.pro

Також обов'язково потрібно встановлювати:

  • правило Allow - необхідно для індексації окремих файлів, сторінок;
  • директива Host - вказує пошуковикам, яку URL-адресу дзеркала при індексації потрібно ставити в перевагу;
  • спеціальний XML-файл Sitemap – це карта сайту. Вона містить всю важливу інформацію про сторінки веб-ресурсу для пошукових систем, що підлягають скануванню;
  • Crawl-delay - директива дає можливість встановити мінімальний проміжок часу (в секундах), через який відбуватиметься завантаження сторінок веб-ресурсу.

Важливим є правило Clean-param. Ця керівна вказівка ​​допомагає протистояти динамічним параметрам CGI, що призводять до зміни інформаційного змісту документа. Директива дозволяє виключити появу дубліката сайту.

До основних символів файлу Robots.txt належить:

  • коса риса (слеш, /) - необхідна для приховування від пошукових систем контенту;
  • * (зірочка)  – визначає розташування символом у будь-якому порядку;
  • $ (долар) - знак потрібен, щоб обмежити дії, дозволені зірочкою;
  • # (решітка)  – використовується для пояснень, залишених веб-фахівцями іншим вебмайстрам. При індексації вони не беруться до уваги.

Дозвіл основних інструкцій файлу Robots.txt

Цей атрибут був розроблений виключно для комп'ютерних систем, призначених для пошуку потрібної інформації в Інтернеті. Відвідуючи конкретний сайт, сканер насамперед звертається до Robots.txt. За відсутності файлу відбувається індексація всього контенту онлайн-ресурсу, не розбираючи. Його наявність дозволяє встановити заборону на сканування всього онлайн-сервісу або окремих сторінок, медіафайлів.

Robots.txt – це атрибут, який дозволяє створити обмеження для окремих програм пошукових роботів. З його допомогою можна визначити адресу точної основної копії вашого сайту. Файл дозволяє не тільки створювати певні інструкції пошуковикам, але й реалізувати ефективну рекламу власного бренду.

Складання та реалізація Robots.txt – відповідальний процес, який варто довірити професійним вебмайстрам. При самостійному налаштуванні файлу є велика ймовірність помилок. Це призведе до сканування всіх сторінок сайту, а також можливого витоку конфіденційної інформації.

Пам'ятайте: наявність індексного текстового документа Robots.txt є важливою та необхідною для кожного веб-ресурсу.


Отправлять комментарии могут только пользователи сайта с подтвержденным Email.

Войти