Googlebot сканирует и индексирует первые 15 МБ HTML-контента
Согласно обновленной справочной документации, поисковый робот Google использует только первые 15 МБ HTML-кода страницы для определения рейтинга.
Обновление справочного документа Googlebot содержит подтверждение того, что он будет сканировать первые 15 МБ веб-страницы, а все, что после этого ограничения, не будет учитываться при расчете рейтинга.
Google указывает в справочном документе:
«Любые ресурсы, на которые есть ссылки в HTML, такие как изображения, видео, CSS и JavaScript, извлекаются отдельно.
После первых 15 МБ файла робот Googlebot прекращает сканирование и рассматривает для индексации только первые 15 МБ файла.
Ограничение размера файла применяется к несжатым данным».
Это заставило некоторых в сообществе SEO задаться вопросом , означает ли это, что робот Googlebot будет полностью игнорировать текст, который находится ниже изображений на границе в HTML-файлах.
«Это связано с самим HTML-файлом, как будто он написан», — пояснил через Twitter Джон Мюллер, Google Search Advocate.
«Встроенные ресурсы/контент, извлеченные с помощью тегов IMG, не являются частью файла HTML».
Что это значит для SEO
Чтобы обеспечить взвешивание Googlebot, важный контент теперь должен быть включен в верхнюю часть веб-страниц.
Это означает, что код должен быть структурирован таким образом, чтобы размещать релевантную для SEO информацию с первыми 15 МБ в HTML или поддерживаемом текстовом файле.
Это также означает, что изображения и видео должны быть сжаты, а не кодированы непосредственно в HTML, когда это возможно.
В настоящее время оптимальные методы SEO рекомендуют сохранять HTML-страницы размером не более 100 КБ , поэтому это изменение не затронет многие сайты. Размер страницы можно проверить с помощью различных инструментов, включая Google Page Speed Insights.
Теоретически может показаться тревожным тот факт, что потенциально у вас может быть контент на странице, который не используется для индексации. На практике, однако, 15 МБ — это довольно большой объем HTML.
Как заявляет Google, такие ресурсы, как изображения и видео, извлекаются отдельно. Судя по формулировке Google, это ограничение в 15 МБ применимо только к HTML.
Преодолеть этот предел с помощью HTML было бы трудно, если только вы не публикуете текст на одной странице, объем которого равен объему всей книги.
Если у вас есть страницы, размер HTML которых превышает 15 МБ, скорее всего, у вас есть основные проблемы, которые в любом случае необходимо исправить.
Источник: Google Search Central