За последнюю неделю опубликовано 98 новых материалов.
Инструкция новичку Путеводитель по форуму Прокси для Telegram Показать подсказки , это бомба!

Анализируем лог-файл веб-сервера для выявления SEO-проблем

  • Поучаствуй (в качестве покупателя) в любых пяти совместных покупках (кроме завершённых и "Моментальных") и получи группу "Новичок" навсегда -> ссылка на раздел
  • Получай до 480 рублей за каждого приглашенного пользователя!
    представляем Вам очередное расширение партнерской программы, подробности описаны тут -> ссылка
  • 90% материалов доступно к скачиванию после простой регистрации!
    Если же ты хочешь скачивать материалы без требования оставлять отзывы то получи группу "Новичок", 10 способов повышения описаны тут -> ссылка
  • К сожалению количество битых ссылок растет и мы уже не можем их оперативно восстанавливать поэтому просим помощи у каждого нашего пользователя.
    С сегодняшнего дня, за каждую восстановленную ссылку мы заплатим Вам.
    Подробнее тут -> ссылка
  • Перенесем твои заслуги с другого ресурса!
    Мы понимаем как сложно прокачивать аккаунты на форумах, вроде раскачал аккаунт, а тут появляется ресурс в 100 раз круче но тоже с системой прокачки и снова качать аккаунт...
    Предлагаем вам перенести Ваши заслуги на другом подобном ресурсе к нам.
    Подробности описаны тут -> ссылка
  • Вы можете получать по 2.5% с каждой покупки и продажи на маркете! Подробности в теме Партнёрская программа

News_Bot

Бот новостей и статей
Бот форума
29 Сен 2016
3.023
38
20
Иногда на сайтах возникают проблемы с поисковой оптимизацией, которые сложно или даже невозможно обнаружить с помощью популярных сервисов веб-аналитики вроде Google Analytics, Яндекс.Метрики, Рамблер/Топ-100 или Спутник/Аналитики. Когда это происходит, опытные оптимизаторы часто полагаются на методы старой школы. Например, начинают изучать лог-файлы веб-серверов.
65684cd883b7a35a14f14a1c71a5b190.jpg
Что такое лог-файл веб-сервера Многие вебмастера и оптимизаторы полагают, что Google Analytics и подобные аналитические платформы фиксируют каждое посещение их сайтов. Однако платформы веб-аналитики не регистрируют большинство посещений роботов, в том числе и ботов поисковых систем. Другое дело лог-файлы веб-серверов. Там фиксируется каждое посещение сайта – людьми или роботами. Обычно в них содержится информация об IP-адресе посетителя, агенте пользователя, запрошенные страницы и страницы, откуда приходят посетители.
Основная проблема в данном случае заключается в том, что информация находится в необработанном виде, и вебмастеру / оптимизатору необходимо предпринять дополнительные шаги для анализа данных. Например, так выглядит информация из лога Apache.
66.249.64.34 - frank [05/Apr/2017:13:55:36 -0700] "GET /product-123 HTTP/1.1" 200 2326 "http://www.webstore.com/home.html" "Mozilla/5.0 (compatible; Googlebot/2.1; +Googlebot - Search Console Help)"Можно выделить ключевые элементы записи : IP-адрес посетителя, время посещения, посещенная страница, ссылающаяся страница, а также информация о посетителе (человек или бот).
3 примера использования лог-файлов веб-серверов в SEOНиже представлены три реальных кейса использования логов веб-серверов, чтобы добраться до корня SEO-проблем.
Боремся с дублями страниц на сайте интернет-магазина Первый пример касается сайта крупного онлайн-ритейлера. В разделе Google Search Console > Сканирование> Файлы Sitemap отображалось сообщение о том, что в файле Sitemap XML данного ресурса прописано более 100 тыс. страниц. Но в индексе Google было менее 20 тыс. из них. Как это возможно?
Робот Google может сканировать множество страниц с повторяющимся контентом и пропускать часть таких страниц при индексировании. Определить, какие дублирующиеся страницы индексируются, а какие реальные – нет, бывает непросто. К сожалению, сервис Google Search Console не предоставляет список проиндексированных URL-адресов и не указывает, какие страницы из файлов Sitemap XML не индексируются.
Чтобы их получить соответствующие данные, были проанализированы лог-файлы веб-серверов за 3 месяца. Выяснилось, что за этот период Google просканировал менее 9 процентов страниц в XML-файле Sitemap (91,6% URL-адресов сайта из Sitemap не сканировались). После внимательного изучения страниц, которые не сканировались, обнаружилось, что большинство из них имеют точно такой же контент и шаблон. Единственным отличием было название продукта. Роботу Googlebot такое не нравится. В этом случае решением было создание уникального контента для каждой страницы, начиная со страниц самых продаваемых продуктов.
Находим отсутствующие параметры URLВторой пример - большой сайт автомобильной тематики. После перехода на HTTPS его владельцы столкнулись с многочисленными задержками при повторном индексировании, которые ухудшали позиции сайта в поисковой выдаче. Этот случай был особенно сложным, поскольку было подозрение, что на сайте имеются серьезные "ловушки для ботов", которые заставляют поисковых роботов продолжать сканировать страницы в бесконечном цикле. Причиной зачастую является непродуманная навигация или структура сайта. Подобные проблемы следует оперативно решать, ведь бюджет сканирования (crawl budget) робота Googlebot не резиновый.
Для решения проблемы снова пришлось обработать данные из лог-файлов с нескольких веб-серверов. Это позволило найти страницы, которые сканируются необычно часто, что свидетельствует о наличии "ловушки для ботов". Затем проблемные страницы были классифицированы по типу. Разбивка страниц по типу позволила "сузить круг подозреваемых" до группы URL-адресов "Год-Марка-Модель-Категория". После анализа этих страниц обнаружился ряд новых параметров, информации по которым не было в разделе Google Search Console> Сканирование> параметры URL.
Избавляемся от лишних статей информационного сайта, которые не видят программы для сканирования Третий пример касается сайта популярного веб-издателя. Оптимизаторы знали, что на сайте есть дублирующиеся страницы. Но когда они запускали инструмент для скирдования ScreamingFrog, то не смогли найти такие страницы, потому что они не были перелинкованы между собой. Однако при поиске в Google в SERP можно было увидеть несколько таких страниц. Это подтверждало, что они были проиндексированы. Угадывать проблемные URL-адреса – не вариант. Пришлось использовать лог-файлы.
Были проанализированы данные из логов за один месяц. При анализе необходимо было получить ответ на вопрос: какие из просканированных Googlebot адресов URL не включены в XML-Sitemap? Были найдены несколько бесполезных страниц с дублирующимися заголовками и без уникального контента, от которых пришлось избавиться.
В данном случае важно отметить, что робот Google может находить и сканировать страницы, которые сторонние инструменты для сканирования вроде ScreamingFrog не замечают, по следующим причинам:
Google использует ссылки с любого веб-сайта, а не только внутренние ссылки сканируемого ресурса. Популярные платформы для блогов вроде WordPress имеют встроенные системы оповещения поисковых систем о создании нового контента. У Google длинная память: если страница была просканирована в прошлом, Google может повторно ее просканировать в будущем.
 
Последнее редактирование модератором:

Привет!

Мы группа людей которые решили помочь другим в решении их проблем, а так же пользователям с поиском самых свежих и качественных инфопродуктов. За 4 с небольшим месяца мы создали этот форум на который заходят ежедневно тысячи человек и посещаемость постоянно растёт. Мы создали панель лицензирования для защиты PHP скриптов от воровства и SEO панель для мониторинга наших сайтов и выбора верной стратегии их развития. Мы надеемся что то что мы создали пригодится Вам и возможно Вы поможете нам развиваться и совершенствоваться вместе с Вами.

Статистика форума

Темы
394.337
Сообщения
446.497
Пользователи
75.199
Новый пользователь
ToxichBich

Приложения форума для iOS и Android


У ркн там нет власти ;)
Приватные разговоры
Помощь Пользователи
    Вы не присоединились ни к одной комнате.