Утечка раскрыла основу поиска «Яндекса» — 1922 фактора поискового ранжирования

Недавняя утечка исходных кодов «Яндекса» потенциально способна привести к крайне неприятным последствиям для поисковой системы. SEO-специалисты всего мира уже с интересом изучают доступные материалы — выяснилось, что в коде имеются крайне важные данные, включая факторы поискового ранжирования. Зная их, можно искусственно выводить те или иные сайты на верхние строки выдачи, что скажется на её качестве.

Сама «Яндекс» подтвердила, что утечка не стала результатом взлома — сработал человеческий фактор, из местного репозитория предположительно украл данные бывший сотрудник компании. В Сети появился архив с 44,7 Гбайт данных «Яндекса». В компании подчеркнули, что репозитории предназначены для хранения кода и работы с ним. Персональные данные пользователей в таких хранилищах обычно отсутствуют. Сейчас проводится внутреннее расследование для выявления источников и причин публикации исходного кода. Впрочем, в компании заявили, что не видят угрозы производительности платформы и пользовательским данным.

Как заявил один из специалистов по поисковой SEO-оптимизации, говоря об утечке, это «возможно, самая интересная вещь, которая случалась в SEO за последние годы». Эксперты подчёркивают, что сотрудники Google и «Яндекса» посещали одни и те же мероприятия, активно общались, а сотни из них успели поработать и в «Яндексе», и в Google. Вполне вероятно, что в Google используются многие из алгоритмов, аналогичных решениям «Яндекса», а значение утечки для русскоязычного рынка SEO трудно переоценить. Кроме того, утечка позволяет лучше понять, как работают поисковые системы вообще.

Сегодня в Сети можно обнаружить список из 1922 факторов ранжирования. Ожидается, что «Яндекс» попытается по мере возможностей ограничить доступ к этой информации в Сети. Например, как сообщает Search Engine Land, портал публиковал ссылку на Dropbox, но уже скоро она перестала работать. Так или иначе, пока код присутствует в общем доступе и вряд ли удастся полностью изъять его из оборота.

Источник изображения: Lucian Novosel/unsplash.com

В числе учитываемых при поисковой выдаче алгоритмов указывается «вес» страницы PageRank с учётом ссылок на неё, возраст ссылок, релевантность текста, свежесть контента, надёжность хоста и другие факторы, некоторые сайты вроде «Википедии» получают приоритет. Имеется и масса других значимых факторов, включая, например, число уникальных посетителей и процент «органического» трафика.

Утверждается, что 244 фактора маркированы, как неиспользуемые, а 988 как устаревшие — это означает, что 64 % факторов либо не применяется активно, либо заменено другими. Впрочем, по словам эксперта Майкла Кинга (Michael King) с портала Search Engine Land, внимательно изучившего код, на деле «ставки» намного выше — речь идёт не о 1922 факторах, а о 17 854, каждый из которых добавляет либо положительный, либо отрицательный «вес» ресурсу или странице.