Смекни!
smekni.com

Анализ и значение алгоритма Hilltop: Как он повлияет на ранжирование вашего сайта? (стр. 1 из 2)

Анализ и значение алгоритма Hilltop: Как он повлияет на ранжирование вашего сайта?

Почему потребовался новый алгоритм?

"По мере того, как ведутся Войны Поисковиков между Google, MSN и Yahoo, мы не только станем свидетелями все сметающих изменений алгоритмов, но также и новых измерений в технологиях и взаимодействиях с Поисковой машиной".

В то время, как алгоритм PR (page rank) неплохо справлялся все эти годы, все же в системе PR существует существенный недостаток, и Google знал об этом. Система PR определяет абсолютную «степень ценности» web-страницы, основываясь на количестве и качестве сайтов, ссылающихся на нее.

Тем не менее, «PR ценность» не специфична для поисковых терминов и поэтому, высокий PR страницы, содержащей упоминание off-топиковой ключевой фразы, часто обеспечивал высокое ранжирование по этой фразе. Krishna Bharat из Калифорнии осознавая недостаток этой, основывающейся на PR, ранжирующей системе, выступил в 1999-2000 гг. с алгоритмом, который назвал «Hilltop». Он оформил патент Hilltop в январе 2001г. в соавторстве с Google. Нет нужды говорить о том, что Google понял достоинства, приобретаемые с этим новым алгоритмом для своей системы ранжирования, присоединив его к собсвенной системе PR.

Hilltop мог прекрасно восполнить имеющийся пробел. Алгоритм Hilltop перед данным применением, возможно, подвергся нескольким очисткам.

Что же такое алгоритм Hilltop?

Вот, вам простое объяснение:

По своей сути, PR определяет «авторитетность» web-страницы в общем. Hilltop (он же LocalScore - “местный счет”) определяет «авторитетность» web-страницы по отношению к данному запросу или поисковому термину.

Bharat формулирует, что вместо использования просто «PR ценности» для нахождения «авторитетных» web-страниц, более важным будет, если «ценность» обладает тематической релевантностью. Исходя из этого, более полезно подсчитывать ссылки от «тематически релевантных» документов на данную страницу. Он называл эти «тематически релевантные» документы «экспертными документами», а ссылки от таких экспертных документов на целевые документы определяли как «показатель авторитетности» последних.

Алгоритм Hilltop вычисляет «показатель авторитетности» web-страниц (слишком упрощенно выражаясь) следующим образом:

Запустите обычный поиск по ключевой фразе для определения экспертных документов. Определяющие правила для «экспертных документов» жестки, поэтому «тело» - это вполне определенное, поддающееся управлению количество web-страниц.

Отфильтруйте "дочерние" (affiliate*) сайты и cкопируйте сайты из списка экспертных.

Страницы определены по местному показателю (LocalScore) «авторитетности», основанному на количестве и качестве голосов, получаемых от экспертных документов. Затем страницы ранжируются в соответствии с их LocalScore.

Как Hilltop определяет дочерние (affiliate) сайты?

*Affiliate-сайты определяются следующим образом:

Страницы, происходящие из того же самого домена ((www.ibm.com, www.ibm.com/us/, products.ibm.com, solutions.ibm.com и т.д;

Страницы, происходящие из тех же доменов, но различных уровней и вторичных суффиксов (например www.ibm.com, www.ibm.co.uk, www.ibm.co.jp и т.д.);

Страницы, происходящие из соседних IP (первые 3 общие восемь цифр из номера IP, например: 66.165.238.xxx - общие);

Страницы, происходящие из самих дочерних сайтов (если www.abc.com хостирован на том же самом cокете IP, что и www.ibm.com, тогда www.abc.com является дочерним по отношению к www.ibm.co.uk даже, если они на разных IP адресах).

Необходимо заметить, что алгоритм Hilltop строит свои подсчеты только на «экспертных документах». Его алгоритм требует нахождения по крайней мере двух экспертных документов, голосующих за страницу. Если алгоритм не находит минимум двух экспертных документов, результаты поиска будут нулевые. Это, собственно, означает, что алгоритм Hilltop не смог придать какой-либо ценности дальнейшему ранжированию и, поэтому становится неэффективным по данному поисковому термину.

Это очень важный аспект алгоритма Hilltop – он неэффективен в случае не нахождения экспертных документов.

Эта уникальная черта алгоритма Hilltop, имеющая большую вероятность выдачи «нулевого» результата по высокоспецифичному термину запроса, привела большинство SEO сообщества к уверенности в том, что Google использует фильтр-список «денежных слов». На самом деле, результаты «старого Google» показывались по специфическим поисковым терминам там, где Hilltop не справлялся. Коллекция таких терминов и была тем, что собирало SEO сообщество и называло ее «Списком Денежных Слов» (‘Money Words List’).

Этот эффект также выступает сильным доводом в пользу употребления Hilltop Googl-ом. Когда 15 января 2003 г. Google внедрил этот новый алгоритм, один аналитик заметил, что если вы подаете термин запроса с некоторыми «эксклюзивными мусорными» знаками, то Google показывал исходные (до изменения алгоритма) результаты, обходя фильтровальный список так называемых «денежных слов».

Например, если вы ищете “real estate –hgfhjfgjhgjg –kjhkhkjhkjhk”, тогда Google попытается показать вам страницы по “real estate”(недвижимость), но исключая те, которые содержат термины “hgfhjfgjhgjg” и “kjhkhkjhkjhk”.

Поскольку легко понять, что вряд ли встретится страница, содержащая слова “hgfhjfgjhgjg” and “kjhkhkjhkjhk”, Google возвратит те же результаты, что и по термину ‘real estate’. Тем не менее, так не происходило.

Google показывал результаты, которые, казалось, были идентичными ранжированию до изменения алгоритма. В конце концов, группа анти-Google основала сайт (www.scroogle.org) для блокировки изменений в ранжировании, убирая фильтр-список так называемых «денежных слов».

Какова же настоящая история, стоявшая за фильтр-списком так называемых «денежных слов»?

Мы считаем, что эффект фильтр-списка «денежных слов» был всего лишь эффектом «промашки» алгоритма Hilltop. Всякий раз, когда кто-то пытался запустить поисковый термин вроде “real estate –hgfhjfgjhgjg –kjhkhkjhkjhk”, Google передавал весь поиск Hilltop. Поскольку Hilltop был неспособен определить удовлетворяющие «экспертные» документы, содержащие данный «смешно выглядевший» поисковый термин, то выдавался нулевой результат. (нуль эффект чтения). Это явственно значит, что Hilltop попросту «шунтировал» эксклюзивный поисковый термин. Прочей части алгоритма Google оставалось извлечь и предоставить результаты, которые вероятно выглядели идентичными с результатами до внедрения алгоритма.

Растущая популярность www.scroogle.org привела Google к определению этого бага. Google обезвредил баг, разделив алгоритм Hilltop на 2-х ступенчатый процесс. Необычные (эксклюзивные) термины изымаются при передаче запроса на Hilltop; Hilltop делает свою работу, извлекает результаты и передает их алгоритму Google. Google исключает термины лишь перед тем, как показать результаты. Просто. Эксклюзивные термины больше не передаются на Hilltop, и теперь Hilltop работает превосходно. Как вы можете видеть на сайте Google, вышеуказанный метод удаления больше не показывает результаты «старого Google».

Как выглядит новый алгоритм Google? Что нового?

Соединение алгоритма Hilltop, Google-PR и факторов релевантности on-page, казалось бы, комбинация высокой мощности, которую очень трудно победить. Не невозможно, но очень трудно. Такая новая комбинация имеет далеко простирающиеся зависимости того, как link-popularity/PageRank (популярность ссылок и ранг страницы) и ссылки с Expert Documents (LocalScore) (экспертные документы; местный счет) будут нарушать ранжирование вашего сайта. Точный алгоритм Google известен только Google. Это строго охраняемый секрет. Я не хорош в математике (Хотелось бы мне!), но вот попытка упростить новый алгоритм Google для того, чтобы понять, что же он из себя представляет:

Старая формула ранжирования Google = {(1-d)+a (RS)} * {(1-e)+b (PR * fb)}

Новая формула ранжирования Google = {(1-d)+a (RS)} * {(1-e)+b (PR * fb)} * {(1-f)+c (LS)}

Где:

RS = RelevanceScore: Показатель релевантности (Показатель, основанный на ключевых словах, появляющихся в Заголовке, Meta tags, Подзаголовках, Теле текста, URL, Alt text, Атрибутах заголовка, якорном тексте и т.д. вашего сайта)

PR = PageRank: Ранг страницы(Показатель, основанный на количестве и PR значении страниц, ссылающихся на ваш сайт. Исходная формула PR (A) = (1-d) + d (PR (t1)/C (t1) + ... + PR (tn)/C (tn)), где PR страницы ‘A’ это сумма PR каждой страницы, ссылающейся на нее, поделенная на количество исходящих ссылок на каждой из этих страниц. ‘d’ это фактор амортизации (dampening factor), считающийся равным 0.15)

LS = LocalScore: Местный счет (локальный показатель)(Показатель, вычисленный из экспертных документов. Вариабелен и имеет различные значения в отношении поискового термина, появляющегося в заголовке (16), подзаголовке (6), якорном тексте (1), частоте поискового термина и т.д. Цифры в скобках – оригинальные величины, которые могут меняться Google).

a, b, c = Tweak Weight Controls: Тонкая подстройка веса (имеющаяся у Google для тонкой подстройки результатов)

d, e, f = Dampener Controls: Демпфирующий контроль(имеющийся у Google для тонкой подстройки результатов. Мы полагаем, что обычно величина ‘f’ установлена на ноль).

fb = FactorBase: Фактор базы (Шкала PageRank от 1 до 10 на Google bar не линейная, но экспотенциально/логарифмическая. В соответствии с нашими внутренними исследованиями, мы считаем, что эта база «близка» к 8. Это означает, что PR5 в 8 раз больше по значению, чем PR4. Таким образом, веб-сайт PR8 имеет ценность в 4000 раз больше, чем веб-сайт PR4. Этот фактор каким-то образом должен быть встроен в формулу алгоритма. Поэтому мы взяли величину fb для аккомодации данного фактора).

Заслуги нового алгоритма Google

Поисковики всегда немного варьировали степень достоверности своего алгоритма ранжирования в зависимости от факторов, расположенных на самой на странице. Большинство поисковиков роняли свои оценивающие факторы перед злоупотреблениями (превышающими силами), такими, как ключевое слово в длинном конце Мета тега. Факторы 'on-page' дают web-мастерам слишком много власти для злоупотреблений. Видимые части web-страниц менее склонны к спаму, так как им требуется нести больше смысла посетителям.

Тем не менее, в течении некоторого времени, даже эти факторы были субъектами злоупотреблений путем представления суб-стандартного, чрезмерно-оптимизированного, либо даже прикрытого содержимого поисковым машинам.