· понимать синтаксис языка, запросы на естественном языке (например, поисковый запрос “козлов” - это фамилия, а не животное);
· понимать транслитерированные слова;
· распознавать сложные слова, набранные слитно;
· предупреждать о вирусах на найденных веб-страницах (сайтах).
Перечисленные функции уже реализованы в ведущих поисковых системах. Дело за улучшением. Выделим еще некоторые возможности.
· Подсказки при поиске (саджесты; от англ. suggest): на основе статистических данных поисковик предлагает наиболее популярные варианты по однословному запросу (можно выводить подсказки с учетом географического, событийного факторов).
· Показ основных разделов сайта (топ 1) для быстрой навигации. Можно улучшить, показывая только релевантные и нужные разделы (например, “о компании”, “контакты”).
· Поиск с возможностью автоматического перевода страниц на разные языки.
· Вертикальный поиск (англ. Vertical search) - рубрикация выдаваемого поисковиком контента - тема отдельного разговора.
· Понимание (и учет при выдаче) структуры новости, художественного текста и т.п.
· Отображение коротких ответов прямо на странице поисковой выдачи (ее называют “СЕРП”; на англ. SERP от Search Engine Result Page). Например, “прогноз погоды в Москве“, “столица Сирии”, “курс доллара за 3 месяца”, “1564+445″ - ответ или результат.
Активно ведутся работы по развитию семантического поиска (входит в концепцию Web 3.0, которую называют также “Semantic Web” - “Семантическая паутина”), основанного на использовании смыслового анализа текста документов. Один из примеров - Twine; при запросе USA сервис знает, что это название страны. Также упомяну Wolfram Alpha - интеллектуальную поисковую систему, предназначенную для вычисления связей между разнообразными фактами, данными.
Выше мы уже говорили об интеграции поисковика с различными социальными сервисами. А какую информацию полезную можно от этой интеграции получить? Именно персональную. А значит можно более эффективно подбирать поисковые ответы на запросы пользователя, опираясь на его интересы (личную информацию). Данное направление - персонализация поиска - вызывает много вопросов. Человек не хочет раскрывать свою личную информацию. У него должен быть выбор. Но несмотря на все спорные моменты, персонализация поисковых запросов ведет к улучшению поисковой выдачи, экономии времени пользователя. Персонализация ведет также к снижению seo-прессинга на поисковые алгоритмы. [9]
При разработке эффективных поисковых алгоритмов необходимо улучшать поисковую выдачу, опираясь на модные тенденции представления результата, до тех пор, пока люди пользуются услугами поисковой системы. Представление результата можно персонифицировать.
2. Общие принципы работы поисковых систем
Поисковые системы состоят из пяти отдельных программных компонент:
1. spider (паук): браузероподобная программа, которая скачивает веб-страницы.
2. crawler : «путешествующий» паук, который автоматически идет по всем ссылкам, найденным на странице.
3. indexer (индексатор): «слепая» программа, которая анализирует веб-страницы, скаченные пауками.
4. the database (база данных): хранилище скаченных и обработанных страниц.
5. search engine results engine (система выдачи результатов): извлекает результаты поиска из базы данных.
Spider: Паук – это программа, которая скачивает веб-страницы. Он работает точно как ваш браузер, когды вы соединяетесь с веб-сайтом и загружаете страницу. Паук не имеет никаких визуальных компонент. То же действие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу и когда выбираете «просмотр HTML-кода» в своем браузере.
Crawler: Как и паук скачивает страницы, он может «раздеть» страницу и найти все ссылки. Это его задача – определять, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов.
Indexer: Индексатор разбирает страницу на различные ее части и анализирует их. Элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов, элементов BOLD, ITALIC и других стилевых частей страницы вычленяются и анализируются.
Database: База данных – это хранилище всех данных, которые поисковая система скачивает и анализирует. Это часто требует огромных ресурсов.
Search Engine Results Engine: Главный программный компонент. Именно система выдачи результатов решает, какие страницы удовлетворяют запросу пользователя. Это та часть поисковой системы, с который вы имеете дело, осуществляя поиск. [2]
Когда пользователь вводит ключевое слово и делает поиск, поисковая система отбирает результаты на основании постоянно меняющихся критериев. Алгоритмом называется метод, по которому она принимает решение. Профессиональные оптимизаторы (SEO) иногда употребляют термин «algos» - это и есть то, о чем мы говорим.
Не смотря на то, что поисковые системы сильно изменились, большинство до сих пор отбирают результаты поиска на основании примерно следующих критериев:
· Title (заголовок): Присутствует ли ключевое слово в заголовке?
· Domain/URL (Домен/адрес): Присутствует ли ключевое слово в имени домена или в адресе страницы?
· Style (стиль): Жирный (STRONG или B), Курсив (EM или I), Заголовки HEAD: если место на странице, где ключевое слово использовано в жирных, курсивных или Hx (H1, H2,…) текстовых заголовках?
· Density (плотность): Как часто ключевое слово употреблено на странице? Количество ключевых слов относительно текста страницы называется плотностью ключевого слова.
· MetaInformation (мета данные): Хотя многие отрицают, некорые поисковые системы до сих пор читают мета ключевые слова (meta keywords) и мета описания (meta description).
· Outbound Links (ссылки наружу): На кого есть ссылки на странице и встречается ли ключевое слово в тесте ссылки?
· Inbound Links (внешние ссылки): Кто еще в Интернет имеет ссылку на данный сайт? Каков текст ссылки? Это называется «внестраничный» критерий, потому что автор страницы не всегда может им управлять.
· Insite Links (ссылки внутри страницы): На какие еще страницы данного сайта содержит ссылки эта страница?
Подробнее об алгоритме ранжирования результатов поиска в поисковых системах, а так же об основных факторах, влияющих на позиции сайта, рассказано в следующих 2 параграфах.
Все факторы, влияющие на положение сайта в выдаче поисковой системы, можно разбить на внешние и внутренние. Внутренние факторы ранжирования – это те, которые находятся под контролем владельца веб-сайта (текст, оформление и т.д.).
1. Текстовое оформление веб-страниц
1.1. Объем текста на странице
Поисковики ценят сайты, богатые информационным содержанием. В общем случае следует стремиться к увеличению текстового наполнения сайта. Оптимальными следует считать страницы, содержащие 500-3000 слов или 2-20 кб. текста (от 2 до 20 тыс. символов). Кроме того, большее количество текста на странице увеличивает видимость страницы в поисковых системах за счет редких или случайных поисковых фраз, что в некоторых случаях может давать неплохой приток посетителей.
1.2. Число ключевых слов на странице
Ключевые слова (фразы) должны встречаться в тексте как минимум 3-4 раза. Верхняя граница зависит от общего объема страницы – чем больше общий объем, тем больше повторений можно сделать. Отдельно следует рассмотреть ситуацию с поисковыми фразами, то есть словосочетаниями из нескольких ключевых слов. Наилучшие результаты наблюдаются, если фраза встречается в тексте несколько раз именно как фраза (т.е. все слова вместе в нужном порядке), а кроме того, слова из фразы попадаются в тексте несколько раз поодиночке. Также должно существовать некоторое различие между числом вхождений каждого из слов, составляющих фразу.
1.3. Плотность ключевых слов
Плотность ключевого слова на странице показывает относительную частоту содержания слова в тексте. Плотность измеряется в процентах. Например, если заданное слово встретилось 5 раз на странице из 100 слов, то плотность этого слова равна 5%. Слишком низкая плотность приведет к тому, что поисковая система не придаст должного значения этому слову. Слишком высокая плотность способна включить спам-фильтр поисковой системы (то есть страница будет искусственно понижена в результатах поиска из-за чрезмерно частого употребления ключевой фразы). Оптимальной считается плотность ключевого текста 5-7%. В случае фраз, состоящих из нескольких слов, следует посчитать суммарную плотность всех ключевых слов, составляющих фразу и убедиться, что она укладывается в указанные пределы.
1.4. Расположение ключевых слов на странице
Очень короткое правило – чем ближе ключевое слово или фраза к началу документа, тем больший вес они получают в глазах поисковой системы.
1.5. Стилистическое оформление текста
Поисковые системы придают особое значение тексту, тем или иным способом выделенному на странице. В настоящее время использование css позволяет переопределить вид текста, выделенного этими тегами, поэтому использование тегов «H» имеет меньшее значение, чем раньше. Имеет смысл так же выделение ключевых слов на странице жирным шрифтом.
1.6. Тег «TITLE»
Один из наиболее важных тегов, которому поисковые системы придают огромное значение. Обязательно нужно использовать ключевые слова в теге TITLE.
1.7. Ключевые слова в тексте ссылок
Также очень простое правило – использование ключевых слов в тексте исходящих ссылок со страниц сайта (как на другие внутренние страницы этого же сайта, так и на другие ресурсы сети) может добавить небольшое преимущество при ранжировании.
1.8. Теги «ALT» изображений
Любое изображение на странице имеет специальный атрибут «альтернативный текст», который задается в теге «ALT». Этот текст будет отображен на экране в том случае, если скачать изображение не удалось или же показ изображений заблокирован в браузере. Поисковые системы запоминают значение тега ALT при разборе (индексации) страницы и используют его при ранжировании результатов поиска.