Понятия пертинентности, смысловой и формальной релевантности.
Основными критериями оценки качества поиска являются полнота, точность и оперативность поиска.
Основополагающими характеристиками информационно-поисковых систем является полнота и релевантность результатов поиска.
"Релевантность" - устанавливаемое при информационном поиске соответствие поискового образа документа поисковому предписанию.
Полнота поиска тесно связано с оперативностью охвата информации системой.
Второй аспект связан с полнотой информации, предъявляемой пользователю по его запросу. Если предположить, что по запросу пользователя Q в базе данных находятся Р (при Р ( 0) документов, соответствующих этому запросу, а предъявлено для просмотра всего N документов, то полнота системы определяется по формуле: П=(N/P)x100%.
Под релевантностью понимается формальное соответствие информации, выдаваемой системой, запросу.
Если по запросу пользователя получено N документов, представляющих собой объединение двух множества документов: соответствующих запросу (пусть их количество - N1), и не соответствующих (их количество - N2), т.е. N = N1+N2. Тогда релевантность, как степень соответствия, определяется по формуле: Р = (N1/N)x100%, а шум - по формуле: S = (N2/N)x100% = 100% - P.
В теории информационного поиска, говоря о документах, вместо слова «подходит» используют термин пертинентный (от англ. pertinent – относящийся к делу, подходящий по сути), а вместо «не подходит» – «непертинентный.
пертинетность, соотношение объема полезной для него информации к общему объему полученной информации
Достижение высокой пертинентности - основное поле конкурентной борьбы современных поисковых систем. Именно для максимального удовлетворения информационных потребностей пользователей информационно-поисковые системы сегодня максимально интеллектуализируются - получили широкое практическое применение теории и методы семантических сетей, контент-анализа и глубинного анализа текстов (Text Mining).
Степень соответствия документа запросу называют релевантностью.
Различают содержательную и формальную релевантности.
Содержательная релевантность - соответствие документа информационному запросу, определяемое неформальным путем.
Формальная релевантность – соответствие документа информационному запросу, определяемое алгоритмически на основании применяемого в информационно-поисковой системе критерия выдачи.
Пертинентность - соответствие полученной информации информационной потребности пользователя.
Пертинентность (в информационном поиске) — соответствие полученной информации информационной потребности пользователя.
Пертинентность измеряется степенью соответствие между ожиданиями пользователя и результатами поиска (сравните с релевантностью), которая определяется как отношение объема полезной для пользователя информации к общему объему полученной информации, найденной поисковой системой.
елевантность (англ. relevant – уместный, существенный; лат. relevare – поднимать; фр. relever – отмечать, выделять) — в широком смысле, соответствие получаемого результата желаемому результату.
Термин часто используется в информационно-поисковых системах как соответствие полученной информации поисковому запросу. И запрос, и документы фиксируются любой ИП-системой, и для оценки их релевантности ей достаточно применить алгоритмы их обработки. В отличие от пертинентности, где формулирование своей информационной потребности целиком и полностью зависит от ее осмысления и языковой интерпретации пользователем, а сама потребность никак более не может быть зафиксирована ИП-системой.
По методу определения, различают формальную и содержательную релевантности. Формальная релевантность – соответствие, определяемое алгоритмически путем сравнения поискового предписания и поискового образа документа на основании применяемого в информационно-поисковой системе критерия выдачи. Содержательная релевантность — соответствие документа информационному запросу, определяемое неформальным путем.
Поисковые системы выводят список найденных документов по информационному запросу в порядке убывания степени релевантности. Оценка степени релевантности основана на алгоритмах поиска конкретной информационно-поисковой машины. Как в интернет-поисковиках, так и в справочных системах, для оценки степени релевантности документов за основу берется TF*IDF–метод (TF, англ. term frequency – частота ключевого слова в найденном документе, IDF, англ. inverse document frequency – обратная частота ключевого слова во всей коллекции документов). Кроме того, для оценки степени релевантности документа поисковому запросу в поисковой системе Яндекс используется "индекс цитирования", в Google используется система PageRank.
Кластеризация
автоматическое определение классов, и последующую группировку (кластеризацию) откликов ИПС в соответствии ними. Например, в результате отработки запроса "network" (сеть) она предлагает следующие классы документов: Management; Solution; Catholic Church; Christian Organization; Domain Names; Blog; Economy; Moving; Project.
полнота и релевантность являются антагонистическими характеристиками - чем выше релевантность, тем ниже полнота и наоборот.
В последнее время получили развитие такие направления контент-анализа, как "Data Mining" и "Text Mining", которые предполагают автоматическое выявление нового смысла из текстовых массивов, новых данных, феноменов, фактов - знаний. Все чаще возникают попытки привлечения методов контент-анализа, а точнее Text Mining в реальные поисковые системы.
Во многие современные сетевые поисковые системы внедрены такие компоненты, как:
автоматическая группировка документов, по определенному заранее классификатору;
автоматическое определение новых, не заданных заранее классов, на основе неструктурированных или слабо структурированных документов;
ранжирование документов по смысловой релевантности;
выявление семантически подобных документов - поиск подобных документов на основе эталона;
автоматический анализ и смысловое преобразование запросов пользователей.
Критерии выдачи. Функциональная эффективность поиска. Поисковые массивы, способы их организации. Понятия об ассоциативном поиске и условиях его реализации.
Информационно-поисковые языки. Понятия пертинентности, смысловой и формальной релевантности. Критерии выдачи.
Модели поиска.
Вероятностная модель ИПС.
Стратегия поиска.
Функциональная эффективность поиска.
Поисковые массивы, способы их организации.
Понятия об ассоциативном поиске и условиях его реализации.
3. Математические основы информатики
Математическая логика: исчисление высказываний; исчисление предикатов; логические модели; формальные системы;
Все предметы и события, составляющие основу необходимой для решения задачи информации, называются предметной областью.
Языки предназначенные для описания предметных областей называются языками представления знаний.
Для представления математического знания пользуются формальными логическими языками – исчислением высказываний и исчислением предикатов.
Описания предметных областей, выполненные в логических языках, называются логическими моделями.
Логические модели, построенные с применением языков логического программирования, широко применяются в базах знаний систем искусственного интеллекта и экспертных систем.
Формальные системы.
Формальные логические модели основаны на классическом исчислении предикатов 1 порядка, когда предметная область или задача описывается в виде набора аксиом. Исчисление предикатов 1 порядка в промышленных экспертных системах практически не используется. Эта логическая модель применима в основном в исследовательских "игрушечных" системах, так как предъявляет очень высокие требования и ограничения к предметной области.
Многие научные теории строятся по следующему принципу. Сначала предлагаются некоторые основные понятия и некоторые исходные законы (аксиомы), присущие основным понятиям. Далее формулируются производные понятия и по определенным правилам доказываются некоторые утверждения (теоремы), относящиеся к основным и производным понятиям. Совокупность основных и производных понятий, аксиом и теорем, построенная таким способом, называется аксиоматической системой.
Часто аксиомы (а, значит, и теоремы) аксиоматической системы сохраняют истинность при замене основных понятий другими (как, например, в теории колебаний, которая находит применение в механике, электронике, оптике). Это позволяет рассматривать аксиоматические системы с двух позиций: синтаксически (принципы построения правильных и истинных предложений)
и семантически (связь смысла правильных и истинных предложений со смыслом основных понятий).
Для исследования синтаксиса аксиоматической системы требуется ее полная формализация, т.е. символическое представление основных и производных понятий, аксиом, правил вывода и теорем.
Поэтому формальная аксиоматическая теория (формальная система) - это синтаксический аспект (сторона) аксиоматической системы. Точное же определение понятия формальной аксиоматической теории включает следующие компоненты.
Во-первых, каждая формальная аксиоматическая теория должна иметь свой формальный язык. Формальный язык считается полностью определенным, когда задано (счётное) множество его символов и описаны формулы языка. Любая конечная последовательность символов языка называется выражением этого языка. Среди всех возможных выражений выделяются формулы языка, под которыми подразумеваются правильно построенные, утверждающие нечто осмысленное предложения языка.
Во-вторых, каждая формальная аксиоматическая теория должна иметь свою систему аксиом - подмножество заведомо истинных формул, из которых по правилам теории могут быть выведены все истинные предложения этой теории (обычно к системе аксиом предъявляются требования непротиворечивости, независимости и полноты, среди которых обязательным является требование непротиворечивости).