Проблема разрешения лексической многозначности является одной из самых сложных прикладных задач, связанных с лексическим значением. Задача автоматического (реже полуавтоматического) разрешения лексической многозначности была впервые сформулирована в рамках направления науки и технологии, связанного с созданием систем машинного перевода (МП). В дальнейшем проблема разрешения лексической многозначности стала одной из ключевых не только при создании систем МП, но и систем обработки естественно-языкового текста (ОЕЯТ) других назначений (поиск, классификация). Десятки научных коллективов и коммерческих организаций во всем мире занимаются этой проблемой. На регулярной основе проводятся соревнования между действующими компьютерными программными системами, предназначенными для этих целей. Однако, несмотря на предложенные решения, полного решения проблема пока не получила. К примеру, общий механизм, предложенный Ю.Н. Марчуком (метод детерминант) - эффективный, но слишком трудоемкий метод, так как предполагает необходимость формирования индивидуальных правил для каждой лексемы.
В тоже время для некоторых задач ОЕЯТ этап распознавания лексического значения очень важен. Рассмотрим это на примере трех компьютерных технологий, связанных с ОЕЯТ: машинный перевод, поиск текстовых ресурсов в Интернете, классификация текстов.
Отсутствие надежных механизмов распознавания значения сводит "на нет" все усилия по реализации систем машинного перевода. На сегодняшний день это критическая проблема повышения качества систем для указанного направления компьютерной лингвистики 1.
В области поисковых технологий в Интернет проблема многозначности не носит критического характера, так как сравнительно низкое качество поиска часто сглаживается большими объемами информации в сети Интернет. Тем не менее, по оценкам специалистов, поиск с использованием разрешения многозначности способен привести к повышению релевантности поиска (в среднем с 30 до 70%), повысить таргетинг рекламы, тем самым резко повысив доходность поисковых систем, снизить общий трафик в сети и время на поиск конкретной информации.
В задачах классификации текстов влияние многозначности проявляется в том, что при выборе в качестве базового признака классификации единичную лексему, вы сталкиваетесь с ее многозначностью, что понижает точность классификации текстов.
Эти и другие аргументы говорят о необходимости для специалистов по прикладной лингвистике сосредоточиться на лингвистических технологиях, ориентированных на лексическое значение, так как даже частичное решение этой проблемы способно обеспечить прорыв сразу по нескольким направлениям. Статья посвящена описанию указанных оригинальных технологий и включает примеры их применения для задач классификации текстов и поиска. Преимущества новых технологий, ориентированных на лексическое значение, демонстрируются на примерах проекта "Интеллектуальная поисковая машина" и программы классификации текстов Rubryx.
Лексическая многозначность, безусловно, является одной из наиболее сложных проблем в описании языка, и поэтому всегда находилась в центре лингвистических исследований.
Строго говоря, в лингвистике принято разделять неоднозначность языковой единицы и собственно многозначность. Неоднозначность - это обобщенное понятие, оно подразумевает наличие у слова более одного значения, независимо от того, какие семантические связи существуют между отдельными значениями, таким образом, этим термином также покрывается явление омонимии, когда два слова с одинаковым внешним выражением семантически никак не связаны между собой. Различение омонимии и полисемии (многозначности) представляет собой отдельную лингвистическую проблему, однако в настоящей работе это различие не проводится. Причины этого связаны со спецификой исследования и обосновываются в третьем разделе этой главы.
Методы описания многозначности
В лексической семантике принято выделять три типа критериев для определения различных значений слова: парадигматические, синтагматические и концептуальные.
К парадигматическим критериям относится, в первую очередь, принципы, сформулированные в работах Е. Куриловича (Курилович 1962) и А.Е. Смирницкого (Смирницкий 1956). В соответствии с этими принципами разные употребления данного слова следует считать разными значениями этого слова, если им соответствуют разные синонимы. Иногда этот критерий неплохо работает, но довольно часто дает противоречивые результаты. Например, рассмотрим пример со словом окно, у которого можно было бы выделить такие значения '1) отверстие в стене здания;
2) стекло, закрывающее это отверстие;
3) рама, в которую вставлено это стекло1. Его употреблениям в значениях (2) и (3) соответствуют разные синонимы: разбить окно - разбить стекло, покрасить окно - покрасить раму. Однако, такое разделение представляется неоправданным как с точки зрения экономности описания, так и с точки зрения языковой интуиции. При таких употреблениях предпочтительней говорить о различном семантическом акценте в обозначении одного и того же объекта.
Наряду с наличием разных синонимов в качестве критерия разграничения значений может служить также наличие разных антонимов (принцип Вейнрейха, см. Вейнрейх 1980). Ср., однако, прилагательное холодный в значении "имеющий низкую температуру", которому в зависимости от сочетаемостных характеристик его контекстуального партнера сопоставляются разные антонимы: холодный день - жаркий день, но холодная вода - горячая вода. Вряд ли здесь есть смысл выделять два разных значения.
Концептуальные критерии выделения значений основываются на представлении носителей языка о сходствах и различиях понятий (а также соответствующих денотатов), обозначаемых данным словом. Право на существование концептуальных критериев отстаивается в работах когнитивного направления (см., в частности, Джэкендофф 1983, Ченки 1997). В некотором смысле, можно говорить, что эти критерии являются исходными для говорящего. Так, для носителей русского языка вполне очевидно, что слово вишня употребляется в сочетаниях типа есть вишню в другом значении, чем в сочетаниях типа растущие в саду вишни. Для того чтобы убедиться в этом, нет необходимости анализировать парадигматические связи этого слова или особенности его сочетаемости. Достаточным аргументом для выделения двух разных значений является интуитивное знание о том, что вишня как 'плодовое дерево' и вишня как 'плод соответствующего дерева' обозначают разные объекты. Соответственно, за ними стоят различные концептуальные представления.
Тем не менее, при формулировке концептуальных критериев возникает проблема, заключающаяся в том, что их чрезвычайно непросто формализовать. Такие критерии различения значений являются, в некотором роде, продолжением теории семантического инварианта, вследствие этого им присущи общие трудности. Как, например, определить, где пролегает граница между различными концептами?
Из-за своего "интуитивного" характера эти критерии до последнего времени практически никогда не использовались в теоретической семантике. Хотя в последнее время в рамках когнитивной семантики наметились определенные пути придания концептуальным критериям теоретического статуса. В частности, метаязыковой аппарат фреймов (Fillmore 1982) позволяет описывать концептуальные структуры, стоящие за 1. Здесь термин "фрейм" используется в значении, принятом в работах по искусственному интеллекту, и относится к структуре представления знаний. Не путать с "фрейм", означающим "падежную рамку" (Филлмор 1981). Языковыми выражениями, и интегрировать эти описания в лингвистические построения. Так, вишня в значении 'плодовое дерево' будет относиться к фрейму, описывающему класс деревьев, а вишня в значении 'плод' - к фрейму 'съедобный объект'. Принадлежность к разным фреймам является достаточным основанием для выделения самостоятельных значений.