С теорией поля тесно связана уже упомянутая выше теория нечётких множеств. В СССР её обоснованием занимались лингвисты В.Г. Адмони, И.П. Иванова, Г.Г. Поченцов, однако её родоначальником был американский математик Л.Заде, в 1965 году выпустивший статью «Fuzzy Logic». Давая математическое обоснование теории нечётких множеств, Заде рассматривал их на лингвистическом материале.
В этой теории речь идёт уже не столько о принадлежности элементов к данному множеству (АÎа), сколько о степени этой принадлежности (mАÎа), так как периферийные элементы могут в той или иной мере принадлежать нескольким полям. Заде (Лофти-заде) был выходцем из Азербайджана, до 12 лет имел практику общения на четырех языках - азербайджанском, русском, английском и персидском - и пользовался тремя различными алфавитами: кириллицей, латинским, арабским. Когда ученого спрашивают, что общего между теорией нечетких множеств и лингвистикой, он не отрицает этой связи, но уточняет: «Я не уверен, что изучение этих языков оказало большое влияние на мое мышление. Если это и имело место, то разве что подсознательно». В юности Заде учился в Тегеране в пресвитерианской школе, а после Второй мировой войны эмигрировал в США. «Вопрос не в том, являюсь ли я американцем, русским, азербайджанцем или кем-то еще, - сказал он в одной из бесед, - я сформирован всеми этими культурами и народами и чувствую себя достаточно комфортабельно среди каждого из них» [34, c.13]. В этих словах есть нечто родственное тому, что характеризует теорию нечетких множеств – отход от однозначных определений и резких категорий.
В нашей стране в 70е переводятся и изучаются труды западных лингвистов ХХ века. И.А. Мельчук перевёл на русский язык сочинения Н. Хомского. Н.А. Слюсарева в своей книге «Теория Ф. де Соссюра в свете современной лингвистики» связывает постулаты соссюровского учения с актуальными проблемами лингвистики 70-х. Намечается тенденция к дальнейшей математизации лингвистики. В ведущих отечественных вузахидёт подготовка кадров по специальности «Математическая (теоретическая, прикладная) лингвистика». В это же время на Западе происходит резкий скачок в развитии вычислительной техники, для чего требуются всё более новые лингвистические основы.
В 1980-е годы профессор Института востоковедения АН Ю.К. Лекомцев, занимаясь анализом языка лингвистики через анализ схем, таблиц и других видов записи, используемых в лингвистических описаниях, рассматривает математические системы, пригодные для этих целей (в основном – системы матричной алгебры).
Таким образом, на протяжении всего ХХ века шло сближение точных и гуманитарных наук. Взаимодействие математики с лингвистикой всё чаще находило практическое применение. Об этом – в следующей главе.
Глава 2. Отдельные примеры использования математики в лингвистике
2.1 Машинный перевод
Идея перевода с одного языка на другой при помощи универсального механизма возникла несколькими веками раньше, чем начались первые разработки в этой области – ещё в 1649 году Рене Декарт предложил идею языка, в котором эквивалентные идеи разных языков выражались бы одним символом. Первые попытки осуществить эту идею в 1930-40е, начало теоретических разработок в середине века, усовершенствование систем перевода при помощи техники в 1970-80е, бурное развитие переводческой техники в последнее десятилетие – таковы этапы развития машинного перевода как отрасли. Именно из работ по машинному переводу выросла компьютерная лингвистика как наука.
С развитием вычислительной техники в конце 70х – начале 80х исследователи задались более реалистичными и экономически выгодными целями – машина становилась не конкурентом ( как предполагалось раньше), а помощником человека-переводчика. Машинный перевод перестаёт служить исключительно военным задачам (все советские и американские изобретения и исследования, ориентированные, в первую очередь, на русский и английский языки, в той или иной мере способствовали «холодной войне»). В 1978 году слова естественного языка были переданы в объединённой сети Arpa, шестью годами позже в США появились первые программы перевода для микрокомпьютеров.
В 70е Комиссия Европейских Общин покупает англо-французскую версию компьютерного переводчика Systran, заказывая также франко-аглийскую и итало-английскую версии, и систему перевода с русского на английский, использовавшуюся американскими Вооружёнными Силами. Так были заложены основы проекта EUROTRA.
О возрождении машинного перевода в 70-80-е гг. свидетельствуют следующие факты: Комиссия Европейских общин (CEC) покупает англо-французскую версию Systran, а также систему перевода с русского на английский (последняя развивалась после доклада ALPAC и продолжала использоваться ВВС США и НАСА); кроме того, CEC заказывает разработку франко-английской и итало-английской версий. Одновременно происходит быстрое расширение деятельности по созданию систем машинного перевода в Японии; в США Панамериканская организация здравоохранения (PAHO) заказывает разработку испано-английского направления (система SPANAM); ВВС США финансируют разработку системы машинного перевода в Лингвистическом исследовательском центре при Техасском университете в Остине; группа TAUM в Канаде достигает заметных успехов в разработке своей системы METEO (для перевода метеорологических сводок). Целый ряд проектов, начатых в 70-80-е гг. впоследствии развились в полноценные коммерческие системы.
За период 1978-93 в США на исследования в области машинного перевода истрачено 20 миллионов долларов, в Европе - 70 миллионов, в Японии - 200 миллионов.
Одной из новых разработок стала технология TM (translation memory), работающая по принципу накопления: в процессе перевода сохраняется исходный сегмент (предложение) и его перевод, в результате чего образуется лингвистическая база данных; если идентичный или подобный исходному сегмент обнаруживается во вновь переводимом тексте, он отображается вместе с переводом и указанием совпадения в процентах. Затем переводчик принимает решение (редактировать, отклонить или принять перевод), результат которого сохраняется системой, поэтому не нужно дважды переводить одно и то же предложение. В настоящее время разработчиком известной коммерческой системы, основанной на технологии TM, является система TRADOS (основана в 1984 г.).
В настоящее несколько десятков компаний занимаются разработкой коммерческих систем машинного перевода, в их числе: Systran, IBM, L&H (Lernout & Hauspie), Transparent Language, Cross Language, Trident Software, Atril, Trados, Caterpillar Co., LingoWare; Ata Software; Lingvistica b.v. и др. Появилась возможность воспользоваться услугами автоматических переводчиков непосредственно в Сети: alphaWorks; PROMT's Online Translator; LogoMedia.net; AltaVista's Babel Fish Translation Service; InfiniT.com; Translating the Internet.
Коммерчески эффективные переводческие системы появились во второй половине 80х и в нашей стране. Расширилось само понятие машинного перевода (к нему стали относить «создание целого ряда автоматических и автоматизированных систем и устройств, выполняющих автоматически или полуавтоматически весь цикл перевода либо отдельные задачи в диалоге с человеком» [29, c.13]), увеличились государственные ассигнования на развитие этой отрасли.
Основными языками отечественных переводческих систем стали русский, английский, немецкий, французский и японский. Во Всесоюзном центре переводов (ВЦП) была разработана система перевода с английского и немецкого языков на русский на машине ЭВМ ЕС-1035 –АНРАП. Она состояла из трёх словарей – входных английского и немецкого и выходного русского – под единым программным обеспечением. Существовало несколько сменных специализированных словарей – по вычислительной технике, программированию, радиоэлектронике, машиностроению, сельскому хозяйству, металлургии. Система могла работать в двух режимах – автоматическом и интерактивном, когда на экране отображался пофразно исходный текст и перевод, который человек мог отредактировать. Скорость перевода текста на АНРАП (от начала набора до окончания печати) составляла примерно 100 страниц в час.
В 1989 году было создано семейство коммерческих переводчиков типа СПРИНТ, работавших с русским, английским, немецким и японским языками. Их главным преимуществом стала их совместимость с IBM PC – таким образом отечественные системы машинного перевода достигали международного уровня качества. В это же время разрабатывается система машинного перевода с французского языка на русский ФРАП, включающая в себя 4 этапа анализа текста: графематический, морфологический, синтаксический и семантический. В ЛГПИ им. Герцена шла работа над четырёхязычной (английский, французский. Испанский, русский) системой СИЛОД-МП (в промышленном режиме эксплуатировались англо-русский и франко-русский словари.
Для специализированного перевода текстов по электротехнике существовала система ЭТАП-2. Анализ входного текста в ней осуществлялся на двух уровнях – морфологическом и синтаксическом. Словарь ЭТАП-2 содержал около 4 тысяч статей; этап преобразования текста – около 1000 правил (96 общих, 342 частных, остальные – словарные). Всё это обеспечивало удовлетворительное качество перевода (скажем, заголовок патента «Optical phase grid arrangement and coupling device having such an arrangement» переводился как «Устройство оптической фазовой сетки и соединяющее устройство с таким устройством» [29, c.20] – несмотря на тавтологию, смысл сохранён).
В Минском педагогическом институте иностранных языков на базе англо-русского словаря словоформ и оборотов была изобретена система машинного перевода заголовков), в Институте востоковедения АН – система перевода с японского на русский. Созданная в Московском НИИ систем автоматизации первая автоматическая словарно-терминологическая служба (СЛОТЕРМ) по вычислительной технике и программированию содержала примерно 20000 терминов в толковом словаре и специальных словарях для лингвистических исследований.