Курсова робота
План
І. Принципи та алгоритми машинного перекладу. 5
1.1. Постановка задачі машинного опрацювання текстів на природній мові 5
1.2. Основні складові компоненти систем машинного
перекладу. 10
ІІ. Використання Word 2002 як середовища перекладу іншомовних текстів 16
2.1. Загальна характеристика Word 2002. 16
2.2. Стандартні засоби перекладу у Word 2002. 19
2.3. Використання мови VВА для реалізації систем машинного перекладу 22
ІІІ. Програмні реалізації систем машинного перекладу сторонніх виробників в Word 2002. 25
3.1. Оцінка ефективності систем машинного перекладу. 25
Список використаних джерел. 34
Розширення міжнародного обміну інформацією, виникнення нових форм міжнародних інформаційних контактів і співробітництва в сфері обміну документальною інформацією, а також нові перспективні форми обробки документів і нові форми самих документів, що виникають в міжнародній практиці, - все це ставить нові проблеми в інформаційній і перекладацькій діяльності. При цьому центральною проблемою стає застосування обчислювальної техніки не лише в системи пошуку інформації, але і в процеси перекладу, тобто впровадження систем машинного перекладу в інформаційне обслуговування спеціальних комунікацій.
Включення України в загальну світову сферу міжнародної комунікації – обов’язкова умова інтенсифікації розвитку науки і техніки, інтеграції нашої країни в річище загальноєвропейського і загальносвітового економічного і культурного розвитку, подолання кризових явищ в національній економіці України. Однією з істотних форм збагачення сфери міжнародної комунікації є переклад іноземної літератури і документації. Закономірності розвитку світової економічної системи показують, що інтенсифікація міжнародних комунікацій неможлива без розв’язання проблем машинного перекладу. Ця проблема поставлена на порядок денних достатньо давно (ще у 50-х рр. ХХ ст.), однак доступні системи машинного перекладу з’явилися в комп’ютерній техніці порівняно недавно (80-ті рр.), з того моменту і до нашого часу системи машинного перекладу постійно вдосконалювалися, з іншого боку, вимоги до кваліфікації кінцевого користувача і сукупна вартість володіння засобами машинного перекладу неухильно знижувалися. В цьому контексті поява текстового процесора Microsoft Word 2002 з вбудованими функціями перекладу іншомовних текстів є етапною подією в індустрії інформаційних технологій. Вперше система машинного перекладу інтегрується як допоміжна частина у найбільш популярну в світі (й в Україні) програму обробки текстових документів. В той же час питання, щодо обсягу функціональних можливостей вбудованих функцій перекладу іншомовних текстів в Word 2002 залишається відкритим. Отже, актуальність теми полягає у необхідності дослідження функціональних можливостей наявних на ринку систем машинного перекладу (як стандартних Word 2002, так і програмних рішень від сторонніх виробників для Microsoft Word), з огляду на доцільність і необхідність їхнього практичного використання.
Метою даної роботи є дослідження засобів машинного перекладу використовуваних в новітньому текстовому процесорі фірми Microsoft – Word 2002.
Для досягнення мети автором були поставлені наступні конкретні завдання:
· визначити рівень функціональності програми Microsoft Word в цілому;
· визначити функціональність стандартних засобів перекладу іншомовних текстів в Word 2002;
· розглянути програмні рішення систем машинного перекладу для Word 2002 від сторонніх виробників для Word 2002;
· визначити оптимальний варіант використання, оптимальну стратегію використання стандартних і додаткових (Add-In) програмних засобів для перекладу іншомовних текстів в середовищі Word 2002.
Структурно робота складається зі вступу, трьох основних розділів, списку використаних джерел.
Перші системи машинного перекладу з’явилися ще у 50-х рр. ХХ ст. Однак обмежені можливості тогочасних комп’ютерів і недосконалість алгоритмів, що лежала в основі цих систем не дозволили їм вийти за стадію експериментальних розробок.
Розвиток апаратної частини обчислювальної техніки й удосконалення програмного забезпечення (зокрема високорівневих мов програмування) дозволили значно підвищити якість систем машинного перекладу (МП) і призвели наприкінці 70-х – на початку 80-х рр. до нової хвилі ентузіазму з приводу їх промислового і комерційного використання. Серед інших факторів цьому сприяли, з одного боку, такі яскраві свідчення можливості застосування МП для розв’язання реальних задач, як використання системи SYSTRAN для перекладу англійською мовою російської космічної документації в рамках програми радянсько-американського співробітництва “Аполлон – Союз”, а з іншого – активне включення в розробку систем МП японських комп’ютерних і перекладацьких фірм, котрі і зараз успішно освоюють дану область і все більш продуктивно конкурують з провідними фірмами – розробниками таких систем в США і Європі.
Розробка вітчизняних систем МП визначалася роботам по двох основних напрямках перекладу: послівного і глобального.
Історія розвитку систем МП в СРСР пов’язана з групою “Статистика мови”, що була створена на початку 70-х рр. в Ленінградському педінституті імені Герцена професором Р. Г. Піотровським[1]. В 1976 р. цією групою була розроблена одна з перших в СРСР систем машинного перекладу. Трохи раніше цієї події, в 1974 р. почала самостійні пошуки група, очолювана учнем Р. Г. Піотровського В. В. Рожковим. Потім цією групою був створений електронний перекладач “Сарма”, який став прототипом системи Socrat. Ідеї Ленінградської школи виявилися напрочуд плідними і послужили основою для багатьох комерційних систем машинного перекладу – окрім Promt та Socrat на цих же принципах засновані, наприклад, системи Multis і Pars.
Всі ці системи, хоча і розроблялися самостійними групами, мають досить багато спільного, їх можна охарактеризувати як системи, що реалізують “послівний” переклад. Між тим, давно відомо, що текст не можна подати як просту сукупність слів, які мають той чи інший зміст. Левова доля сенсу міститься не в самих словах, а там, де вони вступають у відносини між собою. Наприклад, підводний човен – це не човен під водою. Ринок і базар – синоніми. Але птичий ринок та птичий базар – зовсім різні речі. Біляча клітка в технічному жаргоні не має нічого спільного ані з білкою, а ні з кліткою, це позначення короткозамкненого ротора електродвигуна. Це не ефектні виключення, за оцінкою Г. Г. Білоногова, що очолює колектив розробників МП RETRANS, в розвиненому мовному співтоваристві налічуються десятки, якщо не сотні мільйонів понять, а слів – всього біля мільйону[2]. Отже, достатньо велика частина понять виражається фіксованою комбінацією слів – серед них і птичий базар, і біляча клітка (навіть переставити слова в такому словосполученні не можна – клітка біляча – це вже не технічний термін, а цінник в магазині). Наша мова знаходиться в більш жорстких рамках, ніж нам здається: можна сказати: їхав автобусом, але не можна сказати їхав велосипедом, увагу приділяють (чому-небудь) або звертають (на що-небудь), висновок роблять, перевагу віддають, роль грають, значення мають, перемогу здобувають і т. ін. Такі словосполучення в лінгвістиці називають стійкими словосполученнями.
Чи здатний комп’ютер навчитися подібним тонкощам, і якщо так, то як? Спроба дати відповідь на це питання і послужила розвитку другого напрямку в розробці систем МП. До нього насамперед належить лінгвістична школа. Це експериментальні системи ЕТАП і RETRANS.
Система МП ЕТАП розробляється в лабораторії комп’ютерної лінгвістики Інституту проблем передачі інформації (ІППІ РАН). Абревіатура ЕТАП, вказувала на “електротехнічний автоматичний переклад”. На протязі ряду років розробку очолював академік Ю. Д. Апресян (керівник авторського колективу “Нового великого англо-російського словника” – найбільш повного з існуючих на сьогодні англо-руських словників), а потім його учень, доктор філологічних наук І. М. Богуславський. Система заснована на лінгвістичній теорії “СЕНС – ТЕКСТ”, основоположником якої є російський вчений І. А. Мельчук, що проживає зараз у Канаді[3].
Згідно з цією теорією виділяються декілька рівнів подання мовної інформації: орфографічний, морфологічний, синтаксичний і семантичний. Якщо ж мова йде про машинний переклад, то інформація однією мовою повинна послідовно пройти ці стадії від введення вихідного тексту до отримання сенсу, зашифрованого за допомогою спеціальної семантичної мови. Потім процес йде у зворотному порядку: від семантичного рівня (сенсу) до орфографічного (конструювання готового тексту) мовою перекладу. Для цього необхідно пройти наступні етапи аналізу вихідного тексту: морфологічний аналіз, синтаксичний, семантичний, і в зворотному порядку такі ж етапи синтезу. Це складний процес. Так, наприклад, щоб правильно упоратися з синтаксичним аналізом речень, системі перекладу слід “мати уявлення” про те, які типи зв’язків з іншими словами характерні для того чи іншого слова. Так, про дієслово “купити” система повинна знати: купити може хтось що-небудь у кого-небудь за скільки-небудь і т.д.