Смекни!
smekni.com

Учебно-методическое пособие Санкт-Петербург 2005 ббк 81. 1 З-38 (стр. 5 из 8)

Научно-техническая информация. Сер. 2. 2005. № 3, 6. 2003. № 6.

Труды Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-2000», «Диалог-2001», «Диалог-2002», «Диалог-2003», «Диалог-2004», «Диалог-2005».

Труды Международной научной конференции «Корпусная лингвистика – 2004» / Под ред. А.С. Герда. СПб., 2004.

Шаров С.А. Параметры описания текстов корпуса. // http://bokrcorpora.

narod.ru/header.html.

Шаров С.А. Формат выходного представления корпуса текстов. // http://

bokrcorpora.narod.ru/format.html.

Дополнительная литература

Atkins S., Clear J., Ostler N. Corpus Design Criteria // Literary and Linguistic Computing. 1992. Vol. 7, N. 1. P. 1–16.

Biber D. Representativeness in Corpus Design // Literary and Linguistic Computing. 1993. Vol. 8, N. 4. P. 243–258.

Brill E. A Simple Rule-Based Part-of-Speech Tagger // Proceedings of the Third Conference on Applied Natural Language Processing (ANLF-92), Trento, Italy. 1992.

Burnard L. A Gentle Introduction to SGML. TEI P2. 1993.

Burnard L. A Gentle Introduction to XML. 1993 // http://www.tei-c.org/
Guidelines2/gentleintro.html.

Burnard L. The Text Encoding Initiative: an Overview. // Spoken English on Computer / Leech G., Myers G., Thomas J. (eds.) New York, 1995. P. 223–235; См. также http://www-tei.uic.edu/orgs/tei/.

Lee D. Genres, Registers, Text Types, Domains, and Styles: Clarifying the Concepts and Navigating a Path through the BNC Jungle // Language Learning & Technology. September 2001. Vol. 5, N. 3, P. 37–72; См. также http://llt.msu.edu/vol5num3/pdf/lee.pdf

Leech G. Corpus Annotation Schemes // Literary and Linguistics Computing. 1993. Vol. 8. N. 4. P.275–281.

Proceedings of the LREC (Language Resource Evaluating Conference). 2002, 2003, 2004, 2005.

Sharoff S. Towards Basic Categories for Describing Properties of Texts in a Corpus. In Proc. of Language Resources and Evaluation Conference (LREC04). May, 2004, Lisbon, Portugal // http://www.comp.leeds.ac.uk/
ssharoff/texts/lrec-04.pdf.

Sinclair J. Preliminary Recommendations on Text Typology. EAGLES Do-cument EAG-TCWG-TTYP/P, 1996 // http://www.ilc.cnr.it/EAGLES96/ texttyp/texttyp.html.

TEI P4: Guidelines for Electronic Text Encoding and Interchange. 2001 / Sperberg-McQueen C. M., Burnard L. (eds.) // http://www.hcu.ox.ac.uk/
TEI/P4X/index.html.

UCREL: Corpus Annotation // http://www.comp.lancs.ac.uk/ucrel/annotation.htm

XML Corpus Encoding Standard Document XCES 0.2. // http://www.cs.vassar.edu/XCES/

Zakharov V., Volkov S. Evaluating Morphological Tagging of Russian texts of the XIXth Century // Text, Speech and Dialogue: Proceedings of the 7th International Conference TSD 2004, Brno, Czech Republic, September 2004 / Petr Sojka, Ivan Kopeček, Karel Pala (eds.). Berlin; Heidelberg, 2004. P. 235–242. (Lecture Notes in Artificial Intelligence, 3206).

2.5. Часть 3. Использование корпусов

2.5.1. Разделы:

1) Обзор существующих корпусов различных типов.

2) Корпусные менеджеры.

3) Корпусные исследования.

Краткое содержание тем

Раздел 1. Обзор существующих корпусов различных типов

Тема 1. Зарубежные национальные корпусы.

Тема 2. Корпусы русского языка.

Тема 3. Специальные корпусы.

Раздел 2. Корпусные менеджеры

Тема 4. Корпус как поисковая система.

Тема 5. Языки запросов.

Тема 6. Выходные интерфейсы.

Тема 8. Сравнительный анализ.

Раздел 3. Корпусные исследования

Тема 9. Лексические исследования, базирующиеся на корпусах.

Тема 10. Грамматические исследования, базирующиеся на корпусах.

Тема 11. Семантические исследования, базирующиеся на корпусах.

Тема 12. Использование корпусов в социологии, исторической науке и др.

2.5.2. Примерные вопросы для самоконтроля

Когда был создан BNC?

Когда был создан CNK?

Как назывался первый корпус русского языка?

Каков был объем первого корпуса русского языка?

Корпусы каких писателей существуют?

Корпусы каких писателей доступны через Интернет?

Что такое язык регулярных выражений?

Что такое меры MI и T-score?

2.5.3. Примерная тематика докладов, рефератов, курсовых
работ

Анализ и описание различных корпусов.

Анализ и описание корпусного менеджера Xaira.

Анализ и описание корпусного менеджера Bonito.

Анализ и описание корпусного менеджера QPL.

Анализ и описание интерфейса WebCorp.

Сравнительный анализ возможностей корпусов и поисковых систем Интернета.

Использование корпусов в социологии.

Использование корпусов в этнолингвистике.

2.5.4. Примерный перечень вопросов к экзамену (зачету)

Британский национальный корпус.

Чешский национальный корпус.

Польский национальный корпус.

Национальный корпус русского языка.

Мангеймский корпус немецкого языка.

Русско-английский корпус С. Шарова.

Корпус языка А.С. Грибоедова.

Корпус русского языка 19 века.

Языки запросов корпусных менеджеров: общая характеристика.

Языки запросов конкретных корпусных менеджеров.

Выходные интерфейсы корпусных менеджеров: общая характеристика.

Выходные интерфейсы конкретных корпусных менеджеров.

Типы лексических исследований, базирующихся на корпусах.

Типы грамматических исследований, базирующихся на корпусах.

Семантическое наполнение Национального корпуса русского языка.

Использование корпусов в других науках.

Статистические меры вычисления совместной встречаемости.

Веб как корпус.

2.5.5. Распределение часов курса по темам и видам работы


раз-дела

Наименование тем
и разделов

ВСЕГО

(ч)

Аудиторные занятия (ч)

Самостоя-тельная
работа

лекции

семинары

1

Обзор существующих корпусов различных типов

24

4

20

2

Корпусные менеджеры

56

12

4

40

3

Корпусные исследования

56

12

4

40

ИТОГО:

136

28

8

100

2.5.6. Форма текущего, промежуточного и итогового
контроля

В течение семестра слушатели выполняют лабораторные (практические) работы, готовят письменные работы (рефераты) по одной из выбранных тем, которые «защищаются» в конце курса в виде докладов. В конце курса – экзамен.

2.5.7. Учебно-методическое обеспечение курса

Основная литература

Венцов А.В., Касевич В.Б., Ягунова Е.В. Корпус русского языка и восприятие речи // Научно-техническая информация. Сер. 2. 2003. № 6. С. 25–32.

Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных» / Под ред. А.С. Герда. СПб., 2002.

Захаров В.П. Чешский национальный корпус текстов: организация и способы использования // Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных» / Под ред. А.С. Герда. СПб., 2002. С. 72–79.

Копотев М.В. Корпусная лингвистика в Финляндии (обзор ресурсов) // Научно-техническая информация. Сер. 2. 2003. № 6. С. 37–41.

Научно-техническая информация. Сер. 2. 2003. № 6, 10. 2005. № 3.

Труды Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-2000», «Диалог-2001», «Диалог-2002», «Диалог-2003», «Диалог-2004», «Диалог-2005».

Труды Международной научной конференции «Корпусная лингвистика – 2004» / Под ред. А.С. Герда. СПб., 2004.

Шаров, С.А. Представительный корпус русского языка в контексте мирового опыта // НТИ. Сер. 2. 2003. № 6. С. 9–17.

Дополнительная литература

Aarts Jan. Комментарий к статье «A New Corpus of English» (Sidney Greenbaum) // Directions in Corpus Linguistics. Berlin, 1992.

Adam.Kilgarriff. Web as Corpus// http://www.itri.bton.ac.uk/
~Adam.Kilgarriff/wac_cfp.html.

Ball Catherine N. Tutorial: Concordances and Corpora // http://www.georgetown.edu/cball/corpora/tutorial.html.

BNC: The BNC Users Reference Guide, 2000. http://www.natcorp.ox.ac.uk/World/HTML/.

Český Národní Korpus – Úvod a Příručka Uživatele / Kocek J., Kopřivová M., Kučera K. (eds.). Praha, 2000.

Fillmore C.J., Atkins B.T.S. Starting Where the Dictionaries Stop: the Challenge of Corpus Lexicography // Computational Approaches to the Lexicon / Atkins B.T.S., Zampolli A. (eds.). 1994.

Gellerstam Martin. Modern Swedish Text Corpora // Directions in Corpus Linguistics. Berlin, 1992. P. 151–159.

Oakes M.P. Statistics for Corpus Linguistics. Edinburgh University Press, Edinburgh, 1998.

Proceedings of the LREC (Language Resource Evaluating Conference). 2002, 2003, 2004, 2005.

Sinclair J. Corpus, Concordance, Collocation, Oxford University Press, 1991.


Приложение 1

Корпусы в сети Интернет

Приведем сетевые адреса и краткие сведения о некоторых корпусах. В Интернете можно получить доступ и найти списки самых различных корпусов — см., например, D. Lee. Bookmarks for Corpus-based Linguists (http://devoted.to/corpora), веб-страницы М. Барбера (Manuel Barbera) (http://www.bmanuel.org/index.html) или М. Барлоу (Michael Barlow) (http://www.athel.com/corpus.html), сайт Language and Speech Resources (http://www.elsnet.org/resources.html) и др.

Национальный корпус русского языка
http://ruscorpora.ru
70 млн слов[1]
См. поисковые формы и образцы выдачи на рис. 1, 2, 5–7.
Компьютерный корпус текстов русских газет конца ХХ-го века
http://www.philol.msu.ru/~lex/corpus
200 тыс. слов
Система поиска по корпусу временно недоступна
Корпус русского языка ХАНКО (Хельсинский университет)
http://www.ling.helsinki.fi/projects/hanco/
100 тыс. слов
Ручная морфологическая разметка
Корпуса русских текстов на сайте Университета в Лидсе, Великобритания
http://corpus.leeds.ac.uk
Русские корпуса Тюбингенского Университета
http://www.sfb441.uni-tuebingen.de/b1/en/korpora.html
Словарь-корпус языка А.С. Грибоедова http://www.inforeg.ru/electron/concord/concord.htm 120 тыс. слов

Уппсальский корпус русских текстов
Доступен для поиска на сайте http://www.sfb441.uni-tuebingen.de/b1/en/korpora.html
1 млн слов
600 текстов (публицистика 1985-1989; литературные произведения 1960-1988).
Банк английского языка (Bank of English) http://www.collins.co.uk/books.aspx?group=153 Свободный доступ: http://www.collins.co.uk/Corpus/CorpusSearch.aspx 524 млн слов, 56 млн в свободном доступе (The Collins Wordbanks Online English corpus: 36 млн – брит. англ., 10 млн – амер. англ., 10 млн – брит. разговорн. англ.) См. образец выдачи на рис. 4.
Британский национальный корпус
http://www.natcorp.ox.ac.uk/ или http://sara.natcorp.ox.ac.uk/
100 млн слов
Корпусные менеджеры SARA и XAIRA (http://www.xaira.org)
Венгерский национальный корпус
http://corpus.nytud.hu/mnsz/
100 млн слов
Корпус испанского языка (исторический)
http://www.corpusdelespanol.org/
100 млн слов, тексты 13–20 вв.
Создан в Иллинойском университете, США
Корпус латинских текстов «Персей»
http://www.perseus.tufts.edu
Корпус современного датского языка
http://www.korpus2000.dk/
50 млн слов
Тексты 1998–2002 гг.
Корпус современного итальянского языка CORIS/CODIS
http://www.cilta.unibo.it/ricerca.htm
100 млн Слов
Корпус современного китайского языка (LIVAC Synchronous Corpus)
http://www.rcl.cityu.edu.hk/livac/
720 млн слов
(150 млн иероглифов)
Мангеймский корпус немецкого языка (Institut für Deutsche Sprache, Mannheim, Germany)
http://corpora.ids-mannheim.de/~cosmas/
1610 млн слов
Корпусный менеджер COSMAS
Национальный корпус словенского языка
http://www.fida.net/eng/
Более 100 млн слов
Польский национальный корпус
http://korpus.ia.uni.lodz.pl/
93 млн слов
Словацкий национальный корпус
http://korpus.juls.savba.sk
180 млн слов
Используется корпусный менеджер Manatee/Bonito.
Хорватский национальный корпус
http://www.hnk.ffzg.hr/
53 млн слов
Корпусный менеджер
Manatee/Bonito.
Чешский национальный корпус
http://ucnk.ff.cuni.cz
100 млн слов + 100 млн нового корпуса современной лексики
Корпусный менеджер
Manatee/Bonito.
См. образец выдачи на рис. 3.
Эстонский корпус
http://test.cl.ut.ee/korpused/baaskorpus/1980/index.html.en