Рис. 1. Запросная форма НКРЯ для поиска по морфологическим признакам.
Слово 1: слово nom&pl
расстояние между словами: 1
Слово 2: слово
------------------------------------------------------------------------------------------------------
Область поиска: основной корпус (со снятой и неснятой омонимией)
Найдено документов: 59, контекстов: 69
1. ЕСЛИ ЧИНОВНИКИ НАЧАЛИ БОРЬБУ С КОРРУПЦИЕЙ — БЕРЕГИ КАРМАНЫ // «Красноярский рабочий», 2003.01.01 [омонимия не снята] Все контексты(1)
Слова, слова, слова... [ЕСЛИ ЧИНОВНИКИ НАЧАЛИ БОРЬБУ С КОРРУПЦИЕЙ — БЕРЕГИ КАРМАНЫ // «Красноярский рабочий», 2003.01.01]
2. Юлия Рахаева. Две трети Аполлона Григорьева. Единственная профессиональная литературная премия назвала лауреатов // «Известия», 2003.01.26 [омонимия не снята] Все контексты(1)
Потом уже были слова, слова, слова... [Юлия Рахаева. Две трети Аполлона Григорьева. Единственная профессиональная литературная премия назвала лауреатов // «Известия», 2003.01.26]
3. Евгений Ясин. ИНТЕРЕСНЫЙ ВОПРОС // «Известия», 2003.07.08 [омонимия не снята] Все контексты(1)
Что это: слова словами, а команда пока не дана? [Евгений Ясин. ИНТЕРЕСНЫЙ ВОПРОС // «Известия», 2003.07.08]
…………………………………………………………………..
Страницы: ← 1 2 3 4 5 6 →
Поиск осуществлен системой Яndex.Server
При цитировании примеров просим ссылаться на Национальный корпус русского языка
Рис. 2. Образец выдачи в НКРЯ
1. Поиск словоупотреблений слова holubí (голубиный).
(...)
2. Поиск словосочетания «holubí vejce» (голубиное яйцо) в любой форме и в любом написании (строчные и прописные)
[lemma="holubí"] [lemma="vejce"]
(...)
3. Поиск всех прилагательных (A) в краткой форме (C), мужского рода (Y), единственного числа (S)
[tag="ACYS.*"]
(...)
Рис. 3. Образец выдачи в Чешском национальном корпусе.
Collocation Sampler
Type in your word:
Note that output from this demo facility will be restricted to 100 collocates. These
will be the statistically most significant ones according to the score you have selected.
Collocate | Corpus Freq | Joint Freq | Significance |
the | 2313407 | 189 | 5.540490 |
erm | 84143 | 26 | 4.294184 |
million | 15796 | 19 | 4.182154 |
christi | 27 | 17 | 4.122786 |
spoken | 1542 | 17 | 4.104865 |
er | 98042 | 23 | 3.798765 |
a | 973489 | 81 | 3.724491 |
habeas | 12 | 12 | 3.463933 |
word | 7972 | 11 | 3.199393 |
mm | 73646 | 16 | 3.102023 |
software | 1216 | 9 | 2.980231 |
based | 7749 | 9 | 2.874020 |
Рис. 4. Интерфейс для вычисления коэффициента совместной встречаемости и образец выдачи в корпусе COBUILD
Приложение 2
Метаданные текстов в «Национальном корпусе
русского языка» (НКРЯ)
Метаописание в НКРЯ состоит из двух блоков, первый из которых включает следующие признаки:
1) Автор текста: имя, пол, дата рождения (или примерный возраст);
2) Название текста;
3) Время создания текста (точно или приблизительно);
4) Объем текста: для художественных произведений принято, что обычная длина рассказа — менее 5 тыс. слов; обычная длина повести — от 5 до 15 тыс. слов; обычная длина романа — более 15 тыс. слов.
Второй блок содержит параметры метаописания трех основных массивов текстов корпуса: а) художественных текстов; б) нехудо-жественных текстов; в) драматургии.
Для художественных текстов предлагаются следующие параметры:
1) Жанр текста: нежанровая проза, автобиографическая проза, детектив, детская литература, историческая проза, криминальная литература, приключения, фантастика, юмор и сатира;
2) Тип текста: автобиографическая проза, ассоциативная проза, очерк, литературное письмо, повесть, пьеса, рассказ, роман, сказка, эссе;
3) Хронотоп текста (приблизительное указание на место и время описываемых в тексте событий; включается также помета «хронотоп не определен»). Реально предлагается следующее: древний Восток; Россия XVII в.; Россия XVIII в.; Россия XIX в.; Россия/СССР: советский период в целом; Россия, советский период – Германия 1920–1940-е; Россия/СССР – Европа 1960–1980-е; Россия/СССР: перестройка; Россия/СССР: советский и постсоветский период; Америка: современная жизнь; Америка: 1960–1980-е; Израиль: современная жизнь; Средняя Азия: современная жизнь; ирреальный мир и некоторые другие.
Для нехудожественных текстов установлены следующие параметры:
1) Тип текста: автобиография, дневник, договор, документ, закон, заметка, заявление, инструкция, информационное сообщение, кодекс, комментарий, объявление, отзыв, отчет, очерк, письмо, проповедь, резюме, рецензия, рецепт, сочинение, справочник, статья, учебник, характеристика, хроника, эссе, юридический документ (включается также помета «тип не определен») и пр. (всего 62 параметра).
2) Тематика текста: (открытый список в 5 подмножествах): бизнес, коммерция, экономика, финансы; война и вооруженные конфликты; дом; здоровье и медицина; досуг; искусство; криминал; наука (по разделам и отраслям); политика и общественная жизнь; право; производство; сельское хозяйство; спорт; природа; частная жизнь и т.п.
Помимо названной, в «Национальном корпусе» существует еще служебная или «имплицитная» метаразметка, которая не выносится на открытый доступ для широкого пользователя. К этой метаразметке относятся:
1) «текст-стиль», при этом выделяются академический, научно-популярный, официально-деловой, нейтральный, сниженный, сниженный с элементами грубого просторечия и жаргона, архаизованный, индивидуально-авторский, диалектный и пр. (всего 21);
2) аудитория-возраст;
3) аудитория-уровень образования;
4) аудитория-размер.
нежанровая проза автобиографическая проза детектив детская литература историческая проза криминальная литература приключения фантастика юмор и сатира |
Рис. 5. Запросная форма НКРЯ для поиска по жанру.