В настоящее время развитие методик авторизации текста наиболее продуктивно проходит в рамках стилеметрии. Лингвистические основания авторизации могут быть различны, но использование количественных методов анализа оказывается неизбежным. Одно из перспективных направлений в этой области — привлечение к авторизации текста теории распознавания образов. При таком подходе стиль описывается как пространство количественно выразимых параметров — средняя длина предложения, количество вложенных синтаксических структур, количество слов в предложении, количество предложений в абзаце и т.д. Далее каждый анализируемый текст выражается через вектор, координаты которого задаются значениями выбранных параметров. Сходство векторов определяет и сходство стилей.
Разрабатываются подходы, основанные на изучении количественных особенностей реализации синтаксических структур, а также на выявлении некоторых особенностей формальной структуры текста, связанных с выражением типов чужой и авторской речи. Соотношение чужой речи (прямой, смешанной, вложенной) с авторской также оказывается стилеобразующим фактором. Эта характеристика стиля отражена в «формально-пунктуационном» методе структуризации текста, который реализован в компьютерной системе DISSKOTE [Гринбаум 1996]. Ниже разбирается пример авторской экспертизы текста, основанный на методике анализа квазисинонимичных лексем.
Одна из наиболее распространенных областей использования знаний о статистических закономерностях языковых явлений — экспертиза авторства текста. Типологически можно представить следующие базовые ситуации экспертного анализа.
A. Множественная неопределенность. Имеется множество текстов или их фрагментов. Необходимо установить, скольким авторам принадлежат тексты, и атрибутировать каждый текст конкретному автору. Это, разумеется, наиболее сложный случай анализа.
Б. Сравнение по образцу. Имеется пример текста (текстов) некоторого автора X. Необходимо установить, является ли он и автором некоторого другого текста (текстов).
B. Конкуренция образцов. Имеются образцы текстов авторов X,Y,Z... . Необходимо установить, кто из них является автором текстов Т1,Т2,... ,Тn
Приводимая ниже экспертиза12) вписывается в рамки случая В. Речь шла о спорном авторстве. В качестве материала для исследования были получены тексты следующих произведений: «Следователь президента»; «Смоленская площадь»; «Безумные глаза»; «В погоне за невидимым убийцей»; «Незнакомец»; «Шакалы»; «Трудное решение».
Тексты были представлены в печатной и машиночитаемой форме (файлы в формате DOSTEXT). Выборочное сравнение файлов и страниц печатных текстов произведений показало, что они полностью совпадают с точностью до разметки гарнитуры и фафических вьщелений в файлах. При компьютерной обработке символы разметки не учитывались.
Исходная проблема экспертизы была сформулирована следующим образом. Автором произведений «Безумные глаза», «В погоне за невидимым убийцей», «Незнакомец» является Э. Плющихин, а произведений «Шакалы», «Трудное решение» — В. Непомнящий. Авторство произведений «Следователь президента», «Смоленская площадь» является предметом спора.
В процессе проведения экспертизы необходимо было подготовить ответ на следующие вопросы:
1.Есть ли специфические языковые особенности, отличающие произведения В. Непомнящего «Шакалы», «Трудное решение» от произведений Э. Плющихина «Безумные глаза», «В погоне за невидимым убийцей», «Незнакомец», а также от спорной группы произведений — «Следователь президента», «Смоленская площадь»?
2.Есть ли специфические языковые особенности, характерные одновременно для произведений Э.Плющихина «Безумные глаза», «В погоне за невидимым убийцей», «Незнакомец» и спорной группы произведений «Следователь президента», «Смоленская площадь», но не присущие произведениям В. Непомнящего «Шакалы» и «Трудное решение»?
3.Можно ли считать, что выявленные языковые особенности являются существенной чертой авторских стилей названных писателей и могут использоваться при установлении авторства художественного текста?
В исследовании по экспертизе использовалась методика количественного анализа квазисинонимичных лексем. Сущность методики заключается в выявлении авторских предпочтений в выборе из группы квазисинонимов — близких по значению слов или устойчивых словосочетаний (фразеологизмов). В литературоведении и структурной поэтике близкие методы привлекаются для характеристики стиля писателя и особенностей его видения мира. Интересную информацию об идиолекте писателя дает изучение частотных характеристик служебных и модальных слов. Так, частицы разве и неужели по-разному распределены в романах М. Булгакова «Мастер и Маргарита» и «Белая гвардия»: разве значительно чаще встречается в «Мастере и Маргарите», а неужели — наоборот. Значение частицы разве предполагает более активную, действенную позицию говорящего, подвергающего сомнению некоторое положение дел. В противоположность разве частица неужели скорее указывает на то, что некоторое положение дел практически принимается говорящим и он лишь недоумевает, удивляется, почему оно имеет место. Учитывая значение этих частиц, указанные факты распределения разве и неужели можно интерпретировать как лингвистический коррелят авторской позиции в изображении событий и действий героев: нечто вроде пассивного «изумления», «удивления» автора в «Белой гвардии» и при активном восприятии реальности в «Мастере и Маргарите».
Такие «всплески» распределения частот служебных и модальных слов характеризуют не только отдельные тексты художественной прозы, но и оказываются характерологическими для одного писателя, оказываясь поверхностным проявлением его идеологической и творческой позиции. Явная нестандартность распределения частоты некоторых служебных слов наблюдается и в произведениях Ф. М. Достоевского.
В художественных текстах Достоевского мы встречаемся с совершенно иной ситуацией: на одно употребление по меньшей мере приходится 342,5 употреблений по крайней мере (по крайней мере — 685 вхождений по 35 художественным текстам, по меньшей мере — 2 вхождения по 35 художественным текстам). Всего употреблений по меньшей мере три, но одно из них приходится на контекст, более подходящий для по крайней мере
В противоположность по меньшей мере, по крайней мере с несомненностью относится к словам Достоевского. Конкордансы на это словосочетание занимают более двухсот страниц текста.
Можно было бы подумать, что в русском языке времен Достоевского распределение между по крайней мере и по меньшей мере было именно таким: частота по крайней мере существенно превосходила частоту по меньшей мере. Однако это не так. Предварительный анализ корпуса текстов Гоголя (около трех мегабайт) показывает, что различие в частотности этих единиц не так велико, как у Достоевского: на 1 употребление по меньшей мере — 83 употребления по крайней мере. Весьма вероятно, что в сфере публицистики того времени различие в частоте употребления по меньшей мере и по крайней мере было еще меньшим и приближалось к современной норме. Здесь тоже можно видеть коррелят авторского видения мира, авторского стиля.
По полученным файлам произведений Э. Плющихина, В. Непомнящего и спорных произведений (для каждого текста в отдельности и потрем группам — «спорная группа», «группа произведений Плющихина», «группа произведений Непомнящего») были составлены словники с указанием абсолютной и относительной частоты употребления (общее количество словоупотреблений по произведениям и по группам см. в приложении к экспертизе). Для компьютерной обработки использовалась программа DIALEX и база данных ACCESS 7 в среде Windows.
Из сферы анализа были исключены слова с предметным значением, частота употребления которых определяется конкретной проблемной областью. Были проанализированы группы квазисинонимов для следующих слоев лексической системы языка:
• наречия,
• частицы,
• вводные слова и выражения,
• фразеологические выражения (идиомы),
• глаголы речи,
• союзы и союзные слова.
Рассмотрим последовательно примеры квазисинонимов из каждой группы лексем. Наречия степени. Первая проанализированная группа — наречия со значением неполноты проявления какого-либо свойства, характеристики — едва и немного. Эти наречия во многих контекстах близки по значению. Однако стилистические предпочтения авторов проявляются в тенденциях выбора этих слов. Относительная частота едва и немного для спорных произведений и произведений Плющихина практически идентична, однако она существенно отличается от относительной частоты употребления этих единиц у Непомнящего: едва = 0,007 % (спорные), 0,006% (Плющихин), 0,018% (Непомнящий); немного = 0,002% (спорные), 0,002% (Плющихин), 0,031 % (Непомнящий) (см. табл. 1).
Таблица 1
Спорные произведения | Произведения Плющихина | Произведения Непомнящего | ||||
Абсолют. частота | Относит. частота | Абсолют. частота | Относит. частота | Абсолют. частота | Относит. частота | |
Едва Немного | 6+716)=13 2+1=3 | 0,007 % 0,002 % | 12+3+12=27 1+2+2=5 | 0,006% 0,002 % | 11+18=2925+25=50 | 0,018% 0,031 % |
Вторая группа исследованных наречий степени характеризует степень) ожидания некоторого события. К ним относятся лексемы вдруг, внезапно, неожиданно. Все эти наречия очень близки по значению. Тем самым их частотное распределение может рассматриваться как характеристика j авторского стиля. Анализ показывает, что относительные частоты употре-. бления наречий вдруг, внезапно и неожиданно в произведениях «спорной группы» и произведений Плющихина практически совпадают: вдруг — 0,052% (спорные), 0,05% (Плющихин); внезапно — 0,001 % (спорные), 0,000% (Плющихин); неожиданно — 0,007% (спорные), 0,006% (Плющихин) (см. табл. 2). Относительные частоты соответствующих наречий в группе произведений Непомнящего существенно отличаются от первых двух групп: вдруг — 0,065 %; внезапно — 0,005 %; неожиданно — 0,016 %.