Рассмотрим методы получения ра-диксария - ядра лексико-семантической системы
Один из них как бы очевиден: провести морфемное членение лексики и создать свод корневых морфем. Даже если вынести за скобки трудоёмкость этого процесса, требующего по нескольку человеко-лет на каждый из языков, этот путь не гарантирует надежных результатов, поскольку принципы морфемного анализа и его отношение к словообразованию продолжают оставаться спорными и самым существенным образом сказываются на результатах морфемного и словообразовательного анализа материала конкретных языков. Можно сослаться на существенные различия в представлении корневого фонда в "Словообразовательном словаре современного русского языка" А.Н. Тихонова [16], "Морфемном словаре русского языка" А.И. Кузнецовой и Т.Ф. Ефремовой [9], "Русском деривационном словаре" Д.Ворта, А.Козака и Д.Джонсона [30], "Справочнике русских корней" Е.Волконской, М.Полторацкой [29] и учебном словаре З.А.Потихи [13], не говоря уже о более ранних работах.
Более реалистичным и, так сказать, технологичным, представляется иной подход, основанный на новых информационных технологиях и знаниях о закономерностях организации словаря, накопленных как традиционной лексикологией, так и лексикостатистикой - термин в узком понимании равный глоттохронологии М. Сводеша, а в широком - практически синонимичный термину квантитативная лексикология. В силу указанных причин именно этот термин и используется в данной работе.
Суть квантитативной лексикологии видится в следующем.
Квантитативная лексикология - не самоцель, а средство обнаружения факторов порядка в лексике, способ ранжирования ее по системной и функциональной значимости. Большинство современных лингвистов признает полевую организацию языка, предполагающую наличие ядра и периферии. В связи с этим важнейшим аспектом квантитативной лингвистики является количественно и качественно обоснованная стратификация словаря на ядро и периферию.
Как показала в своей докторской диссертации А.И. Кузнецова [8], наиболее реалистичным подходом к лексике является многомерный, полипараметрический подход, при котором каждый из параметров позволяет выделить своё ядро и свою периферию. Количество же параметров, существенных для лексико-семантической системы, конечно и хорошо известно:
1) функциональная активность (употребительность),
2) деривационная активность (межсловная и внутрисловная продуктивность),
3) синтагматическая активность (широкая сочетаемость),
4) парадигматическая поддержан-ность (вхождение в многочленные синонимические ряды).
Функциональная активность может быть получена из частотных словарей конкретного языка. Впрочем, именно частотные словари и заставляют вспомнить горький афоризм, согласно которому "есть ложь, есть наглая ложь и есть статистика". Как установил на материале русского языка В.В. Морковкин, частотность значительной части лексики, представленной в частотных словарях, оказывается неподтвержденной - т.е. уникальной для того или иного частотного словаря и только взаимоналожение целой серии частотных словарей одного языка позволяет получить относительно взвешенную и правдоподобную картину. Как видим, и в отношении данного параметра "лобовой" подход не является оптимальным.
Между тем реалистичное и взвешенное представление о ФУНКЦИОНАЛЬНОЙ АКТИВНОСТИ единиц словаря можно получить значительно проще.
Со времен Дж. К. Ципфа известно, что употребительность (частотность) слов обратно пропорциональна их длине: чем короче слово, тем (при прочих равных) чаще оно употребляется и наоборот, чем
чаще слово употребляется, тем короче оно становится. Средняя длина слова возрастает по мере убывания его средней употребительности. Следовательно, для того, чтобы отобрать тысячу наиболее употребительных слов, достаточно обратиться к тысяче наиболее коротких слов данного языка. Погрешность будет невелика.
Общеизвестно и то, что самыми употребительными в языке являются служебные слова, выполняющие морфолого-синтаксические функции, следовательно, однобуквенные и двухбуквенные слова в своей массе можно исключить из рассмотрения, как не передающие лексического значения. Среди трёх- и четырехбуквенных слов количество служебных слов будет пренебрежимо малым.
Одно из возражений против предпринимаемого подхода может состоять в том, что мы исследуем романские языки в их письменной форме, которая, разумеется, не тождественна звуковой - истинному и первичному "телу" языка. Разумеется, для разных языков расхождение между звуками и буквами различно: в латинском оно минимально, во французском - максимально; и тем не менее погрешности, вносимые расхождением между звуковой (первичной) и зрительной (вторичной) субстанциями языка, не столь велики, а главное - не столь хаотичны, чтобы их нельзя было, так сказать, "вынести за скобки". Дело в том, что все романские языки имеют фонематично ориентированное письмо в том смысле, что корреляции между числом букв в слове и числом фонем в нем имеют устойчивый, если не сказать - непоколебимый - характер. А поскольку для нас важны не абсолютные числа, а ранги, порядки, рассматриваемые как веса, зазор между фонемами и буквами не способен повлиять на общие результаты исследования. Таким образом, мы - с учетом всех сделанных оговорок - можем утверждать, что между длиной слова в буквах и его употребительностью существует обратная зависимость.
Для того чтобы выделить наиболее употребительную лексику в данном языке (функционально активное ядро), достаточно определить среднюю длину слова в буквах и взять те слова, длина которых меньше средней длины слов, представленных в словаре данного языка (точнее -первую тысячу наиболее коротких слов).
ДЕРИВАЦИОННАЯ АКТИВНОСТЬ представляет собой второй параметр, по которому характеризуется ядерная (корневая) лексика данного языка.
Поскольку корни и корневые слова обладают планом содержания и планом выражения, продуктивностью обладают оба их плана: межсловная продуктивность - словообразование, аффиксация и внутрисловная продуктивность - многозначность, полисемия. Как показали, исследования, выполненные на материале русского языка, между той и другой имеются расхождения, которые, однако, вряд ли можно назвать принципиальными.
Иными словами, количество значений у слова в словаре может быть надежным показателем его деривационной активности. В случае необходимости, вызванной сомнениями или колебаниями, внутрисловная деривационная активность может быть подкреплена межсловной -количеством слов, содержащих ту или иную последовательность букв (равную корневой морфеме) в конкретном словаре данного языка.
Таким образом, чтобы выделить ядро словаря по признаку деривационной активности, достаточно определить среднее количество значений, приходящееся на слово в данном словаре, и взять те слова, у которых количество значений превышает среднее. Учитывая априорное ограничение лексического ядра 1000 единиц, для выделения продуктивного ядра словаря необходимо отобрать первую 1000 наиболее многозначных слов.
СИНТАГМАТИЧЕСКАЯ АКТИВНОСТЬ (широта сочетаемости) для лексики важна не сама по себе, а как показатель широты и простоты семантики, отличающей корневые, непроизводные слова, от производных.
Как известно, чем проще (абстрактней) семантика слова, тем шире его сочетаемость. Ср. у Д.Н. Шмелева: "степень парадигматичской закрепленности слова как лексико-семантической единицы находится в обратной зависимости от степени его синтагматической закрепленности" [18, 190]. На материале глаголов созидания и разрушения русского языка эта закономерность исследовалась О. Н. Анищевой [2].
Источником непосредственных, прямых данных о широте сочетаемости в языке являются словари сочетаемости. Между тем романская лексикография как целое пока не обеспечена словарями этого типа, или - выражаясь более дипломатично -обеспечена в недостаточной степени.
Это обстоятельство заставляет нас и в данном случае искать возможности косвенной оценки интересующего нас параметра.
Активность синтагматики по данным двуязычного словаря может быть оценена двумя способами.
Во-первых, количеством фразеосоче-таний с данным словом, т.к. известно: чем шире синтагматика слова, тем больше фра-зеосочетаний образуется с его участием. Кроме того, посредством богатства фразеологии маркируются концепты, значимые в культуре данного этноса. Таким образом, отбор 1000 слов, наиболее богатых фразеосочетаниями позволяет выделить ядро синтагматически активных (и притом культурно значимых) слов.
Во-вторых, мерой простоты семантики данного слова может выступать количество русских слов, употребляемых в толковании данного романского слова. Чем больше слов требуется для толкования значения, тем оно сложнее, уже, неэлементарнее. Чем меньше слов для этого требуется, тем проще и шире значение данного слова. Правда, при этом следует принимать во внимание специфику двуязычных словарей: в них количество слов в толковании одновременно является мерой национальной специфичности слов входного языка. Чем меньше слов выходного языка требуется для толкования, тем ниже национальная специфика семантики данного слова входного языка. И наоборот, чем больше слов выходного языка требуется для толкования значения входного слова, тем выше национальная специфика концепта, стоящего за словом входного языка.
Таким образом, отобрав первую тысячу романских слов, толкуемых одним русским словом, мы получим ядро слов не только с простейшей семантикой, но и обладающих наименьшей национальной спецификой относительно русского языка. Учитывая, что русский язык, как и романские, входит в семью индоевропейских языков, лексика, не имеющая национальной специфики, с необходимостью окажется связанной с понятиями, общими для романских и славянских языков и восходящими к праиндоевропейскому языку как языку-предку. Таким образом, в данной тысяче окажутся не просто слова с элементарной семантикой, а древнейшие слова, отражающие важнейшие и в силу этого -наиболее устойчивые, исконные для индоевропейцев понятия.