Шкала отношений - частный случай интервальной шкалы. Она позволяет соотносить категоризированные предикторы. Теоретически число дискриминантных переменных не ограничено, но на практике их выбор осуществляется на основании содержательного анализа исходной информации и соответствующих статистических процедур оценки вклада каждого предиктора в процесс формирования правильных решений по классификации. Число объектов наблюдения должно превышать число дискриминантных переменных как минимум на два, то есть p < N. Дискриминантные переменные должны быть линейно независимыми. Еще одним предположением при дискриминантном анализе является нормальность закона распределения многомерной величины, то есть каждая из дискриминантных переменных внутри каждого из рассматриваемых классов должна быть подчинена нормальному закону распределения. В случае когда реальная картина в выборочных совокупностях отличается от выдвинутых предпосылок, следует решать вопрос о целесообразности использования процедур дискриминантного анализа для классификации новых наблюдений, так как при этом затрудняются расчеты каждого критерия классификации. Линейная дискриминантная функция имеет вид:
D(X) = w0 + w1x1 + w2x2 +... + wnxn,
где wi- коэффициенты.
Для случая дискриминации на два класса решающее правило выглядит следующим образом: если D(X) <= 0, объект Х относится к 1-му классу, если D(X) >= 0, - ко 2-му. Необходимо отметить, что дискриминантный анализ является достаточно грубым и приближенным методом для скоринга в силу сделанных предположений и линейности самой дискриминантной функции. Однако данный метод важен в начале разработки скоринговых систем для оценки важности ("просеивания") предикторов.
2. Многофакторная логистическая регрессия
Логика построения уравнения логистической регрессии аналогична построению линейной дискриминантной функции:
log(p/(1-p)) = w0 + w1x1 + w2x2 + ... + wnxn,
где р - вероятность дефолта (невозврата кредита),
w - весовые коэффициенты,
х - характеристики клиента.
В результате распознавания или классификации по предъявляемому объекту - потенциальному заемщику уравнение логистической регрессии дает оценку вероятности дефолта (невозврата) кредита. Если разработчиками скоринговой системы заранее установлено определенное пороговое значение этой вероятности для разделения двух классов объектов (например, "надежный заемщик" и "проблемный заемщик"), такая конструкция будет способна в автоматическом режиме формировать вывод о допустимости или недопустимости выдачи кредита. Все регрессионные методы чувствительны к корреляции между характеристиками, поэтому в модели не должно быть сильно коррелированных независимых переменных.
3. Кластерный анализ
Кластерный анализ <8> - это совокупность методов, позволяющих классифицировать многомерные наблюдения, объекты (заявки потенциальных заемщиков), каждый из которых описывается набором характеристик (факторов) X1, X2,..., Xm. Целью кластерного анализа является образование групп, классов сходных между собой объектов, которые принято называть кластерами. Слово "кластер" (cluster) в переводе с английского означает: сгусток, пучок, группа. Как родственные понятия в литературе используются: класс, таксон, сгущение. В скоринговых системах в качестве классов выступают в простейшем случае два: "надежные заемщики" и "проблемные заемщики". В кластерном анализе используется политетический подход, когда все группировочные признаки одновременно учитываются при отнесении субъектов наблюдения в тот или иной класс. (При комбинационных методах группировки, когда применяется монотетический подход, формирование классов идет последовательно, по признакам.) Как правило, четкие границы каждого класса не указаны, но количество их известно. При разработке скоринговых систем кластерный анализ на основе обучающей выборки позволяет построить меру (расстояние) между двумя основными классами объектов и определить "центры" каждого класса в пространстве характеристик Х1, Х2,..., Xm, то есть сформировать ключевое правило собственно для задачи скоринга: по предъявляемому объекту вычисляются расстояния до каждого из классов ("надежные заемщики" и "проблемные заемщики"), и классифицируемый объект относится к классу, расстояние до которого оказывается минимальным. Содержательным моментом является выбор вида меры (расстояния между объектами) в пространстве признаков Х1, Х2,..., Xm (они, как было показано выше, могут иметь нечисловой характер). Данный выбор должен быть осуществлен исходя из минимизации ошибок классификации объектов (заемщиков).
4. Деревья решений
В методе деревьев решений сегментация (классификация) объектов осуществляется путем последовательного дробления факторного пространства Х1, Х2,..., Xm на вложенные прямоугольные области. Первый шаг - разделение по самому значимому фактору (характеристике). Последующие шаги - повторение процедуры до тех пор, пока никакой вариант последующей сегментации не даст значимого различия между соотношением объектов разных классов по сравнению с полученными ранее сегментами. Количество разветвлений, факторы, по которым в узлах дерева решений осуществляется ветвление, и пороговые значения факторов в узлах дерева решений определяются в методе автоматически.
5. Нейронные сети
Идея нейронных сетей возникла в результате попыток смоделировать поведение живых существ, воспринимающих действия внешней среды и обучающихся на собственном опыте. Нейронные сети дают возможность по обучающей выборке объектов (массиву данных по заемщикам с закрытыми кредитными договорами и с известным результатом погашения кредита) конструировать структуру, состоящую из нейронов и связей и предназначенную для отнесения предъявляемого объекта (потенциального заемщика) к одному из вышеназванных классов ("надежные заемщики" или "проблемные заемщики"). Применительно к скоринговым системам нейросеть рассматривается как черный ящик, содержание которого (нейроны, количество слоев нейронов, расположение нейронов по слоям, вес нейронов и т.д.) не имеет какой-либо смысловой трактовки или явного смысла.
6. Метод минимизации структурного риска В. Вапника
Этот метод лежит в основе предлагаемого на российском рынке программного продукта по скорингу KXEN. Разделение на два класса по обучающей выборке объектов может быть осуществлено путем подбора решающей функции f(X), принадлежащей некоторому семейству функций f(X; a), где X <= Х1, Х2,..., Xm >, - вектор характеристик, а - обобщенный (в общем случае - векторный) параметр. Если f(X) < 0, то объект с характеристиками X <= Х1, Х2,..., Xm > относят к классу "проблемных заемщиков", а если f(X) >= 0, то к классу "надежных заемщиков". Очевидно, что лучшей решающей функцией будет функция, минимизирующая уровень ошибки классификации (ожидаемый риск). Однако напрямую, только по обучающей выборке, оценить ожидаемый риск невозможно. Если размерность пространства функций f(X; a) (своеобразная оценка сложности семейства функций, среди которых ищется оптимальная решающая функция) ограничена, то может быть получена оценка сверх ожидаемого риска. Ожидаемый риск рассматривается как сумма двух рисков: эмпирического (уровень ошибок классификации на обучающей выборке) и риска использования пространства функций f(X; a) размерности (N) (мера ошибок классификации вследствие неполноты (с точки зрения задач классификации) пространства функций f(X; a)). Принцип минимизации структурного риска, предложенный В. Вапником, состоит в выборе такого семейства решающих функций и нахождении в этом семействе такой оптимальной решающей функции, которая удовлетворительно классифицирует объекты обучающей выборки и не является чрезмерно сложной (имеющей большую размерность).
Программные продукты
Обзор компаний, реализующих скоринговые системы на отечественном рынке, и их программных продуктов (Credit Scoring Solution, EGAR Application Scoring, автоматизированная система РОСНО по предоставлению предстраховой экспертизы, dm-Score, Deductor, KXEN, "Франклин&Грант. Финансы и аналитика", Forecsys Scoring Pilot и др.) показывает, что рынок программного обеспечения находится в стадии формирования и развития. При этом большинство поставщиков программного обеспечения не раскрывают деталей алгоритмов скоринга, лежащих в основе предлагаемых ими продуктов. Не более 10% банков в настоящее время используют покупные скоринговые системы. Словом, перспективы для роста данного рынка весьма велики.
Ни одна приобретаемая скоринговая система, как правило, не пригодна для практического использования без предварительной "настройки". Суть такой настройки состоит в том, чтобы на имеющихся у банка данных (обучающая выборка) по закрытым кредитам (с известным результатом погашения) провести настройку скоринговой системы, включающую, в частности, отбор наиболее значимых (из числа имеющихся) характеристик потенциального заемщика, для решения задач скоринга. Как показывает практика, такой набор характеристик существенно отличается не только для разных стран Западной Европы, но и для разных регионов одной страны (например, Москвы и небольших городов с численностью населения до 100 тыс. человек). Так, в ряде регионов для небольших городов одной из важнейших характеристик заемщика нередко оказывается место работы и срок работы на каком-либо градообразующем предприятии. Для крупнейших городов страны данный фактор может и не быть определяющим. Это означает, что многофилиальные банки, осуществляющие кредитование в различных регионах страны, будут вынуждены проверять настройку скоринговых систем для каждого филиала или групп филиалов. Иначе говоря, в многофилиальных банках может иметь место ситуация, когда в разных филиалах функционируют разные версии скоринговой системы. Более того, и постоянная модификация (обновление) скоринговой системы должна проводиться дифференцированно в разрезе филиалов и групп филиалов.