Современное состояние математического и программного обеспечения квантильно-регрессионных моделей
Львович И.Я., Минакова О.В.
Квантильная регрессия широко используемый статистический метод в эконометрике, в финансовых и биомедицинских исследованиях, при изучении окружающей среды и других прикладных областях. В связи с появление новых вычислительных процедур, высокопроизводительных алгоритмов актуальность ее примнения будет только расти.
Квантильная регрессия довольно «старинный» статистический метод, упоминание этого термина в математической статистике датируется еще 19 веком. Во многом его «забвение» связано с широкой распространенностью метода наименьших квадратов, и как следствие преобладающие применение линейной регрессии. Ставшее сейчас классическим определение квантильной регрессии было введено Коенкером и Бассетом в 1978, как расширение понятия порядковых квантилей или процентилей в локальных моделях к общему классу линейных моделей в которых условные квантили имели линейную форму.
По аналогии с нахождением условного среднего из выборки объема n, которое можно рассматривать как решение задачи минимизации остаточной суммы квадратов:
, m – выборочное среднее, оцениваемое по этой выборке, то поиск медианы может быть осуществлен как минимизация суммы абсолютных остатков.Если для медианы отрицательные и положительные остатки равны, т.е. симметричны относительное нее, то для квантилей они должны лежать в пропорции t к (1-t), т.е. асимметрично. Следовательно, отрицательные и положительные остатки имеют различный вес, зависящий от порядка квантили t. Так положительные остатки имеют вес t, а отрицательные – (t-1), и их сумма должна стремиться к нулю.
Таким образом, нахождение квантили q заданного порядка t можно рассматривать как поиск аргумента минимума специальной целевой функции:
,где
– контрольная функция, обеспечивающая t-баланс наблюдаемых значений и заданная в виде:. Иллюстрация определения этой функции представлена на рисунке. |
По аналогии с регрессионным анализом можно перейти к определению квантильно-регрессионных функций
, каждая из которых представляет собой некоторую регрессию условной квантили . Тогда построение квантильно-регрессионных моделей можно рассматривать как задачу оценки параметров функций и находить решение минимизацией: (1)Решение представленной минимизационной проблемы, когда
– линейная функция с неизвестными параметрами, эффективно осуществляется методами линейного программирования.В частности, линейная квантильно-регрессионная модель (Buchinsky? 1998) задается
или ,где b – неизвестный вектор регрессионных параметров, оценивается как решение минимизационной задачи:
– неизвестный вектор ошибок, так что условная квантиль порядка t от его значений равна нулю.
На практике широкое распространение получило оценивание квантильной регрессии методом максимального правдоподобия. Но для его использования необходимо, чтобы априорно была известная функция распределения, поэтому первый подход к построению квантильно-регрессионных моделей базируется на выборе подходящего теоретического распределения и комбинирование подбора параметров распределения с методами сглаживания для вычисления условных квантильных функций. Этот подход, базирующийся на оценке параметров «известного» распределения получил название параметрический.
Самый известный параметрический метод – LMS, основанный на трансформации исходных значений наблюдений к нормальному. Коул и Грин (Cole and Green, 1992) предложили использовать трансформацию Бокса-Кокса к исходным измерениям для получения нормальности трансформированных значений. Поскольку было принято предположение о нормальности распределения, то использовались оценки максимального правдоподобия для параметров среднего (М) и СКО (S), как достаточных для описания этого распределения и дополнительного параметра трансформации (L).
В исходной работе [] сглаживание всех трех функций, описывающих модель производилось отдельно с помощью сплайнов и выбор модели сводился к подбору оптимального числа узлов каждой из трех функций. В дальнейшем использовались различные модификации, так Yee (1998) предложил оценивать все три функции совместно вектором сплайнов [0].
В качестве альтернативы нормальному распределению предлагалось использовать t-распредление Стьюдента [], гамма-распредление []. В работе [0] предлагается использовать степенное экспоненциальное распределение Box-Tiao или общих ошибок [Ошибка! Источник ссылки не найден.], которое является общим вариантом задания различных одномодальных распределений от нормального до равномерного, для данных, имеющих слишком большой эксцесс после использования трансформации Бокса-Кокса.
Имеется множество вариацией этого подхода, направленные как на усложнение трансформации, так и трансформации к другим видам распределений, характерным для конкретной прикладной задачи.
При отсутствии априорной информации о форме распределения предложены непараметрические квантильно-регрессионные модели. В частности, обсуждается вопрос об использовании ядерного оценивания функции условного распределения и получение условной квантили обращением этой функции. Решая вычислительную проблему обращения оцененной функции условного распределения Yu and Jones (1998) использовали двойную ядерную аппроксимацию, как минимизацию [Ошибка! Источник ссылки не найден.]:
,где n=n(х) – оценка квантильной регрессии,
К – ядро с заданной шириной окна h.
Соответствующая функция реализована Yu для пакета S-PLUS, разработанный алгоритм гарантирует сходимость.
Наибольшее количество реализаций квантильной регрессии на сегодняшний день в специальном статистическом ПО – SAS, в котором реализованы – симплекс-алгоритм (Koenker and d’Orey, 1993), алгоритм с внутренней точкой (interior point, Portnoy and Koenker, 1997), сглаживающий алгоритм (Chen 2003), основанные на преобразовании (1) в задачу линейного программирования.
Реализация LMS-метода выполнена в специальной прикладном ПО lmsqreg, разработанном Коулом и Паном (T.G. Cole&Pan), имеется публикации как исходного FORTRAN-текста, так и ее S-PLUS код Кери (Carey) на http://biosun1.harvard.edu/`carey/.
Множество работ Коенкера (Koenker) по оценке линейной квантильной регрессии представлено в качества отрытого кода на языке R (http://cran.r-project.org) и в виде функции на языке S для пакета S-PLUS (http://econ.uiuc.edu/roger).
Специализированный статистический пакет STATA имеет команду «qreg» для оценки квантильной регрессии. Библиотека подпрограмм, реализующих команды STATA постоянно расширяется и пользовательские версии доступны на http:/jstor.org.
В специальном математическом ПО XploRe имеется возможность оценки параметров квантильной функции и ряд сервисных процедур по проверке гипотез и построения графиков.
Также известны специальные прикладные реализации некоторых алгоритмов квантильной регрессии – пакет VGAM, разработанный T.W.Yee (http://www.stat.auckland.ac.nz), реализующий LMS-метод, оценку квантилей при исходном гамма распределении значений и модификация трансформации Бокса-Кокса для положительных и отрицательных значений.
и GLMS-проект
Ввиду значительной вычислительной сложности квантильной регрессии самым первым подходом к получению функций условных квантилей было соединение эмпирических квантилей ровной линией «на глаз», т.е. применение неформализованного сглаживания.
Применение подхода на основе сглаживания предполагает, что для каждого фиксированного значения переменной
осуществляется выборка соответствующих значений зависимой переменной , по которой вычисляется выборочная квантиль заданного порядка. Упорядоченные по фиксированным значениям квантили одного и того же порядка интерполируются гладкой непрерывной функцией. Поскольку подобная задача решается в два этапа:1) расчет эмпрического квантиля заданного порядка по выборке;
2) сглаживание множества эмпирических квантилей по независимой переменной, зафиксированной для каждого рассчитанного квантиля.
То соответствующий подход принято считать двухступенчатым.
На сегодняшний день наиболее известна реализация двухступечатого подхода при обработке исследований Американского центра по контролю за питанием (CDC) для построения справочных диаграмм развития детей. Для измеренных значений были получены первоначальные сглаженные кривые выбранных главных процентилей и на втором этапе получены параметры, которые были использованы для построения финальных сглаженных кривых и дополнительные процентилей. В качестве сглаживающих функций были использованы полиномиальная 5-й степени, локально взвешенная регрессия (locally weighted regression). Подгонка модели, основывалась на минимизации остаточного среднего квадрата ошибок (RMSE), коэффициента детерминации (R2). Подробное описание вычислительных процедур можно найти на http://www.cdc.gov/growthcharts.