Смекни!
smekni.com

2011 Борис Григорьевич Миркин Профессор, Кафедра анализа данных и искусственного интеллекта опми ниу вшэ, Москва, РФ (стр. 5 из 13)

Локальная формулировка.

Многие не согласны с таким сильным допущением и настаивают на формулировке, использующей только «локальные» взаимодействия. Такая формулировка предложена в терминах так называемого потенциального поля тяготения. Согласно этой формулировке, каждой точке пространства приписано число таким образом, что на каждый предмет действует сила пропорциональная градиенту (т.е. направлению наибольшего увеличения) поля. Само же потенциальное поле организовано таким образом, что потенциал в центре маленькой сферы равен среднему потенциалу на сфере минус член, пропорциональный массе сферы и обратно пропорциональный её диаметру. Коэффициент пропорциональности равен тому G, что фигурирует в формулировке закона всемирного тяготения (1). Эта формулировка локальна по времени и пространству, и она эквивалентна закону всемирного тяготения.

Рациональная формулировка.

Понятие поля удобно, поскольку разделяет условия (поле) и движение анализируемой частицы. В частности, оно позволяет сформулировать так называемую функцию Лагранжа – разность между кинетической энергией и потенциальной энергией ( для наших целей определения этих энергий не так существенны). Теперь мы можем сформулировать еще один принцип, эквивалентный закону всемирного тяготения, но использующий только движение частицы в потенциальном поле. При движении из одной точки в другую частица движется по пути, минимизирующем функцию Лагранжа!

Все три формулировки эквивалентны в механике Ньютона. При этом переформулировки оказались возможными только потому, что в формуле (1) используется квадрат расстояния. Измени степень, и эти формулировки оказываются практически невозможными.

Кроме того, разные формулировки используют разные понятия, поэтому удобны для одних обобщений и неудобны для других. Например, обобщение для квантовой механики опирается на локальную формулировку, а обобщение на общую теорию относительности, в которой скорость гравитации не бесконечна, а ограничена, опирается на принцип минимума.

Различные формулировки модели Кейнса

Более близкий пример – теория государственного вмешательства Дж. М. Кейнса, основанная на его модели. Модельная и словесная формулировки довольно сильно отличаются.

Модель Кейнса можно сформулировать так:

X = aX + b + t,

где Х в левой части – созданный в экономике продукт, а справа его выражение через потребление населения, которое предполагается пропорциональным Х (в этом и состоит модель), производ-ственные инвестиции (b) и правительственные расходы (t). Выражая Х через остальные показатели, получаем

X = b/(1-a) – t/(1-a),

откуда следуют парадоксальные кейнсианские выводы, противоречащие вековой мудрости человечества:

Если хочешь увеличить производство Х, то

- увеличивай склонность к потреблению (a),

- увеличивай инвестиции (b),

- увеличивай государственные расходы (t).

Выраженная в словесной форме, скажем, для государственных расходов, эта идея может быть выражена так. Найми безработных, не важно что делать – рыть ямы или прокладывать дороги, например, лишь бы они получали зарплату. Часть а этой зарплаты они потратят на покупки товаров, тем самым оплатив труд реальных производителей, которые долю а от этого, т. е. а2, тоже потратят на потребление, породив аналогичным образом покупки а3, а4, и т. д., в сумме дающие 1/(1-а). При этом уменьшится безработица, но возрастет инфляция (поскольку ненужный труд безработных оплачивается путем допечатки денег), порождая имманентную для кейнсианства обратную связь: уменьшение безработицы – увеличение инфляции. Никакой инфляции в математической формулировке нет, так как в ней не отражены механизмы изменения параметров.

3.4 Методы наименьших квадратов и наименьших модулей; нормальное распределение

К началу 19 века количество астрономических постов, проводящих измерения координат астрономических объектов увеличилось до полутора десятков – возникла надобность в сведении их данных воедино. Быстро выявились систематические ошибки отдельных наблюдателей, например, один был крив на один глаз и всегда выдавал левое смещение, которое было нетрудно учесть. Однако, даже и в скорректированном виде, измерения разнились, и возникла проблема согласования различных измерений одной и той же величины. Эта проблема была сформулирована следующим образом.

При данных М значениях х1, х2,…, хМ, найти значение а, удовлетворяющее уравнениям хм = а + ем, так чтобы минимизировать аддитивные ошибки ем. В данной – многокритериаль-ной – формулировке задача не имеет единственного решения. Возникло два подхода к скаляризации критериев. Один, принцип наименьших модулей, представлял Пьер Лаплас (1749-1827): надо минимизировать сумму абсолютных величин |е1|+|е2|+…+|еМ|. Второй, принцип наименьших квадратов, представлял Карл Гаусс (1777-1855) – надо минимизировать сумму квадратов ошибок, |е1|2+|е2|2+…+|еМ|2. Решением по первому критерию является медиана – то значение из величин хм, которое стоит в середине отсортированного по величине ряда значений. Решением по второму критерию является арифметическое среднее, m =(е1+е2+…+еМ)/М. Оба хороши, медиана обладает теми преимуществами, что является одним из наблюденных значений и, кроме того, не зависит от крайних значений, которым, значит, позволительны любые сколь большие уклонения без какого-либо воздействия на медиану. Напротив, среднее, как правило, не совпадает ни с одним из наблюдений и, более того, неустойчиво относительно изменений в крайних значениях. См., например, ряд значений 1, 5, 1, 5, 3, который после сортировки становится 1, 1, 3, 5, 5, так что медиана равна 3. Среднее этого ряда тоже 3. Если второе значение 5 сильно увеличилось, скажем, до 15, так что сортированный ряд становится 1, 1, 3, 5, 15, то медиана все еще 3, а среднее увеличивается до 5.

Однако, Гаусс предложил теорию для своего критерия, которая оказалась настолько убедительной, что впоследствии легла в основание всего здания математической статистики, где и сейчас занимает центральное место. В основе теории Гаусса – два факта:

(1) Мелкие случайные ошибки, складываясь, приводят к тому, что распределение среднего значения наблюденных величин, в стандартных предположениях независимости и случайности наблюдений, является асимптотически Гауссовым, или нормальным, распределением с плотностью вероятности f(x, m, s)=Cexp{((x – m)/s)2}, где параметры m и s - математическое ожидание и стандартное отклонение, соответственно.

(2) Принцип максимального правдоподобия – общее правило, состоящее в том, что при заданной случайной и независимой выборке х1, х2,…, хМ, неизвестные параметры распределения таковы, что вероятность получения именно этой выборки – максимальна – для распределения Гаусса приводит именно к той оценке математического ожидания m, которая вытекает из принципа наименьших квадратов. При этом оценкой s является среднеквадратичное отклонение наблюдений от среднего.

В дальнейшем принцип наименьших квадратов был распространен на значительно более общие задачи анализа данных, включая регрессионный, факторный и кластерный анализы. Главным при этом явились не столько вероятностные свойства, сколько удобство математической формы критерия и хорошие математические свойства получаемых решений, в основном определяемые многомерными аналогами теоремы Пифагора, когда квадратичный разброс данных раскладывается на сумму «квадратов» его объясненной и необъясненной частей.

Однако дискуссия, какой из принципов – наименьших квадратов или наименьших модулей – лучше далека от завершения, и, по сути, едва началась.

Основные выводы:

(1) Измерения, даже интуитивно очевидных величин, при переходе к большим системам требуют разработки неочевидных теорий и сопряжены с ошибками;

(2) Обоснованием введения ненаблюдаемых величин является возможность объяснения поведения некоторых наблюдаемых величин;

(3) Различные эквивалентные формулировки могут оказаться полезными для различных приложений – сам факт наличия нескольких переформулировок может рассматриваться как эвристическое подтверждение осмысленности соответствующих утверждений;

(4) Принципы наименьших квадратов и модулей удобны для обработки данных, но их использование нуждается в дальнейшем исследовании.

4 Развитие оптимизации

4.1 Точные методы – история и проблемы машинных вычислений.

4.2 Локальные методы и эвристики – проблемы инициализации.

4.3 Нейронные сети для поиска по градиенту.

4.4 Подход имитации природы – эволюция популяции: методы генетические, эволюционные, пчелиного роя и муравьиной кучи.

4.1 Точные методы – история и проблемы машинных вычислений.

Оптимизация – один из самых распространенных принципов в инженерном подходе к природе (принцип наименьшего действия Мопертьюи 1746, химическое равновесие – минимум энергии Гиббс 1857), технике и обществу (Вальрас и Курно – модели, основанные на оптимизации полезности).

Систематический подход – после изобретения дифференциального исчисления на основе уточнения и обобщения свойства обнуления градиента в экстремальной точке (установленного еще Ферма 1646). Работа Лагранжа (1754) устанавливает метод множителей Лагранжа для оптимизации с ограничениями, продолженный в 20 столетии установлением теоремы Куна-Таккера (1951). Градиентный метод изобретен Коши (1847)

Вариационное исчисление Эйлера 1707-1783 (оптимальные функции), увенчавшееся в 20 веке теорией оптимального управления Л.С. Понтрягина (1957). Линейное программирова-ние и теория игр (Л.В. Канторович 1939, Дж. Фон Нейман 1948 и Дж. Данциг 1950).

Для многих задач, в частности, для всех конечных, известен метод для отыскания точного решения. К сожалению, компьютеры накладывают ограничения: