Второй этап - расчет параметров и построение регрессионных моделей. Здесь стремятся отыскать наиболее точную меру выявленной связи, для того чтобы можно было прогнозировать, предсказывать значения зависимой величины Y, если будут известны значения независимых величин X1, Х2, .... Хп
Так как для построения многофакторной регрессионной модели рекомендуется использовать пошаговый анализ, который позволяет при помощь статистики Фишера исключить влияние случайных признаков, то воспользовавшись именно этим признаком получим следующие результаты:
Таблица 6. Сводка для модели 1
Множественный R | 0,964 |
R—квадрат | 0,930 |
Нормированный R—квадрат | 0,921 |
Стандартная ошибка | 1588,31 |
Рисунок 1. Показатели дисперсионного анализа (основное разложение)
А итоговая модели зависимости объемов нефтедобычи будет выглядеть следующим образом:
Как можно заметить, в итоговой эконометрической модели присутствует всего лишь один фактор, влияющий на объемы добычи нефти, а именно - среднесуточный дебит одной скважины. Все остальные рассматриваемые признаки оказались не значительными. Однако, при таком наборе достаточно велико отрицательное влияние неучтенных признаков, константа равна -11954,735.
По этому, в данной работе мне бы хотелось рассмотреть модель, в которую будут включены признаки X 1, X 3 и X 8. В результате модель будет выглядеть следующим образом:
Таблица 7 . Сводка для модели 2
Множественный R | 0,9 94 |
R—квадрат | 0,9 88 |
Нормированный R—квадрат | 0,9 78 |
Стандартная ошибка | 839 , 054 |
Рисунок 2. Показатели дисперсионного анализа (основное разложение)
Как можно увидеть на примере данной модели, при включении других рассматриваемых ранее факторов помимо показателя среднесуточного дебита одной скважины, то влияние неучтенных признаков уменьшается почт в 5 раз, что говорит о том, что признаки неучтенные в первой модели все же оказывают влияние на объем добычи нефти.
После получения каждого варианта уравнения обязательной процедурой является оценка его статистической значимости, поскольку главная цель - получить уравнение наивысшей значимости, поэтому второй этап корреляционно-регрессионного анализа неразрывно связан с третьим.
На третьем этапе выясняют статистическую значимость, т. е. пригодность постулируемой модели для использования ее в целях предсказания значений отклика. При этом программа уже рассчитала по модели теоретические значения для ранее наблюденных значений зависимой величины и вычислила отклонения теоретических значений от наблюдаемых значений. На основе этого программа построила также ряд графиков, в т. ч. график подборки (он иллюстрирует, насколько хорошо подобрана линия регрессии к наблюденным данным) и график остатков. Исследователь должен рассмотреть эти графики. В остатках не должно наблюдаться закономерности, т. е. корреляции с какими-либо значениями (если она есть, то, в модель не включен какой-то закономерно действующий, но не известный, скрытый фактор, о котором нет данных). Для оценки качества полученной модели программа вычислила также целый ряд коэффициентов которые обязан рассмотреть исследователь, сравнивая их с известными статистическими критериями и оценивая модель с точки зрения здравого смысла.
На этом этапе исключительно важную роль играют коэффициент детерминации v F-критерий значимости регрессии.
R Squared (R2) - коэффициент детерминации - это квадрат множественного коэффициента корреляции между наблюдаемым значением Y и его теоретически значением, вычисленным на основе модели с определенным набором факторов Коэффициент детерминации измеряет действительность модели. Он может принимать значения от 0 до 1. Эта величина особенно полезна для сравнения ряда различных моделей и выбора наилучшей модели.
Есть доля вариации прогнозной (теоретической) величины Y относительно наблюденных значений Y, объясненная за счет включенных в модель факторов. Очень хорошо, если R2 > = 80%. Остальная доля теоретических значений Y зависит от других, не участвовавших в модели факторов. Задача исследователя - находить факторы, увеличивающие R2, и давать объяснение вариаций прогноза, чтобы получить идеальное уравнение. Однако, коэффициент R2 самое большее может достигнуть величины 1 (или 100%), когда все значения факторов различны. А если в данных есть повторяющиеся опыты, то величина R2 не может достигнуть 1, как бы хороша ни была модель. Поэтому дубликаты данных следует удалять из исходной таблицы до начала расчета регрессии. Некоторые программные пакеты автоматически удаляют дубликат, оставляя лишь уникальные данные. Повторение одинаковых данных снижает надежность оценок модели. R2 = 1 лишь при полном согласии экспериментальных (наблюденных) и теоретических (расчетных) данных, т. е. когда теоретические значения точно совпадают с наблюдаемыми. Однако это считается весьма маловероятным случаем.
Средствами регрессионного анализа, в т. ч. EXCEL, вычисляется F-критерий значимости регрессии для уравнения в целом. Это рассчитанное по наблюденным данным значение Fp (F расчетный, наблюденный) следует сравнивать с соответствующим критическим значением Fk, (F критический, табличный). Fк исследователь выбирает из публикуемых статистических таблиц на заданном уровне вероятности (на том, на каком вычислялись параметры модели, например, 95%).
Если наблюденное значение Fp окажется меньше критического значения Fk, то уравнение нельзя считать значимым. В иной терминологии об этом же может быть сказано: не отвергнута нуль-гипотеза относительно значимости всех коэффициентов регрессии в постулируемой модели, т. е. коэффициенты практически равны нулю.
Электронная технология корреляционно-регрессионного анализа становится абсолютно бесполезной, если расчетные данные будут толковаться не вполне правильно. В связи с этим процитируем здесь одно частное мнение [2, кн. 1, с. 1301: "... чтобы уравнение можно было считать удовлетворительным для целей предсказания (в том смысле, что размах предсказываемых значений отклика будет значительно больше, чем стандартная ошибка отклика), наблюдаемое значение F... должно не просто превышать выбранную процентную точку F-распределения, а превосходить ее примерно в 4 раза.
Теперь непосредственно можно приступить к характеристики полученных данных. В ходе исследования были построены две эконометрических модели зависимости объема нефтедобычи от определяющих признаков.
Если рассматривать обе модели не принимая во внимание параметры значимости, то сравнимая данные уравнения по коэффициенту детерминации, можно говорить о том, что вторая модель является более успешной с точки зрения зависимости факторов (1 модель R 2 = 0,930, 2 модель R 2 = 0,988).
Однако, то положение, что модель 2 является не значимой, а значит она будет отвергнута отвергнута, показывает, что наиболее приемлемой моделью, с помощью которой можно охарактеризовать зависимость добычи нефти от факторов, является однофакторная модель влияния суточного дебита одной скважины.
На четвертом этапе корреляционно-регрессионного исследования, если полученная модель статистически значима, ее применяют для прогнозирования (предсказания), управления или объяснения.
В ходе данной курсовой работы также возможна реализация и данного этапа анализа, со стороны предсказания дальнейшей ситуации в нефтедобывающей отрасли.
В ходе исследования я получила данные, согласно которым на объем добычи нефти из всех изначально рассматриваемых 8 признаков, значительно влияет только суточный дебет одной скважины ( д ебит скважины – это ее производительность, то есть объем продукции, добываемый из скважины за определенный промежуток времени). Как уже было сказано ранее, в настоящее время на территории российской федерации происходит истощение запасов необходимого ресурса – нефти. А это значит, что производительность скважин несомненно будет сокращаться, а, следовательно, под влияние сокращения производительности будет снижаться и объем добычи.
Поэтому, как уже было отмечено выше, в настоящее время актуальность приобретает вопрос, связанный с необходимостью открытия новых месторождений и запасов нефти. А этот вопрос уже взаимосвязан с фактором географического положения. Кроме того для развития нефтедобычи, как составляющей отрасли российской экономики, данный фактор - географического размещения запасов – показывает необходимость больших инвестиционных вливаний. Ведь за частую, большая часть нефтяных месторождений расположена на северных территориях и водных прибережных шельфах, что показывает необходимость проведения различных средств коммуникаций.
После рассмотрения всех факторных моделей, можно говорить о том, что все рассматриваемые в ходе работы факторы, несомненно, оказывают свое влияние на уровень нефтедобычи, и в большей степени это влияние оказывается прямолинейным, а, значит, улучшение этих показателей будут способствовать повышению уровня нефтедобычи. Однако не стоит забывать о наличии в эконометрических моделях констант, которые характеризуют силу влияния не учтенных и не рассматриваемых в модели факторов. Не учтенные в моделях параметры, в основном, носят качественный характер, и в свою очередь также могут зависеть от многих факторов, например, от территориальных особенностей. Поэтому влияние не количественных показателей достаточно трудно оценить в общей совокупности данных. Однако, можно говорить о значимости общих для всей изучаемых территорий качественных факторов. В современное время во многих странах, и в частности в России, таким качественным фактором определяющим динамику темпов нефтедобывающей промышленности выступает государственная политика.