Приходится решать и обратную задачу: вычисление необходимых значений факторных признаков для обеспечения планового или желаемого значения результативного признака в среднем по совокупности. Эта задача обычно не имеет единственного решения в рамках данного метода и должна дополняться постановкой и решением оптимизационной задачи на нахождение наилучшего из возможных вариантов ее решения (например, варианта, позволяющего достичь требуемого результата с минимальными затратами).
4. Задача подготовки данных, необходимых в качестве исходных для решения оптимизационных задач. Например, для нахождения оптимальной структуры производства в районе на перспективу исходная информация должна включать показатели производительности на предприятиях разных отраслей и форм собственности. В свою очередь, эти показатели могут быть получены на основе корреляционно-регрессионной модели либо на основании тренда динамического ряда (а тренд - это тоже уравнение регрессии).
При решении каждой из названных задач нужно учитывать особенности и ограничения корреляционно-регрессионного метода. Всякий раз необходимо специально обосновать возможность причинной интерпретации уравнения как объясняющего связь между вариацией фактора и результата. Трудно обеспечить раздельную оценку влияния каждого из факторов. В этом отношении корреляционные методы глубоко противоречивы. С одной стороны, их идеал - измерение чистого влияния каждого фактора. С другой стороны, такое измерение возможно при отсутствии связи между факторами и случайной вариации признаков. А тогда связь является функциональной, и корреляционные методы анализа излишни. В реальных системах связь всегда имеет статистический характер, и тогда идеал методов корреляции становится недостижимым. Но это не значит, что эти методы не нужны.
Данное противоречие означает попросту недостижимость абсолютной истины в познании реальных связей. Приближенный характер любых результатов корреляционно-регрессионного анализа не является поводом для отрицания их полезности. Всякая научная истина — относительна. Забыть об этом и абсолютизировать параметры регрессионных уравнений, меры корреляции было бы ошибкой, так же как и отказаться от использования этих мер.
Поскольку корреляционная связь является статистической, первым условием возможности ее изучения является общее условие всякого статистического исследования: наличие данных по достаточно большой совокупности явлений. По отдельным явлениям можно получить совершенно превратное представление о связи признаков, ибо в каждом отдельном явлении значения признаков кроме закономерной составляющей имеют случайное отклонение (вариацию). Например, сравнивая два хозяйства, одно из которых имеет лучшее качество почв, по уровню урожайности, можно обнаружить, что урожайность выше в хозяйстве с худшими почвами. Ведь урожайность зависит от сотен факторов и при том же самом качестве почв может быть и выше, и ниже. Но если сравнивать большое число хозяйств с лучшими почвами и большое число - с худшими, то средняя урожайность в первой группе окажется выше и станет возможным измерить достаточно точно параметры корреляционной связи.
Какое именно число явлений достаточно для анализа корреляционной и вообще статистической связи, зависит от цели анализа, требуемой точности и надежности параметров связи, от числа факторов, корреляция с которыми изучается. Обычно считают, что число наблюдений должно быть не менее чем в 5-6, а лучше - не менее чем в 10 раз больше числа факторов. Еще лучше, если число наблюдений в несколько десятков или в сотни раз больше числа факторов, тогда закон больших чисел, действуя в полную силу, обеспечивает эффективное взаимопогашение случайных отклонений от закономерного характера связи признаков.
Вторым условием закономерного проявления корреляционной связи служит условие, обеспечивающее надежное выражение закономерности в средней величине. Кроме уже указанного большого числа единиц совокупности для этого необходима достаточная качественная однородность совокупности. Нарушение этого условия может извратить параметры корреляции. Например, в массе зерновых хозяйств уровень продукции с гектара растет по мере концентрации площадей, т.е. он выше в крупных хозяйствах. В массе овощных и овоще-молочных хозяйств (пригородный тип) наблюдается та же прямая связь уровня продукции с размером хозяйства. Но если соединить в общую неоднородную совокупность те и другие хозяйства, то связь уровня продукции с размером площади пашни (или посевной площади) получится обратной. Причина в том, что овощные и овоще-молочные хозяйства, имея меньшую площадь, чем зерновые, производят больше продукции с гектара ввиду большей интенсивности производства в данных отраслях, чем в производстве зерна.
Иногда как условие корреляционного анализа выдвигают необходимость подчинения распределения совокупности по результативному и факторным признакам нормальному закону распределения вероятностей. Это условие связано с применением метода наименьших квадратов при расчете параметров корреляции: только при нормальном распределении метод наименьших квадратов дает оценку параметров, отвечающую принципам максимального правдоподобия. На практике эта предпосылка чаще всего выполняется приближенно, но и тогда метод наименьших квадратов дает неплохие результаты.
Однако при значительном отклонении распределений признаков от нормального закона нельзя оценивать надежность выборочного коэффициента корреляции, используя параметры нормального распределения вероятностей или распределения Стьюдента.
Еще одним спорным вопросом является допустимость применения корреляционного анализа к функционально связанным признакам. Можно ли, например, построить уравнение корреляционной зависимости размеров выручки от продажи картофеля, от объема продажи и цены? Ведь произведение объема продажи и цены равно выручке в каждом отдельном случае. Как правило, к таким жестко Детерминированным связям применяют только индексный метод анализа. Однако на этот вопрос можно взглянуть и с другой точки зрения. При индексном анализе выручки предполагается, что количество проданного картофеля и его цена независимы друг от друга, потому-то и допустима абстракция от изменения одного фактора при измерении влияния другого, как это принято в индексном методе. В реальности количество и цена не являются вполне независимыми друг от друга.
Корреляционно-регрессионный анализ учитывает межфакторные связи, следовательно, дает нам более полное измерение роли каждого фактора: прямое, непосредственное его влияние на результативный признак; косвенное влияние фактора через его влияние на другие факторы; влияние всех факторов на результативный признак. Если связь между факторами несущественна, индексным анализом можно ограничиться. В противном случае его полезно дополнить корреляционно-регрессионным измерением влияния факторов, даже если они функционально связаны с результативным признаком.
В качестве предмета исследования в этом разделе выберем зависимость урожайности (У) от фактора (Х- внесение органических удобрений на 1 га).
Таблица 4.1
Исходные данные
Наименование хозяйств | Стоимость внесенных удобрений на 1 га | Урожайность, ц/га |
ТОО Рассвет | 104 | 276 |
К-з Дерябинский | 16 | 230 |
ТОО Левошевское | 36 | 200 |
ТОО им. Кирова | 0 | 122 |
АО Стандницкое | 373 | 197 |
К-з Хлебородный | 1 | 169 |
АО Землянское | 286 | 169 |
ТОО Искра | 112 | 149 |
ТОО Красноголовское | 0 | 152 |
ТОО Никольское | 0 | 153 |
ТОО Артюшанское | 16 | 110 |
К-з Мекурина | 108 | 109 |
АО Перлевское | 588 | 101 |
ТОО Староведуговское | 509 | 97 |
ТОО Старотойденское | 0 | 94 |
ТОО Николаевское | 15 | 80 |
К-з Победа | 38 | 70 |
АО Меловатское | 51 | 71 |
К-з Новосильский | 180 | 60 |
К-з Юбилейный | 0 | 62 |
ТОО Олнианское | 276 | 50 |
К-з Родина | 0 | 31 |
АО Серебрянское | 174 | 22 |
ТОО Луч | 67 | 23 |
АО Ведуга | 41 | 21 |
Постулируем прямолинейную форму зависимости между исследуемыми показателями.
Составим вспомогательную таблицу:
Таблица 4.1
Вспомогательная таблица расчетных показателей
Наименование хозяйств | x | y | x2 | xy | y2 |
ТОО Рассвет | 104 | 276 | 10816 | 28704 | 76176 |
К-з Дерябинский | 16 | 230 | 256 | 3680 | 52900 |
ТОО Левошевское | 36 | 200 | 1296 | 7200 | 40000 |
ТОО им. Кирова | 0 | 122 | 0 | 0 | 14884 |
АО Стандницкое | 373 | 197 | 139129 | 73481 | 38809 |
К-з Хлебородный | 1 | 169 | 1 | 169 | 28561 |
АО Землянское | 286 | 169 | 81796 | 48334 | 28561 |
ТОО Искра | 112 | 149 | 12544 | 16688 | 22201 |
ТОО Красноголовское | 0 | 152 | 0 | 0 | 23104 |
ТОО Никольское | 0 | 153 | 0 | 0 | 23409 |
ТОО Артюшанское | 16 | 110 | 256 | 1760 | 12100 |
К-з Мекурина | 108 | 109 | 11664 | 11772 | 11881 |
АО Перлевское | 588 | 101 | 345744 | 59388 | 10201 |
ТОО Староведуговское | 509 | 97 | 259081 | 49373 | 9409 |
ТОО Старотойденское | 0 | 94 | 0 | 0 | 8836 |
ТОО Николаевское | 15 | 80 | 225 | 1200 | 6400 |
К-з Победа | 38 | 70 | 1444 | 2660 | 4900 |
АО Меловатское | 51 | 71 | 2601 | 3621 | 5041 |
К-з Новосильский | 180 | 60 | 32400 | 10800 | 3600 |
К-з Юбилейный | 0 | 62 | 0 | 0 | 3844 |
ТОО Олнианское | 276 | 50 | 76176 | 13800 | 2500 |
К-з Родина | 0 | 31 | 0 | 0 | 961 |
АО Серебрянское | 174 | 22 | 30276 | 3828 | 484 |
ТОО Луч | 67 | 23 | 4489 | 1541 | 529 |
АО Ведуга | 41 | 21 | 1681 | 861 | 441 |
Сумма | 2991 | 2818 | 1011875 | 338860 | 429732 |
Определим параметры уравнения регрессии: