Зависимость между переменными величинами X и У может быть описана разными способами. В частности, любую форму связи можно выразить уравнением общего вида у= f(х), где у рассматривают в качестве зависимой переменной, или функции от другой - независимой переменной величины х, называемой аргументом . Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д. Изменение функции в зависимости от изменений одного или нескольких аргументов называется регрессией .

Термин «регрессия» (от лат. regressio - движение назад) ввел Ф. Гальтон, изучавший наследование количественных признаков. Он обнаружил. что потомство высокорослых и низкорослых родителей возвращается (регрессирует) на 1/3 в сторону среднего уровня этого признака в данной популяции. С дальнейшем развитием науки, этот термин утратил свое буквальное значение и стал применяться для обозначения и корреляционной зависимости между переменными величинами Y и X.

Различных форм и видов корреляционных связей много. Задача исследователя сводится к тому, чтобы в каждом конкретном случае выявить форму связи и выразить ее соответствующим корреляционным уравнением, что позволяет предвидеть возможные изменения одного признака Y на основании известных изменений другого X, связанного с первым корреляционно.

Уравнение параболы второго рода

Иногда связи, между переменными Y и X можно выразить через формулу параболы

Где a,b,c - неизвестные коэффициенты которые и надо найти, при известных измерениях Y и X

Можно решать матричным способом, но есть уже рассчитанные формулы, которыми мы и воспользуемся

N - число членов ряда регресии

Y - значения переменной Y

X - значения переменной X

Если вы будете пользоваться этим ботом через XMPP клиента, то синаксис такой

regress ряд X;ряд Y;2

Где 2 - показывает что регрессию рассчитываем как нелинейную в виде параболы второго порядка

Что ж, пора проверить наши расчеты.

Итак есть таблица

X	Y
1	18.2
2	20.1
3	23.4
4	24.6
5	25.6
6	25.9
7	23.6
8	22.7
9	19.2

Параболическая зависимость имеет вид:

Результаты вспомогательных расчетов для построения параболической модели регрессии и характеристики качества модели представлены в таблице 5.

Таблица 5.

Расчетные данные












Среднее значение
Сумма квадратов

1. Определим параметры а, b, с параболической модели

Таким образом, зависимость себестоимости 1 т литья у (руб.) от брака литья х (т) по 10 литейным цехам заводов можно представить в виде параболической зависимости:

2. Проверим значимость коэффициентов регрессии по критерию Стьюдента

Как и в случае парной регрессии значимость коэффициентов множественной линейной регрессии с m объясняющими переменными проверяется на основе t-статистики.

стандартное отклонение,

стандартная ошибка регрессии, m - количество объясняющих переменных модели

Построим матрицу

Определим произведение двух построенных выше матриц (в Excel с помощью функции «МУМНОЖ»):

Определим стандартную ошибку регрессии по формуле:

Определим стандартные отклонения по формуле:

Определим расчетные значения для коэффициентов множественной регрессии:

По таблице распределения Стьюдента определим tтеор:

|tрасч| < tтеор, следовательно, коэффициенты а, с и b незначимы при уровне значимости 0,05.

3. Найдем корреляционное отношение, с помощью которого при нелинейной зависимости определяется теснота связи между двумя случайными величинами х и у.

Величина корреляционного отношения достаточно близка к 1, что свидетельствует о сильной связи между х и у, т.е. между себестоимостью 1 т литья (у) в руб. и брака литья (х) в т.

4. Определим автокорреляцию остатков по критерию Дарбина-Уотсона

Определим значение критерия d по формуле:

Подставим результаты предварительных расчетов (см. табл. 5) в формулу:

По таблице Дарбина-Уотсона определим критические границы d1 и d2 при N = 10 и m = 2:

d1 =0,697; d2 = 1,641

5. Определим среднюю относительную ошибку аппроксимации в процентах

Подставим результаты предварительных расчетов (см. табл. 5) в формулу:

, > 8-10%, следовательно модель неприемлема для прогнозирования, что можно объяснить малым числом наблюдений (N=10). Для того чтобы модель можно было использовать для прогнозирования достаточно увеличить число наблюдений с 10 до 15, тогда <10 %.

Выводы по модели:

Автокорреляция остатков отсутствует, связь сильная, но коэффициенты незначимы и модель неприемлема для прогнозирования. Таким образом, модель недостаточно отражает зависимость между себестоимостью 1 т литья У (руб.) от брака литья Х (т). Возможно, необходимо расширить перечень наблюдений или рассмотреть другую выборку из генеральной совокупности.

Спецификация модели

Для того чтобы выбрать зависимость, которая бы наилучшим образом соответствовала реально существующей зависимости между себестоимостью 1 т литья У (руб.) от брака литья Х (т) по 10 литейным цехам заводов необходимо проанализировать данные, представленные в сводной таблице 6.

Сводная таблица 6.

Линейная	Гиперболическая	Логарифмическая	Степенная	Параболическая
Неизвест-ные параметры уравнения регрессии
Теснота связи между у и х
Значимость параметров уравнения регрессии (+ для линейной значимость коэффициента корреляции)	tрасч(rxy)=3,367 значим tрасч(a)=4,618 значим tрасч(b)=3,367 значим	tрасч(a)=11,968 значим tрасч(b)=-2,685 значим	tрасч(a)=3,75 tрасч(b)=3,429 значим	tрасч(a)=25,999 значим tрасч(b)=3,071 значим	tрасч(a)=1,661 незначим tрасч(b)=1,505 незначим tрасч(c)= -0,833 незначим
Средняя относительная ошибка аппроксимации, в %	неприемлема	неприемлема	неприемлема	неприемлема	неприемлема
Значение критерия автокорреляции остатков	автокорреляция отсутствует	автокорреляция отсутствует	автокорреляция отсутствует	автокорреляция отсутствует	автокорреляция отсутствует

При спецификации модели в первую очередь исключаются модели, в которых имеет место автокорреляция остатков и параметры регрессии незначимы. Автокорреляция остатков отсутствует у всех моделей. Параметры всех построенных регрессий, кроме параболической, значимы. Таким образом, параболическая модель не может быть моделью наилучшим образом отражающей зависимость между х и у - ее из дальнейшего рассмотрения исключаем.

Затем необходимо из числа оставшихся зависимостей выбрать зависимость, имеющую наибольшее значение корреляционного отношения или коэффициент корреляции. Среди наших моделей примерно одинаковая теснота связи между х и у существует в линейной (rxy=0,776) и степенной () моделях.

В подобной ситуации предпочтение отдают той модели, ошибка аппроксимации которой меньше. Но линейная модель является своего рода исключением, т.к. ей отдается предпочтение независимо от величины ошибки аппроксимации. К тому же стоит отметить, что в построенных линейной и степенной моделях значения ошибки аппроксимации достаточно близки (линейная: ; степенная:). Таким образом, несмотря на то что степенная модель достаточно хорошо отражает зависимость между х и у, предпочтение отдаем линейной модели.

Итак, из всех моделей наилучшим образом отражает реально существующую зависимость между себестоимостью 1 т литья У (руб.) от брака литья Х (т) по 10 литейным цехам заводов - линейная модель. Автокорреляция остатков в данной модели отсутствует, коэффициенты значимы, связь между х и у сильная, но модель неприемлема для прогнозирования. При этом ошибка аппроксимации данной модели достаточно близка к критическому значению - 10 %, поэтому для того чтобы устранить данный недостаток и сделать модель приемлемой для прогнозирования достаточно добавить несколько наблюдений.

Регрессионный и корреляционный анализ – статистические методы исследования. Это наиболее распространенные способы показать зависимость какого-либо параметра от одной или нескольких независимых переменных.

Ниже на конкретных практических примерах рассмотрим эти два очень популярные в среде экономистов анализа. А также приведем пример получения результатов при их объединении.

Регрессионный анализ в Excel

Показывает влияние одних значений (самостоятельных, независимых) на зависимую переменную. К примеру, как зависит количество экономически активного населения от числа предприятий, величины заработной платы и др. параметров. Или: как влияют иностранные инвестиции, цены на энергоресурсы и др. на уровень ВВП.

Результат анализа позволяет выделять приоритеты. И основываясь на главных факторах, прогнозировать, планировать развитие приоритетных направлений, принимать управленческие решения.

Регрессия бывает:

линейной (у = а + bx);
параболической (y = a + bx + cx 2);
экспоненциальной (y = a * exp(bx));
степенной (y = a*x^b);
гиперболической (y = b/x + a);
логарифмической (y = b * 1n(x) + a);
показательной (y = a * b^x).

Рассмотрим на примере построение регрессионной модели в Excel и интерпретацию результатов. Возьмем линейный тип регрессии.

Задача. На 6 предприятиях была проанализирована среднемесячная заработная плата и количество уволившихся сотрудников. Необходимо определить зависимость числа уволившихся сотрудников от средней зарплаты.

Модель линейной регрессии имеет следующий вид:

У = а 0 + а 1 х 1 +…+а к х к.

Где а – коэффициенты регрессии, х – влияющие переменные, к – число факторов.

В нашем примере в качестве У выступает показатель уволившихся работников. Влияющий фактор – заработная плата (х).

В Excel существуют встроенные функции, с помощью которых можно рассчитать параметры модели линейной регрессии. Но быстрее это сделает надстройка «Пакет анализа».

Активируем мощный аналитический инструмент:

После активации надстройка будет доступна на вкладке «Данные».

Теперь займемся непосредственно регрессионным анализом.

В первую очередь обращаем внимание на R-квадрат и коэффициенты.

R-квадрат – коэффициент детерминации. В нашем примере – 0,755, или 75,5%. Это означает, что расчетные параметры модели на 75,5% объясняют зависимость между изучаемыми параметрами. Чем выше коэффициент детерминации, тем качественнее модель. Хорошо – выше 0,8. Плохо – меньше 0,5 (такой анализ вряд ли можно считать резонным). В нашем примере – «неплохо».

Коэффициент 64,1428 показывает, каким будет Y, если все переменные в рассматриваемой модели будут равны 0. То есть на значение анализируемого параметра влияют и другие факторы, не описанные в модели.

Коэффициент -0,16285 показывает весомость переменной Х на Y. То есть среднемесячная заработная плата в пределах данной модели влияет на количество уволившихся с весом -0,16285 (это небольшая степень влияния). Знак «-» указывает на отрицательное влияние: чем больше зарплата, тем меньше уволившихся. Что справедливо.

Корреляционный анализ в Excel

Корреляционный анализ помогает установить, есть ли между показателями в одной или двух выборках связь. Например, между временем работы станка и стоимостью ремонта, ценой техники и продолжительностью эксплуатации, ростом и весом детей и т.д.

Если связь имеется, то влечет ли увеличение одного параметра повышение (положительная корреляция) либо уменьшение (отрицательная) другого. Корреляционный анализ помогает аналитику определиться, можно ли по величине одного показателя предсказать возможное значение другого.

Коэффициент корреляции обозначается r. Варьируется в пределах от +1 до -1. Классификация корреляционных связей для разных сфер будет отличаться. При значении коэффициента 0 линейной зависимости между выборками не существует.

Рассмотрим, как с помощью средств Excel найти коэффициент корреляции.

Для нахождения парных коэффициентов применяется функция КОРРЕЛ.

Задача: Определить, есть ли взаимосвязь между временем работы токарного станка и стоимостью его обслуживания.

Ставим курсор в любую ячейку и нажимаем кнопку fx.

В категории «Статистические» выбираем функцию КОРРЕЛ.
Аргумент «Массив 1» - первый диапазон значений – время работы станка: А2:А14.
Аргумент «Массив 2» - второй диапазон значений – стоимость ремонта: В2:В14. Жмем ОК.

Чтобы определить тип связи, нужно посмотреть абсолютное число коэффициента (для каждой сферы деятельности есть своя шкала).

Для корреляционного анализа нескольких параметров (более 2) удобнее применять «Анализ данных» (надстройка «Пакет анализа»). В списке нужно выбрать корреляцию и обозначить массив. Все.

Полученные коэффициенты отобразятся в корреляционной матрице. Наподобие такой:

Корреляционно-регрессионный анализ

На практике эти две методики часто применяются вместе.

Пример:

Теперь стали видны и данные регрессионного анализа.

Линейная регрессия

Уравнение линейной регрессии представляет собой уравнение прямой, аппроксимирующей (приблизительно описывающей) зависимость между случайными величинами X и Y.

Рассмотрим случайную двумерную величину (X, Y), где -- зависимые случайные величины. Представим одну из величин как функцию другой. Ограничимся приближенным представлением величины в виде линейной функции величины X:

где -- параметры, подлежащие определению. Это можно сделать различными способами: наиболее употребительный из них -- метод наименьших квадратов. Функцию g(x) называют среднеквадратической регрессией Y на X. Функцию g(x) называют среднеквадратической регрессией Y на X.

где F -- суммарное квадратичное отклонение.

Подберем a и b так, чтобы сумма квадратов отклонений была минимальной. Для того, чтобы найти коэффициенты a и b, при которых F достигает минимального значения, приравняем частные производные к нулю:

Находим a и b. Выполнив элементарные преобразования, получим систему двух линейных уравнений относительно a и b:

где -- объём выборки.

В нашем случае A = 3888; B =549; C =8224; D = 1182;N = 100.

Найдём a и b из этой линейной. Получим стационарную точку для где 1,9884; 0,8981.

Следовательно, уравнение примет вид:

y = 1,9884x + 0,8981

Рис. 10

Параболическая регрессия

Найдем по данным наблюдений выборочное уравнение кривой линии среднеквадратичной (параболической в нашем случае) регрессии. Воспользуемся методом наименьших квадратов для определения p, q, r.

Ограничимся представлением величины Y в виде параболической функции величины X:

где p, q, и r -- параметры, подлежащие определению. Это можно сделать с помощью метода наименьших квадратов.

Подберем параметры p, q и r так, чтобы сумма квадратов отклонений была минимальной. Так как каждое отклонение зависит от отыскиваемых параметров, то и сумма квадратов отклонений есть функция F этих параметров:

Для отыскания минимума приравняем к нулю соответствующие частные производные:

Находим p, q и r. Выполнив элементарные преобразования, получим систему трех линейных уравнений относительно p, q и r:

Решая эту систему методом обратной матрицы, получим: p = -0,0085; q = 2,0761;

Следовательно, уравнение параболической регрессии примет вид:

y = -0,0085x 2 + 2,0761x + 0,7462

Построим график параболической регрессии. Для удобства наблюдения график регрессии будет на фоне диаграммы рассеивания (см. рисунок 13).

Рис. 13

Теперь изобразим линии линейной регрессии и параболической регрессии на одной диаграмме, для наглядного сравнения (см. рисунок 14).

Рис. 14

Линейная регрессия изображена красным цветом, а параболическая -- синим. По диаграмме видно, что отличие в данном случае больше, чем при сравнении двух линий линейных регрессий. Требуется дальнейшее исследование, какая же регрессия лучше выражает зависимость между x и y, т. е. какой тип зависимости между x и y.

Рассмотрим построение уравнения регрессии вида .

Составление системы нормальных уравнений для нахождения коэффициентов параболической регрессии осуществляется аналогично составлению нормальных уравнений линейной регрессии.

После преобразований получаем:

Решая систему нормальных уравнений, получают коэффициенты уравнения регрессии.

где , а .

Уравнение второй степени значимо лучше описывает экспериментальные данные, чем уравнение первой степени, если уменьшение дисперсии по сравнению с дисперсией линейной регрессии является значимым (неслучайным). Значимость различия между и оценивается критерием Фишера:

где число берется по справочным статистическим таблицам (приложение 1) соответственно степеням свободы и выбранного уровня значимости .

Порядок выполнения расчетной работы:

1. Ознакомиться с теоретическим материалом, изложенным в методических указаниях либо в дополнительной литературе.

2. Рассчитать коэффициенты линейного уравнения регрессии . Для этого необходимо вычислить суммы . Удобно сразу вычислить суммы , которые пригодятся для расчета коэффициентов параболического уравнения.

3. Вычислить расчетные значения выходного параметра по уравнению .

4. Вычислить общую и остаточную дисперсии , , а также критерий Фишера .

где – матрица, элементами которой являются коэффициенты системы нормальных уравнений;

– вектор, элементами которого являются неизвестные коэффициенты;

– матрица правых частей системы уравнений.

7. Вычислить расчетные значения выходного параметра по уравнению .

8. Вычислить остаточную дисперсию , а также критерий Фишера .

9. Сделать выводы.

10. Построить графики уравнений регрессии и исходных данных.

11. Оформить расчетную работу.

Пример расчета.

По экспериментальным данным зависимости плотности водяного пара от температуры получить уравнения регрессии вида и . Провести статистический анализ и сделать вывод о лучшей эмпирической зависимости.


	0,0512	0,0687	0,081	0,1546	0,2516	0,3943	0,5977	0,8795

Обработка экспериментальных данных проведена в соответствии с рекомендациями к работе. Расчеты для определения параметров линейного уравнения приведены в таблице 1.

Таблица 1 – Нахождение параметров линейной зависимости вида
Плотность водяного пара на линии насыщения
№	t i ,°C	, ом	t i 2		расч.
		0,0512		2,05	-0,0403	-0,0915	0,0084	0,0669
		0,0687		3,16	0,0248	-0,0439	0,0019	0,0582
		0,0811		4,22	0,0899	0,0089	0,0001	0,0523
		0,1546		9,9	0,2202	0,06565	0,0043	0,0241
		0,2516		19,12	0,3505	0,09894	0,0098	0,0034
		0,3943		34,70	0,4808	0,08654	0,0075	0,0071
		0,5977		59,77	0,6111	0,01344	0,0002	0,0829
		0,8795		98,50	0,7414	-0,13807	0,0191	0,3245
сумма		2,4786		231,41			0,0512	0,6194
среднее	72,25	0,3098	5822,5	28,93

b 0 =	-0,4747					D 1 ост 2 =	0,0085
b 1 =	0,0109					D y 2 =	0,0885
						F =	10,368
F T =3,87 F >F T модель адекватна

Для определения параметров параболической регрессии вначале были определены элементы матрицы коэффициентов и матрицы правых частей системы нормальных уравнений. Затем расчет коэффициентов выполнен в среде MathCad:

Данные расчетов приведены в таблице 2.

Обозначения в таблице 2:

Выводы

Параболическое уравнение значимо лучше описывает экспериментальные данные зависимости плотности пара от температуры, так как расчетное значение критерия Фишера значительно превышает табличное равное 4,39. Следовательно, включение квадратичного члена в полиномиальное уравнение имеет смысл.

Полученные результаты представлены в графическом виде (рис.3).

Рисунок 3 – Графическая интерпретация результатов расчета.

Пунктирная линия – уравнение линейной регрессии; сплошная линия – параболической регрессии, точки на графике – экспериментальные значения.

Таблица 2. – Нахождение параметров зависимости вида y (t )=a 0 +a 1 ∙x+a 2 ∙x 2	Плотность водяного пара на линии насыщения ρ= a 0 +a 1 ∙t+a 2 ∙t 2	(ρ i –ρср) 2	0,0669	0,0582	0,0523	0,0241	0,0034	0,0071	0,0829	0,03245	0,6194
(Δρ) 2	0,0001	0,0000	0,0000	0,0002	0,0000	0,0002	0,0002	0,0002	0,0010		0,0085	0,0002	0,0885	42,5
∆ρ i =ρ(t i )расч–ρ i	0,01194	–0,00446	–0,00377	–0,01524	–0,00235	0,01270	0,011489	–0,01348			D 1 2 ост =	D 2 2 ост =	D 1 2 y =	F=
ρ(t i )расч.	0,0631	0,0642	0,0773	0,1394-	0,2493	0,4070	0,6126	0,8660	2,4788
t i 2ρ i	81,84	145,33	219,21	633,24	1453,2	3053,4	5977,00	11032,45	22595,77
t i 4
t i 3
t i ρ i	2,05	3,16	4,22	9,89	19,12	34,70	59,77	98,50	231,41
t i 2
ρ, ом	0,0512	0,0687	0,0811	0,1546	0,2516	0,3943	0,5977	0,8795	2,4786	0,3098
t i ,°C											0,36129	–0,0141	1,6613E-04
№	1	2	3	4	5	6	7	8	сумма	среднее	a 0 =	a 1 =	a 2 =

Приложение 1

Таблица распределения Фишера при q = 0,05

f 2										-
f 1
	161,40	199,50	215,70	224,60	230,20	234,00	238,90	243,90	249,00	254,30
	18,51	19,00	19,16	19,25	19,30	19,33	19,37	19,41	19,45	19,50
	10,13	9,55	9,28	9,12	9,01	8,94	8,84	8,74	8,64	8,53
	7,71	6,94	6,59	6,39	6,76	6,16	6,04	5,91	5,77	5,63
	6,61	5,79	5,41	5,19	5,05	4,95	4,82	4,68	4,53	4,36
	5,99	5,14	4,76	4,53	4,39	4,28	4,15	4,00	3,84	3,67
	5,59	4,74	4,35	4,12	3,97	3,87	3,73	3,57	3,41	3,23
	5,32	4,46	4,07	3,84	3,69	3,58	3,44	3,28	3,12	2,93
	5,12	4,26	3,86	3,63	3,48	3,37	3,24	3,07	2,90	2,71
	4,96	4,10	3,71	3,48	3,33	3,22	3,07	2,91	2,74	2,54
	4,84	3,98	3,59	3,36	3,20	3,09	2,95	2,79	2,61	2,40
	4,75	3,88	3,49	3,26	3,11	3,00	2,85	2,69	2,50	2,30
	4,67	3,80	3,41	3,18	3,02	2,92	2,77	2,60	2,42	2,21
	4,60	3,74	3,34	3,11	2,96	2,85	2,70	2,53	2,35	2,13
	4,54	3,68	3,29	3,06	2,90	2,79	2,64	2,48	2,29	2,07
	4,49	3,63	3,24	3,01	2,82	2,74	2,59	2,42	2,24	2,01
	4,45	3,59	3,20	2,96	2,81	2,70	2,55	2,38	2,19	1,96
	4,41	3,55	3,16	2,93	2,77	2,66	2,51	2,34	2,15	1,92
	4,38	3,52	3,13	2,90	2,74	2,63	2,48	2,31	2,11	1,88
	4,35	3,49	3,10	2,87	2,71	2,60	2,45	2,28	2,08	1,84
	4,32	3,47	3,07	2,84	2,68	2,57	2,42	2,25	2,05	1,81
	4,30	3,44	3,05	2,82	2,66	2,55	2,40	2,23	2,03	1,78
	4,28	3,42	3,03	2,80	2,64	2,53	2,38	2,20	2,00	1,76
	4,26	3,40	3,01	2,78	2,62	2,51	2,36	2,18	1,98	1,73
	4,24	3,38	2,99	2,76	2,60	2,49	2,34	2,16	1,96	1,71
	4,22	3,37	2,98	2,74	2,59	2,47	2,32	2,15	1,95	1,69
	4,21	3,35	2,96	2,73	2,57	2,46	2,30	2,13	1,93	1,67
	4,20	3,34	2,95	2,71	2,56	2,44	2,29	2,12	1,91	1,65
	4,18	3,33	2,93	2,70	2,54	2,43	2,28	2,10	1,90	1,64
	4,17	3,32	2,92	2,69	2,53	2,42	2,27	2,09	1,89	1,62
	4,08	3,23	2,84	2,61	2,45	2,34	2,18	2,00	1,79	1,52
	4,00	3,15	2,76	2,52	2,37	2,25	2,10	1,92	1,70	1,39
	3,92	3,07	2,68	2,45	2,29	2,17	2,02	1,88	1,61	1,25