Множественная регрессия

Содержание

Введение

Оценка коэффициентов регрессии

Проверка адекватности построенной регрессионной модели

Описание данных и постановка задачи

Решение задачи по шагам

Вывод

Литература

 


Введение

В линейный регрессионный анализ входит широкий круг задач, связанных с построением (восстановлением) зависимостей между группами числовых переменных X=(x1,...x2) и Y=(y1,...y2).

Предполагается, что X - независимые переменные (предикторы, объясняющие переменные) влияют на значения Y - зависимых переменных (откликов, объясняемых переменных). По имеющимся эмпирическим данным (Xi,Yi), i=1,...,n требуется построить функцию f(X), которая приближенно описывала бы изменение Y при изменении X:

Y=f(X).

Предполагается, что множество допустимых функций, из которого подбирается f(X), является параметрическим:

f(X)=f(X, тетта),

где Тетта- неизвестный параметр (вообще говоря, многомерный). При построении f(X) будем считать, что

Y=f(X, тетта)+E,          (1)

где первое слагаемое – закономерное изменение Y от X, а второе -E - случайная составляющая с нулевым средним; f(X, тетта) является условным математическим ожиданием Y при условии известного X и называется регрессией Y по X.

Пусть n раз измерены значения факторовx1,...,xk и соответствующие значения переменной y; предполагается, что 

Формула для yi    (2)

(второй индекс у x относится к номеру фактора, а первый – к номеру наблюдения); предполагается также, что

Предположения     (3)

т.е. Ei- некоррелированные случайные величины. Соотношения (2) удобно записывать в матричной форме:

Y=XB+E ,     (4)

где  Y=(y1,...,yk)^T - вектор-столбец значений зависимой переменной, - символ транспонирования, B=(B0,B1,...Bk)^T- вектор-столбец (размерности k) неизвестных коэффициентов регрессии, E=(E1,...En)^T- вектор случайных отклонений,

Матрица X

-матрица nx(k+1); в i-й строке (1, xi1,...,xik) находятся значения независимых переменных в i-м наблюдении первая переменная – константа, равная 1.

в начало

 


Оценка коэффициентов регрессии

Построим оценку B с крышечкой для вектора B так, чтобы вектор оценок Y с крышечкой=X*B с крышечкой зависимой переменной минимально (в смысле квадрата нормы разности) отличался от вектора Y заданных значений:

Условия оценки.

Решением является (если ранг матрицы X равен k+1) оценка

Формула для B с крышечкой   (5)

Нетрудно проверить, что она несмещенная.

в начало

 


Проверка адекватности построенной регрессионной модели

Между значением Y, значением из регрессионной модели Y с крышечкой и значением тривиальной оценкой выборочного среднего Y с чертой существует следующее соотношение:

Соотношение,

где Y с чертой=(y с чертой,..., y с чертой)^T.

По сути, член в левой части определяет общую ошибку относительно среднего. Первый член в правой части (R55) определяет ошибку, связанную с регрессионной моделью, а второй (E55) ошибку, связанную со случайными отклонениями и необъясненной построенной моделью. 

Поделив обе части на полную вариацию игреков Формула для T55, получим коэффициент детерминации:

Коэффициент детерминации  (6) 

Коэффициент  показывает качество подгонки регрессионной модели к наблюдаемым значениям yi. Если R^2=0, то регрессия Y на x1,...,xk  не улучшает качества предсказания  yi по сравнению с тривиальным предсказанием yi с крышечкой=y с чертой.

Другой крайний случай R^2=1 означает точную подгонку: все ei=0, т.е. все точки наблюдений лежат на регрессионной плоскости.

Однако, значение R^2 возрастает с ростом числа переменных (регрессоров) в регрессии, что не означает улучшения качества предсказания, и потому вводится скорректированный коэффициент детерминации

Формула для скорректированного R^2    (7) 

Его использование более корректно для сравнения регрессий при изменении числа переменных (регрессоров).

Доверительные интервалы для коэффициентов регрессии. Стандартной ошибкой оценки Bj с крышечкой является величина Формула, оценка для которой

Sj=S*корень из Zjj   (8) 

где Zjj- диагональный элемент матрицы Z. Если ошибки Ei распределены нормально, то, в силу свойств 1) и 2), приведенных выше, статистика

Формула для t  (9) 

распределена по закону Стьюдента с (n-k-1) степенями свободы, и поэтому неравенство

Неравенство  ,   (10) 

где tp- квантиль уровня (1+Рд)/2 этого распределения, задает доверительный интервал Bj для с уровнем доверия Рд.

Проверка гипотезы о нулевых значениях коэффициентов регрессии. Для проверки гипотезы H0 об отсутствии какой бы то ни было линейной связи между y и совокупностью факторов, Гипотеза H0, т.е. об одновременном равенстве нулю всех коэффициентов, кроме коэффициентовB0, при константе используется статистика 

Формула для F  ,    (11) 

распределенная, если Н0 верна, по закону Фишера с k и (n-k-1) степенями свободы. H0 отклоняется, если

Неравенство   (12) 

где Fa- квантиль уровня 1-a

в начало

 


Описание данных и постановка задачи

Исходный файл с данными tube_dataset.sta содержит 10 переменных и 33 наблюдения. См. рис. 1. 

Исходная таблица данных из файла tube_dataset.sta

Рис. 1. Исходная таблица данных из файла tube_dataset.sta

В названии наблюдений указан временной интервал: квартал и год (до и после точки соответственно). Каждое наблюдение содержит данные за соответствующий временной интервал. 10 переменная «Квартал» дублирует номер квартала в имени наблюдения. Список переменных приведен ниже.

Список переменных

Цель: Построить регрессионную модель для переменной №9 «Потребление труб». 

Этапы решения:

1) Сначала проведем разведочный анализ имеющихся данных на предмет выбросов и незначимых данных (построение линейных графиков и диаграмм рассеяния).

2) Проверим наличие возможных зависимостей между наблюдениями и между переменными (построение корреляционных матриц).

3) Если наблюдения будут образовывать группы, то для каждой группы построим регрессионную модель для переменной «Потребление труб» (множественная регрессия).

Перенумеруем переменные по порядку в таблице. Зависимой переменной (отклик) будем называть переменную «Потребление труб». Независимыми (предикторами) назовем все остальные переменные. 

в начало

 


Решение задачи по шагам

Шаг 1. Диаграммы рассеяния (см. рис. 2.) явных выбросов не выявили. В то же время, на многих графиках явно просматривается линейная зависимость. Также есть пропущенные данные по «Потреблению труб» в 4 кварталах 2000 года. 

Диаграмма рассеяния зависимой переменной (№9) и кол-ва скважин (№8)

Рис. 2. Диаграмма рассеяния зависимой переменной (№9) и кол-ва скважин (№8) 

Цифра после символа Е в отметках по оси Х обозначает степень числа 10, которое определяет порядок значений переменной №8 (Количество скважин действующих). В данном случае речь идет о значении порядка 100.000 скважин (10 в 5 степени). 

На диаграмме рассеяния на рис. 3 (см. ниже) отчетливо видно 2 облака точек, причем каждое из них имеет явную линейную зависимость. 

Понятно, что переменная №1, скорее всего, войдет в регрессионную модель, т.к. нашей задачей является выявление именно линейной зависимости между предикторами и откликом.

Диаграмма рассеяния зависимой переменной(№9) и Инвестиций в нефтяную промышленность(№1)

Рис. 3. Диаграмма рассеяния зависимой переменной (№9) и Инвестиций в нефтяную промышленность (№1) 

Шаг 2. Построим линейные графики всех переменных в зависимости от времени. Из графиков видно, что данные по многим переменным сильно разнятся в зависимости от номера квартала, но рост из года в год сохраняется.

Полученный результат подтверждает предположения, полученные на основе рис. 3. 

Линейный график 1-й переменной в зависимости от времени

Рис. 4. Линейный график 1-й переменной в зависимости от времени 

В частности, на рис. 4 построен линейный график для первой переменной. 

Шаг 3. Согласно результатам рис. 3 и рис. 4, разобьем наблюдения на 2 группы, по переменной №10 «Квартал». В первую группу войдут данные по 1 и 4 кварталу, а во вторую – данные по 2 и 3. 

Чтобы разбить наблюдения согласно кварталам на 2 таблицы, воспользуемся пунктом Данные/Подмножество/Случайный выбор. Здесь в качестве наблюдений нам надо указать условия на значения переменной КВАРТАЛ. Cм. рис. 5. 

Согласно заданным условиям наблюдения будут скопированы в новую таблицу. В строчке снизу можно указать конкретные номера наблюдений, однако в нашем случае это займет много времени.

Выбор подмножества наблюдений из таблицы

Рис. 5. Выбор подмножества наблюдений из таблицы

В качестве заданного условия зададим:

V10 = 1 OR V10 = 4

V10 – это 10 переменная в таблице (V0 – это столбец с наблюдениями). По сути, мы проверяем каждое наблюдение в таблице, относится оно к 1-ому или 4-ому кварталу или нет. Если мы хотим, выбрать другое подмножество наблюдений, то можно либо сменить условие на: 

V10 = 2 OR V10 = 3

либо перенести первое условие в исключающие правила.

Нажав ОК, мы сначала получим таблицу с данными только по 1 и 4 кварталу, а затем и таблицу с данными по 2 и 3 кварталу. Сохраним их под именами 1_4.sta и 2_3.sta через вкладку Файл/Сохранить как.

Далее будем работать уже с двумя таблицами и полученные результаты регрессионного анализа для обеих таблиц можно будет сравнить.

Шаг 4. Построим матрицу корреляций для каждой из групп, чтобы проверить предположение относительно линейной зависимости и учесть возможные сильные корреляции между переменными при построении регрессионной модели. Так как есть пропущенные данные, корреляционная матрица была построена с опцией попарного удаления пропущенных данных. См. рис. 6. 

Матрица корреляций для первых 9-ти переменных по данным 1 и 4 кварталов

Рис. 6. Матрица корреляций для первых 9-ти переменных по данным 1 и 4 кварталов 

Из корреляционной матрицы в частности понятно, некоторые переменные очень сильно коррелируют друг с другом.

Стоит отметить, что достоверность больших значений корреляции возможна только при отсутствии выбросов в исходной таблице. Поэтому диаграммы рассеяния для зависимой переменной и всех остальных переменных обязательно должны учитываться при корреляционном анализе. 

Например, переменная №1 и №2 (Инвестиции в нефтяную и газовую промышленность соответственно). См. рис.7 (или, например, рис. 8). 

Диаграмма рассеяния для переменной №1 и №2

Рис. 7. Диаграмма рассеяния для переменной №1 и №2 

Диаграмма рассеяния для переменной №1 и №7

Рис. 8. Диаграмма рассеяния для переменной №1 и №7 

Данная зависимость легко объяснима. Также ясен и высокий коэффициент корреляции между объемами добычи нефти и газа.

Высокий коэффициент корреляции между переменными (мультиколлиниарность) нужно учитывать при построении регрессионной модели. Здесь могут возникнуть большие ошибки при вычислении коэффициентов регрессии (плохообусловленная матрица при вычислении оценки через МНК).

Приведем наиболее распространенные способы устранения мультиколлиниарности:

1) Гребневая регрессия.

Данная опция задается при построении множественной регрессии. Число Лямбда- малое положительное число. Оценка МНК в таком случае равна:

Формула для B с крышечкой,

где Y – вектор со значениями зависимой переменной, X – матрица, содержащая по столбцам значения предикторов, а In+1 – единичная матрица порядка n+1. (n – количество предикторов в модели). 

Плохообусловленность матрицы X'X при гребневой регрессии значительно уменьшается.

2) Исключение одной из объясняющих переменных.

В этом случае из анализа исключается одна объясняющая переменная имеющая высокий парный коэффициент корреляции ( r>0.8 ) с другим предиктором.

3) Использование пошаговых процедур с включением/исключением предикторов.

Пояснение данной опции смотрите ниже.

Обычно, в таких случаях, используют либо гребневую регрессию (она задается в качестве опции при построении множественной), либо, на основе значений корреляции, исключают объясняющие переменные, имеющие высокий парный коэффициент корреляции (r > 0.8), либо пошаговую регрессию с включением/исключением переменных.

Шаг 5. Теперь построим регрессионную модель при помощи выпадающей вкладки меню (Анализ/Множественная регрессия). В качестве зависимой переменной укажем «Потребление труб», в качестве независимых – все остальные. См. рис. 9. 

Построение множественной регрессии для таблицы 1_4.sta

Рис. 9. Построение множественной регрессии для таблицы 1_4.sta 

Множественную регрессию можно проводить пошагово. В этом случае в модель будут пошагово включаться (или исключаться) переменные, которые вносят наибольший (наименьший) вклад в регрессию на данном шаге.

Также данная опция позволяет остановиться на шаге, когда коэффициент детерминации еще не наибольший, однако уже все переменные модели являются значимыми. См. рис. 10. 

Построение множественной регрессии для таблицы 1_4.sta

Рис. 10. Построение множественной регрессии для таблицы 1_4.sta 

Особо стоит отметить, что пошаговая регрессия с включением, в случае, когда количество переменных больше количества наблюдений, является единственным способом построения регрессионной модели. 

Установка нулевого значения свободного члена регрессионной модели используется в случае, если сама идея модели подразумевает нулевое значение отклика, когда все предикторы окажутся равными 0. Чаще всего подобные ситуации встречаются в экономических задачах.

В нашем случае свободный член мы включим в модель.

Построение множественной регрессии для таблицы 1_4.sta

Рис. 11. Построение множественной регрессии для таблицы 1_4.sta 

В качестве параметров модели выберем Пошаговую с исключением (Fвкл = 11, Fвыкл = 10), с гребневой регрессией (лямбда = 0.1). И для каждой группы построим регрессионную модель. См. рис.11. 

Результаты в виде Итоговой таблицы регрессии (см. также рис. 14) представлены на рис.12 и рис.13. Они получены на последнем шаге регрессии. 

Шаг 6. Проверка адекватности модели

Обратим внимание, что, несмотря на значимость всех переменных в регрессионной модели (p-уровень < 0.05 – подсвечены красным цветом), коэффициент детерминации R2 существенно меньше у первой группы наблюдений.

Коэффициент детерминации показывает, по сути, какая доля дисперсии отклика объясняется влиянием предикторов в построенной модели. Чем ближе R2 к 1, тем лучше модель.

F-статистика Фишера используется для проверки гипотезы о нулевых значениях коэффициентов регрессии (т.е. об отсутствии какой бы то ни было линейной связи между  y и совокупностью факторов, Гипотеза H0, кроме коэффициента B0). Гипотеза отклоняется при малом уровне значимости.

В нашем случае (см. рис. 12) значение F-статистики = 13,249 при уровне значимости p < 0,00092, т.е. гипотеза об отсутствии линейной связи отклоняется. 

Результаты регрессионного анализа данных по 1 и 4 кварталу

Рис. 12. Результаты регрессионного анализа данных по 1 и 4 кварталу

Результаты регрессионного анализа данных по 2 и 3 кварталу

Рис. 13. Результаты регрессионного анализа данных по 2 и 3 кварталу

Шаг 7. Теперь проведем анализ остатков полученной модели. Результаты, полученные при анализе остатков, являются важным дополнением к значению коэффициента детерминации при проверке адекватности построенной модели. 

Для простоты будем рассматривать лишь группу, разбитую на кварталы с номерами 2 и 3, т.к. вторая группа исследуется аналогично. 

В окне, представленном на рис. 14, на вкладке Остатки/предсказанные/наблюдаемые значения нажмем на кнопку Анализ остатков, и далее нажмем на кнопку Остатки и предсказанные. (См. рис. 15)

Кнопка Анализ остатков будет активна, только если регрессия получена на последнем шаге. Чаще оказывается важным получить регрессионную модель, в которой значимы все предикторы, чем продолжить построение модели (увеличивая коэффициент детерминации) и получить незначимые предикторы. 

В этом случае, когда регрессия не останавливается на последнем шаге, можно искусственно задать количество шагов в регрессии. 

Окно с результатами множественной регрессии для данных по 2 и 3-му кварталу

Рис. 14. Окно с результатами множественной регрессии для данных по 2 и 3-му кварталам

Остатки и предсказанные значения регрессионной модели по данным 2 и 3 квартала

Рис. 15. Остатки и предсказанные значения регрессионной модели по данным 2 и 3 квартала

Прокомментируем результаты, представленные на рис. 15. Важным является столбец с Остатками (разница первых 2-х столбцов). Большие остатки по многим наблюдениям и наличие наблюдения с маленьким остатком может указывать на последнее как на выброс. 

Другими словами анализ остатков нужен для того, чтобы отклонения от предположений, угрожающие обоснованности результатов анализа, могли быть легко обнаружены.

Остатки и предсказанные значения регрессионной модели по данным 2 и 3 квартала + 2 границы 0.95 доверительного интервала

Рис. 16. Остатки и предсказанные значения регрессионной модели по данным 2 и 3 кварталов + 2 границы 0.95 доверительного интервала

В конце приведем график, иллюстрирующий данные, полученные из таблицы на рис. 16. Здесь добавлены 2 переменные: UCB и LCB – 0.95 верх. и нижн. дов. интервал. 

UBC = V2+1.96*V6

LBC = V2-1.96*V6

И удалены четыре последних наблюдения.

Построим линейный график с переменными (Графики/2М Графики/Линейные графики для переменных)

1) Наблюдаемое значение (V1)

2) Предсказанное значение (V2)

3) UCB (V9)

4) LCB (V10)

Результат представлен на рис. 17. Теперь видно, что построенная регрессионная модель довольно неплохо отражает реальное потребление труб, особенно на результатах недавнего прошлого.

Это означает, что в ближайшем будущем реальные значения могут быть приближены модельными.

Отметим один важный момент. В прогнозировании при помощи регрессионных моделей всегда важен базовый временной интервал. В рассматриваемой задаче были выбраны кварталы.

Соответственно, при построении прогноза предсказываемые значения будут также получаться по кварталам. Если нужно получить прогноз на год, то придется прогнозировать на 4 квартала и в конце накопится большая ошибка.

Подобную проблему можно решить аналогично, вначале лишь агрегируя данные от кварталов к годам (например, усреднением). Для данной задачи подход не очень корректен, так как останется всего лишь 8 наблюдений, по которым будет строиться регрессионная модель. См. рис.18. 

Наблюдаемые и предсказанные значения вместе с 0.95 верх. и ниж. довер. интервалами (данные по 2 и 3 кварталам)

Рис. 17. Наблюдаемые и предсказанные значения вместе с 0.95 верх. и ниж. довер. интервалами (данные по 2 и 3 кварталам) 

<h4 и предсказанные значения вместе с 0.95 верх. и ниж. довер. интервалами (данные по 2 и 3 кварталам)" и предсказанные значения вместе с 0.95 верх. и ниж. довер. интервалами (данные по 2 и 3 кварталам)"  /></h4>

Рис. 18. Наблюдаемые и предсказанные значения вместе с 0.95 верх. и ниж. довер. интервалами (данные по годам) 

Чаще всего такой подход применяется при агрегировании данных по месяцам, при исходных данных по дням.

Следует помнить, что все методы регрессионного анализа позволяют обнаружить только числовые зависимости, а не лежащие в их основе причинные связи. Поэтому ответ на вопрос о значимости переменных в полученной модели остается за экспертом в данной области, который, в частности, способен учесть влияние факторов, возможно, не вошедших в данную таблицу. 

в начало

 


Вывод

Итак, для модели с гребневой регрессией (лямбда = 0,1) в результате проведения множественной регрессии для 2-х групп наблюдений, зависимая переменная №9 «Потребления труб» представима как:

x9=-2515,20+0,17x5+18,39x7 для 1 и 4 квартала и 

x9=-2834,82+0,51x5+0,02x8 для 2 и 3 квартала,

где  x5 – объем бурения эксплутационного; 

x7 – объем добычи газа; 

x8 – количество скважин действующих;

x9 –  потребление труб.

Параметры модели: Пошаговая с включением (Fвкл = 1), гребневая регрессия с параметром лямбда = 0,1.

Результат получен на последнем шаге регрессии.

 


Литература

  1. Рао С.Р. Линейные статистические методы и их применения, Наука 1968.

  2. Розанов Ю.А. Теория вероятностей, случайные процессы и математическая статистика, Наука 1985.

  3. Боровиков В.П. STATISTICA, искусство анализа данных на компьютере, Питер 2001.

  4. Боровиков В.П. Нейронные сети. STATISTICA Neural Networks, Горячая линия – Телеком 2008.

‹‹
››
ПнВтСрЧтПтСбВс


info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.2 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia, 2017

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта