Значимость уравнения множественной регрессии

Самое важное по теме: "значимость уравнения множественной регрессии" с профессиональной точки зрения. Мы собрали, агрегировали и представили в доступном виде всю имеющуюся по теме информацию и предлагаем ее к прочтению.

Значимость уравнения множественной регрессии

Salary = .5*Resp + .8*No_Super

Как только эта так называемая линия регрессии определена, аналитик оказывается в состоянии построить график ожидаемой (предсказанной) оплаты труда и реальных обязательств компании по выплате жалования. Таким образом, аналитик может определить, какие позиции недооценены (лежат ниже линии регрессии), какие оплачиваются слишком высоко (лежат выше линии регрессии), а какие оплачены адекватно.

В общественных и естественных науках процедуры множественной регрессии чрезвычайно широко используются в исследованиях. В общем, множественная регрессия позволяет исследователю задать вопрос (и, вероятно, получить ответ) о том, «что является лучшим предиктором для. «. Например, исследователь в области образования мог бы пожелать узнать, какие факторы являются лучшими предикторами успешной учебы в средней школе. А психолога мог быть заинтересовать вопрос, какие индивидуальные качества позволяют лучше предсказать степень социальной адаптации индивида. Социологи, вероятно, хотели бы найти те социальные индикаторы, которые лучше других предсказывают результат адаптации новой иммигрантской группы и степень ее слияния с обществом. Заметим, что термин «множественная» указывает на наличие нескольких предикторов или регрессоров, которые используются в модели.

Общая вычислительная задача, которую требуется решать при анализе методом множественной регрессии, состоит в подгонке прямой линии к некоторому набору точек.

Метод наименьших квадратов. На диаграмме рассеяния имеется независимая переменная или переменная X и зависимая переменная Y. Эти переменные могут, например, представлять коэффициент IQ (уровень интеллекта, оцененный с помощью теста) и достижения в учебе (средний балл успеваемости — grade point average; GPA) соответственно. Каждая точка на диаграмме представляет данные одного студента, т.е. его соответствующие показатели IQ и GPA. Целью процедур линейной регрессии является подгонка прямой линии по точкам. А именно, программа строит линию регрессии так, чтобы минимизировать квадраты отклонений этой линии от наблюдаемых точек. Поэтому на эту общую процедуру иногда ссылаются как на оценивание по методу наименьших квадратов. (см. также описание оценивания по методу взвешенных наименьших квадратов).

Уравнение регрессии.

Прямая линия на плоскости (в пространстве двух измерений) задается уравнением Y=a+b*X; более подробно: переменная Y может быть выражена через константу (a) и угловой коэффициент (b), умноженный на переменную X. Константу иногда называют также свободным членом, а угловой коэффициент — регрессионным или B-коэффициентом. Например, значение GPA можно лучше всего предсказать по формуле 1+.02*IQ. Таким образом, зная, что коэффициент IQ у студента равен 130, вы могли бы предсказать его показатель успеваемости GPA, скорее всего, он близок к 3.6 (поскольку 1+.02*130=3.6).

Например, анимационный ролик ниже показывает доверительные интервалы (90%, 95% и 99%), построенные для двумерного регрессионного уравнения.

В многомерном случае, когда имеется более одной независимой переменной, линия регрессии не может быть отображена в двумерном пространстве, однако она также может быть легко оценена. Например, если в дополнение к IQ вы имеете другие предикторы успеваемости (например, Мотивация, Самодисциплина), вы можете построить линейное уравнение, содержащее все эти переменные. Тогда, в общем случае, процедуры множественной регрессии будут оценивать параметры линейного уравнения вида:

Предсказанные значения и остатки. Линия регрессии выражает наилучшее предсказание зависимой переменной (Y) по независимым переменным (X). Однако, природа редко (если вообще когда-нибудь) бывает полностью предсказуемой и обычно имеется существенный разброс наблюдаемых точек относительно подогнанной прямой (как это было показано ранее на диаграмме рассеяния). Отклонение отдельной точки от линии регрессии (от предсказанного значения) называется остатком.

Остаточная дисперсия и коэффициент детерминации R-квадрат.

Чем меньше разброс значений остатков около линии регрессии по отношению к общему разбросу значений, тем, очевидно, лучше прогноз. Например, если связь между переменными X и Y отсутствует, то отношение остаточной изменчивости переменной Y к исходной дисперсии равно 1.0. Если X и Y жестко связаны, то остаточная изменчивость отсутствует, и отношение дисперсий будет равно 0.0. В большинстве случаев отношение будет лежать где-то между этими экстремальными значениями, т.е. между 0.0 и 1.0. 1.0 минус это отношение называется R-квадратом или коэффициентом детерминации. Это значение непосредственно интерпретируется следующим образом. Если имеется R-квадрат равный 0.4, то изменчивость значений переменной Y около линии регрессии составляет 1-0.4 от исходной дисперсии; другими словами, 40% от исходной изменчивости могут быть объяснены, а 60% остаточной изменчивости остаются необъясненными. В идеале желательно иметь объяснение если не для всей, то хотя бы для большей части исходной изменчивости. Значение R-квадрата является индикатором степени подгонки модели к данным (значение R-квадрата близкое к 1.0 показывает, что модель объясняет почти всю изменчивость соответствующих переменных).

Интерпретация коэффициента множественной корреляции R.

Обычно, степень зависимости двух или более предикторов (независимых переменных или переменных X) с зависимой переменной (Y) выражается с помощью коэффициента множественной корреляции R. По определению он равен корню квадратному из коэффициента детерминации. Это неотрицательная величина, принимающая значения между 0 и 1. Для интерпретации направления связи между переменными смотрят на знаки (плюс или минус) регрессионных коэффициентов или B-коэффициентов. Если B-коэффициент положителен, то связь этой переменной с зависимой переменной положительна (например, чем больше IQ, тем выше средний показатель успеваемости оценки); если B-коэффициент отрицателен, то и связь носит отрицательный характер (например, чем меньше число учащихся в классе, тем выше средние оценки по тестам). Конечно, если B-коэффициент равен 0, связь между переменными отсутствует.

Предположения, ограничения и обсуждение практических вопросов

Предположение линейности. Прежде всего, как это видно уже из названия множественной линейной регрессии, предполагается, что связь между переменными является линейной. На практике это предположение, в сущности, никогда не может быть подтверждено; к счастью, процедуры множественного регрессионного анализы в незначительной степени подвержены воздействию малых отклонений от этого предположения. Однако всегда имеет смысл посмотреть на двумерные диаграммы рассеяния переменных, представляющих интерес. Если нелинейность связи очевидна, то можно рассмотреть или преобразования переменных или явно допустить включение нелинейных членов.

Предположение нормальности.

В множественной регрессии предполагается, что остатки (предсказанные значения минус наблюдаемые) распределены нормально (т.е. подчиняются закону нормального распределения). И снова, хотя большинство тестов (в особенности F-тест) довольно робастны (устойчивы) по отношению к отклонениям от этого предположения, всегда, прежде чем сделать окончательные выводы, стоит рассмотреть распределения представляющих интерес переменных. Вы можете построить гистограммы или нормальные вероятностные графики остатков для визуального анализа их распределения.

Читайте так же:  Педагогическое общение факторы

Ограничения.

Основное концептуальное ограничение всех методов регрессионного анализа состоит в том, что они позволяют обнаружить только числовые зависимости, а не лежащие в их основе причинные (causal) связи. Например, можно обнаружить сильную положительную связь (корреляцию) между разрушениями, вызванными пожаром, и числом пожарных, участвующих в борьбе с огнем. Следует ли заключить, что пожарные вызывают разрушения? Конечно, наиболее вероятное объяснение этой корреляции состоит в том, что размер пожара (внешняя переменная, которую забыли включить в исследование) оказывает влияние, как на масштаб разрушений, так и на привлечение определенного числа пожарных (т.е. чем больше пожар, тем большее количество пожарных вызывается на его тушение). Хотя этот пример довольно прозрачен, в реальности при исследовании корреляций альтернативные причинные объяснения часто даже не рассматриваются.

Выбор числа переменных.

Множественная регрессия — предоставляет пользователю «соблазн» включить в качестве предикторов все переменные, какие только можно, в надежде, что некоторые из них окажутся значимыми. Это происходит из-за того, что извлекается выгода из случайностей, возникающих при простом включении возможно большего числа переменных, рассматриваемых в качестве предикторов другой, представляющей интерес переменной. Эта проблема возникает тогда, когда к тому же и число наблюдений относительно мало. Интуитивно ясно, что едва ли можно делать выводы из анализа вопросника со 100 пунктами на основе ответов 10 респондентов. Большинство авторов советуют использовать, по крайней мере, от 10 до 20 наблюдений (респондентов) на одну переменную, в противном случае оценки регрессионной линии будут, вероятно, очень ненадежными и, скорее всего, невоспроизводимыми для желающих повторить это исследование.

Мультиколлинеарность и плохая обусловленность матрицы.

[2]

Проблема мультиколлинеарности является общей для многих методов корреляционного анализа. Представим, что имеется два предиктора (переменные X) для роста субъекта: (1) вес в фунтах и (2) вес в унциях. Очевидно, что иметь оба предиктора совершенно излишне; вес является одной и той же переменной, измеряется он в фунтах или унциях. Попытка определить, какая из двух мер является лучшим предиктором, выглядит довольно глупо; однако, в точности это происходит при попытке выполнить множественный регрессионный анализ с ростом в качестве зависимой переменной (Y) и двумя мерами веса, как независимыми переменными (X). Если в анализ включено много переменных, то часто не сразу очевидно существование этой проблемы, и она может возникнуть только после того, как некоторые переменные будут уже включены в регрессионное уравнение. Тем не менее, если такая проблема возникает, это означает, что, по крайней мере, одна из зависимых переменных (предикторов) является совершенно лишней при наличии остальных предикторов. Существует довольно много статистических индикаторов избыточности (толерантность, получастное R и др.), а также немало средств для борьбы с избыточностью (например, метод Гребневая регрессия).

Подгонка центрированных полиномиальных моделей. Подгонка полиномов высших порядков от независимых переменных с ненулевым средним может создать большие трудности с мультиколлинеарностью. А именно, получаемые полиномы будут сильно коррелированы из-за этого среднего значения первичной независимой переменной. При использовании больших чисел (например, дат в Юлианском исчислении), Эта проблема становится очень серьезной, и если не принять соответствующих мер, то можно прийти к неверным результатам. Решением в данном случае является процедура центрирования независимой переменной, т.е. вначале вычесть из переменной среднее, а затем вычислять многочлены. Более подробное обсуждение этого вопроса (и анализа полиномиальных моделей в целом) смотрите, например, в классической работе Neter, Wasserman & Kutner (1985, глава 9).

Важность анализа остатков. Хотя большинство предположений множественной регрессии нельзя в точности проверить, исследователь может обнаружить отклонения от этих предположений. В частности, выбросы (т.е. экстремальные наблюдения) могут вызвать серьезное смещение оценок, «сдвигая» линию регрессии в определенном направлении и тем самым, вызывая смещение регрессионных коэффициентов. Часто исключение всего одного экстремального наблюдения приводит к совершенно другому результату.

Все права на материалы электронного учебника принадлежат компании StatSoft

Оценка значимости уравнения множественной регрессии в целом. Частные F-критерии Фишера.

Значимость уравнения множественной регрессии в целом, так же как и в парной регрессии, оценивается с помощью F-критерия Фишера:

, где Dфакт — факторная сумма квадратов на одну степень свободы;

Dост — остаточная сумма квадратов на одну степень свободы;

R 2 — коэффициент (индекс) множественной детерминации;

m – число параметров при переменных х

n – число наблюдений.

Частный F-критерий построен на сравнении прироста факторной дисперсии, обусловленного влиянием дополнительно включенного фактора, с остаточной дисперсией на одну степень свободы по регрессионной модели в целом. Предположим, что оцениваем значимость влияния х1 как дополнительно включенного в модель фактора. Используем следующую формулу:

, где — коэффициент множественной детерминации для модели с полным набором факторов;

— тот же показатель, но без включения в модель фактора х1;

n – число наблюдений

m – число параметров в модели (без свободного члена).

Если оцениваем значимость влияния фактора хn после включения в модель факторов x1,x2, …,xn-1, то формула частного F-критерия определится как

В общем виде для фактора xi частный F-критерий Фишера определится как

Фактическое значение F-критерия Фишера сравнивается с табличным при 5%-ном или 1%-ном уровне значимости и числе степеней свободы: m и n-m-1. Если Fфакт>Fтабл(a,n,n-m-1), то дополнительное включение фактора xi в модель статистически оправданно и коэффициент чистой регрессии bi при факторе xi статистически значим. Если же Fфакт

[1]

то определяются последовательно F-критерий для уравнения с одним фактором х1, далее F-критерий для дополнительного включения в модель фактора х2, т.е. для перехода от однофакторного уравнения регрессии к двухфакторному, и, наконец, F-критерий для дополнительного включения в модель фактора х3 после включения в модель фактора х1 и х2. В этом случае F-критерий для дополнительного включения фактора х1 после х2 является последовательным в отличие от F-критерия для дополнительного включения в модель фактора х3, который является частным F-критерием, ибо оценивает значимость фактора в предположении, что он включен в модель последним.

Нелинейная регрессия. Корреляция для нелинейной регрессии

Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций.

Различают два класса нелинейных регрессий:

1. Регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, например

Читайте так же:  Общение детей в системе дошкольного образования

– полиномы различных степеней –

– равносторонняя гипербола –

–полулогарифмическая функция –

.

2. Регрессии, нелинейные по оцениваемым параметрам, например

– степенная –

;

– показательная –

;

– экспоненциальная –

.

— логистическая –

,

— обратная –

.

Уравнение нелинейной регрессии, так же, как и в случае линейной зависимости, дополняется показателем тесноты связи. В данном случае это индекс корреляции:

, где – общая дисперсия результативного признака y,

– остаточная дисперсия.

Так как

и , то индекс корреляции можно выразить как

Величина данного показателя находится в пределах: 0£r£1. Чем ближе значение индекса корреляции к единице, тем теснее связь рассматриваемых признаков, тем более надежно уравнение регрессии.

Фиктивные переменные

До сих пор в качестве факторов рассматривались экономические переменные, принимающие количественные значения в некотором интервале. Вместе с тем может оказаться необходимым включить в модель фактор, имеющий два или более качественных уровней. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, образование, климатические условия, принадлежность к определенному региону. Чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т.е. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные в эконометрике принято называть фиктивными переменными.

Рассмотрим применение фиктивных переменных для функции спроса. Предположим, что по группе лиц мужского и женского пола изучается линейная зависимость потребления кофе от цены. В общем виде для совокупности обследуемых уравнение регрессии имеет вид: y=a+bx+e,

где y – количество потребляемого кофе; x– цена.

Различия в потреблении кофе проявятся в различии средних

и . Вместе с тем сила влияния x на x может быть одинаковой, т.е. b»b1»b2. В этом случае возможно построение общего уравнения регрессии с включением в него фактора «пол» в виде фиктивной переменной. Объединяя уравнения y1 и y2 и, вводя фиктивные переменные, можно прийти к следующему выражению:

где z1и z2 – фиктивные переменные, принимающие значения:

В общем уравнении регрессии зависимая переменная y рассматривается как функция не только цены yx, но и пола (z1,z2). Переменная z рассматривается как дихотомическая переменная, принимающая всего два значения: 1 и 0. При этом когда z1=1, то z2=0, и наоборот.

Для лиц мужского пола, когда z1=1 и z2=0, объединенное уравнение регрессии составит:

, а для лиц женского пола, когда z1=0 и z2=1: . Иными словами, различия в потреблении для лиц мужского и женского пола вызваны различиями свободных членов уравнения регрессии: a1¹a2. Параметр b является общим для всей совокупности лиц, как для мужчин, так и для женщин.

Однако при введении двух фиктивных переменных z1 и z2 в модель y=a1z1+a2z2+bx+e применение МНК для оценивания параметров a1 и a2 приведет к вырожденной матрице исходных данных, а следовательно, и к невозможности получения их оценок. Объясняется это тем, что при использовании МНК в данном уравнении появляется свободный член, т.е. уравнение примет вид

Предполагая при параметре A независимую переменную, равную 1, имеем следующую матрицу исходных данных:

.

В рассматриваемой матрице существует линейная зависимость между первым, вторым и третьим столбцами: первый равен сумме второго и третьего столбцов. Поэтому матрица исходных факторов вырождена. Выходом из создавшегося затруднения может явиться переход к уравнениям

т.е. каждое уравнение включает только одну фиктивную переменную z1 или z2.

Предположим, что определено уравнение

где z1 принимает значения 1 для мужчин и 0 для женщин.

Теоретические значения размера потребления кофе для мужчин будут получены из уравнения

.
Видео удалено.
Видео (кликните для воспроизведения).

Для женщин соответствующие значения получим из уравнения

.

Сопоставляя эти результаты, видим, что различия в уровне потребления мужчин и женщин состоят в различии свободных членов данных уравнений: A– для женщин и A+A1 – для мужчин.

Теперь качественный фактор принимает только два состояния, которым соответствуют значения 1 и 0. Если же число градаций качественного признака-фактора превышает два, то в модель вводится несколько фиктивных переменных, число которых должно быть меньше числа качественных градаций. Только при соблюдении этого положения матрица исходных фиктивных переменных не будет линейно зависима и возможна оценка параметров модели.

Мы рассмотрели модели с фиктивными переменными, в которых последние выступают факторами. Может возникнуть необходимость построить модель, в которой дихотомический признак, т.е. признак, который может принимать только два значения, играет роль результата. Подобного вида модели применяются, например, при обработке данных социологических опросов. В качестве зависимой переменной y рассматриваются ответы на вопросы, данные в альтернативной форме: «да» или «нет». Поэтому зависимая переменная имеет два значения: 1, когда имеет место ответ «да», и 0 – во всех остальных случаях. Модель такой зависимой переменной имеет вид:

Модель является вероятностной линейной моделью. В ней y принимает значения 1 и 0, которым соответствуют вероятности p и 1-p. Поэтому при решении модели находят оценку условной вероятности события y при фиксированных значениях x. Для оценки параметров линейно-вероятностной модели применяются методы Logit-, Probit- и Tobit-анализа. Такого рода модели используют при работе с неколичественными переменными. Как правило, это модели выбора из заданного набора альтернатив. Зависимая переменная y представлена дискретными значениями (набор альтернатив), объясняющие переменные xi – характеристики альтернатив (время, цена), zj – характеристики индивидов (возраст, доход, уровень образования). Модель такого рода позволяет предсказать долю индивидов в генеральной совокупности, которые выбирают данную альтернативу.

Среди моделей с фиктивными переменными наибольшими прогностическими возможностями обладают модели, в которых зависимая переменная y рассматривается как функция ряда экономических факторов xi и фиктивных переменных zj. Последние обычно отражают различия в формировании результативного признака по отдельным группам единиц совокупности, т.е. в результате неоднородной структуры пространственного или временного характера.

Последнее изменение этой страницы: 2016-08-01; Нарушение авторского права страницы

Уравнение множественной регрессии

Назначение сервиса . С помощью онлайн-калькулятора можно найти следующие показатели:

  • уравнение множественной регрессии, матрица парных коэффициентов корреляции, средние коэффициенты эластичности для линейной регрессии;
  • множественный коэффициент детерминации, доверительные интервалы для индивидуального и среднего значения результативного признака;

Кроме этого проводится проверка на автокорреляцию остатков и гетероскедастичность.

  • Решение онлайн
  • Видеоинструкция
  • Оформление Word

Отбор факторов обычно осуществляется в два этапа:

  1. теоретический анализ взаимосвязи результата и круга факторов, которые оказывают на него существенное влияние;
  2. количественная оценка взаимосвязи факторов с результатом. При линейной форме связи между признаками данный этап сводится к анализу корреляционной матрицы (матрицы парных линейных коэффициентов корреляции). Научно обоснованное решение задач подобного вида также осуществляется с помощью дисперсионного анализа — однофакторного, если проверяется существенность влияния того или иного фактора на рассматриваемый признак, или многофакторного в случае изучения влияния на него комбинации факторов.
Читайте так же:  Что подмешать чтобы бросил пить

Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:

  1. Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность.
  2. Каждый фактор должен быть достаточно тесно связан с результатом (т.е. коэффициент парной линейной корреляции между фактором и результатом должен быть существенным).
  3. Факторы не должны быть сильно коррелированы друг с другом, тем более находиться в строгой функциональной связи (т.е. они не должны быть интеркоррелированы). Разновидностью интеркоррелированности факторов является мультиколлинеарность — тесная линейная связь между факторами.

Пример . Постройте регрессионную модель с 2-мя объясняющими переменными (множественная регрессия). Определите теоретическое уравнение множественной регрессии. Оцените адекватность построенной модели.
Решение.
К исходной матрице X добавим единичный столбец, получив новую матрицу X

1 5 14.5
1 12 18
1 6 12
1 7 13
1 8 14

Матрица Y

9
13
16
14
21

Транспонируем матрицу X, получаем X T :

1 1 1 1 1
5 12 6 7 8
14.5 18 12 13 14

Постройте уравнение линейной регрессии прироста заработной платы от производительности труда и уровня инфляции. Проверьте качество построенного уравнения регрессии с надежностью 0,95. Проведите проверку наличия в модели автокорреляции на уровне значимости 0,05.

Решение:
Подготовим данные для вставки из MS Excel (как транспонировать таблицу для сервиса см. Задание №2) .

Включаем в отчет: Проверка общего качества уравнения множественной регрессии (F-статистика. Критерий Фишера, Проверка на наличие автокорреляции),

После нажатия на кнопку Дале получаем готовое решение.
Уравнение регрессии (оценка уравнения регрессии):

Качество построенного уравнения регрессии проверяется с помощью критерия Фишера (п. 6 отчета).

Задача 2.
В таблице представлены данные о ВВП, объемах потребления и инвестициях некоторых стран.

ВВП 16331,97 16763,35 17492,22 18473,83 19187,64 20066,25 21281,78 22326,86 23125,90
Потребление в текущих ценах 771,92 814,28 735,60 788,54 853,62 900,39 999,55 1076,37 1117,51
Инвестиции в текущих ценах 176,64 173,15 151,96 171,62 192,26 198,71 227,17 259,07 259,85

Решение:
Для проверки полученных расчетов используем инструменты Microsoft Excel «Анализ данных…». Пример . На основе данных, приведенных в Приложении и соответствующих Вашему варианту (таблица 2), требуется:

  1. Построить уравнение множественной регрессии. При этом признак-результат и один из факторов остаются теми же, что и в первом задании. Выберите дополнительно еще один фактор из приложения 1 (границы наблюдения должны совпадать с границами наблюдения признака-результата, соответствующего Вашему варианту). При выборе фактора нужно руководствоваться его экономическим содержанием или другими подходами. Пояснить смысл параметров уравнения.
  2. Рассчитать частные коэффициенты эластичности. Сделать вывод.
  3. Определить стандартизованные коэффициенты регрессии (b-коэффициенты). Сделать вывод.
  4. Определить парные и частные коэффициенты корреляции, а также множественный коэффициент корреляции; сделать выводы.
  5. Оценить значимость параметров уравнения регрессии с помощью t-критерия Стьюдента, а также значимость уравнения регрессии в целом с помощью общего F-критерия Фишера. Предложить окончательную модель (уравнение регрессии). Сделать выводы.

Решение. Для решения используем онлайн-калькулятор. Определим вектор оценок коэффициентов регрессии. Согласно методу наименьших квадратов, вектор получается из выражения:
s = (X T X) -1 X T Y
Матрица X

1 3.9 10
1 3.9 14
1 3.7 15
1 4 16
1 3.8 17
1 4.8 19
1 5.4 19
1 4.4 20
1 5.3 20
1 6.8 20
1 6 21
1 6.4 22
1 6.8 22
1 7.2 25
1 8 28
1 8.2 29
1 8.1 30
1 8.5 31
1 9.6 32
1 9 36

Матрица Y

7
7
7
7
7
7
8
8
8
10
9
11
9
11
12
12
12
12
14
14

Матрица X T

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
3.9 3.9 3.7 4 3.8 4.8 5.4 4.4 5.3 6.8 6 6.4 6.8 7.2 8 8.2 8.1 8.5 9.6 9
10 14 15 16 17 19 19 20 20 20 21 22 22 25 28 29 30 31 32 36

Умножаем матрицы, (X T X)

Умножаем матрицы, (X T Y)

Находим определитель det(X T X) T = 139940.08
Находим обратную матрицу (X T X) -1


Вектор оценок коэффициентов регрессии равен s = (X T X) -1 X T Y =
Уравнение регрессии
Y = 1.8353 + 0.9459X 1 + 0.0856X 2
Для несмещенной оценки дисперсии проделаем следующие вычисления:
Несмещенная ошибка e = Y — X*s
0.62
0.28
0.38
0.01
0.11
-1
-0.57
0.29
-0.56
0.02
-0.31
1.23
-1.15
0.21
0.2
-0.07
-0.07
-0.53
0.34
0.57

se 2 = (Y — X*s) T (Y — X*s)
Несмещенная оценка дисперсии равна

Оценка среднеквадратичного отклонения равна

Найдем оценку ковариационной матрицы вектора k = σ*(X T X) -1

k(x) = 0.36
0,619 -0,0262 -0,0183
-0,0262 0,126 -0,0338
-0,0183 -0,0338 0,0102
=
0,222 -0,00939 -0,00654
-0,00939 0,0452 -0,0121
-0,00654 -0,0121 0,00366

Дисперсии параметров модели определяются соотношением S 2 i = Kii, т.е. это элементы, лежащие на главной диагонали
С целью расширения возможностей содержательного анализа модели регрессии используются частные коэффициенты эластичности, которые определяются по формуле

Тесноту совместного влияния факторов на результат оценивает индекс множественной корреляции (от 0 до 1)

Связь между признаком Y факторами X сильная
Частные коэффициенты (или индексы) корреляции, измеряющие влияние на у фактора хi при неизменном уровне других факторов определяются по стандартной формуле линейного коэффициента корреляции — последовательно берутся пары yx1,yx2. , x1x2, x1x3.. и так далее и для каждой пары находится коэффициент корреляции

Коэффициент детерминации
R 2 = 0.97 2 = 0.95, т.е. в 95% случаев изменения х приводят к изменению y. Другими словами — точность подбора уравнения регрессии — высокая

Значимость коэффициента корреляции

По таблице Стьюдента находим Tтабл: Tтабл (n-m-1;a) = (17;0.05) = 1.74
Поскольку Tнабл Fkp, то коэффициент детерминации статистически значим и уравнение регрессии статистически надежно

Построение парной регрессионной модели

Рекомендации к решению контрольной работы.

Статистические данные по экономике можно получить на странице Россия в цифрах.
После определения зависимой и объясняющих переменных можно воспользоваться сервисом Множественная регрессия. Регрессионную модель с 2-мя объясняющими переменными можно построить используя матричный метод нахождения параметров уравнения регрессии или метод Крамера для нахождения параметров уравнения регрессии. Пример №3 . Исследуется зависимость размера дивидендов y акций группы компаний от доходности акций x1, дохода компании x2 и объема инвестиций в расширение и модернизацию производства x3. Исходные данные представлены выборкой объема n=50.

Тема II. Множественная линейная регрессия
1. Постройте выборочную множественную линейную регрессию показателя на все указанные факторы. Запишите полученное уравнение, дайте ему экономическую интерпретацию.
2. Определите коэффициент детерминации, дайте ему интерпретацию. Вычислите среднюю абсолютную ошибку аппроксимации

и дайте ей интерпретацию.
3. Проверьте статистическую значимость каждого из коэффициентов и всего уравнения в целом.
4. Постройте диаграмму остатков.
5. Постройте доверительные интервалы коэффициентов. Для статистически значимых коэффициентов дайте интерпретации доверительных интервалов.
6. Постройте точечный прогноз значения показателя y при значениях факторов, на 50% превышающих их средние значения.
7. Постройте доверительный интервал прогноза, дайте ему экономическую интерпретацию.
8. Постройте матрицу коэффициентов выборочной корреляции между показателем и факторами. Сделайте вывод о наличии проблемы мультиколлинеарности.
9. Оцените полученные результаты — сделайте выводы о качестве построенной модели, влиянии рассматриваемых факторов на показатель.
Читайте так же:  Зависть гордыня похоть

Интерпретация коэффициентов уравнения множественной регрессии

Читайте также:

  1. IV. Метод коэффициентов влияния
  2. Анализ ликвидности баланса с помощью финансовых коэффициентов ликвидности.
  3. Геометри-ая интерпретация
  4. Геометрическая интерпретация
  5. Геометрическая интерпретация основного уравнения гидростатики
  6. Геометрическая интерпретация основного уравнения гидростатики.
  7. Геометрическая интерпретация основного уравнения гидростатики.
  8. Геометрический смысл уравнения Бернулли.
  9. Графическая интерпретация теории Кулона — Мора. Условие предельного равновесия.
  10. Диаграмма уравнения Бернулли.
  11. Дифференциальные уравнения
  12. Дифференциальные уравнения 1-ого порядка.

Можно заметить, что коэффициент при х1 в полученном уравнении отличается от аналогичного коэффициента в уравнении парной регрессии.

Это связано с тем, что коэффициент при независимой переменной в уравнении простой регрессии всегда отличается от коэффициента при соответствующей переменной в уравнении множественной регрессии, так как в последнем исключено влияние всех других учтенных в данном уравнении признаков.

Коэффициенты уравнения множественной регрессии поэтому называютсячастными иличистыми коэффициентами регрессии.

Частный коэффициент множественной регрессии при х1 показывает, что с увеличением посева на душу на 1 дес. и при фиксированной урожайности сбор хлеба на душу населения возрастает в среднем на 28,2 пуда. Частный коэффициент при x2 показывает, чтопри фиксированном посеве на душу увеличение урожая на единицу, т. е. на 1 пуд с десятины, вызывает в среднем увеличение сбора хлеба на душу на 0,36 пуда. Отсюда можно сделать вывод, что увеличение сбора хлеба в черноземных губерниях России идет, в основном, за счет расширения посева и в значительно меньшей степени—за счет повышения урожайности, т. е. экстенсивная форма развития зернового хозяйства является господствующей.

Введение переменной х2 в уравнение позволяет уточнить коэффициент при х1. Конкретно, коэффициент оказался выше (28,2 против 24,6), когда в изучаемой связи вычленилось влияние урожайности на сбор хлеба.

Однако выводы, полученные в результате анализа коэффициентов регрессии, не являются пока корректными, поскольку, во-первых, не учтена разная масштабность факторов, во-вторых, не выяснен вопрос о значимости коэффициента a2.

Величина коэффициентов регрессии изменяется в зависимости от единиц измерения, в которых представлены переменные. Если переменные выражены в разном масштабе измерения, то соответствующие им коэффициенты становятся несравнимыми. Для достижения сопоставимости коэффициенты регрессии исходного уравнения стандартизуют, взяв вместо исходных переменных их отношения к собственным средним квадратическим отклонениям. Тогда уравнение (3.4) приобретает вид

Сравнивая полученное уравнение с уравнением (3.4), можно определить стандартизованные частные коэффициенты уравнения, или так называемыебета-коэффициенты.

Вычислив бета-коэффициенты для уравнения, полученного в примере, получаем:

Отсюда мы видим, что вывод о преобладании в черноземной полосе России экстенсивной формы развития хозяйства над интенсивной остается в силе, так как β1 значительно больше, чем β2.

3й учебный вопрос. Проблема отбора факторов для включения в модель

Мы должны убедиться, что включение дополнительного фактора действительно позволило более точно описать реальную статистическую зависимость.

Рассчитаем с этой целью индекс детерминации и ошибку аппроксимации для построенного уравнения множественной регрессии.

Построим вспомогательную таблицу для расчета (табл. 3.3)

Расчетные значения y(x) определяются на основе построенного уравнения регрессии, то есть параметры a1= 28,18 и a2 = 0,36 последовательно умножаются на значения переменных x1 и x2, эти произведения складываются и к ним прибавляется свободный член уравнения a = — 0,85:

— 0,85 + 28,18*0,91 + 0,36*46,08 = 41,22 и т.д.

В таблице 3.3. средние значения (yср и yxср ) фактических и расчетных данных результативной переменной совпадают (так как равны суммы фактических и расчетных значений: 959,43). То есть yср= yxср= 959,43/23 = 41,71. Для расчета ошибки аппроксимации находятся квадраты разностей расчетных и фактических значений, а для расчета дисперсий находятся квадраты разностей фактических значений и их средней величины 41,71, а также квадраты разностей расчетных значений и той же самой средней величины 41,71. Затем находятся суммы в итоговой строке таблицы.

В результате ошибка аппроксимации находится как квадратный корень из величины 210,07, деленной на 23 (общее число значений), дисперсия фактических значений рассчитывается путем деления величины 1983,62 на 23, а дисперсия расчетных значений – путем деления величины 1524,69 на 23.

Можно убедиться, что значения индекса детерминации и ошибки аппроксимации соответственно равны:

R 2 = 0,769

σ 2 = 3,02

Но для ранее построенного уравнения парной линейной регрессии эти же показатели составляли соответственно:

R 2 = 0,774

σ 2 = 4,42

Следовательно, с одной стороны индекс аппроксимации уменьшился (с некоторой степенью приближения можно считать, что он практически не изменился), зато с другой стороны, значительно уменьшилась ошибка аппроксимации. В процентах к среднему значению результативной переменной y для уравнения парной линейной регрессии эта ошибка составляла 11%, а для уравнения двухфакторной линейной регрессии – 7%.

Таким образом, с одной стороны индекс детерминации показывает, что включение дополнительного фактора в модель не обязательно, Но, с другой стороны, расчет ошибки аппроксимации позволяет утверждать, что уравнение двухфакторной линейной регрессии лучше описывает реальную статистическую зависимость.

Это подчеркивает неоднозначность решения проблемы отбора факторов для включения в модель регрессии. Поэтому специалисты по эконометрике разработали несколько различных подходов к решению этой проблемы.

Проблема отбора факторов связана с двойственным отношением к вопросу о включении в регрессионное уравнение независимых переменных. С одной стороны, естественно стремление учесть все возможные влияния на результативный признак и, следовательно, включить в модель полный набор выявленных переменных. С другой стороны, возрастает сложность расчетов и затраты, связанные с получением максимума информации, могут оказаться неоправданными. Нельзя забывать и о том, что для построения уравнения регрессии число объектов должно в несколько раз превышать число независимых переменных. Эти противоречивые требования приводят к необходимости компромисса, результатом которого и является «наилучшее» уравнение регрессии. Существует несколько методов, приводящих к цели: метод всех возможных регрессий, метод исключения, метод включения, шаговый регрессионный и ступенчатый регрессионный методы.

Метод всех возможных регрессий заключается в переборе и сравнении всех потенциально возможных уравнений. В качестве критерия сравнения используется коэффициент детерминации R 2 . «Наилучшим» признается уравнение с наибольшей величиной R 2 . Метод весьма трудоемок и предполагает использование специальных компьютерных программ.

Читайте так же:  Если мужчина говорит о детях

Методы исключения и включения являются усовершенствованными вариантами предыдущего метода.В методе исключения в качестве исходного рассматривается регрессионное уравнение, включающее все возможные переменные. Рассчитывается значение специального статистического критерия (частного критерия Фишера) для каждой из переменных, как будто бы она была последней переменной, введенной в регрессионное уравнение. Минимальная величина частного F-критерия (Fmin) сравнивается с критической величиной (Fкр), основанной на заданном исследователем уровне значимости. Если Fmin>Fкр, то уравнение остается без изменения. Если Fminкр, то переменная, для которой рассчитывался этот частный F-критерий, исключается. Производится перерасчет уравнения регрессии для оставшихся переменных, и процедура повторяется для нового уравнения регрессии. Исключение из рассмотрения уравнений с незначимыми переменными уменьшает объем вычислений, что является достоинством этого метода по сравнению с предыдущим.

Метод включения состоит в том, что в уравнение включаются переменные по степени их важности до тех пор, пока уравнение не станет достаточно «хорошим». Степень важности определяется линейным коэффициентом корреляции, показывающим тесноту связи между анализируемой независимой переменной и результативным признаком: чем теснее связь, тем больше информации о результирующем признаке содержит данный факторный признак и тем важнее, следовательно, введение этого признака в уравнение.

Процедура начинается с отбора факторного признака, наиболее тесно связанного с результативным признаком, т. е. такого факторного признака, которому соответствует максимальный по величине парный линейный коэффициент корреляции. Далее строится линейное уравнение регрессии, содержащее отобранную независимую переменную. Выбор следующих переменных осуществляется с помощью частных коэффициентов корреляции, в которых исключается влияние вошедших в модель факторов. Для каждой введенной переменной рассчитывается частный F-критерий, по величине которого судят о том, значим ли вклад этой переменной. Как только величина частного F-критерия, относящаяся к очередной переменной, оказывается незначимой, т. е. эффект от введения этой переменной становится малозаметным, процесс включения переменных заканчивается. Метод включения связан с меньшим объемом вычислений, чем предыдущие методы. Но при введении новой переменной нередко значимость включенных ранее переменных изменяется. Метод включения этого не учитывает, что является его недостатком. Модификацией метода включения, исправляющей этот недостаток, является шаговый регрессионный метод.

Шаговый регрессионный метод кроме процедуры метода включения содержит анализ переменных, включенных в уравнение на предыдущей стадии. Потребность в таком анализе возникает в связи с тем, что переменная, обоснованно введенная в уравнение на ранней стадии, может оказаться лишней из-за взаимосвязи ее с переменными, позднее включенными в уравнение. Анализ заключается в расчете на каждом этапе частных F-критериевдля каждой переменной уравнения и сравнении их с величиной Fкр, точкой F-распределения, соответствующей заданному исследователем уровню значимости. Частный F-критерий показывает вклад переменной в вариацию результативного признака в предположении, что она вошла в модель последней, а сравнение его с Fкр позволяет судить о значимости рассматриваемой переменной с учетом влияния позднее включенных факторов. Незначимые переменные из уравнения исключаются.

[3]

Рассмотренные методы предполагают довольно большой объем вычислений и практически неосуществимы без ЭВМ. Для реализации ступенчатого регрессионного метода вполне достаточно малой вычислительной техники.

Ступенчатый регрессионный метод включает в себя такую последовательность действий. Сначала выбирается наиболее тесно связанная с результативным признаком переменная и составляется уравнение регрессии. Затем находят разности фактических и выравненных значений и эти разности (остатки) рассматриваются как значения результативной переменной. Для остатков подбирается одна из оставшихся независимых переменных и т. д. На каждой стадии проверяется значимость регрессии по критерию Фишера. Как только обнаружится незначимость, процесс прекращается и окончательное уравнение получается суммированием уравнений, полученных на каждой стадии за исключением последней.

Ступенчатый регрессионный метод менее точен, чем предыдущие, но не столь громоздок. Он оказывается полезным в случаях, когда необходимо внести содержательные правки в уравнение. Так, для изучения факторов, влияющих на цены угля в Санкт-Петербурге в конце XIX— начале XX в., было получено уравнение множественной регрессии. В него вошли следующие переменные: цены угля в Лондоне, добыча угля в России и экспорт из России. Здесь не обосновано появление в модели такого фактора, как добыча угля, поскольку Санкт-Петербург работал исключительно на импортном угле. Модели легко придать экономический смысл, если независимую переменную «добыча» заменить независимой переменной «импорт». Формально такая замена возможна, поскольку между импортом и добычей существует тесная связь.

Пользуясь ступенчатым методом, исследователь может совершить эту замену, если предпочтет содержательно интерпретируемый фактор.

Заключение.Таким образом, основное внимание на данной лекции было посвящено проблемам построения уравнений множественной регрессии и, прежде всего, проблемам отбора факторов, которые целесообразно включить в модель. На следующей лекции мы рассмотрим некоторые специальные методы отбора факторов, включаемых в модель множественной регрессии, на основе так называемого «конфлюэнтного анализа» и анализа мультиколлинеарности.

| следующая лекция ==>
Й учебный вопрос. Построение уравнения двухфакторной линейной регрессии | Научно-методическое обоснование темы

Дата добавления: 2014-01-05 ; Просмотров: 2572 ; Нарушение авторских прав? ;

Видео удалено.
Видео (кликните для воспроизведения).

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

Источники


  1. Иванников, В. А. Общая психология. Учебник / В.А. Иванников. — Москва: Мир, 2015. — 480 c.

  2. Образцова, Л. Н. Энциклопедия семейного счастья / Л.Н. Образцова. — М.: АСТ, Сова, Харвест, Кладезь, 2012. — 576 c.

  3. Нарушевич, Руслан Консультации психолога. Семья, дети, работа. Ведическая психология. Книга 1 / Руслан Нарушевич. — М.: Ведананда, 2013. — 424 c.
  4. Маркова, Надежда Как стать лучшей мамой на свете. Мамочка, пожалуйста. Источник любви. Теория и практика «семейных расстановок» / Надежда Маркова и др. — М.: ИГ «Весь», 2016. — 784 c.
  5. Лаврик, О.В. Настоящему мужчине / О.В. Лаврик. — М.: Аргумент Принт, 2013. — 538 c.
Значимость уравнения множественной регрессии
Оценка 5 проголосовавших: 1

ОСТАВЬТЕ ОТВЕТ

Please enter your comment!
Please enter your name here