Практическая значимость уравнения множественной регрессии оценивается с помощью показателя множественной корреляции и его квадрата – коэффициента детерминации.

Коэффициент детерминации показывает долю вариации результативного признака, находящегося под воздействием факторных признаков, т.е. определяет, какая доля вариации признака у учтена в модели и обусловлена влиянием на него факторов, включенных в модель:

Множественный коэффициент корреляции может быть найден как корень квадратный из коэффициента детерминации. Чем ближе коэффициент корреляции к единице, тем теснее связь между результатом и всеми факторами и уравнение регрессии лучше описывает фактические данные. Если множественный коэффициент корреляции близок к нулю, то уравнение регрессии плохо описывает фактические данные, и факторы оказывают слабое влияние на результат. Этот коэффициент в отличие от парного коэффициента корреляции не может быть использован для интерпретации направления связи.

Значение коэффициента множественной корреляции больше или равно величине максимально коэффициента парной корреляции:

Для линейной множественной регрессии коэффициент множественной корреляции может быть рассчитан по следующей формуле:

Соответственно множественный коэффициент детерминации:

Существует еще одна формула для расчета множественного коэффициента корреляции для линейной регрессии:

где - определитель полной матрицы линейных парных коэффициентов корреляции (т.е. включающей парные линейные коэффициенты корреляции факторов с результатом и между собой):

Определитель матрицы линейных парных коэффициентов корреляции факторов между собой:

Рассчитывается также скорректированный коэффициент детерминации:

где n – число наблюдений;

m – число параметров уравнения регрессии без учета свободного члена (для линейной регрессии, например, это число равно числу факторов, включенных в модель).

Скорректированный коэффициент детерминации применяется для решения двух задач: оценки реальной тесноты связи между результатом и факторами и сравнения моделей с разным числом параметров. В первом случае обращают внимание на близость скорректированного и нескорректированного коэффициентов детерминации. Если эти показатели велики и различаются незначительно, модель считается хорошей.

При сравнении разных моделей предпочтение при прочих равных условиях отдается той, у которой больше скорректированный коэффициент детерминации.

Следует отметить, что область применения скорректированного коэффициента детерминации ограничивается только этими задачами. Его нельзя использовать в формулах, где применяется обычный коэффициент детерминации. Скорректированный коэффициент детерминации нельзя интерпретировать как долю вариации результата, объясненную вариацией факторов, включенных в модель регрессии.


Для проверки существенности коэффициента множественной корреляции используют F -критерий Фишера, который определяется по формуле:

где R 2 – множественный коэффициент детерминации;

m – число параметров при факторах х в уравнении множественной регрессии (в парной регрессии m =1).

Полученное значение F-критерия сравнивается с табличным при определенном уровне значимости и m и n-m-1 степенях свободы. Если расчетное значение F -критерия больше табличного, уравнение множественной регрессии признается значимым.

Общее качество уравнения множественной регрессии оценивается с помощью коэффициента множественной корреляции и его квадрата – коэффициента множественной детерминации.

По аналогии с парной регрессией коэффициент множественной детерминации можно определить как долю дисперсии результата, объясненную вариацией включенных в модель факторов, в его общей дисперсии:

Значения коэффициента множественной детерминации изменяются от нуля до единицы (0≤R 2 y x 1 x 2… x p ≤1). Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение результата.

характеризует тесноту связи рассматриваемого набора факторов с исследуемым признаком или, иными словами, оценивает тесноту связи совместного влияния факторов на результат.

Коэффициент множественной корреляции может быть найден как корень квадратный из коэффициента множественной детерминации:

Значения коэффициентов множественной корреляции изменяются от нуля до единицы (0≤R yx 1 x 2… x p ≤1). Чем ближе коэффициент единице, тем теснее связь между результатом и всеми факторами в совокупности и уравнение регрессии лучше описывает фактические данные. Если множественный коэффициент корреляции R yx 1 x 2… x p близок к нулю, то уравнение регрессии плохо описывает фактические данные, и факторы оказывают слабое влияние на результат.

Значение коэффициента множественной корреляции больше или равно величине максимального коэффициента парной корреляции:

R y x1x2…x p ≥ І r y x i (max) І , где i = 1,р.

Если в уравнении регрессии учитывается какой-либо фактор, оказывающий наиболее сильное воздействие на результативный признак, то частный коэффициент корреляции будет достаточно близок к коэффициенту множественной корреляции, но ни в коем случае не больше него.

Иногда для расчета коэффициента множественной корреляции используется еще одна формула (она применима только для линейной множественной регрессии):

где Det ІR + І, Det ІR І - определители матриц соответственно парных коэффициентов корреляции и межфакторной корреляции.

Эти определители будут иметь следующий вид для уравнения линейной множественной регрессии с р числом факторов:

1 r yx1 r yx2 r yx p

r yx1 1 r x1x2 r x1x p

Det ІR + І = r yx2 r x1x2 1 … r x2x p ,

… … … … …

r yx p r x1x p r x2x p … 1

т.е. матрица включает все парные коэффициенты корреляции для уравнения регрессии;

1 r x1x2 r x1x p

Det ІR І = r x1x2 1 … r x 2 x p

… … … … ,

r x 1 x p r x 2 x p … 1

т.е. данная матрица получается из предыдущей матрицы путем исключения коэффициентов парной корреляции факторов с результатом (вычеркиваются первая строка и первый столбец).

Для того, чтобы не допустить возможного преувеличения тесноты связи, обычно применяется скорректированный коэффициент множественной корреляции . Он содержит поправку на число степеней свободы. Ocтaточная сумма квадратов отклонений делится на число степеней свободы остаточной вариации (п - т - 1), а общая сумма квадратов отклонений - на число степеней свободы в целом по совокупности (п - 1). Формула скорректированного коэффициента множественной корреляции имеет следующий вид:

где т - число параметров при переменных х (в линейной зависимости оно будет равно числу включаемых в модель факторов = p ); п - число наблюдений.

Множественный коэффициент корреляции используется в качестве меры степени тесноты статистической связи между результирующим показателем (зависимой переменной) y и набором объясняющих (независимых) переменных или, иначе говоря, оценивает тесноту совместного влияния факторов на результат.

Множественный коэффициент корреляции может быть вычислен по ряду формул 5 , в том числе:

    с использованием матрицы парных коэффициентов корреляции

, (3.18)

где r - определитель матрицы парных коэффициентов корреляции y ,
,

r 11 - определитель матрицы межфакторной корреляции
;

. (3.19)

Для модели, в которой присутствуют две независимые переменные, формула (3.18) упрощается

. (3.20)

Квадрат множественного коэффициента корреляции равен коэффициенту детерминации R 2 . Как и в случае парной регрессии, R 2 свидетельствует о качестве регрессионной модели и отражает долю общей вариации результирующего признака y , объясненную изменением функции регрессии f (x ) (см. 2.4). Кроме того, коэффициент детерминации может быть найден по формуле

. (3.21)

Однако использование R 2 в случае множественной регрессии является не вполне корректным, так как коэффициент детерминации возрастает при добавлении регрессоров в модель. Это происходит потому, что остаточная дисперсия уменьшается при введении дополнительных переменных. И если число факторов приблизится к числу наблюдений, то остаточная дисперсия будет равна нулю, и коэффициент множественной корреляции, а значит и коэффициент детерминации, приблизятся к единице, хотя в действительности связь между факторами и результатом и объясняющая способность уравнения регрессии могут быть значительно ниже.

Для того чтобы получить адекватную оценку того, насколько хорошо вариация результирующего признака объясняется вариацией нескольких факторных признаков, применяют скорректированный коэффициент детерминации

(3.22)

Скорректированный коэффициент детерминации всегда меньше R 2 . Кроме того, в отличие от R 2 , который всегда положителен,
может принимать и отрицательное значение.

Пример (продолжение примера 1) . Рассчитаем множественный коэффициент корреляции, согласно формуле (3.20):

Величина множественного коэффициента корреляции, равного 0,8601, свидетельствует о сильной взаимосвязи стоимости перевозки с весом груза и расстоянием, на которое он перевозится.

Коэффициент детерминации равен: R 2 =0,7399.

Скорректированный коэффициент детерминации рассчитываем по формуле (3.22):

=0,7092.

Заметим, что величина скорректированного коэффициента детерминации отличается от величины коэффициента детерминации.

Таким образом, 70,9% вариации зависимой переменной (стоимости перевозки) объясняется вариацией независимых переменных (весом груза и расстоянием перевозки). Остальные 29,1% вариации зависимой переменной объясняются факторами, неучтенными в модели.

Величина скорректированного коэффициента детерминации достаточно велика, следовательно, мы смогли учесть в модели наиболее существенные факторы, определяющие стоимость перевозки. 

Для определения степени зависимости между несколькими показателями применяется множественные коэффициенты корреляции. Их затем сводят в отдельную таблицу, которая имеет название корреляционной матрицы. Наименованиями строк и столбцов такой матрицы являются названия параметров, зависимость которых друг от друга устанавливается. На пересечении строк и столбцов располагаются соответствующие коэффициенты корреляции. Давайте выясним, как можно провести подобный расчет с помощью инструментов Excel.

Принято следующим образом определять уровень взаимосвязи между различными показателями, в зависимости от коэффициента корреляции:

  • 0 – 0,3 – связь отсутствует;
  • 0,3 – 0,5 – связь слабая;
  • 0,5 – 0,7 – средняя связь;
  • 0,7 – 0,9 – высокая;
  • 0,9 – 1 – очень сильная.

Если корреляционный коэффициент отрицательный, то это значит, что связь параметров обратная.

Для того, чтобы составить корреляционную матрицу в Экселе, используется один инструмент, входящий в пакет «Анализ данных» . Он так и называется – «Корреляция» . Давайте узнаем, как с помощью него можно вычислить показатели множественной корреляции.

Этап 1: активация пакета анализа

Сразу нужно сказать, что по умолчанию пакет «Анализ данных» отключен. Поэтому, прежде чем приступить к процедуре непосредственного вычисления коэффициентов корреляции, нужно его активировать. К сожалению, далеко не каждый пользователь знает, как это делать. Поэтому мы остановимся на данном вопросе.


После указанного действия пакет инструментов «Анализ данных» будет активирован.

Этап 2: расчет коэффициента

Теперь можно переходить непосредственно к расчету множественного коэффициента корреляции. Давайте на примере представленной ниже таблицы показателей производительности труда, фондовооруженности и энерговооруженности на различных предприятиях рассчитаем множественный коэффициент корреляции указанных факторов.


Этап 3: анализ полученного результата

Теперь давайте разберемся, как понимать тот результат, который мы получили в процессе обработки данных инструментом «Корреляция» в программе Excel.

Как видим из таблицы, коэффициент корреляции фондовооруженности (Столбец 2 ) и энерговооруженности (Столбец 1 ) составляет 0,92, что соответствует очень сильной взаимосвязи. Между производительностью труда (Столбец 3 ) и энерговооруженностью (Столбец 1 ) данный показатель равен 0,72, что является высокой степенью зависимости. Коэффициент корреляции между производительностью труда (Столбец 3 ) и фондовооруженностью (Столбец 2 ) равен 0,88, что тоже соответствует высокой степени зависимости. Таким образом, можно сказать, что зависимость между всеми изучаемыми факторами прослеживается довольно сильная.

Как видим, пакет «Анализ данных» в Экселе представляет собой очень удобный и довольно легкий в обращении инструмент для определения множественного коэффициента корреляции. С его же помощью можно производить расчет и обычной корреляции между двумя факторами.

Коэффициент множественной корреляции (R ) характеризует тесноту связи между результативным показателем и набором фактор­ных показателей:

где σ 2 - общая дисперсия эмпирического ряда, характеризующая общую вариацию результативного показателя (у) за счет факторов;

σ ост 2 - остаточная дисперсия в ряду у, отражающая влияния всех факто­ров, кроме х;

у - среднее значение результативного показателя, вычисленное по ис­ходным наблюдениям;

s - среднее значение результативного показателя, вычисленное по уравнению регрессии.

Коэффициент множественной корреляции принимает только поло­жительные значения в пределах от 0 до 1. Чем ближе значение коэффи­циента к 1, тем больше теснота связи. И, наоборот, чем ближе к 0, тем за­висимость меньше. При значении R < 0,3 говорят о малой зависимости между величинами. При значении 0,3 < R < 0,6 говорят о средней тесноте связи. При R > 0,6 говорят о наличии существенной связи.

Квадрат коэффициента множественной корреляции называется коэффициентом детерминации (D ): D = R 2 . Коэффициент детермина­ции показывает, какая доля вариации результативного показателя свя­зана с вариацией факторных показателей. В основе расчета коэффици­ента детерминации и коэффициента множественной корреляции лежит правило сложения дисперсий, согласно которому общая дисперсия (σ 2) равна сумме межгрупповой дисперсии (δ 2) и средней из групповых дис­персий σ i 2):

σ 2 = δ 2 + σ i 2 .

Межгрупповая дисперсия характеризует колеблемость результа­тивного показателя за счет изучаемого фактора, а средняя из групповых дисперсий отражает колеблемость результативного показателя за счет всех прочих факторов, кроме изучаемого.

Математические модели корреляционного анализа в форме коэф­фициентов имеют ограниченные аналитические возможности. Зная лишь направление ковариации показателей и тесноту связи, невозмож­но определить закономерности формирования уровня результативного показателя под влиянием исследуемых факторов, оценить интенсив­ность их влияния, классифицировать факторы на основные и второсте­пенные. Для этих целей используются модели регрессионного анализа. Линейная модель (уравнение) регрессионного анализа может быть пред­ставлена в виде

у = bo + b 1 x 1 + b 2 x 2 +... + b n x n ,

где у - результативный показатель;

x 1 , x 2 , ..., x n - факторные модели;

b 0 , b 1 , b 2 , ..., b n - коэффициенты регрессии.

Смотрите также: