Природа статистической связи между признаками

Лекция № 6. Статистические методы анализа взаимосвязей.

Различают два типа связи между различными явлениями и их признаками: функциональную или жестко детерминированную и статистическую или стохастически детерминированную с другой стороны.

Если с изменением одной из переменных вторая изменяется строго определенным образом, т.е. значению одной переменной обязательно соответствует одно или несколько точно заданных значений другой переменной, связь между ними является функциональной.

При стохастически детерминированной связи (статистической) с изменением значения одной переменной вторая может в определенных пределах принимать любые значения с некоторыми вероятностями, но ее среднее значение или иные статистические (массовые) характеристики изменяются по определенному закону, т.е. разным значениям одной переменной соответствуют разные распределения значений другой переменной.

Частным случаем статистической связи является корреляционная связь.

Корреляционная связь — это связь, где воздействие отдельных факторов проявляется только как тенденция (в среднем) при массовом наблюдении фактических данных.

Наиболее простым вариантом корреляционной зависимости является парная корреляция, т.е. зависимость между двумя признаками (результативным и факторным или между двумя факторными). Математически эту зависимость можно выразить как зависимость результативного показателя у от факторного показателя х. Связи могут быть прямые и обратные. В первом случае с увеличением признака х увеличивается и признак у, при обратной связи с увеличением признака х уменьшается признак у.

Методы изучения статистической связи.

Важнейшей задачей является определение формы связи с последующим расчетом параметров уравнения, или, иначе, нахождение уравнения связи (уравнения регрессии).

Могут иметь место различные формы связи:

линейные связи являются основными и применяются также и при многофакторном анализе.

криволинейная в виде:

параболы второго порядка (или высших порядков)

параболической связью описывается взаимосвязь при которой характер связи между факторным и результативным признаком может измениться на противоположный при прохождении некоторого оптимального значения.

гиперболические зависимости характерны для связей, в которых результативный признак не может варьироваться неограниченно, его вариация имеет односторонний предел.

Параметры для всех этих уравнений связи, как правило, определяют из системы нормальных уравнений, которые должны отвечать требованию метода наименьших квадратов (МНК):

Другая важнейшая задача — измерение тесноты зависимости — для всех форм связи может быть решена при помощи вычисления эмпирического корреляционного отношения:

дисперсия в ряду выравненных значений результативного показателя ; —

Читайте также:  Второе царство живой природы

дисперсия в ряду фактических значений у.

Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции r, для расчета которого можно использовать следующие формулы:

Линейный коэффициент корреляции может принимать значения в пределах от -1 до + 1 или по модулю от 0 до 1. Чем ближе он по абсолютной величине к 1, тем теснее связь. Знак указывает направление связи: «+» — прямая зависимость, «-» имеет место при обратной зависимости.

Общий вид многофакторного уравнения регрессии имеет вид:

Многофакторная система требует не одного, а множества показателей тесноты связей. Основой измерения связей является матрица коэффициентов корреляции. На основе этой матрицы судят о тесноте связи факторов с результативным признаком и между собой. Не рекомендуется включать в уравнение регрессии факторы слабо связанные с результативным признаком, но тесно связанные с другими факторами. Множественный коэффициент корреляции определяется как отношение части вариации результативного признака, объясняемой за счет вариации входящих в уравнение факторов, к общей вариации результативного признака за счет всех факторов. Под вариацией понимается сумма квадратов отклонений индивидуальных значений от расчетных по уравнению регрессии (объясненная вариация) или от общей средней величины признака (общая вариация).

Для случая двух факторов коэффициент множественной детерминации вычисляется по формуле из парных коэффициентов корреляции::

Коэффициент частной детерминации фактора xm – это доля вариации у, не объясненной ранее включенными факторами. Если обозначить частный коэффициент детерминации ддя фактора xm как Тогда

Основные задачи применения корреляционно-регрессионного анализа.

В соответствии с сущностью корреляционной связи ее изучение имеет две цели: 1) измерение параметров уравнения, выражающего связь средних значений зависимой переменной со значениями независимой переменной; 2) измерение тесноты связи двух (или большего числа признаков) между собой

Задачи корреляционно-регрессионного анализа:

1. Задачи выделения важнейших факторов, влияющих на результативный признак (т.е. вариацию его значений в совокупности). Эта задача решается на базе мер тесноты связи факторов с результативным признаком.

2. Задачи оценки хозяйственной деятельности по эффективности использования факторов производства. Эта задача решается путем расчета для каждой единицы совокупности тех величин результативного признака, которые были получены при средней по совокупности эффективности использования факторов и сравнивания их с фактическими результатами производства.

3. Задача прогнозирования возможных значений результативного признака при задаваемых значениях факторных признаков. Такая задача решается путем подстановки ожидаемых, или планируемых, или возможных значений факторных признаков в уравнении связи и вычисления ожидаемых значений результативного признака.

Читайте также:  Качество природной среды атмосферного воздуха

4. Задача подготовки данных, необходимых в качестве исходных для решения оптимизационных задач.

При решении каждой из названных задач нужно учитывать особенности и ограничения корреляционно-регрессионного метода. Всякий раз необходимо специально обосновать возможность причинной интерпретации уравнения как объясняющего связь между вариацией фактора и результата. Трудно обеспечить раздельную оценку влияния каждого из факторов.

Непараметрические методы определения тесноты связи.

В статистической практике могут встречаться такие случаи, когда качества факторных и результативных признаков не могут быть выражены численно. Поэтому для измерения тесноты зависимости необходимо использовать другие показатели. Для этих целей используются так называемые непараметрические методы.

Наибольшее распространение имеют ранговые коэффициенты корреляции, в основу которых положен принцип нумерации значений статистического ряда. При использовании коэффициентов корреляции рангов коррелируются не сами значения показателей х и у, а только номера их мест, которые они занимают в каждом ряду значений. В этом случае номер каждой отдельной единицы будет ее рангом.

Коэффициент корреляции рангов Спирмэна (р) основан на рассмотрении разности рангов значений результативного и факторного признаков и может быть рассчитан по формуле

где d = Nx — Ny , т.е. разность рангов каждой пары значений х и у; n — число наблюдений.

К непараметрическим методам исследования можно отнести коэффициент ассоциации Кас и коэффициент контингенции Ккон, которые используются, если, например, необходимо исследовать тесноту зависимости между качественными признаками, каждый из которых представлен в виде альтернативных признаков.

Для определения этих коэффициентов создается расчетная таблица (таблица «четырех полей»), где статистическое сказуемое схематически представлено в следующем виде:

Источник

Тема 10 Статистическое изучение взаимосвязей.

1. Понятие о статистической и корреляционной связи.

Исследуя природу, общество, экономику, необходимо считаться со взаимосвязью наблюдаемых процессов и явлений. При этом полнота описания так или иначе определяется количественными характеристиками причинно-следственных связей между ними. Оценка наиболее существенных из них, а также воздействие одних факторов на другие является одной из основных задач статистики.

Объектами исследования при статистическом измерении связей служит, как правило, детерминированность следствия факторами (причиной и условиями). Признаки, характеризующие следствие, называются результативными; признаки, характеризующие причины, — факторными.

Связи между явлениями и их признаками классифицируют по степени тесноты связи, направлению, аналитическому выражению, и количеству факторов.

Читайте также:  Определение природный комплекс ландшафт

По степени тесноты связи различают два типа связей: функциональную (жестко детерминированную) и статистическую (стохастически детерминированную).

Если с изменением значения одной из переменных вторая изменяется строго определенным образом, т. е. значению одной переменной обязательно соответствует одно или несколько точно заданных значений другой переменной, связь между ними является функциональной. Функциональную связь можно представить уравнением yi = f(xi) где yi – результативный признак (i = 1,…,n); f(xi) – известная функция связи результативного и факторного признаков; xi – факторный признак.

Если с изменением значения одной из переменных вторая может в определенных пределах принимать любые значения с некоторыми вероятностями, но её среднее значение или иные статистические (массовые) характеристики изменяются по определенному закону – связь является статистической.

Модель стохастической связи может быть представлена в общем виде уравнением:

, — где расчетное значение результативного признака; — часть результативного признака, сформировавшаяся под воздействием учтенных известных факторных признаков, находящихся в стохастической связи с признаком; — часть результативного признака, возникшая вследствие действия неконтролируемых или неучтенных факторов, а также измерения признаков неизбежно сопровождаются некоторыми случайными ошибками.

Важнейшим частным случаем статистической связи является корреляционная связь, состоящей в том, что разным значениям одной переменной соответствуют различные средние значения другой. Корреляционная связь проявляется не в каждом отдельном случае, а во всей совокупности в целом.

В зависимости от направления действия функциональные связи могут быть прямыми и обратными. При прямой связи с увеличением факторного признака увеличивается результативный признак, и наоборот, с уменьшением факторного признака уменьшается и результативный признак. В противном случае между рассматриваемыми величинами существуют обратные связи. Такие связи также можно называть положительными и отрицательными.

По аналитическому выражению (форме) связи могут быть прямолинейными и криволинейными. При прямолинейной связи с возрастанием значения факторного признака происходит непрерывное возрастание (или убывание) значений результативного признака. Математически такая связь представляется прямой, а графически прямой линией. Отсюда её более короткое название – линейная связь.

При криволинейных связях с возрастанием значения факторного признака возрастание или убывание результативного признака происходит неравномерно или же направление связи представляются кривыми линиями (гиперболой, параболой и т. д. ).

По количеству факторов, действующих на результативный признак, связи различаются однофакторные и многофакторные. Однофакторные (простые) связи обычно называются парными. Если изучаются более чем две переменные – множественной.

Источник

Оцените статью