Тема 5. Анализ взаимосвязей

Показатели тесноты связи

Корреляционно-регрессионный анализ

Практические задания


Показатели тесноты связи

1. Параметрические показатели тесноты связи

1.1. Линейный коэффициент корреляции Пирсона.

1.2. Корреляционное отношение

где общая дисперсия результативного признака;

– факторная дисперсия;

– теоретические уровни, найденные из уравнения регрессии;

– остаточная дисперсия;

(См. правило сложения дисперсий)

1.3. Коэффициент множественной корреляции (совокупный коэффициент корреляции).

где ry/x, ry/v, rx/v - линейные парные коэффициенты корреляции.

В зависимости от величины коэффициента корреляции можно сделать выводы:

0 r < 0,2 – практически нет связи;

0,2 r < 0,5 – слабая связь (для n > 50);

0,5 r < 0,75 – средняя связь (умеренная);

0,75 r < 0,95 – тесная связь;

0,95 r < 1 – практически функциональная связь.

2. Ранговые коэффициенты

2.1. Коэффициент (Спирмэна)

где d – ранговая разность;

n – число пар вариантов.

Варианты факторного признака х располагаются по возрастанию, затем проставляются ранги для вариантов результативного признака у ( упорядочивание по одному из признаков обязательно при вычислении ).

В случае совпавших рангов вычисляются поправки Т и U:

где ,

t, и – соответственно число единиц с совпавшим рангом в последовательностях (число совпадений)

l, k – число групп с совпавшими рангами в последовательностях.

2.2. Коэффициент(Кендэла)

где S – сумма баллов. Баллом +1 оценивается пара рангов, имеющих по двум признакам одинаковый порядок, а баллом –1 – пара рангов с обратным порядком.

Для совпавших рангов вычисляются поправки Т и U, и расчетная формула принимает следующий вид:

где

3. Коэффициенты взаимной сопряженности. Используются как показатели тесноты связи качественных или количественных признаков.

3.1. Коэффициент Пирсона

3.2. Коэффициент Чупрова:

3.3. Коэффициент Крамера

при

где n – число наблюдений;

– критерий хи-квадрат наличия связи между признаками.

Расчетное значение определяется по формуле:

,

где - соответственно эмпирические и теоретические частоты в i строке j-го столбца;

k1, k2 – соответственно число групп в строках и столбцах таблиц.

Вычисление и критерия строится на основе анализа распределения частот в таблице сопряженности по строкам и столбцам. Если признак, положенный в основу группировки по строкам, не зависит от признака, положенного в основу группировки по графам, то в каждой строке распределение частот (условное распределение) должно быть пропорционально распределению их в итоговой строке (безусловное распределение). Такое распределение можно считать теоретическим, рассчитанным при предположении отсутствия зависимости между изучаемыми признаками. При независимости признаков =0.

Проверка существенности связи осуществляется путем сравнения найденного с критическим при числе степеней свободы (k1–1)(k2–1) при выбранном уровне значимости . (Проверяется гипотеза Но: =0, когда условные распределения совпадают и, следовательно, признаки независимы).

Пример: Измерение тесноты связи между двумя признаками: образование мужа и жены

Таблица 2

Образование мужа

Образование жены

Всего

неполное среднее

среднее

высшее и среднее
специальное

Неполное среднее

58 (20,5)

36 (43,6)

4 (34)

98

[59,2]

[36,7]

[4,1]

100

Среднее

30 (42,2)

122 (89,9)

50 (70)

202

[14,9]

[60,4]

[24,7]

100

Высшее и среднее специальное

6 (31,3)

42 (66,6)

102 (52,1)

150

Условное распределение, в %

[4]

[28]

[68]

100

Всего

94

200

156

450

Безусловное распределение, в %

[20,9]

[44,4]

[34,7]

100

Получить данные в формате Microsoft Excel 97 (в архиве ZIP)

В таблице 2 в круглых скобках показаны теоретические частоты:

Расчетное значение критерия:

По таблицам математической статистики для уровня значимости = 0,05, при числе степеней свободы (3–1)(3–1) = 4 табличные значения =9,5 (см. таблицу 3), т.е. расч.> табл., следовательно, гипотеза об отсутствии зависимости между уровнями образования мужа и жены отвергается.

Величина зависит от объема совокупности и поэтому не характеризует степень тесноты связи.

Таблица 3

Критические значения критерия

Значение , превышающего табличное, при =0,05

1

3,84

11

19,68

21

32,67

2

5,99

12

21,03

22

33,92

3

7,81

13

22,36

23

35,17

4

9,49

14

23,68

24

36,42

5

11,07

15

25,00

25

37,65

6

12,59

16

26,30

26

38,89

7

14,07

17

27,59

27

40,11

8

15,51

18

28,87

28

41,34

9

16,62

19

30,14

29

42,56

10

18,31

20

31,41

30

43,77

Получить данные в формате Microsoft Excel 97 (в архиве ZIP)

Коэффициент сопряженности Пирсона:

Полученное значение свидетельствует о наличии умеренной степени тесноты связи между признаками. (Поскольку при независимости признаков =0, то С = 0).

Коэффициент сопряженности Чупрова:

Данный результат подтверждает наличие умеренной связи между признаками.

Корреляционно-регрессионный анализ

Регрессионными называются такие связи, когда при одном и том же значении признака Х встречаются разные значения признака У, при этом между ними имеется такое соотношение, что определенному изменению признака Х соответствуют средние изменения признака У. Следовательно, это связь, проявляющаяся в общем, в среднем, во всей совокупности явлений в целом. Такого рода связи характеризуются нежесткими соотношениями между переменными, их множественностью.

Корреляционные связи бывают прямолинейные и криволинейные. Для выражения связи между двумя признаками подбирают наиболее подходящие из известных

математических уравнений, функций (прямую, параболу, гиперболу и т.д.). Уравнение прямой имеет следующий вид:

.

Применительно к измерению связей здесь У представляет собой результативный признак, Х – факторный признак, а0 и а1 – параметры прямой, а само уравнение называется уравнением регрессии.

Нахождение этих параметров производится на основе выравнивания по способу наименьших квадратов, которые приводят к системе двух линейных уравнений с двумя неизвестными:

Решая это уравнение способом определителей, находим:

;

или разделив первое уравнение на n, получим:, откуда .

Найдем параметры а0 и а1 и запишем уравнение связи между балансовой прибылью (БП) и капиталом (К) десяти коммерческих банков.

Таблица 4

Банк

БП (yi)

К
i)

xiyi

 

 

 

 

Ранги

d2=(Ry-Rx)2

№ п/п

млрд. руб.

млрд. руб.

RY

RX

А

1

2

3

4

5

6

7

8

9

10

1.

19,2

129,5

2486,4

16770,25

53,7

2,53

1186,80

3

2

1

2.

46,0

46,3

2129,8

2143,69

19,9

635,54

681,21

2

4

4

3.

93,8

152,6

14313,88

23286,76

63,0

5330,46

946,79

1

1

0

4.

12,6

18,4

231,84

338,56

8,6

67,08

16,16

5

6

1

5.

16,3

12,8

208,64

163,84

6,3

20,16

99,80

4

8

16

6.

6,1

56,7

345,87

3214,89

24,1

215,8

324,72

6

3

9

7.

5,4

13,8

74,52

190,44

6,7

236,85

1,72

7

7

0

8.

3,4

4,5

15,3

20,25

2,9

302,41

0,21

8

10

4

9.

3,0

11,5

34,5

132,25

5,8

316,48

7,73

9

9

0

10.

2,1

38,9

81,69

1513,21

16,9

349,32

219,04

10

5

25

Итого

207,9

485

19922,44

47774,14

207,9

7476,626

3484,18

 

 

60

Получить данные в формате Microsoft Excel 97 (в архиве ZIP)

Продолжение таблицы 4

Знаки отклонений

 

 

 

 

 

 

 

 

 

 

 

11

+

+

+

12

+

+

C или Н

13

Н

Н

С

С

С

Н

С

С

С

С

Получить данные в формате Microsoft Excel 97 (в архиве ZIP)

Отсюда,

Следовательно, уравнение связи между капиталом и балансовой прибылью 10 банков будет: . Оно означает, что с увеличением капитала на 1 рубль балансовая прибыль в среднем вырастет на 40,6 копеек. Подставив в это уравнение конкретные значения х, находим для всех 10 банков , т.е. теоретическое значение прибыли. Для расчета корреляционного отношения рассчитываем общую дисперсию У и остаточную дисперсию:

.

Корреляционное отношение:

,

что свидетельствует о наличии связи между признаками.

Подставив в формулу корреляционного отношения:, где

вместо получим:

,

т.е. для линейной зависимости

Если в формуле для линейной зависимости подставить значение а1, выраженное из системы уравнений, получим линейный коэффициент корреляции Пирсона:

,

где ,

;

, следовательно Но: .

Ранговые показатели тесноты связи: p Спирмэна , Кэндэла.

,

Прежде чем найти Р и Q, следует упорядочить ранги по одному из признаков, например, у. Тогда ряд рангов будет иметь вид:

№ п/п

Ry

Rx

P

(–) Q

1.

1

1

9

0

2.

2

4

6

2

3.

3

2

7

0

4.

4

8

2

4

5.

5

6

3

2

6.

6

3

4

0

7.

7

7

2

1

8.

8

10

0

2

9.

9

9

0

1

10.

10

5

Итого

 

 

33

12

Получить данные в формате Microsoft Excel 97 (в архиве ZIP)

Р – количество наблюдений, ранг которых больше данного;

Q – количество наблюдений, ранг которых меньше данного. Данное значение отражает число нарушений последовательности рангов, поэтому Q записывается со знаком “–”;

n – число наблюдений;

1/2ґ n(n–1) – общее число сравнений, т.е. максимальная величина (P+Q).

Коэффициенты р и подтверждают наличие умеренной связи между величиной капитала и балансовой прибылью банков.

Коэффициент Фехнера (1887 г.):

где С и H – соответственно число пар совпадающих и несовпадающих знаков отклонений значений признаков х и у от своего среднего значения и (cм. гр.11–13).

Проверка статистической значимости коэффициента корреляции (r).

1. Рассчитывается величина t (как отношение r к его ошибке)

,

где n – число наблюдений; (n–2) – число степеней свободы.

2. По таблице распределения Стьюдента (n30) находится пороговое значение tтабл., соответствующее заданному уровню значимости (=0,05 или =0,02) и числу степеней свободы.

3. Если tф.>tт, коэффициент корреляции признается статистически значимым при уровне значимости .

v

Вероятность =St(t)=P(|T|)>tтабл.

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

0,1

0,05

0,02

0,01

0,001

1

0,158

0,325

0,51

0,727

1

1,376

1,963

3,078

6,314

12,706

31,821

63,656

636,61

2

0,142

0,289

0,445

0,617

0,816

1,061

1,386

1,886

2,92

4,303

6,965

9,925

31,598

3

0,137

0,277

0,424

0,584

0,765

0,978

1,25

1,638

2,353

3,182

4,541

5,841

12,941

4

0,134

0,271

0,414

0,569

0,741

0,941

1,19

1,533

2,132

2,776

3,747

4,604

8,61

5

0,132

0,267

0,408

0,559

0,727

0,92

1,156

1,476

2,015

2,571

3,365

4,043

6,859

6

0,131

0,265

0,404

0,553

0,718

0,906

1,134

1,44

1,943

2,447

3,143

3,707

5,959

7

0,13

0,263

0,402

0,549

0,711

0,896

1,119

1,415

1,895

2,365

2,998

3,499

5,405

8

0,13

0,262

0,399

0,546

0,706

0,889

1,18

1,397

1,89

2,306

2,896

3,355

5,041

9

0,129

0,261

0,398

0,543

0,703

0,883

1,1

1,383

1,883

2,262

2,821

3,25

4,781

10

0,129

0,26

0,327

0,452

0,7

0,879

1,093

1,372

1,812

2,228

2,764

3,169

4,583

11

0,129

0,26

0,396

0,54

0,697

0,876

1,088

1,363

1,796

2,201

2,718

3,106

4,437

12

0,128

0,259

0,395

0,539

0,695

0,873

1,083

1,356

1,782

2,179

2,681

3,055

4,318

13

0,128

0,259

0,394

0,538

0,694

0,87

1,079

1,35

1,771

2,16

2,65

3,012

4,221

14

0,128

0,258

0,393

0,537

0,692

0,868

1,076

1,345

1,761

2,145

2,624

2,977

4,14

15

0,128

0,258

0,393

0,536

0,691

0,866

1,074

1,341

1,753

2,131

2,602

2,947

4,073

16

0,128

0,258

0,392

0,535

0,69

0,865

1,071

1,337

1,746

2,12

2,583

2,921

4,015

17

0,128

0,257

0,392

0,534

0,689

0,863

1,069

1,333

1,74

2,11

2,567

2,898

3,965

18

0,127

0,257

0,392

0,534

0,688

0,862

1,067

1,33

1,734

2,101

2,552

2,876

3,922

19

0,127

0,257

0,391

0,533

0,688

0,861

1,066

1,328

1,729

2,093

2,539

2,861

3,833

20

0,127

0,257

0,391

0,533

0,687

0,86

1,064

1,325

1,725

2,086

2,528

2,845

3,85

Получить данные в формате Microsoft Excel 97 (в архиве ZIP)

Практические задания

ЗАДАЧА №1

Имеются данные о величине собственных средств (СС) и поступлений страховых взносов (СВ) десяти крупнейших страховых компаний (млрд.руб.):

№ п/п

СС

СВ

1.

6,2

43,5

2.

6,0

147,1

3.

3,1

31,5

4.

2,6

24,4

5.

2,8

6,6

6.

2,8

6,4

7.

2,4

4,3

8.

2,3

4,3

9.

1,5

5,3

10.

1,5

1,0

Получить данные в формате Microsoft Excel 97 (в архиве ZIP)

1. Измерьте тесноту связи на основе:

а) линейного коэффициента корреляции;

б) коэффициентов ранговой корреляции Спирмэна и Кендэла.

2. Оцените достоверность линейного коэффициента корреляции.

3. Найдите уравнение регрессии.

ЗАДАЧА №2

Имеются данные о динамике удельного веса работающих женщин и коэффициенте разводов по Англии за 1890–1950 гг.

Годы

Процент работающих женщин

Коэффициент разводов

1890

4,6

5,8

1900

5,6

7,9

1910

10,7

8,8

1920

9,0

13,4

1930

11,7

17,4

1940

16,7

16,5

1945

25,6

30,8

1950

24,6

23,1

Получить данные в формате Microsoft Excel 97 (в архиве ZIP)

Проанализируйте динамику показателей и сделайте выводы. Измерьте тесноту связи между данными признаками.

ЗАДАЧА №3

Постройте линейное уравнение регрессии и вычислите линейный коэффициент корреляции по следующим данным:

ЗАДАЧА №4

Постройте линейное уравнение регрессии по следующим данным:

ЗАДАЧА №5

На основе опроса руководителей малых предприятий (МП) России 1994–1995 гг. имеются данные об оценке ими уровня заработной платы и экономического положения предприятия:

Уровень зарплаты

Положение на предприятии

Все предприятия

Совсем
неустойчивое

Не вполне устойчивое

Устойчивое

Ниже, чем в
среднем по городу

129

305

59

493

Примерно такой же уровень

81

357

168

606

Выше, чем в
среднем по городу

24

148

171

343

Кол-во ответов

234

810

398

1442

Получить данные в формате Microsoft Excel 97 (в архиве ZIP)

С помощью определите, случайно данное распределение или нет. Оценить тесноту связи уровня заработной платы от экономического положения МП на основе коэффициентов взаимосопряженности Чупрова и Пирсона. Сделайте выводы.

ЗАДАЧА №6

Если коэффициент взаимной сопряженности Пирсона близок к 1, то условные распределения результативного признака:

1. а) совпадают между собой; б) не совпадают.

При этом факторный и результативный признаки:

2. а) зависимы; б) независимы; в) ответ дать невозможно.

ЗАДАЧА №7

Определите степень согласия экспертов при оценке ими 12 альтернатив с помощью коэффициентов корреляции рангов Спирмэна и Кендэла:

Альтернативы

Ранги

Эксперта №1

Эксперта №2

А

7

6

Б

8

4

В

2

1

Г

1

3

Д

9

10

Е

3

2

Ж

12

12

З

10

11

И

4

5

К

11

9

Л

6

7

М

5

8

Получить данные в формате Microsoft Excel 97 (в архиве ZIP)

ЗАДАЧА №8

Имеются данные по 40 регионам европейской части РФ об удельном весе лиц, находящихся в отпусках по инициативе администрации, и числе преступлений против собственности на 100000 человек населения в 1995 году:

Удельный вес лиц в отпусках по инициативе администрации, %

Число регионов

Среднее число
преступлений, тыс.

До 3,0

6

1.233

3,0 – 4,0

11

1,218

4,0 – 5,0

12

1,525

5,0 – 6,0

6

1,700

6,0 и выше

5

1,740

Итого

40

 

Получить данные в формате Microsoft Excel 97 (в архиве ZIP)

Определите зависимость числа преступлений против собственности в регионах европейской части Российской Федерации от удельного веса лиц, находящихся в отпусках по инициативе администрации. Изобразите графически эмпирическую и теоретическую линию регрессии.

ЗАДАЧА №9

Имеются данные об уровнях регистрируемой безработицы в 40 регионах европейской части РФ на конец 1997 г. и индексах промышленного производства в 1995 г. в сравнении с 1990 г.

Индекс промышленного производства
1995 г. к 1990 г.

Число регионов
(без национальных
республик)

Среднее значение регистрируемой безработицы, %

до 45

7

3,64

45,0 – 50,0

11

2,77

50,0 – 55,0

3

3,17

55,0 – 60,0

7

2,79

60,0 – 65,0

7

2,64

65,0 – 70,0

2

2,50

70,0 и выше

3

2,17

Итого

40

 

Получить данные в формате Microsoft Excel 97 (в архиве ZIP)

Определите зависимость уровней регистрируемой безработицы в регионах европейской части Российской Федерации в 1997 г. от значений индекса промышленного производства. Изобразите графически эмпирическую и теоретическую линию регрессии.

Получить полный текст документа в формате Microsoft Word (в архиве ZIP)

Казаринова С.Е., Карасев О.И. Теория статистики: справочные материалы, практические и контрольные задания, тесты. - М.: ИНФРА-М, 2002.