Точность вычислений

STATISTICA – единственный статистический пакет на рынке, который успешно прошёл все приведенные ниже тесты.

1. Тест точности вычислений при малой относительной дисперсии

В приведённом ниже тестовом наборе данных переменная var2 (второй столбец), имеющая небольшую относительную дисперсию, линейно зависит от переменной var3 (третий столбец); следовательно, коэффициент корреляции между любой переменной (напр., var1) и переменной var2 должен быть примерно равен коэффициенту корреляции между этой переменной и переменной var3.

var1

var2

var3

1.0

100000.00000001

1.0

2.0

100000.00000002

2.0

3.0

100000.00000001

1.0

4.0

100000.00000002

2.0

5.0

100000.00000001

1.0

6.0

100000.00000002

2.0

7.0

100000.00000005

5.0

Приведём два коэффициента корреляции (между переменными var1*var2 и var1*var3), вычисленные в STATISTICA при использовании алгоритма оптимизации вычислений повышенной точности и отображаемых с наибольшей доступной точностью.

variables

Pearson r

p-level

var1 * var2

0.65465367070798

0.111

var1 * var3

0.65465367070798

0.111

STATISTICA – это единственный продукт на рынке, который правильно вычислит эти коэффициенты корреляции (или коэффициенты корреляции для других наборов данных с очень малой относительной дисперсией).

 


2. Многофакторный несбалансированный план дисперсионного анализа среднего размера

Рассмотрим план 5 х 5 х 5 х 3 (между группами) х 3 х 3 х 3 (повторные измерения) с неодинаковым числом наблюдений в группах. То есть, имеем 375 групп и 27 зависимых переменных (файл данных ANOVA4 может быть получен у сотрудников компании StatSoft). Матрица межгруппового плана при наибольшем порядке взаимодействия имеет 128 степеней свободы. Ниже приведены результаты одномерного и многомерного дисперсионного анализа при взаимодействии наивысшего порядка. 

css/3:

general

manova

INTERACTION: 1 х 2 х 3 х 4 х 5 х 6 х 7

1 – IV1, 2 – IV2, 3 – IV3, 4 – IV4, 5 – RFACT1,

6 – RFACT2, 7 – RFACT3

Univar.

Test

Sum of

Squares

df

Mean

Square

F

p-level

Effect

Error

8664.99

24854.14

1024

3008

8.461903

8.262680

1.02411

.31744

css/3:

general

manova

INTERACTION: 1 х 2 х 3 х 4 х 5 х 6 х 7

1 – IV1, 2 – IV2, 3 – IV3, 4 – IV4, 5 – RFACT1,

6 – RFACT2, 7 – RFACT3

Test

Value

p-level

Wilk’s Lambda

Rao R (1024, 2966)

Pillai-Bartlett Trace

V (1024, 3008)

.088651

1.027036

2.071145

1.026166

 

.29812

 

.30355

 


3. Многофакторный несбалансированный план дисперсионного анализа среднего размера (с очень большими и очень малыми значениями)

Тест 3.1. Для первой части этого теста данные из предыдущего теста (тест 2, исходный диапазон данных: от 0,1 до 10) были преобразованы умножением каждой зависимой переменной на 100; затем был проведён дисперсионный анализ для этих преобразованных данных. Ниже приведены результаты одномерного и многомерного дисперсионного анализа при взаимодействии наивысшего порядка (ср. с тестом 2). 

Univar.

Test

Sum of

Squares

df

Mean

Square

F

p-level

Effect

Error

8664.99

24854.14

1024

3008

8.461903

8.262680

1.02411

.31744

Test

Value

p-level

Wilk’s Lambda

Rao R (1024, 2966)

Pillai-Bartlett Trace

V (1024, 3008)

.088651

1.027036

2.071145

1.026166

 

.29812

 

.30355

Тест 3.2. Для второй части этого теста данные из предыдущего теста (тест 2, исходный диапазон данных: от 0,1 до 10) были преобразованы делением каждой зависимой переменной на 100; затем был проведён дисперсионный анализ для этих преобразованных данных. Ниже приведены результаты одномерного и многомерного дисперсионного анализа при взаимодействии наивысшего порядка (ср. с первой частью этого теста и тестом 2). 

Univar.

Test

Sum of

Squares

df

Mean

Square

F

p-level

Effect

Error

8664.99

24854.14

1024

3008

8.461903

8.262680

1.02411

.31744

Test

Value

p-level

Wilk’s Lambda

Rao R (1024, 2966)

Pillai-Bartlett Trace

V (1024, 3008)

.088651

1.027036

2.071145

1.026166

 

.29812

 

.30355

 


4. Многофакторный несбалансированный план дисперсионного анализа большого размера

Рассмотрим план 20 х 10 х 2 х 2 (между группами) х 3 (повторные измерения) с неодинаковым числом наблюдений в группах. То есть, имеем 800 групп и 3 зависимых переменных (файл данных ANOVA44 может быть получен у сотрудников компании StatSoft). Матрица межгруппового плана при наибольшем порядке взаимодействия имеет 171 степень свободы. Ниже приведены результаты одномерного и многомерного дисперсионного анализа при взаимодействии наивысшего порядка. 

STATISTICA – единственный продукт на рынке, который способен работать с планами дисперсионного анализа подобного размера.

css/3:

general

manova

INTERACTION: 1 х 2 х 3 х 4 х 5

1 – COUNTRY, 2 – RAINFALL, 3 – REGION,

4 – STATUS, 5 – RFACTOR

Univar.

Test

Sum of

Squares

df

Mean

Square

F

p-level

Effect

Error

17.9462

181.8289

342

3202

.052474

.056786

.92406

 

.82876

 

css/3:

general

manova

INTERACTION: 1 х 2 х 3 х 4 х 5 х 6 х 7

1 – IV1, 2 – IV2, 3 – IV3, 4 – IV4, 5 – RFACT1,

6 – RFACT2, 7 – RFACT3

Test

Value

p-level

Wilk’s Lambda

Rao R (342, inf)

Pillai-Bartlett Trace

V (342, 3202)

.826507

.935296

.181690

.935531

 

.78876

 

.78788

 


5. Точность методов дисперсионного анализа (малая дисперсия внутри ячеек по сравнению с межгрупповой дисперсией)

Проведём проверку точности вычислений в дисперсионном анализе: был создан файл данных с 10 наблюдениями, 5 группами (2 наблюдения на группу) и 12 зависимыми переменными. Группы в группирующей переменной IV были закодированы числами от 1 до 5. Зависимые переменные DVi (i принимает значения от 1 до 12) были заданы следующим образом: DVi = IV + (номер_наблюдения/10)i. Это привело к малой дисперсии внутри ячеек по сравнению межгрупповой дисперсией.

css/3:

general

manova

MAIN EFFECT: IV

1 – IV

depend.

variable

Mean Sqr

Effect

Mean Sqr

Error

F (df1, 2)

4, 5

DV1

DV2

DV3

DV4

DV5

DV6

DV7

DV8

DV9

DV10

DV11

DV12

5.202000

5.020020

5.002000

5.000200

5.000020

5.000002

5.000000

5.000000

5.000000

5.000000

5.000000

5.000000

.00005

.0000005

.5E-8

.5E-10

.5E-12

.5E-14

.5E-16

.5E-18

.5E-20

.5E-22

.5E-24

.5E-26

104040.

1004E4

10004E5

100004E6

1E13

1E15

1E17

1E19

1E21

99996E18

99996E20

99584E22

STATISTICA – единственный программный продукт на рынке, который способен правильно вычислять величину среднеквадратичной ошибки для всех зависимых переменных в таком плане.

 


Литература

  1. В.П. Боровиков. STATISTICA. Искусство анализа данных на компьютере, 2-е издание, ПИТЕР, 2003, 700 с. 

 

‹‹
››
ПнВтСрЧтПтСбВс


info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.2 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2017

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта