База примеров

Расчет капитальных затрат на строительство атомных электростанций


Пример выполнен в 5ой версии системы STATISTICA

Постановка задачи

В таблице ниже приведены данные о капитальных затратах на строительство атомных электростанций с реактором водяного охлаждения. Данные собраны для 32 различных станций США.

Требуется: оценить зависимость между ценой станции и рядом параметров, приведенных в таблице, предсказать величину капитальных затрат на строительство новой станции, попробовать выделить наиболее значимые величины, влияющие на цену станции.

Структура данных


C

D

T1

T2

S

PR

NE

CT

BW

N

PT

1

460.05

68.58

14

46

687

0

1

0

0

14

0

2

452.99

67.33

10

73

1065

0

0

1

0

1

0

3

443.22

67.33

10

85

1065

1

0

1

0

1

0

4

652.32

68.00

11

67

1065

0

1

1

0

12

0

5

642.23

68.00

11

78

1065

1

1

1

0

12

0

6

345.39

67.92

13

51

514

0

1

1

0

3

0

7

272.37

68.17

12

50

822

0

0

0

0

5

0

8

317.21

68.42

14

59

457

0

0

0

0

1

0

9

457.12

68.42

15

55

822

1

0

0

0

5

0

10

690.19

68.33

12

71

792

0

1

1

1

2

0

11

350.63

68.58

12

64

560

0

0

0

0

3

0

12

402.59

68.75

13

47

790

0

1

0

0

6

0

13

412.18

68.42

15

62

530

0

0

1

0

2

0

14

495.58

68.92

17

52

1050

0

0

0

0

7

0

15

394.36

68.92

13

65

850

0

0

0

1

16

0

16

423.32

68.42

11

67

778

0

0

0

0

3

0

17

712.27

69.50

18

60

845

0

1

0

0

17

0

18

289.66

68.42

15

76

530

1

0

1

0

2

0

19

881.24

69.17

15

67

1090

0

0

0

0

1

0

20

490.88

68.92

16

59

1050

1

0

0

0

8

0

21

567.79

68.75

11

70

913

0

0

1

1

15

0

22

665.99

70.92

22

57

828

1

1

0

0

20

0

23

621.45

69.67

16

59

786

0

0

1

0

18

0

24

608.80

70.08

19

58

821

1

0

0

0

3

0

25

473.64

70.42

19

44

538

0

0

1

0

19

0

26

697.14

71.08

20

57

1130

0

0

1

0

21

0

27

207.51

67.25

13

63

745

0

0

0

0

8

1

28

288.48

67.17

9

48

821

0

0

1

0

7

1

29

284.88

67.83

12

63

886

0

0

0

1

11

1

30

280.36

67.83

12

71

886

1

0

0

1

11

1

31

217.38

67.25

13

72

745

1

0

0

0

8

1

32

270.71

67.83

7

80

886

1

0

0

1

11

1

Таблица 1. Исходные данные

Здесь:

C — Цена в млн. долларах, приведенная к курсу 1976.

D — Срок разрешения на строительство.

T1 — Время между обращением за разрешением и получением разрешения на строительство.

T2 — Время между получением оперативной лицензии и разрешением на строительство.

S — Номинальная мощность электростанции, Мвт.

PR — Наличие в той же самой местности ранее построенной электростанции на РВО. Если значение равно 1, то имеется уже построенная станция.

NE — Характеристика района, в котором строится станция.

CT — Использование нагревательной башни. Если равно 1, то используется, если 0 — нет.

BW — Использование силовой установки производства фирмы Babcock-Wilcox. Если значение равно 1, то используется установка этой фирмы, 0 — нет.

N — Суммарное число электростанций, построенное архитектором-инженером станции.

PT — Электростанции, строящиеся под частичным надзором. PT=1, если надзор есть, PT=0, если надзора нет.

Математическая постановка задачи

Для исследования данной задачи воспользуемся методами регрессионного анализа. В этом примере имеется несколько независимых переменных, поэтому применяется метод множественной регрессии. 

Воспользуемся векторными обозначениями. Обозначим через Y вектор наблюдений, состоящий из n элементов, через X - матрицу независимых переменных, размером m на n, где m - число независимых переменных, а n - число наблюдений.

В этих обозначениях задача может быть сформулирована следующим образом:

Y = Xb + e; (*)

где e есть независимые случайные ошибки со средним 0, которые интерпретируются как ошибки наблюдений, а b – вектор неизвестных параметров, которые необходимо оценить. Оценки параметров b будем обозначать через B.

В данном примере зависимая переменная – цена станции, а независимые – D, T1, T2, S, PR, NE, CT, BW, N, PR (т.е. все остальные переменные, перечисленные в таблице). Зависимость между переменными предполагается линейной.

Создание электронной таблицы с исходными данными

Электронная таблица с исходными данными для этого примера имеет следующий вид:

Исходные данные

Рис. 1. Исходные данные. Просмотрены в численном режиме

Ввод исходных данных. Текстовые и численные значения

Переменные в электронной таблице могут принимать как текстовые, так и численные значения. Текстовые значения вводятся аналогично численным. Необходимо поместить указатель на ячейку в таблице, щелкнуть левой кнопкой мыши и ввести требуемое значение с клавиатуры. Для переменных, которые принимают текстовые значения, в STATISTICA используется так называемое соглашение "двойной записи", при котором каждому текстовому значению приписывается некоторый численный эквивалент. Для просмотра переменных, принимающих текстовые значения, переключитесь в режим просмотра текстовых значений при помощи кнопки Просмотр текстовых значений на панели инструментов электронной таблицы. Например, для повышения наглядности восприятия таблицы можно ввести для переменных PR и BW текстовые значения. Для переменной PR - ДА (1) будет обозначать наличие уже построенной в этой местности станции на РВО, а НЕТ (0) - ее отсутствие. Аналогично и для переменной BW введены текстовые значения ИСП и НЕИСП для обозначения использования установок фирмы BW или нет. Для просмотра этих значений нажмите на кнопку Диспетчер текстовых значений Диспетчер текстовых значений.

Исходные данные. Просмотрены в текстовом режиме

Рис. 2. Исходные данные. Просмотрены в текстовом режиме

Диспетчер текстовых значений для переменной PR

Рис. 3. Диспетчер текстовых значений для переменной PR

Преобразование исходных данных

В электронных таблицах STATISTICA вы можете выполнить все необходимые преобразования. Такая задача часто возникает в процессе обработки данных. В систему STATISTICA включено большое количество общих математических и специализированных статистических функций. Для некоторых из переменных мы применим, аналогично предыдущему примеру, преобразование логарифмирования. Формулы преобразования задаются в диалоговом окне спецификаций переменной, которое вызывается двойным щелчком на имени переменной в строке заголовка электронной таблицы. Вам, возможно, потребуется вставить дополнительные строки или столбцы в таблицу. Воспользуйтесь для этого кнопками Переменные/Наблюдения для вызова соответствующих команд по работе с переменными и наблюдениями. Таблица с данными примет следующий вид:

Преобразование переменных

Рис. 4. Преобразование переменных

При помощи кнопки Спецификации переменных вы можете просмотреть спецификации всех переменных в электронной таблице с исходными данными.

Спецификации всех переменных в электронной таблице

Рис. 5. Спецификации всех переменных в электронной таблице

Поставим задачу построения линейной регрессии между зависимой переменной LOG_C = Ln(C) и независимыми переменными D, PR, NE, CT, BW, PT, LOG_N, LOG_S, LOG_T1, LOG_T2.

Предварительный анализ и визуализация данных

Построим ряд специализированных статистических графиков для более полного исследования исходных данных. Для этого поместите указатель мыши на ту переменную в таблице, которую необходимо отобразить графически, щелкните правой кнопкой мыши и из появившегося контекстного меню выберите необходимый график. Для вызова графических средств системы можно воспользоваться также меню Графика и выбрать необходимый тип графика. В этом случае в диалоговом окне определения графика при помощи кнопки Переменные выберите необходимые переменные, которые вы хотите отобразить графически, и необходимый тип графика.

Гистограмма для переменной T1

Рис. 6. Гистограмма для переменной T1

Диаграмма размаха для переменной C

Рис. 7. Диаграмма размаха для переменной C

Вызов стартовой панели модуля и определение процедуры анализа

Для начала статистического анализа вам необходимо вызвать Стартовую панель модуля. Это основное диалоговое окно модуля, в котором необходимо задать различные опции анализа. Если Стартовая панель модуля закрыта, то откройте ее. Для этого войдите в меню Анализ и выберите команду Стартовая панель.

Выбор переменных для анализа

Далее необходимо выбрать переменные для анализа. В нашем примере имеется одна зависимая переменная LOG_C и набор независимых переменных. Для их задания воспользуйтесь кнопкой Переменные из Стартовой панели.

Выбор переменных для анализа

Рис. 8. Выбор переменных для анализа

В открывшемся окне Списки зависимых и независимых переменных выберите необходимые переменные. Для выбора переменной щелкните мышью на ее имени. Для выбора нескольких переменных удерживайте при этом клавишу CTRL. Нажмите кнопку ОК в правом верхнем углу. Вы вновь окажетесь в Стартовой панели модуля Множественная регрессия.

Задание дополнительных параметров анализа

Заметьте, что в Стартовой панели вы можете задать и дополнительные опции и параметры анализа. Например, вы можете выбрать определенное подмножество наблюдений для анализа, приписать веса переменным – эти опции относятся к исходным данным. Вы также можете задать и опции, которые относятся непосредственно к статистической процедуре: задать правило обработки пропущенных данных, выбрать метод анализа по умолчанию и др. Мы отменили выбор метода анализа по умолчанию. После нажатия на кнопку OK появится следующее диалоговое окно определения метода:

Выбор метода анализа и задание дополнительных параметров

Рис. 9. Выбор метода анализа и задание дополнительных параметров

В прокручиваемом списке методов выберите одну из пошаговых регрессионных процедур, например, Пошаговую с включением, значения остальных параметров оставьте неизменными. Нажмите OK.

Замечание

Метод пошаговой регрессии состоит в том, что на каждом шаге в модель включается, либо исключается какая-то независимая переменная. Таким образом, выделяется множество наиболее "значимых" переменных. Это позволяет сократить число переменных, которые описывают зависимость.

В данном случае выбран пошаговый метод c включением. При использовании этого метода в регрессионное уравнение последовательно включаются независимые переменные, пока уравнение не станет удовлетворительно описывать исходные данные. Включение переменных определяется при помощи F-критерия.

Вывод результатов и их анализ

В стартовой панели нажмите на кнопку ОК. Система произведет вычисления и на экране появится окно результатов:

Окно результатов анализа

Рис. 10. Окно результатов анализа. Отмечены переменные, которые были включены в модель

Нажав на кнопку ОК, вы откроете основное окно анализа результатов.

Окно с результатами анализа

Рис. 11. Окно с результатами анализа. Красным цветом выделены значимые коэффициенты регрессии

Окно результатов анализа имеет следующую простую структуру: верхняя часть окна - информационная, нижняя содержит функциональные кнопки, позволяющие всесторонне просмотреть результаты анализа.

В информационной части вы прежде всего смотрите на значение коэффициента детерминации. В нашем примере R2 = 0.857... Это значит, что построенная регрессия объясняет 85.7% разброса значений относительно среднего.

Далее вы смотрите на значение F-критерия и уровень его значимости p. F-критерий используется для проверки значимости регрессии.

Щелкните далее на кнопку Итоговая таблица регрессии. Вы увидите следующую электронную таблицу с результатами анализа:

Краткие результаты регрессии

Рис. 12. Краткие результаты регрессии

В третьем столбце расположены искомые коэффициенты. Итак, искомая регрессия имеет вид:

LOG_C = -13.2603 + 0.2261*PT + 0.7234*LOG_S +
+ 0.2124*D + 0.249*NE + 0.1404*CT - 0.0876*LOG_N

Качественно построенное уравнение можно интерпретировать следующим образом:

  • Стоимость строительства растет с увеличением мощности станции (S), при использовании нагревательной башни и при строительстве в NE районе;

  • Стоимость уменьшается с возрастанием опыта инженера-архитектора и при строительстве под частичным надзором.

Итак, на рассмотренных примерах мы проследили технологию обработки данных и стиль работы в системе STATISTICA и увидели, что даже несложные модели линейной регрессии позволяют в реальных задачах получать содержательные результаты.

Дополнительная информация

О методах статистического анализа данных в системе STATISTICA можно прочесть в книгах [3-5]. На нашем Web-сайте, а также на американском сайте компании StatSoft имеется много разнообразной информации о системе, областях и примерах ее применения, новинках, наградах и т. д.

Литература

  1. В.П. Боровиков, И.П. Боровиков "STATISTICA - статистический анализ и обработка данных в среде Windows", М.: "Филин", 1998.

  2. В.П. Боровиков "Популярное введение в программу STATISTICA", М.: "Компьютер Пресс", 1998.

  3. В.П. Боровиков, Г.И. Ивченко "Прогнозирование в системе STATISTICA в среде Windows" (основы теории и интенсивная практика на компьютере), М.: "Финансы и статистика", 2000 (книга имеет гриф учебного пособия).

  4. С.А. Айвазян, З.И. Бежаева, О.В. Староверов "Классификация многомерных наблюдений", М.: "Финансы и статистика", 1974.

  5. Д. Кокс, Э. Снелл "Прикладная статистика. Принципы и примеры", М.: "Мир", 1984.


В начало


Узнайте больше на курсах Академии Анализа Данных StatSoft

Список курсов    Календарь    Расписание груповых занятий






info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.3 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2017

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта