Круглый стол "Опыт преподавания анализа данных и Data Science в вузах России. Тенденции, перспективы, направления развития"

Боровиков Владимир Павлович кандидат физико-математических наук по специальности теория вероятностей и математическая статистика, автор многочисленных книг по анализу данных и его применениям, директор StatSoft. Автор более 40 работ по теории вероятностей и математической статистики, опубликованных в ведущих российских и зарубежных изданиях. Автор бестселлера «STATISTICA: искусство анализа данных на компьютере». Руководитель знаковых проектов по применению технологий анализа данных и Data Mining с ведущими российскими и зарубежными компаниями.


Участники круглого стола:

Белов Александр Владимирович – доцент, кандидат технических наук, руководитель департамента прикладной математики МИЭМ НИУ ВШЭ, автор многочисленных работ в области прикладной математики, кибернетики, приложениях математики в промышленности и финансах (https://www.hse.ru/org/persons/47634735)

Петрунин Юрий Юрьевич – зав. кафедрой математических методов и информационных технологий в управлении ФГУ МГУ, профессор факультета Государственного управления Московского государственного университета им. М.В. Ломоносова, доктор философских наук, специалист в области анализа данных и искусственного интеллекта, автор книг и учебных пособий (http://www.spa.msu.ru/prepod_33.html, https://istina.msu.ru/profile/petruninYY/)

Халафян Алексан Альбертович доктор технических наук, профессор кафедры прикладной математики факультета Компьютерных технологий и прикладной математики Кубанского государственного университета, специалист в области многомерного анализа данных, Data Science, особенно в промышленных, медицинских и маркетинговых приложениях, автор многочисленных книг и учебных пособий по анализу данных, математической статистике (http://statlab.kubsu.ru/node/53)

В.П.: Уважаемые коллеги, за нашим круглым столом собрались представители трех крупнейших российских вузов, объединенные одной общей тематикой. Мы встретились для того, чтобы обсудить вопросы преподавания анализа данных, современного Data Science, машинного обучения в вузах России.

Это чрезвычайно важные вопросы. За последние годы нами накоплен большой опыт преподавания этих дисциплин, написаны многочисленные книги и учебники, которые позволили поставить преподавание на высокий уровень, преподавание анализа данных становится ключевым для многих специальностей.

StatSoft становится признанным центром современных технологий анализа и добычи данных, машинного обучение, Data Science.

Насколько актуален анализ данных в настоящее время и какие имеет перспективы?

Что является его теоретическими основами, как связано преподавание анализа данных с другими учебными дисциплинами?

Давайте перейдем к обсуждению этих вопросов, предоставляем слово уважаемому Юрию Юрьевичу Петрунину.

Ю.Ю.: Мы все помним, какие слова чаще всего звучали из уст Президента Российской Федерации на пленарной сессии Петербургского международного экономического форума (ПМЭФ-2017) в июне этого года: нейронные сети, большие данные, искусственный интеллект…

Приведу точную цитату: «Государство окажет поддержку тем компаниям, которые являются носителями разработок и компетенций в сфере цифровых технологий, имеющих сквозной, так называемый межотраслевой эффект.

Это обработка и анализ больших массивов данных, искусственный интеллект и нейротехнологии, Интернет вещей и технологии виртуальной и дополненной реальности и ряд других».

Конечно, для студентов, получающих управленческое образование, тематика анализа данных, Data Mining, Data Science становится ключевой.

Без соответствующих компетенций в их будущей профессии в ближайшие годы делать будет нечего.

Естественно, создавать эти модели и методы по-прежнему должны программисты, математики, «цифровики». Но уметь грамотно использовать готовые продукты, оценивать их возможности для решения практических задач, оценивать экономические, социальные, политические последствия от их внедрения, разрабатывать стратегию этого внедрения должны управленцы.

Обозначенный вектор развития управленческого и, шире, социально-гуманитарного образования, с необходимостью повлечет изменения в системе подготовки кадров по этим дисциплинам.

Основами новых компьютерных технологий, анализа данных, Data Mining, Data Science, Big Data безусловно являются такие математические дисциплины как теория вероятностей и математическая статистика. В той или иной мере, в том или ином объеме они давно уже преподавались на гуманитарных факультетах.

Например, на нашем факультете это курсы «Математические методы и модели в управлении», «Теория вероятностей», «Статистика».

Однако теперь этого явно недостаточно, потому что в выше перечисленных технологиях (искусственный интеллект, нейросети, анализ больших данных и др.) используется много моделей и методов, не знакомых классическому математическому образованию для гуманитариев.

К ним относятся, например, машинное обучение, искусственные нейронные сети, когнитивный анализ текста, построение ассоциативных правил, деревья решений (классификаций). Следовательно, необходимо добавлять в базовую математическую подготовку новые разделы. Тоже самое относится к базовым компьютерно-информационным дисциплинам.

Поэтому в соответствии с веяниями времени на нашем факультете уже появился такой спецкурс как «Нечеткая логика в управлении», а в курсе «Информационные технологии в управлении» - новый раздел, посвященный моделям искусственных нейронных сетей.

В.П.: Юрий Юрьевич факультет Государственного управления Московского университета имеет уникальный опыт в подготовке специалистов государственного и муниципального управления, как связаны математические дисциплины с профильными предметами?

Ю.Ю.: Безусловно важно, чтобы преподавание специальных предметов, связанных с Data Science сочеталась с профессиональными дисциплинами, чтобы преподавание этих предметов было не только построено на решении реальных экономических, управленческих, социологических задач, но и чтобы преподаватели, ведущие такие предметы как «Экономический анализ», «Финансовый анализ», «Бизнес-аналитика, «Социологические исследования», «Политический анализ», «Принятие управленческих решений», «Информационно-аналитическое обеспечение государственного и муниципального управления» активно использовали в своих курсах, особенно на семинарах, практических занятиях, те программные продукты, с которыми студенты уже знакомы по предметам математического и информационного циклов.

Хорошим подспорьем для этого является база примеров реальных решений на сайте http://statsoft.ru/solutions/ и на сайте http://statistica.ru.

Думаю, что ученые, вузовские преподаватели, практики могли бы продолжать эту традицию, публично предоставляя интересные примеры для своих коллег, студентов, аспирантов.

В.П.: Очень хорошее предложение, давайте сделаем наш портал знаний http://statistica.ru открытым ресурсом для преподавателей анализа данных всех вузов страны…

А.В.: Мой коллега подробно проанализировал современное состояние проблемы анализа данных и перспективы развития этих технологий.

Чтобы не повторяться, остановлюсь на опыте преподавания дисциплин, связанных с анализом данных в МИЭМ НИУ ВШЭ.

Прежде всего, отмечу, что в МИЭМ в 1968 году впервые в стране был создан факультет Прикладной математики и одноименное направление подготовки.

В это же время на факультете Прикладной математики организуется уникальная кафедра Теории вероятностей и математической статистики.

Открытие кафедры было необычно для инженерного вуза, однако даже в то время было очевидным, что подготовка современного инженера, особенно в таких наукоемких отраслях как радиоэлектронная, аэрокосмическая, авиационная промышленность и многих других невозможна без знаний методов и средств анализа данных.

Поэтому для инженерных направлений подготовки в учебные программы вводились такие курсы, как теория вероятностей, математическая статистика, теория случайных процессов, теория надежности, теория массового обслуживания и др.

Эти базовые дисциплины дают современным инженерам знания, необходимые для анализа промышленных процессов, оценки надежности изделий, планирования производства, контроля качества.

Важно отметить, что теория вероятностей и математическая статистика лежат в основе современных методов анализа и добычи данных. Вероятностная школа, созданная Колмогоровым А. Н. и его учениками, является ведущей в мире, МИЭМ продолжает эту традицию: знания теории вероятностей и математической статистики позволяют создавать новые методы и технологии компьютерного анализа данных, эффективных методов защиты информации, кодирования и т.д.

Исторический экскурс необходим для того, чтобы стало понятно, что к нынешней ситуации, связанной с развитием методов и средств анализа данных, мы были готовы.

МИЭМ, войдя в 2012 году в состав НИУ ВШЭ, вместе с факультетом компьютерных наук стал застрельщиком проекта Data Culture в университете.

Основная цель проекта - формирования знаний и навыков студентов по современным подходам к анализу больших данных, применению к практическим задачам, возникающим в различных областях.

Реализация проекта позволит выпускникам не только естественно-научных и инженерных, но и гуманитарных направлений овладеть навыками современного анализа данных, стать успешными специалистами в эпоху «цифровой экономики».

В.П.: Безусловно важно, чтобы учебные пособия, задействованные в образовательном процессе, отвечали современным мировым требованиям в области анализа данных. Какие учебники и учебные пособия используются в ваших вузах?

А.А.: При проведении учебных занятий на факультете прикладной математики и компьютерных технологий Кубанского государственного университета, во время самостоятельной работы студентов, включая подготовку дипломных и курсовых работ, используются следующие издания:

  • Боровиков В. П., Боровиков И. П. STATISTICA – Статистический анализ и обработка данных в среде Windows. М.: Информационно-издательский дом «Филинь», 1998;
  • Дубров А. М., Мхитарян В. С., Трошин Л. И. Многомерные статистические методы. М.: «Финансы и статистика», 2000;
  • Айвазян С. А., Мхитарян В. С., Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998;
  • Боровиков В. П. STATISTICA: анализа данных на компьютере. Для профессионалов. СПб: Издательский дом «Питер», 2001;
  • Боровиков В. П., Ивченко Г. И. Прогнозирование в системе STATISTICA в среде Windows: учебное пособие. 2-e изд., перераб. и доп. М.: Финансы и статистика, 2006;
  • Под редакцией Боровикова В. П. Нейронные сети STATISTICA Neural Networks. Методология и технологии современного анализа данных: учебное пособие. 2-e изд., перераб. и доп. М.: Горячая линия – Телеком, 2008;
  • Хайкин С. Нейронные сети: полный курс. Изд. 2-е, испр. - М.: Вильямс, 2008;
  • Боровиков В.П. Популярное введение в современный анализ данных в системе STATISTICA: методология и технология современного анализа данных, М.: Горячая линия – Телеком, 2013;
  • Коваленко А. В., Уртенов М. Х., Арутюнян А. С. Математические основы финансово-экономического анализа. Часть 3. Нейросетевые технологии: учебное пособие. Краснодар, КубГТУ, 2015;
  • Коваленко А. В., Уртенов М. Х., Узденов У. А. Математические основы финансово-экономического анализа. Часть 1. Многомерный статистический анализ: учебное пособие. М.:. Academia, 2010.

Лекции по анализу данных читаются с использованием современных мультимедийных технологий, которые позволяют студентам концентрировать внимание не на механическом записывании информации, а на максимальном понимании визуализируемого на слайдах материала.

На лабораторных занятиях и дома студенты непосредственно работают с программой Statistica, используя бумажные и электронные версии учебников и учебных пособий, по которым составлена большая часть лекционного материала:

  • Халафян А. А. STATISTICA 6. Статистический анализ данных: учебное пособие. М.: Бином, 2007;
  • Халафян А. А. Статистические методы медицинских исследований: монография. М.: ЛКИ, URSS, 2008;
  • Халафян А. А. STATISTICA 6. Статистический анализ данных: учебное пособие. 2-e изд., перераб. и доп. М.: Бином, 2009;
  • Халафян А. А. STATISTICA 6. Математическая статистика с элементами теории вероятностей: учебник. М.: Бином, 2010;
  • Халафян А. А. Промышленная статистика. Контроль качества. Анализ процессов. Планирование экспериментов. Книжный дом «Либроком», URSS, 2013;
  • Халафян А. А., Боровиков В. П., Калайдина Г. В. Теория вероятностей, математическая статистика и анализ данных: Основы теории и практика на компьютере. STATISTICA. EXCEL.

Бумажные версии учебников в достаточном количестве есть в библиотеке университета, электронные версии размещены на сайте http://statlab.kubsu.ru.

Анализ данных в программе Statistica изучают и на других факультетах университета – Математики и компьютерных наук, Геологическом, Экономическом, Химии и высоких технологий, Истории социологии и международных отношений, Управления и психологии и др.

Ю.Ю.: На факультете государственного управления МГУ имени Ломоносова М. В. сейчас широко используются для образования в области аналитических технологий программа MS Excel и две программные платформы: Statistica (компании StatSoft Russia) и Deductor отечественной компании BaseGroup Labs.

Для изучения программы Statistica рекомендуются следующие учебники:

  • Петрунин Ю. Ю. Информационные технологии анализа данных. Data Analysis;
  • Боровиков В. П. Популярное введение в современный анализ данных в системе STATISTICA;
  • Боровиков В. П. STATISTICA: искусство анализа данных на компьютере;
  • Халафян А. А., Боровиков В. П., Калайдина Г. В. Теория вероятностей, математическая статистика и анализ данных: Основы теории и практика на компьютере. STATISTICA. EXCEL.

Для работы в среде Deductor на кафедре математических методов и информационных технологий в управлении в настоящее время доцентом В.В. Дудихиным готовится учебное пособие, которое запланировано выпустить в свет до конца текущего года.

На мой взгляд, никакое программное обеспечение не может быть идеальным. Одно лучше подходит для решения одних задач, другое – для других. Поэтому хорошо, что существует известное разнообразие программных продуктов. Это создает и здоровую конкуренцию с пользой для конечного потребителя. Современный специалист должен уметь работать с разными программами.

Но все-таки, на мой взгляд, по совокупности многих показателей программная платформа Statistica сейчас является наиболее подходящей для решения большинства управленческих задач самого разного уровня, включая государственное и муниципальное управление.

Важным моментом является пользовательский интерфейс программы и наличие практически всех известных статистических методов, опыт показывает, что студенты легко осваивают программу и спустя несколько занятий могут выполнять практические задания.

Отмечу также, что среда Statistica дружелюбна к студентам гуманитарных специальностей.

Я могу это утверждать, потому что мне приходилось преподавать Statistica на разных гуманитарных факультетах МГУ: на факультете государственного управления, на факультете телевидения, на философском факультете (специальность «связи с общественностью»), в Высшей школе инновационного бизнеса.

В настоящее время программа Statistica является базовой для всех студентов исторического факультета МГУ (её преподавание обеспечивает кафедра «Историческая информатика», зав. каф. д.и.н., проф., член-корр. РАН Бородкин Л.И.).

Также весьма популярна данная программная среда и на естественных факультетах МГУ – биологическом, почвоведения, географическом.

А.В.: При реализации наших образовательных программ, кроме указанных моими коллегами учебных пособий, мы используем учебники, которые выпущены нашими ведущими учеными и преподавателями, знающими специфику инженерной подготовки:

В.П.: Каждому выпускнику высшего учебного заведения очень важно обладать по окончании обучения именно теми знаниями, которые пригодятся на будущем месте работы. Насколько востребованы те технологии и методы анализа данных, которые преподаются студентам в вашем вузе? Насколько разбираемые примеры на лекциях и семинарах близки к реальным задачам по анализу данных на предприятиях?

А.В.: В НИУ ВШЭ построена система обратной связи о качестве подготовки выпускников и востребованности их компетенций. Элементами такой системы являются: мнение работодателей, мнение выпускников, мнение работодателей - мест практик, мнение членов ГЭК, анализ перспектив рынка труда, анализ трудоустройства выпускников.

Для того чтобы учебные планы образовательных программ были актуальными, отвечали требованиям работодателей, а программы учебных дисциплин учитывали современные тенденции развития технологий, в частности, касающихся анализа данных, мы используем различные каналы получения необходимой информации.

Представители компаний-работодателей входят в состав академического совета образовательной программы. Так в составе академического совета образовательной программы «Прикладная математика» уже несколько лет работает представители компании StatSoft.

Кроме того, в состав ГЭК и ГАК также входят ведущие специалисты компаний-работодателей. Их мнение учитывается в части формируемых компетенций у наших выпускников. Именно по просьбе работодателей: Сбербанка и банка «Открытие» в учебный план магистерской программы «Системы управления и обработки информации в инженерии» была включена дисциплина – «Методы и средства обработки больших данных».

Курс читался ведущим специалистом компании StatSoft – Милковым Максимом Леонидовичем, естественно, на своих занятиях преподаватель, совмещающий преподавательскую деятельность с участием в реальных проектах, использует задачи из практики.

Привлечение к преподаванию ведущих специалистов из IT-компаний вырабатывает у студентов навыки решения реальных задач.

А.А.: Учитывая, что технологии анализа данных, как и прикладная статистика, не привязаны к конкретной предметной среде, студенты факультета получают универсальные знания, необходимые для эффективного использования в различных областях человеческой деятельности – в экономике, торговле, здравоохранении, образовании и т.д.

При изложении методов анализа данных используются данные различного происхождения: из библиотеки Statistica; специально подготовленные для максимальной демонстрации возможностей методов; реальные данные, в том числе и из Интернета.

К сожалению, наблюдается некоторое опережение темпов развития инструментария анализа данных по отношению к пониманию со стороны их обладателей, какую полезную информацию можно извлечь из данных при помощи современных средств обработки и анализа. Не успели понять каким образом, методы многомерного анализа могут выявить закономерности в данных, а уже интенсивно на рынке информационных технологий продвигаются эвристические процедуры в виде нейронных сетей, генетических алгоритмов, эволюционного программирования и др., реализованных в технологиях Data Mining и Big Data.

Огромный штат аналитиков современных организаций занимаются поиском информации в базах данных.

По-видимому, нужно увеличить интенсивность проводимых семинаров, конференций по уменьшению тотальной статистической безграмотности руководящего состава организаций, управленцев среднего звена относительно преимущества решений, основанных на компьютерном анализе данных. Иначе получается, что «яблоки сбивают палками, когда рядом стоит лестница».

Тем не менее, в настоящее время, можно говорить о том, что интерес со стороны научного сообщества, государственных структур, бизнеса, здравоохранения, образования и др. к современным технологиям и методам анализа данных значительно возрос и выпускники вузов, владеющие инструментарием анализа данных, будут все более востребованы потенциальными работодателями.

В.П.: Осуществляется ли взаимодействие со сторонними компаниями, прохождение практики на предприятии?

А.В.: Практика является обязательным элементом наших образовательных программ. Производственная практика студентов образовательной программы «Прикладная математика» проводится по окончании 3-го курса. Практика направлена на решение профессиональных задач научно-исследовательской и проектной деятельности и должна способствовать приобретению опыта применения профессиональных знаний и умений по избранной специализации, ознакомление с организацией и технологией производства, а также позволяет многим студентам определить тему своей будущей выпускной квалификационной работы (ВКР).

Практики проводятся в организациях и на предприятиях, с которыми имеются соответствующие договоры о проведении практик. У департамента прикладной математики МИЭМ НИУ ВШЭ имеется ряд ключевых партнеров, успешное взаимодействие с которыми во многом определяет качество подготовки выпускаемых нами специалистов. Одним из таких ключевых партнеров является компания StatSoft. На протяжении последних лет компания принимает к себе на практику более 20 студентов факультета Прикладная математика.

Для того чтобы попасть в эту группу на практику приходится проводить конкурс, т.к. количество студентов, желающих проходить практику, превышает возможности компании.

Наиболее успешные студенты, прошедшие практику, остаются в компании в качестве стажеров, а некоторые из них по окончании университета становятся сотрудниками компании. Такой подход к организации практики позволяет студентам получить опыт работы в компании, а также закрепить навыки использования пакета Statistica для решения практических задач в различных областях.

Огромное значение для успешного прохождения практики является качественный перевод Statistica на русский язык и поддержка учебными пособиями и книгами, в течение 2-х недель студенты решают реальные практические задачи и пишут аналитический отчет.

А.А.: На факультете регулярно проводятся встречи с работодателями, круглые столы, на которых у студентов есть возможность получить ответы на все интересующие их вопросы относительно как специфики предприятия, условий труда, так и к предъявляемым к ним требованиям, относительно их уровня и объема знаний. После третьего курса студенты проходят практики на этих предприятиях, а в будущем некоторые становятся их сотрудниками. Уже длительное время наши выпускники ежегодно пополняют ряды сотрудников крупнейшей в России компании розничной торговли АО «Тандер» («Магнит»).

В.П.: Анализ данных и статистика – это прикладная наука, в которой теория неотделима от практики. Какое аналитическое программное обеспечение используется в вашем вузе для обучения студентов и почему вы выбираете именно эти программы?

А.А.: Еще с самого раннего этапа развития математики существовало два направления ее развития – прикладное, связанное с необходимостью решения математическими методами задач вне математики и, теоретическое направление, связанное с систематизацией обнаруженных математических фактов. Существование двух указанных направлений математики в итоге дало возможность говорить о прикладной и теоретической (чистой) математике. По-видимому, благодаря египтянам появилась самая древняя азартная игра – игра в кости, которая дала импульс к развитию теории вероятностей и математической статистики изначально носивших сугубо прикладной характер. В гробнице одного из фараонов была обнаружена пара игральных костей, причем одна из них была со смещенным центром тяжести, чтобы изменить частоту выпадения шестерки, т.е. египтяне уже владели знаниями в области математической статистики.

Поэтому статистика изначально, по своему происхождению прикладная наука и практика неотделима от теории. По этой причине занятиям по анализу данных предваряет достаточно большой по объему курс «Теории вероятностей и математической статистики». Что касается обучению прикладной статистике, то она осуществляется в среде пакета Statistica. Выбор именно этого пакета имеет вполне объективные причины: много лет назад занимаясь хоздоговорной научной работой, приходилось писать программы по статистическому анализу данных. Поэтому, когда в Краснодаре появились статистические пакеты, сначала STATGRAFICS, потом Statistica, по достоинству смог оценить их возможности.

Пакет STATGRAFICS был черным ящиком – отсутствовала какая-либо литература, информация, поясняющие принципы работы с ним. С программой Statistica все было иначе – уже была написана прекрасная книга братьев Боровиковых Statistica – Статистический анализ и обработка данных в среде Windows, существовала компания StatSoft Russia, которая активно продвигала программу, плюс к этому несомненные достоинства самого пакета. Поэтому основным аналитическим программным обеспечением по анализу данных в КубГУ является Statistica. Дополнительно студенты работают с программами: Excel, Deductor, Matlab, PolyAnalyst.

А.В.: При реализации бакалаврских программ в МИЭМ НИУ ВШЭ в качестве базового программного обеспечения для решения задач в области статистического анализа данных мы используем пакет Statistica.

Это во многом определяется высокой степенью локализации продукта, а также уровнем методической поддержки программного пакета со стороны компании StatSoft Russia. Немаловажным фактором использования данного программного обеспечения является и многолетняя история успешного сотрудничества МИЭМ с компанией StatSoft Russia.

В рамках магистерской подготовки по направлению Прикладная математика важно познакомить студентов с различными программными средствами анализа данных, показать их сильные и слабые стороны. Поэтому студенты магистратуры используют ряд других статистических прикладных программ, в МИЭМе приоритет традиционно отдается программе Statitstica.

В.П.: Как мы знаем, современные технологии анализа данных с каждым годом стремительно развиваются. Есть ли у вас возможность достаточно быстро реагировать на появляющиеся в мире новейшие разработки в области анализа данных и обновлять учебные программы в соответствии с ними? Вопрос касательно как знаний, методов, технологий, так и ПО.

А.В.: Держать «руку на пульсе» в области современных технологий анализа данных, по моему глубокому убеждению, возможно только в теснейшем взаимодействии с ведущими научными центрами и IT-компаниями как российскими, так и международными. Я уже говорил о нашем опыте сотрудничества с компанией StatSoft по совершенствованию наших образовательных программ. Не менее успешно развиваются связи с академическим сообществом.

В 2013 году в составе департамента прикладной математики МИЭМ НИУ ВШЭ была открыта базовая кафедра «Прикладные информационно-коммуникационные системы и средства» Вычислительного центра им. А.А. Дородницына РАН.

Совместно с учеными ВЦ РАН нам удалось переформатировать магистерскую программу по направлению «Прикладная математика», сделав упор на применение методов суперкомпьютерного моделирования при решении задач анализа данных. 

Проводимые совместно с Научным центром РАН в Черноголовке международные конференции по компьютерному моделированию, в рамках которых традиционно заслушиваются доклады по современным технологиям анализа данных, позволяют не только преподавателям, но и студентам и аспирантам познакомиться с передовым опытом в этой области.

Весьма перспективным представляется и только что начавшееся сотрудничество с ВИНИТИ РАН, где активно используются технологии Data Mining и требуется привлечение молодых исследователей.

А.А.: На этот вопрос с уверенностью можем дать положительный ответ. На факультете прикладной математики и компьютерных технологий Кубанского государственного университета уже более 20 лет ведутся занятия по статистическому анализу данных с применением продуктов StatSoft Inc. (USA). Практически все это время и по настоящий день мы плодотворно сотрудничаем с компанией StatSoft Russia, регулярно обновляя программное обеспечение. Начинали вести занятия по статистическому анализу данных с Statistica 5, потом работали с Statistica 6. В настоящее время используются сетевые версии Statistica 10, доступ к программному обеспечению возможен практически с любого рабочего места в университетской компьютерной сети.

Обновление программного обеспечения сопровождается расширением и углублением знаний в области анализа данных, что влечет усовершенствование как учебных программ, так и содержание курсов. Наше сотрудничество с компанией StatSoft Russia не ограничивается только программными продуктами – В.П. Боровиковым и сотрудниками кафедры прикладной математики написан и, издан учебник по основам теории и практики анализа данных на компьютере в среде программ Statistica и Excel.

Без сомнения, хотелось бы более тесного и многостороннего сотрудничества – участие в совместных проектах, конференциях, прохождение учебных практик студентами, стажировок и повышения квалификации преподавателями в StatSoft Russia. Это стало бы возможным, если бы слова президента, сказанные на Петербургском международном экономическом форуме о государственной поддержке компаниям в сфере цифровых технологий, процитированные Юрием Юрьевичем, восприняло Минобрнауки РФ применительно к образованию. Тогда, быть может, были бы инициированы гранты или другие формы финансирования, которые позволили бы вузам расширить возможности по обучению студентов современным цифровым технологиям. Ведь в компаниях, «которые являются носителями разработок и компетенций в сфере цифровых технологий», работают выпускники вузов, от степени подготовленности которых и зависит эффективность работы компаний!

В.П.: Каковы перспективы на ближайшее будущее? Планируются ли нововведения, усовершенствования текущей системы преподавания анализа данных?

Ю.Ю.: Что ждать в ближайшей перспективе? Решение грандиозных задач, поставленных перед нами развитием современного общества, на мой взгляд, требует объединения ресурсов и потенциалов академического сообщества (вузов, факультетов, кафедр, лабораторий), бизнес-организаций и органов государственной власти. Каждая сторона имеет свои плюсы и минусы. Академическая среда – высокий теоретический потенциал, возможность формировать новые поколения с новыми знаниями, умениями, компетенциями. К её минусам можно отнести определенный консерватизм, иногда даже бюрократизм, отдаленность от реальных сиюминутных задач. Бизнес в качестве плюсов имеет ресурсы, опыт решения практических задач, конкурентоспособность, умение быстро осваивать новое. К минусам можно, наверное, отнести осторожность при решении долговременных стратегических задач, ориентацию на быстрый успех.

Плюсы государства – огромные ресурсы, систематичность, высокий организационный потенциал. Минусы – медлительность, бюрократизм. Думается, что надо объединять плюсы разных сторон, а минусы блокировать. Например, мне представляется перспективным на базе союза академических организаций и бизнеса создавать Центры прорывных инновационных технологий в области анализа данных, когнитивного анализа больших данных и т.п. для решения задач, поставленных и поддерживаемых государством.

Получается, что мы можем одновременно решать важнейшие государственные задачи (1); обучать для них кадры еще в вузе (2), причем кадры как для государства, так и для бизнеса; поднимать не только уровень образования, но и прикладную науку в вузах (3); создавать область социального ответственного сотрудничества между бизнесом и государством (4).

К слову сказать, ректор МГУ Виктор Антонович Садовничий уже не раз заявлял, что поддержит любые начинания по созданию подобных Центров (лабораторий) в университете. Не пора ли уже переходить от слов к делам? В известной степени это зависит от нас всех. В этой связи хочу поблагодарить компанию Statsoft Russia и лично Владимира Павловича Боровикова за предоставленную возможность высказаться и за те усилия, которые он предпринимает для воплощения нашей общей мечты: сделать Россию сильнее, конкурентоспособней, цивилизованней, гуманней.

А.В.: В нашем университете, как я уже говорил, развивается проект Data Culture. В рамках этого проекта весьма перспективным представляется использование технологий анализа данных в междисциплинарных направлениях. В качестве примера можно привести область Digital Humanities – цифровых гуманитарных исследований.

Для МИЭМ очень важным направлением применения и развития методов анализа данных является компьютерная безопасность. Поэтому в рамках образовательной программы «Компьютерная безопасность» планируется реализация дисциплин, связанных с продвинутыми методами анализа данных и машинного обучения и программированием на Python.

А.А.: Перспективы подготовки специалистов по анализу данных взаимосвязаны с потребностью в них. Объемы больших данных, содержащих скрытую информацию в виде определенных взаимосвязей между показателями, характеризующими объекты совершенно произвольной природы, удваиваются каждые 1,2 года. Более 200 лет назад Натан Ротшильд, сказал: «кто владеет информацией, тот владеет миром». В наше время, не менее актуальной была бы фраза – «кто умеет анализировать информацию, тот владеет миром». Поэтому то, что технологии анализа данных будут развиваться, становясь все более востребованными – есть объективная реальность.

Будет расти количество руководителей различного уровня, оценивших эффективность систем поддержки принятия решений, основанных на компьютерных технологиях анализа данных. Аналитики на предприятиях станут заниматься своим делом – анализом данных с применением современного инструментария. Повысится общий уровень статистической культуры, уменьшится количество апеллирований бессмысленными понятиями типа «средней зарплаты» по стране, или региону.

Стараясь «идти в ногу со временем», т.е., соответствовать современным тенденциям, в ближайшей перспективе дополнительно к читаемым дисциплинам – Многомерный анализ данных, Прикладные задачи математической статистики, Статистическое моделирование сложных систем, планируем подготовить новый курс по Data Mining. Пока проблематичным является подготовка специалистов по Big Data из-за высокой стоимости для вуза, как программного обеспечения, таки и аппаратного, тем не менее, будем осваивать и эту методологию.

Для того, чтобы обучение было более предметным, студенты факультета привлекаются к выполнению научно-исследовательских работ как с вузами – длительное время сотрудничаем с Кубанским медицинским университетом, так и с другими факультетами университета, например, химии и высоких технологий; истории, социологии и международных отношений; экономическим и т.д. Так по тематике государственного задания «Проблемы и аналитические решения анализа материалов растительного и синтетического происхождения» кафедры аналитической химии, студенты участвовали не только в анализе данных, но и в разработке приложений для автоматизации оценки качества вин Кубанского происхождения, которые стали лауреатами различных международных салонов изобретений и инноваций (Москва, Тур (Франция)).

С учетом растущих запросов со стороны потенциальных работодателей, и с целью сделать преподавание дисциплин по анализу данных еще более наглядным университет заключил договора с ведущими клиниками края по анализу и обработке медицинских данных, обсуждаются возможные варианты сотрудничества с АО «Тандер» и другими организациями. При реализации указанных проектов станет возможной еще большее привлечение студентов к решению прикладных задач с последующим написанием ими квалификационных работ, содержащих современные методы анализ реальных данных и, имеющих практическое значение.

Если говорить вообще о перспективах вузов на ближайшее будущее, то хотелось бы коснуться проблемы тотального старения кафедр. По-видимому, важными являются следующие аспекты этой проблемы:
– после обучения в магистратуре и при этом, работая и получая «приличную» относительно преподавательской зарплату, у студентов после 6 лет учебы (4 года бакалавриата и 2 года магистратуры) снижается мотивация к продолжению обучения в аспирантуре;
– резкое сокращение количества советов по защите диссертаций и постоянное увеличение требований ВАК к представляемым к защите диссертациям, также не способствуют стремлению молодежи к продолжению образования с последующей защитой диссертации.

Если эти тенденции сохранятся, то через небольшой отрезок времени вузовские дисциплины, в том числе и по анализу данных будут вести старцы «постпенсионного» возраста.

В.П.: Алексан Альбертович, Вы написали много книг, особенно интересны промышленные приложения, расскажите, пожалуйста, о них.

А.А.: Факторами, которые подтолкнули меня к написанию книг – это студенты и сама программа Statistica. Поясню. Не все студенты одинаково хорошо записывают лекцию, одновременно понимая ее содержание. Будучи студентом, я относился к той категории, которые хорошо делают что-то одно. Поэтому, чтобы избавить студентов от рутинного механического записывания материала, по всем лекционным курсам были написаны и, изданы учебные пособия, в том числе и первая книга по статистическому анализу, вышедшая в Биноме. Книги легли в основу мультимедийных курсов.

Учебное пособие по разделам модуля «Промышленная статистика» было уже издано издательской группой URSS. Название книги не имеет отношения к промышленной статистике в буквальном понимании – оно позаимствовано от названия модуля пакета – Industrial statistics.

К сожалению, на момент написания книги в Краснодаре не осталось промышленных предприятий, поэтому желая изложение карт контроля качества, анализа процессов, планирования экспериментов сделать предметным, и учитывая длительное сотрудничество с медицинским научным сообществом, все примеры были построены применительно к здравоохранению.

Это и контроль качества воды и состояния здоровья людей; стерилизация медицинских инструментов; лазерная техника; производство изделий медицинского назначения (стентов) и т.д. Поэтому если говорить о промышленных приложениях, то в рамках здравоохранения.

Учебные пособия старался писать таким образом, чтобы они дополняли материал, изложенный в большом количестве Ваших книг. Если Вы Владимир Павлович описывали технологию анализа данных как специалист и ученый, то мною преподносился материал с позиций преподавателя вуза, возможно, с излишней детализацией в описании модулей программы и интерпретации результатов.

В.П.: Коллеги, очень интересны проекты прогнозирования водопотребления, энергопотребления, в масштабе города, предприятия... Современный промышленный Интернет вещей — это, по сути, система АСУТП, объединенная в классическую компьютерную IP-сеть с проводной и беспроводной системами датчиков, передающих данные от одного устройства к другому, создавая интенсивные потоки данных.

Именно в направлении анализа потоков данных (streaming analytics) развивается современная компьютерная аналитика, см. статью.

Расскажу об известном проекте, связанном с мониторингом, анализом и прогнозированием городского электропотребления. В течение двух лет проводился мониторинг, во время которого данные снимались через каждые полчаса. Уже эти данные можно рассматривать как Big Data.

Здесь мы видим соединение классических статистических методов и технологий Big Data.

Мне кажется, студенты всех вузов России должны освоить технологии анализа данных и машинного обучения, тогда они будут востребованы экономикой и принесут реальную пользу стране и обществу.

Мы рады делиться нашим опытом и знаниями и открываем программу повышения квалификации для преподавателей вузов в области анализа и добычи данных, технологий Big Data.

Большое спасибо всем участникам круглого стола, давайте дождемся откликов на наши выступления со стороны коллег и научного сообщества.

Вопросы участникам круглого стола, комментарии и предложения Вы можете направить по адресу: news@statsoft.ru


Взаимодействие
‹‹
››
ПнВтСрЧтПтСбВс


Полезные ссылки

info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.3 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2017

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта