Интервью технического директора StatSoft Russia о преимуществах внедрения корпоративных решений

Интервью технического директора StatSoft Russia Милкова Максима, посвященное актуальности внедрения корпоративных решений для автоматизации проведения анализа данных в масштабах предприятия.

Максим, скажите, почему внедрение корпоративных систем набирает в последнее время все большую популярность?

Действительно, на сегодняшний день большинство динамично развивающихся компаний активно внедряют корпоративные автоматизированные системы. Это обусловлено целым рядом преимуществ: оптимизация бизнес-процессов, увеличение эффективности компании, повышение внутренней управляемости.

Особенно актуально проведение корпоративной работы в области анализа данных. Представьте, Вы работаете с большим объемом информации. Вы можете полностью автоматизировать процесс загрузки данных из БД, проводить автоматический мониторинг данных в режиме реального времени, автоматизировать аналитическую работу и получение отчетов, разграничить доступ к данным.

Как продукты StatSoft позволяют оптимизировать проведение анализа данных?

Часто пользователи STATISTICA работают с настольной версией системы – desktop – запускают программу, анализируют некие данные, составляют отчеты, то есть выполняют индивидуальную аналитическую работу. Однако если речь идет о работе именно в масштабе предприятия, где необходима совместная работа с данными, мониторинг, регулярное составление отчетов, то внедрение корпоративной системы просто необходимо. Продукт STATISTICA Enterprise содержит те же аналитические методы, что и desktop продукты, но базируются они на корпоративной платформе.

Корпоративная платформа STATISTICA Enterprise - это:

Во-первых, многопользовательская система
В системе имеются пользователи и у каждого из них своя роль: статистик, аналитик, администратор базы данных, менеджер и т.д. У каждого пользователя имеются свои права доступа, присваиваемые каждому объекту внутри системы, то есть имеется система безопасности. 

Кроме того корпоративная система позволяет сделать работу аналитика совместной, организовать обмен знаниями: один человек настроил анализ, другой – настроил отчет. Все пользователи, имеющие права доступа к этому объекту, могут его использовать, тем самым достигается обмен знаниями.

Во-вторых, единая система для всего предприятия
В предприятии может быть много структур (отдел аналитики, отдел по работе с клиентами, IT-отдел, финансовый отдел и др.), в каждой структуре могут быть свои базы данных. В разных компаниях базы данных могут организовываться по-разному. Для того чтобы система была корпоративной, все отделы должны организоваться в едином месте. Для этого STATISTICA Enterprise предлагает собственное хранилище, в котором можно централизованно объединить разнообразные области деятельности компании. 

Программа предоставляет возможность гибкой настройки под специфику конкретного отдела компании.
При этом расширяемость системы STATISTICA Enterprise состоит в том, что при добавлении нового отдела в систему легко можно добавить список тех задач, которые с ним связаны.

В-третьих, автоматизация
Рутинные операции различных отделов компании, например, квартальные отчеты, можно автоматизировать и перевести их выполнение на сервера.

Иногда клиенты думают, что внедрение корпоративной системы STATISTICA Enterprise будет сложным и трудоемким процессом, однако это совсем не так. Пользователи, уже знакомые с системой, часто выделяют как преимущества следующие свойства системы:

  • Как и desktop продукты STATISTICA, корпоративная система STATISTICA Enterprise имеет дружественный интерфейс.
  • Если Вы занимаетесь большими проектами и внедряете систему на предприятие, важным достоинством является интегрируемость практически со всеми широко используемыми базами данных.
  • STATISTICA Enterprise легко внедрять.
  • В STATISTICA Enterprise есть API-интерфейс, что позволяет всем функциям системы быть доступными программно. Можно практически бесшовно интегрировать систему в среду заказчика на любом уровне.
  • Относительно низкая и предсказуемая стоимость владения системой.

Продукт STATISTICA Enterprise уже широко внедряется в американских и европейских компаниях, но в последнее время интерес к системе значительно возрос и на российском рынке. Чем Вы объясняете такое запаздывание в применении многопользовательских аналитических систем в России?

Это объясняется тем, что исторически на российских предприятиях уровень конкуренции в большинстве отраслей заметно ниже, чем, скажем, в Европе или США. Наиболее сильной составляющей конкуренции является инновационное развитие и сейчас российские предприятия встали на путь этого развития, по примеру успешных компаний современной экономики.

Очевидно, что для этого необходимы соответствующие инструменты — качественные системы управления и владеющий ими персонал, позволяющий грамотно разрабатывать и достигать крупных и опережающих целей развития.

Анализ данных всегда подразумевает работу с базами данных, хранилищами данных. Каким образом в STATISTICA Enterprise организован доступ к данным?

STATISTICA Enterprise позволяет в своем хранилище собирать и хранить данные. Например, сотрудник отдела качества измеряет диаметр подшипника и посредствам графического интерфейса передает полученную информацию в хранилище данных. Причем бывают приборы, у которых имеются цифровые интерфейсы и данные перекачиваются непосредственно с прибора в базу. Имеются специализированные сертифицированные интерфейсы, которыми данные можно перекачивать в систему. 

Анализ данных начинается с данных. Когда данные уже имеются в системе и с ними хочется поработать, важным этапом является предварительная обработка – фильтрация. То есть пользователь хочет задать некоторые условия на имеющиеся в базе данные. Система позволяет в довольно простом интерфейсе проводить фильтрацию. Она может быть вшита в запрос к данным, либо может быть интерактивной: при каждом запуске анализа открывается диалоговое окно, в котором пользователь может задать фильтр данных. 

В большинстве компаний имеются собственные базы данных и нет необходимости использовать хранилище STATISTICA Enterprise. Данные хранятся в локальных базах данных (SQL Server, Oracle), а система делает запросы к этим базам и данные собираются в STATISTICA Enterprise.

STATISTICA Enterprise может проводить обработку данных в режиме реального времени: появились новые данные, они подкачиваются, анализ пересчитывается и выдается, например, отчет. STATISTICA Enterprise помогает автоматизировать по шагам различные рутинные операции: сбор данных, обработку, составление аналитических отчетов. 

Так как STATISTICA Enterprise – корпоративная система, то чаще всего ей приходится иметь дело с корпоративными источниками данных.

С какими корпоративными источниками данных Вам чаще всего приходится встречаться при работе в STATISTICA Enterprise?

Enterprise Resource Planning (ERP)
Существует целый сегмент компаний, в которых внедрена ERP система, такие как продукты компаний SAP, Microsoft, 1С и т.д. В ERP системах содержится огромное количество информации, позволяющей вести и планировать корпоративные бизнес-процессы. ERP система является богатым источником информации для аналитики.

Любые реляционные СУБД, поддерживающие OLE DB/ODBC
Обычно имеются различные СУБД, установленные на серверах – Oracle, Microsoft SQL Server, Access и т.д., поддерживающие интерфейс OLE DB/ODBC (стандартный интерфейс, позволяющий делать запросы на SQL-языке к этим базам данных). Со всеми этими базами легко работать в STATISTICA Enterprise.

Плоские файлы
Часто в больших компаниях данные хранятся в плоских файлах – Excel, текстовый файл, CSV, логи серверов и т.д.

Иерархические кубы процессов
Понятие кубов чаще всего относится к слову OLAP (online analytical processing – аналитическая обработка данных в режиме реального времени). На самом деле это большое многомерное агрегирование, позволяющее увидеть данные в разных разрезах. 

Технический процесс на предприятии представляет собой несколько стадий/этапов, поэтому обычно используются не просто кубы, а кубы процессов. Кубы процессов добавляют еще одно измерение, благодаря которому видно, как кубы изменяются от этапа к этапу – в процессе производства.

Laboratory Information Management Systems (LIMS)
LIMS – это системы, которые ставят на центральных лабораториях. Например, имеется завод, который непрерывно производит фармацевтические препараты, либо другой непрерывный или циклический процесс. Система собирает информацию обо всех операциях, которые происходят в лаборатории: берутся пробы, проводятся анализы – такие данные хранятся в LIMS.

Manufacturing Execution Systems (MES)
MES – это промышленное хранилище данных, чаще всего на уровне цеха. В нем может храниться информация о производственных мощностях, параметрах производственного процесса, связанно с АСУ ТП.

Репозитории исторических данных
Такие источники данных связаны с производством, например, одним из таких источников является OSI PI (Plant Information – информация о заводе). Такая база хранит не конкретные реализации какой-либо величины в течение времени (временные ряды), а в ней хранятся только события, когда что-то изменилось. На производстве все процессы должны быть стабильными, поэтому в PI хранится только информация о том, что в конкретный момент времени величина изменилась. 

При выгрузке из PI идет обратная интерполяция – по событиям восстанавливается временной ряд. В результате база хранит огромные массивы данных в сжатом формате.

То есть в STATISTICA уже встроены инструменты, позволяющие получать информацию из корпоративных источников?

Что касается работы с OSI PI, система STATISTICA имеет встроенный PI Connector, позволяющий забирать данные напрямую из PI. Однако с учетом отдельного лицензирования PI Коннектора, многие компании используют data mart (витрина данных): внутри хранилища данных создается программная процедура, которая формирует выборку и записывает ее в плоскую таблицу, например, на SQL Server, а с него данные стандартными инструментами импортируются в систему STATISTICA для последующего анализа.

Таким образом, осуществляется срез данных, в том виде, в котором он удобен для дальнейшего изучения. Процесс периодически запускается, анализируемые данные обновляются.

Дополнительно, в STATISTICA имеется модуль ETL (Extract, Transform, and Load – Извлечение, Преобразование и Загрузка) – достаточно распространенная на сегодняшний день технология. Она заключается в том, что когда на предприятии есть много разрозненных баз данных – каждая имеет собственный формат – например, имеются наблюдения за каждый час, за каждую секунду, неделю. При этом отдельная база не имеет полной информации, то есть нельзя использовать только одну из имеющихся баз данных. ETL позволяет получать информацию из всех этих баз и проводить нормализацию данных для загрузки в STATISTICA, аналогично data mart. 

При использовании модуля ETL проводится извлечение из нескольких разрозненных баз данных, преобразование к нормальному виду и загрузка в систему STATISTICA. Модуль ETL лицензируется отдельно от системы STATISTICA.

Существует также технология IDP (In-Place Database Processingобработка данных на месте), чаще всего используемая в Data Mining – когда база данных имеет немыслимые размеры. При работе в версии desktop идет запрос к базе данных, выгрузка и обработка. В случае работы с базами огромного объема, на жестком диске не хватает места, а STATISTICA будет ожидать, пока все данные подгрузятся и только потом начинает их обработку.

Идея IDP состоит в том, что с помощью технологии cursor данные выгружаются маленькими кусочками. Выгруженные кусочки идут на клиентскую станцию, обрабатываются и удаляются. Таким образом, имеется возможность прогнозировать огромные объемы данных и проводить анализы в процессе выгрузки, что приводит к выигрышу по времени. 

Технология IDP относится к Data Mining, то есть входит в пакет STATISTICA Data Miner, также ее можно приобрести отдельно. Имеется возможность настроить работу с корпоративной системой так, чтобы в окне браузера открывалась форма для ввода, и пользователь мог бы вводить данные через Web-интерфейс.

Расскажите, какие еще корпоративные продукты существуют, помимо STATISTICA Enterprise?

STATISTICA Document Management Server (SDMS)
STATISTICA Document Management Server (SDMS) – система менеджмента документов – позволяет проводить контроль версий всех объектов STATISTICA Enterprise. Сервер хранит все ревизии объектов и всегда можно откатить версию назад. Это позволяет хранить некую резервную копию объекта.
Все отчеты также можно организовать с помощью системы SDMS

При работе на предприятии всегда хочется иметь некий контроль, аудит – все операции с документами STATISTICA Enterprise заносятся в журнал для дальнейшего просмотра и изучения.

Monitoring and Alerting Server (MAS)
Monitoring and Alerting Server – Сервер мониторинга и предупреждений – предоставляет пользователям средства для централизованного автоматизированного мониторинга различных процессов и параметров продуктов.

В корпоративной системе STATISTICA Enterprise пользователь видит дерево объектов, может выбрать анализ и запустить его. Когда таких объектов сотни и тысячи, хочется, чтобы запуск объекта анализа производила машина.

Запуск объекта может производиться сервером MAS – сервером, на котором выполняются приложения в виде объектов анализов.
Можно сделать так, что множество объектов анализа в режиме реального времени будут выполняться на сервере. 

Например, работа происходит на производстве и строится большое количество карт Шухарта. Если произошло какое-то событие, и точка вышла за границу – возникает тревога, и необходимо предпринять немедленные действия во избежание брака.

Инженер, наблюдающий за картой в STATISTICA Enterprise, долженфиксировать появления такого рода тревог самостоятельно. Однако если имеется MAS, то карта Шухарта может быть направленна на MAS. Сервер сам запускает и непрерывно обновляет карту. Если произошла тревога, он создает событие и обрабатывает его – например, отсылает e-mail на почту. Таким образом, MAS сам информирует сотрудников при разладке технологического процесса. MAS визуально показывает состояние каждого объекта анализа. Сотрудник видит не всю карту, а только срезы состояния объектов анализов – упрощение работы.

Инженер заходит в интерфейс, где видит семафоры: если возникает какая-либо тревога, то MAS показывает красный сегмент. Можно нажать на семафор, тогда запустится сама карта для подробного анализа ситуации. 

MAS значительно упрощает работу инженера, так как следить приходится только за «моментальными срезами» системы.

STATISTICA Server
При работе с системой STATISTICA можно использовать технологию клиент-сервер. Для этого выделяется «хорошая» машина, выступающая в роли сервера, на которую устанавливается STATISTICA Server.

Например, при работе на клиентской машине был составлен большой проект Data Mining, который может выполняться несколько суток, если машина «слабая». При наличии STATISTICA Server, все вычисления могут производиться на сервере. После выполнения подсчетов сервер вернет все результаты на клиентскую машину для их последующего анализа.

STATISTICA Server может предоставлять доступ к приложению через web-интерфейс – пользователь может увидеть desktop версию STATISTICA из любой точки мира через браузер и удаленно проводить анализ данных.


STATISTICA Server также можно использовать как сервер приложений: создать объект анализа и вынести в веб. В отличие от MAS, который следит за тревогами, этот сервер только выполняет задачи по расписанию.
Сервер приложений STATISTICA Server может выполнять пакетный анализ и генерировать отчеты.

STATISTICA Live Score (SLS)
STATISTICA Live Score (SLS) – продукт, объединяющий практически все возможности системы STATISTICA.

Скор – задача оценивания. Например, в банке проводится оценка – можно ли дать человеку кредит или нельзя.
Имеется несколько серверов, часть из которых занимается хранением данных, часть – обработкой моделей. Отдельно ставится STATISTICA Server, который занимается вычислениями. Через web-интерфейс подключается клиент, проводящий скор.

Еще более продвинутым продуктом является STATISTICA Decisioning Platform – система, помогающая принимать какие-либо решения. В этой системе можно добавить узлы, которые организуют логические ветвления, туда заносятся правила, прописывается логика, что позволяет принимать решения.

В каких компаниях особенно актуально внедрение STATISTICA Enterprise? Не могли бы Вы привести несколько реальных примеров?

Аналитика социальных сред. Имеются различные источники информации, где люди могут высказывать свои мнения: Twitter, Facebook, ВКонтакте и другие. Это хорошие источники данных для анализа. Можно проводить анализ мнений о компании, которая, например, занимается авиаперевозками. В этом случае происходит выгрузка данных из социальных сетей, и информация обрабатывается с помощью технологии Text Mining – ответы классифицируются на положительный, негативный или нейтральный. Таким образом, можно проводить анализ социальных настроений.

Анализ гарантий – Warranty. Например, компания производит запчасти и они используются в разных марках автомобилей, для примера: Ford, Chrysler, Mazda и др. Когда происходят поломки – клиенты приезжают в сервисные центры, при этом регистрируются записи о поломках с подробным описанием того, что случилось. В случае гарантийного ремонта фиксируется цена на ремонт. Если деталь получилась плохой и часто ломается – компания тратит много денег на то, чтобы делать ремонт. Хочется посмотреть, как и какие факторы на это влияют.

В STATISTICA Enterprise можно проводить такую аналитику, делать сравнения, формировать годовые отчеты. Также здесь используется Text Miner для получения дополнительных выводов из неструктурированного описания дефекта.

Фармацевтика. Process Analytic Technology (PAT). Сюда входит MSPC (многомерный статистический контроль процессов). Карты Шухарта анализируют те процессы, которые должны быть стабильными во времени – необходимо придерживаться некого уровня. В рассматриваемом случае процессы чаще всего непрерывные и циклические. Карта MSPC создана как аналог карт Шухарта, только здесь учитывается много факторов, и процессы могут быть стабильными в рамках определенного цикла, либо стабильными при условии какого-либо влияния внешних факторов. В этом случае строится коридор, выход за границы которого говорит о выходе процесса из под контроля. В таких анализах используются модули PLS (Partial Least Squares) и PCA (Principal Components Analysis). В версии STATISTICA Advanced имеется модуль NIPALS, но он сильно ограничен. Для промышленности используется модуль MSPC, поставляемый отдельно.

Кредитный скоринг. Обычно применяется в банках и страховых компаниях. Классический пример: человек приходит в банк и хочет взять кредит, для этого он заполняет анкету. После этого полученные ответы вбиваются в систему, по каждому ответу в системе выставляются баллы. Балы суммируются, получается общий скор, общая оценка. Если полученная сумма меньше некоторого уровня – то кредит не выдают, иначе – выдают. По скору аналитики проводят классификацию – да, нет. На основании ответов строится логит-регрессия для классификации. Проводимый анализ основывается на технологии Data Mining.

Automated Fraud Detection – обнаружение мошенничества. Данная задача также относится к скору. Клиент приходит в банк и, например, хочет взять кредитную карточку – уже на этом этапе можно провести оценку: не хочет ли клиент заранее не вернуть долг. Аналогичный анализ можно провести для страховщиков: пришла заявка, что машина сгорела, но, возможно, клиент сам ее сжёг. Пример мошенничества в телекоммуникациях – использование чужих номеров.

Поставщики, розничная торговля. Анализ заключается не только в построении прогноза спроса, но и в некоторой оптимизации цены. На рынке присутствует много конкурентов – цена должна быть ни ниже, ни выше этих конкурентов. Цена влияет на спрос. При решении этой задачи аналитики выводят функцию – как спрос зависит от цены в условиях конкуренции. Эту функцию вычисляют и проводят оптимизацию.

Телекоммуникации. Прогнозирование количества коннектов и дизконнектов к сети, сервисам.

Автоматическое создание моделей и их внедрение. Для решения задачи совместно используются продукты STATISTICA Data Miner и STATISTICA Enterprise. Проект Data Miner в виде сети узлов записывается в STATISTICA Enterprise, там он обновляется на новых данных, эта модель внедряется в производство и осуществляется контроль полученной модели. С помощью MAS сервера сравниваются предсказанные значения с фактическими, строится разница между этими значениями. Если модель плохо работает и остатки становятся большими, возникает тревога на карте Шухарта и MAS выдает соответствующее сообщение. В таком случае модель либо обновляют, либо перестраивают.

Скажите, каким образом можно посмотреть STATISTICA Enterprise, чтобы убедиться в том, что она действительно покрывает все потребности организации?

Мы очень часто проводим бесплатные демонстрации корпоративных решений STATISTICA. В связи с тем, что спрос на решения растет, в ближайшее время мы планируем запустить цикл бесплатных вебинаров, где все желающие смогут увидеть, каким образом происходит работа в корпоративной среде, как происходит автоматизация решения задач. 

Кстати, прием заявок на организацию выездной презентации или вебинара по корпоративным решениям уже открыт. Кроме того, вы всегда можете посетить наш офис, заранее договорившись о времени встречи с нашими специалистами.



Актуально: Курс от экспертов StatSoft "Корпоративные аналитические решения" 

Big Data: как извлечь необходимую информацию?


Главные новости
Другие интервью
Другие новости STATISTICA Enterprise

‹‹
››
ПнВтСрЧтПтСбВс


info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.2 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia, 2017

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта