Решение задач телекоммуникации - стандартная область приложения аналитических методов. Именно с зарождением телефонии (начало прошлого века) связано развитие многих теоретико-вероятностных методов (теории массового обслуживания, надежности, случайных процессов специального вида).
Заметим, что нагрузка в сети и в настоящее время измеряется в эрлангах, что связано с именем шведского ученого (Эрланг), занимавшегося телефонией в 30-х годах прошлого века.
Отличие подхода StatSoft состоит в том, что мы исходим из реальных данных и самых общих статистических моделей, не делая никаких предположений о видах распределения, свойствах потоков и т.д.
Применение STATISTICA позволяет синтезировать системный поход и новейшие технологии (включая Data Mining, нейронные сети) с классическими методами анализа (многомерные разведочные методы, углубленные методы анализа). Преимущества STATISTICA
Вот лишь некоторые возможные способы применения программных продуктов серии STATISTICA в области телекоммуникаций:
-
Прогнозирование трафика сети по районам, городам, регионам и т.д.
-
Оценивание и прогнозирование нагрузки сети, планирование расходов на увеличение мощности оборудования в сети
-
Сегментация и классификация клиентов
-
Контроль качества и выявление несанкционированного доступа
- Планирование промо-акций
-
Выбор места строительства станции
- и др.
Подробнее о задачах телекоммуникации
Задача классификации
Первоначально мы имеем дело с очень большим числом абонентов, если учесть, что эти абоненты связываются друг с другом, то количество данных растет экспоненциально.
Идея сегментации состоит в том, чтобы иметь дело не со всеми абонентами (количество которых N исчисляется сотнями тысяч), а иметь дело с классами (группами) абонентов. Разбиение данных на классы близких между собой объектов носит название классификации.
В маркетинге сложилась устойчивая классификация клиентов (RFM – классификация), позволяющая воздействовать на клиентов и управлять ими (CRM – менеджмент). В телекоммуникации одним из стандартных параметров является частота подключения (Frequency), длительность разговора (Time), используемый тариф, деньги и некоторые другие. Важна такая разумная классификация, которая позволяет управлять абонентами (аналогично классификации RFM и CRM-менеджменту в маркетинге).
Заметим, что частоту или интенсивность можно разбить на интервалы в зависимости от времени суток (утро, день, вечер, ночь), т.е. продолжить классификацию, учитывая дополнительные факторы. Признак Frequency позволяет естественно разбить абоненты на группы в зависимости от частоты звонков.
Следует различать ситуацию, когда мы произвольно назначаем интервал частоты и длительности и относим абонента, чья усредненная частота попала в этот интервал, к классу Часто, или находим эти интервалы длительности (Долго) исходя из данных.
Если интервалы находятся исходя из данных, то стандартной процедурой является кластерный анализ (метод k-средних). Предварительно выполняется процедура иерархической кластеризации (чтобы определить число кластеров). Тонкость – выбор метрики. Интервалы классификации могут быть также найдены методами описательной статистики и графического анализа данных (грубые оценки).
Отметим дополнительные факторы, влияющие на классификацию: выбор интервала усреднения (неделя, 2 недели, месяц), который также следует определить исходя из данных.
Очевидно, состав групп меняется с течением времени (например, в течение месяца): абонент из группы часто может перейти в группу иногда, иногда в группу редко и т.д. Аналогичным образом строится классификация по переменной Time (усредненные длительности разговоров).
Используются также Деревья классификации и Обобщенные деревья классификации, но классификация разумна только тогда, когда ее можно использовать, в этом случае переменная (Money) является зависимой. Исследование зависимости проводится в модуле Generalized Linear/Nonlinear Models.
Более мощными процедурами являются методы добычи данных, позволяющие совместить процедуры классификации и построения зависимостей. Здесь имеется блок процедур: Goodness of Fit, Feature Selection and Variable Screening, Classification, Prediction, Combining Groups (Classes) for Predictive Data Mining и др.
Более подробную информацию можно получить у экспертов StatSoft.
Выборочный анализ
Задача выборочного анализа очень проста и состоит в следующем: как построить выборку, не анализируя весь объем данных, чтобы построенные выборочные оценки оказались достаточно точными и выводы, сделанные на основе выборки можно распространить на все данные.
Если количество звонков абонентов измеряется миллионами, то каков должен быть объем выборки (1000, 10 000) и как конкретно построить эту выборку извлекая разумным образом данные из хранилища данных.
Анализ мощности (Power Analysis) частично решает эту проблему, именно, позволяет рассчитать необходимый объем выборки, например, для оценок среднего, частот, различных тестов. Различные графики оценки точности в зависимости от объема выборки, расчет ошибок также доступны в этом модуле.
В задаче классификации звонков требуется получить приемлемые оценки частот звонков и далее классифицировать абонентов в группы: Редко, Иногда, Часто, Очень часто. Итак, сколько нужно выбрать абонентов, чтобы получить приемлемые оценки и выборочную классификацию распространить на всех абонентов? Эта задача решается специальными методами.
Оценка нагрузки сети
Трафик нагрузки, измеряемый в эрлангах, меняется в зависимости от времени суток, дня недели, праздничных и предпраздничных дней. Важно уметь оценивать и прогнозировать пики нагрузки, зависимость пиков от тарифа (категориальный фактор) и т.д.
Сезонная составляющая отчетливо проявляется в трафике и легко оценивается стандартной процедурой декомпозиции в модуле Анализ и прогнозирование временных рядов (см. процедуру Сезонная декомпозиция).
Для подгонки кривой и оценки пиков нагрузки можно использовать следующие методы:
-
нелинейное оценивание
-
обобщенные линейные и нелинейные модели позволяющие учесть влияние категориальных факторов
-
нейронные сети
Кроме того, в рамках отраслевого решения STATISTICA может быть надстроена для получения системы, заточенной на решение задач Заказчика. Система автоматизирует и расширяет возможности STATISTICA. Перейти к разделу Отраслевые решения
STATISTICA - полностью на русском языке!
Наиболее эффективно для решения задач телекоммуникации применяются методы Data Mining:
Продукт STATISTICA Data Miner содержит наиболее полный набор методов Data Mining на рынке программного обеспечения, в удобном пользовательском интерфейсе позволяет исследовать большие массивы информации и выявлять в них скрытые правила и закономерности (продукт также содержит все возможности STATISTICA Advanced, STATISTICA Automated Neural Networks).
Продукт STATISTICA Automated Neural Networks - мощный продукт для нейросетевых исследований, позволяющий эффективно решить задачи прогнозирования, классификации, кластеризации, построения регрессионных моделей.
Для решения задач телекоммуникации могут также использоваться и классические методы анализа данных, реализованные в следующих продуктах:
Продукт STATISTICA Base - широкий набор основных статистик, позволяет применять основные статистические критерии и методы визуального анализа:
-
Графические инструменты (различные 2-х мерные графики: гистограммы, диаграммы рассеяния, графики ящики-усы, графики средних с ошибками, линейные графики и др.; 3-х мерных графики; различные категоризованные графики и др.)
-
Основные статистики и таблицы (описательные статистики, корреляции, t-критерии, однофакторный дисперсионный анализ, таблицы частот, таблицы сопряженности, включая критерии хи-квадрат Пирсона и многое другое)
-
Непараметрическая статистика (критерии Манна-Уитни, Колмогорова-Смирнова и др.)
-
Множественная регрессия
-
Дисперсионный анализ (ANOVA/MANOVA)
-
Подгонка распределений и др.
Продукт STATISTICA Advanced (включает STATISTICA Base) содержит расширенные методы анализа данных:
-
Углубленные линейные/нелинейные модели: линейные и нелинейные модели, множественная нелинейная регрессия, нелинейное оценивание, временные ряды и прогнозирование, компоненты дисперсии и смешанная модель ANOVA/ANCOVA, логлинейный анализ таблиц частот и др.
-
Многомерные методы: кластерный, факторный, дискриминантный анализ, анализ главных компонент, деревья классификации, анализ соответствий, многомерное шкалирование и др.
-
Анализ мощности, оценка объема выборки, интервальное оценивание
Кроме того, любой из продуктов линейки STATISTICA может иметь корпоративную платформу.
Корпоративный продукт STATISTICA Enterprise - это интегрированная многопользовательская система, объединяющая в себе эффективный интерфейс для доступа к центральному многопользовательскому репозиторию данных, средства для совместной работы пользователей и мощный функционал статистического анализа данных, доступный в различных продуктах линейки STATISTICA.
Не знаете, какой продукт подходит для решения Ваших задач? Позвоните или напишите нам, и наши специалисты подберут комплектацию продукта, оптимальную для Вас.
Ниже представлены некоторые примеры применения системы STATISTICA для решения задач телекоммуникаций:
Узнать о применении STATISTICA для решения Ваших задач Вы можете, заказав бесплатную выездную презентацию или online семинар StatSoft.
Академия Анализа Данных StatSoft предлагает уникальные курсы лекций в области телекоммуникаций:
А также специализированные курсы по применению Нейронных сетей, методов Data Mining.
Все курсы лекций
Читать отзывы об обучении
Обращаем Ваше внимание, что Вы можете составить индивидуальную программу обучения, выбрав интересующие Вас темы.
Преимущества обучения в Академии Анализа Данных StatSoft
Читать подробнее об условиях и порядке обучения
В рамках консалтинговых проектов, Академия Анализа Данных StatSoft оказывает помощь в проведении статистического анализа данных, решая задачи разных масштабов:
Перейти к разделу Консалтинг
Нашими клиентами являются крупнейшие телекоммуникационные компании:
Вымпелком
|
Голден Телеком
|
МТС
|
Совинтел
|
Телесот-Алания
| |
и многие другие.
К разделу Клиенты
Ознакомиться с Отзывами.