STATISTICA Text Miner

Анализ текстов Text Mining

STATISTICA Text Miner – это дополнительная возможность STATISTICA Data Miner, идеально подходящая для того чтобы переводить неструктурированный текст в легко-читаемую, ценную информацию, пригодную для принятия "золотых" решений. Большинство пользователей, знакомых с системами Text Mining, хорошо знают о том, что, как правило, реальные "необработанные" данные являются не всегда пригодными для восприятия и последующего анализа.

STATISTICA Text Miner позволяет выбрать из потока информации необходимые данные и структурировать их. STATISTICA Text Miner интегрирована в приложение STATISTICA Data Miner и в другие продукты компании StatSoft, отличительной чертой которых является то, что они являются наиболее полными и мощными инструментами на рынке и выполнены с безупречным вниманием как к вопросам увеличения эффективности, так и к вопросам расширения возможностей.

Настоящее приложение использует многопотоковые компьютерные технологии для достижения максимальной производительности передовых многопроцессорных серверных систем.

Также как и все компоненты STATISTICA Data Miner, STATISTICA Text Miner специально разработан как общее средство с открытой архитектурой, предназначенное для добычи данных из потока неструктурированной информации. Особенностью средств Text Mining, а также других аналитических инструментов, доступных в STATISTICA Text Miner , является то, что в качестве входных данных можно использовать не только текстовые документы или веб-страницы, но также ссылки, списки или кластеры.

Анализируемая Вами неструктурированная информация даже может включать в себя непреобразованные битовые изображения, звуковые файлы и т.д.


Функциональное ядро STATISTICA Text Miner

Доступ к документам

  1. Программа содержит многочисленные опции для организации доступа к текстовым документам в различных форматах: .txt(текст), .pdf(Adobe), .ps(PostScript) .html, .xml(сетевые форматы) и в большинстве форматов MS Office (таких как .eg, .rtf ).

  2. Удобный пользовательский интерфейс (и автоматизированные функции) предусмотрен для выбора большого числа файлов посредством wild-card (например, для выбора всех документов в одном из подкаталогов иерархической файловой структуры).

  3. Программа поддерживает возможность «Web-crawling», так что документы могут быть доступны по гиперссылке на объемлющий источник в интернете. Таким образом ссылки на интернет-ресурсы для этого приложения ничем не отличаются от ссылок на различные директории или папки в компьютере.

  4. Путь к текстовым документам или URL-ссылки могут являться текстовыми переменными в файлах данных STATISTICA. То есть программа может использовать в своей работе не только фактическую информацию, хранящуюся в текстовых переменных, но также возможна интерпретация ссылок на текстовые документы или URL. Таким образом численная и текстовая информация (большие документы) могут храниться посредством представителя (ссылки) базового множества, и самые разнообразные виды анализа могут быть произведены над файлами данных, где каждой ссылке соответствует большой неструктурированный массив текстовых данных (например возраст пациента, его рост, вес, вместе с комментариями терапевта о состоянии больного).

  5. Опции рассчитаны на гибкий импорт списков имен файлов и URL-ссылок в колонки таблиц STATISTICA.

Обработка данных

  1. Документы могут быть предварительно обработаны до того, как будут проиндексированы (фактически эти процессы происходят единовременно).

  2. Также могут быть примененными исключения и стоп-листы (списки слов, не учитываемых приложением; исключается общая, но не детальная диагностика слов, например, таких как "a","to","is","the" в английском языке),а также морфологический алгоритм (таким образом слова "traveled", "traveling" воспринимаются как отдельные случаи слова "travel" в английском языке).

  3. Стоп-листы и морфологические алгоритмы существуют также для Датского, Голландского, Английского, Французского, Немецкого, Итальянского, Португальского, Испанского, Шведского и других языков (необходимо уточнять). Также стоп-листы могут быть пополнены пользователем в случае необходимости. Программа написана так, что поддержка дополнительных языков может быть осуществлена с минимумом затрат.

  4. Далее, программа индексирует документы, прошедшие через морфологический алгоритм и проверку на предмет несоответствия списку стоп-слов для подсчета частоты появления различных слов в различных документах. Эта "сырая информация" используется в качестве основы для различных видов дальнейшего анализа.

  5. Перед созданием файла данных STATISTICA, содержащего численные характеристики (и т.д.), могут быть применены различного рода дополнительные фильтры. Например, частоты появления наименее редких слов могут быть нормализованы (по длине документа), преобразованы (например, прологарифмированы), оптимально сжаты, например, используя алгоритмы выделения различных особенностей, такие как SVD (выявление одиночных значений, алгоритм особенно эффективен в случае наличия редких шаблонов).

  6. Получившийся файл данных, содержащий в себе численные характеристики (например, SVD-объем, недоработанные счетчики, относительные счетчики, счетчики наиболее часто встречающихся слов и т.д.) пригоден для дальнейшего анализа.

  7. Предусмотрены различные опции для записи информации, полученной из текста, во входные файлы или непосредственно во внешние базы данных.

Анализ

Все средства анализа применимы к численной сводке, являющейся своеобразным резюме представляемого текста.

  1. Простейшие статистики могут извлечь информацию, например, о наиболее общих словах, используемых в документе.

  2. Посредством отображения, сопоставляющего документу его SVD-обЪем (например, посредством PCA), можно оценивать степень похожести документов.

  3. Посредством соответствия, основанного на сопоставлении документам их счетчиков появления различных слов (возможно преобразованных) можно установить принадлежность документа к той или иной смысловой категории.

  4. Кластерные методы (такие как EM, метод k-средних) позволяют идентифицировать группы сходных по смыслу документов.

  5. Предсказательные методы добычи данных позволяют устанавливать связи между полученными численными характеристиками документов с другими представляющими интерес индикаторами (например, намерение ввести в заблуждение, медицинский диагноз и т.д.).

  6. Основные аналитические компоненты, требуя обработки большого числа данных, выполняются посредством привлечения многопотоковых компьютерных технологий для достижения максимума эффективности передовых многопроцессорных систем.


Интеграция со STATISTICA, STATISTICA Data Miner, STATISTICA Enterprise

Программное обеспечение для Text Mining полностью интегрируемо с любым другим программным обеспечением, принадлежащим линии продуктов STATISTICA.

Это делает систему для анализа текста уникальной на рынке. Благодаря тому, что приложение полностью интегрируемо (и автоматизировано) система для Text Mining являет собой "другой модуль" так, что может быть интегрировано в окружение STATISTICA Data Miner workspace, STATISTICA Enterprise, или обычные приложения STATISTICA (посредством SVB; например, пользователи могут автоматически и регулярно получать доступ к файлам, расположенным в хранилищах данных, используя IDP технологию; корректировать информацию о точном анализе и численных характеристиках текстовой информации, доступной из хранилища; благодаря интеграцией с WebSTATISTICA (расширение для STATISTICA Enterprise), результаты различных типов анализа могут быть доступны авторизованным пользователям в сети).

youtube Смотреть видео о Text Mining на канале StatSoft, Inc

Ниже приведены примеры применения STATISTICA Text Miner для решения задач анализа текстов:


Специалистами StatSoft Russia было также разработано приложение Text-Analizer, предназначенное для анализа текстовых данных. Подробнее

‹‹
››
ПнВтСрЧтПтСбВс


info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.3 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2017

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта