База примеров

Классификация статей, связанных с заработком

Содержание

Файл данных с ссылками

Определение Анализа

Обработка файла данных

Сохранение частот выделенных слов в исходном файле

Начальный выбор

Общая классификация и регрессионные деревья

Вывод


Этот пример основан на "стандартном" наборе документов Reuters. Из базы данных Reuters-21578 было выбрано 5,000 документов. Отметим, что эта база данных была создана на основе газетных статей за 1987 год. Документы были собраны и проиндексированы сотрудниками компании Reuters в 1987. Отметим, что право собственности на эти статьи принадлежит компаниям Reuters Ltd. и Carnegie Group, Inc., а использованные файлы доступны только для исследований. Вы также можете прочитать Главу 16 в Manning and Schütze (2002), чтобы получить дополнительную информацию об этих документах и специальных видах анализа. Текст этих сообщения был сохранен в файлах XML (Extensible Markup Language). Ниже показан пример такого файла.

Фрагмент текста

Рис. 1. Фрагмент текста 

Все документы были тщательно классифицированы экспертами на различные группы. В данном случае нас будет интересовать группа "Заработок", т. е. цель этого проекта заключается в том, чтобы автоматически классифицировать статьи, связанные с заработком (см. также Manning and Schütze, 2002, p. 579). 

Необходимо отметить, что общие возможности методов, которые позволяют вам автоматически классифицировать большой объем текста на несколько групп, могут быть очень широкими. После определения хорошего метода классификации, сотни (или даже тысячи) часов работы можно сэкономить, внедрив автоматизированную систему. (Отметим, что система STATISTICA идеально подходит для внедрения таких систем, поскольку она поддерживает распределение результатов текстовой добычи. Поскольку эта система является полностью программируемой, то ее можно легко интегрировать с существующими электронными системами управления, такими как STATISTICA Document Management System.)

Файл данных с ссылками

Задача этого Анализа заключается в извлечении модели, которая позволила бы нам автоматически определять документы, принадлежащие категории Заработок Система STATISTICA Текстовая добыча & Текстовая добыча из файлов содержит множество опция для получения требуемых документов или ссылок на них, включая веб-анализ (см. раздел Вводный обзор). В данном примере мы будем использовать файл данных ReutersDataReferences.sta, в котором уже содержится необходимая информация для получения всех документов.

Таблица данных

Рис. 2. Таблица данных 

Переменная Root Directory содержит ссылку на директорию, в которой хранятся текстовые файлы. В переменной File Name содержатся реальные имена файлов, а переменная Document вычисляется как объединение этих двух переменных, что позволяет получить полные ссылки на файлы. Отметим, что вы можете быстро задать соответствующий путь, изменив переменную Root Directory (используйте диалог Редактор текстовых меток для определения ссылок на правильную директорию), а затем пересчитайте переменную Document.

Отметим, что файл ReutersDataReferences.sta также содержит информацию (в переменной 5: Topic: Earnings?) о том, как переменные классифицировали каждый документ (принадлежит или не принадлежит он группе Earnings). Кроме того, в файле данных существует переменная Training, которая позднее будет использоваться во время кросс-проверки итоговой модели для вычисления ее адекватности и точности.


В начало

Определение Анализа

Откройте файл данных ReutersDataReferences.sta. Этот файл будет иметь вид, описанный выше. Однако, могут существовать некоторые различия в переменной Root Directory. Выберите команду Текстовая добыча & Текстовая добыча из файлов в меню Анализ - Текстовая добыча для вызова диалога Текстовая добыча - Стартовая панель. На вкладке Быстрый или Дополнительно в этом диалоге отмените выбор опции Обзор документов, нажмите кнопку Выберите переменную с именами документов, чтобы отобразить диалог, в котором необходимо выбрать переменную Document (в этой переменной содержатся полные ссылки на исходные XML-документы)

Выбор переменной

Рис. 3. Выбор переменной 

 и нажмите кнопку OK, чтобы вернуться на Стартовую панель.

Диалоговое окно Текстовая добыча

Рис. 4. Диалоговое окно Текстовая добыча 

Теперь перейдите на вкладку Индексация и нажмите кнопку Список исключений, чтобы отобразить диалог открытия файлов. Выберите файл EnglishStopList.txt (который находится в одной из поддиректорий системы STATISTICA Текстовая добыча & Текстовая добыча из файлов).

Диалоговое окно Текстовая добыча - вкладка Индексация

Рис. 5. Диалоговое окно Текстовая добыча - вкладка Индексация 

Загрузите этот файл в качестве стандартного списка стоп-слов, т.е. слова, содержащиеся в этом списке, не будут учитываться при индексировании во время обработки документов. См. также раздел Вводный обзор.


В начало

Обработка файла данных

Нажмите кнопку OK, чтобы начать обработку документов, через несколько секунд будет отображен диалог Текстовая добыча - Результаты.

Результаты

Рис. 6. Результаты  

Опции, доступны в этом диалоге, частично описаны в разделе Вводный обзор, а также в разделе Текстовая добыча - Результаты. Главная цель исследования заключается в получении хорошей модели для автоматической классификации документов, соответствующих понятию Заработок.


В начало

Сохранение частот выделенных слов в исходном файле

Далее необходимо записать частоты выделенных слов назад в исходный файл данных, чтобы можно было использовать эти значения в последующих Анализах. Перейдите на вкладку Сохранение. Чтобы сохранить 310 выделенных слов, необходимо освободить для них место. Для этого введите число 310 в поле Число добавляемых переменных, а затем нажмите кнопку Добавить переменные в исходную таблицу.

Файл данных

Рис. 7. Файл данных  

После этой операции к исходному файлу будут добавлены 310 новых переменных. Далее выберите опцию Сохранить статистики в исходных данных и выберите все выделенные слова (переменные) в левой части диалога и все созданные переменные - в правой части, а затем нажмите кнопку Присвоить.

Присвоение переменным статистики

Рис. 8. Присвоение переменным статистики  

Потом нажмите кнопку OK, чтобы выполнить эту операцию. Вы увидите, что добавленные переменные автоматически получат имена, соответствующие выделенным словам, а соответствующие частоты будут записаны в ячейки новых переменных.

Файл данных

Рис. 9. Файл данных

Таким образом, мы выполнили основные этапы текстовой добычи. Нам остается лишь построить хорошую модель для предсказания содержимого (Заработок - Да/Нет) новых статей, чтобы мы могли автоматически классифицировать их.


В начало

Начальный выбор

Существует несколько способов достижения поставленной цели. На первом шаге будем использовать мощные и эффективные средства Выбора и отсеивания переменных для определения подмножества из 310 слов, которые были выделены для построения будущей модели. На самом деле, это не является острой необходимость, поскольку практически все методы предсказывающей классификации, доступные в STATISTICA Добыча данных, могут обрабатывать подобные предикторы. Однако, чтобы показать, как быстро можно построить модели, будет использовать методы Выбора и отсеивания переменных.

Выберите команду отсеивание признаков в меню Анализ - Добыча данных. Затем выберите переменную Topic: Earnings? в качестве категориальной зависимой переменной, а все остальные переменные, содержащие частоты слов, в качестве непрерывных предикторов.

Отсеивание признаков

Рис. 10. Отсеивание признаков  

Затем нажмите кнопку OK, чтобы перейти в диалог Результаты. Отобразим первые 50 предикторов переменной Topic: Earnings? (введите число 50 в поле Отобразить) и создайте график важности предикторов.

График значимости

Рис. 11. График значимости

Судя по этому графику, может быть эффективным использовать только 20 предикторов для итоговой модели. Мы будем использовать 20 наилучших предикторов для построения новой модели. Будем использовать средства модуля Классификация и регрессионные деревья.

Нажмите кнопку Вывести k наилучших предикторов, чтобы скопировать список наилучших предикторов для использования в модуле Классификация и регрессионные деревья.

Список лучших предикторов

Рис. 12. Список лучших предикторов


В начало

Общая классификация и регрессионные деревья

Выберите команду Общая деревья классификации и регрессия в меню Анализ - Добыча данных. По умолчанию, выбрана опция Стандартный анализ. Нажмите кнопку OK. В диалоге Стандартный анализ выберите опцию Категориальный отклик, нажмите кнопку Переменные и выберите в качестве зависимой переменной - Topic: Earnings?, также выберите 20 наилучших предикторов.

Диалоговое окно Стандартная GCRT

Рис. 13. Диалоговое окно Стандартная GCRT

На вкладке Проверка выберите опцию V-образная кросс-проверка (чтобы автоматически выбрать робастную модель) и также укажите переменную Training в качестве Проверочной выборки с кодом Training, который определяет выборку для построения модели.

Кросс-проверка

Рис. 14. Кросс-проверка 

Теперь нажмите кнопку OK, чтобы начать Анализ. Через несколько секунд будет отображен диалог Результаты. Нажмите кнопку OK, чтобы просмотреть итоговое дерево.

Итоговое дерево

Рис. 15. Итоговое дерево  

Итоговое дерево аналогично дереву, показанному в Manning and Schütze (2002, Figure 16.1). Тем не менее, если вы перейдете на вкладку Классификация в диалоге Результаты GC&RT и выберите опцию Проверить множество, чтобы вычислить предсказанную классификацию для тестовой выборки, то после нажатия кнопки Предсказанные и наблюдаемые по классам будет отображена следующая матрица ошибочных классификаций.

Матрица классификации

Рис. 16. Матрица классификации

Таким образом мы построили модель с точностью 94%!


В начало

Вывод

В этом примере мы рассмотрели, как различные методы STATISTICA Текстовая добыча & Текстовая добыча из файлов вместе с другими модулями STATISTICA Добыча можно использовать для построения высокоточных предсказываемых моделей для классификации текста. Система STATISTICA хорошо подходит для этих целей, поскольку в ней присутствует тесная интеграция различных компонент. 

См. другой пример автоматической классификации текста


В начало


Узнайте больше на курсах Академии Анализа Данных StatSoft

Список курсов    Календарь    Расписание групповых занятий

 

 





                info@statsoft.ru         +7 (495) 787-77-33      +7 (499) 674-06-15          STATISTICA 13.3 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2023

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта