Text-Analizer

К настоящему моменту в силу стремительного развития сети интернет скопилось огромное количество текстовой информации. Естественно, у многих исследователей и аналитиков появляется желание извлечь толк из этой информации. Информация, представленная в текстовом виде, трудна для анализа и может быть разбросана по сети Интернет.

Система Text-Analizer предназначена в первую очередь для более удобного анализа представления текстовых данных. С помощью данной системы пользователь может с лёгкостью скачать себе на компьютер все документы, расположенные по ссылкам с выбранной им страницы. Это может быть полезно, когда пользователя интересует содержимое статей, ссылки на которые приведены на главной странице некоторого ресурса. После этого пользователь может просмотреть частоты, с которыми встречаются различные слова и провести более серьёзные аналитические исследования в системе STATISTICA.

Также присутствует возможность обрабатывать файлы, уже находящиеся на компьютере пользователя – процедура анализа будет такой же, но изменится лишь способ получения данных. 

Пользователь может обрабатывать как обычные текстовые данные (в файлах *.txt), так и файлы в форматах html и xml. Также есть возможность работать с документами Microsoft Word (*.doc) и Portable Document Format (*.pdf), причем для этого не требуется наличие специализированных программ на подобие Microsoft Word или Adobe Reader.

Инструменты для анализа неструктурированной текстовой информации Вы также можете найти в продукте STATISTICA Text Miner.

Система Text-Analyzer может быть использована для оценки имиджа компании в СМИ, объективного анализа текстовой информации.

Ниже приведены примеры применения системы:

Анализ информации с сайта

Анализ файлов, расположенных на компьютере пользователя

Частотный анализ речей Б. Обамы


Пример 1. Анализ сайта www.statsoft.ru

На начальном этапе нам предлагается выбрать источник данных:

Начальное окно программы

Рис. 1. Начальное окно программы 

Нажмём кнопку Скачать файлы, так как мы будем получать информацию прямо из Интернет. При этом мы попадаем в окно настроек скачивания: 

Диалоговое окно Закачка файлов из Internet

Рис. 2. Диалоговое окно Закачка файлов из Internet 

После этого мы вводим в верхнем правом углу адрес http://www.statsoft.ru/ (адрес должен быть указан точно и полностью). Также мы указываем, что минимальная глубина скачки равна 2 – мы собираемся скачать не только главную страничку, но и те странички, на которые она ссылается: 

Ввод адреса сайта

Рис. 3. Ввод адреса сайта 

После этого можно начать скачивание, нажав кнопку Скачать. Внизу окна будут отображаться файлы, обрабатываемые в данный момент времени:

Закачка файлов

Рис. 4. Закачка файлов 

После завершения скачивания пользователь увидит следующее информационное окно:

Информационное окно

Рис. 5. Информационное окно 

Затем, нажав кнопку Далее, мы попадаем в окно выбора файлов, которые будут проанализированы:

Выбор файлов для анализа

Рис. 6. Выбор файлов для анализа 

В левой половине окна мы видим две области – в верхней области приведены скачанные из Интернет странички, нижняя область предназначена для файлов, расположенных на компьютере. При желании, пользователь может обрабатывать эти два типа файлов единым потоком. 

На данном этапе пользователь может выбрать, какие из скачанных файлов он желает анализировать. Сейчас мы будем анализировать все скачанные файлы, поэтому выберем все файлы в верхней области и нажмём соответствующую кнопку >>. После этого в правой области окажутся названия всех страничек: 

Добавление страниц для анализа

Рис. 7. Добавление страниц для анализа 

Затем нажимаем кнопку Далее и попадаем в окно анализа:

Окно анализа

Рис. 8. Окно анализа 

Здесь мы непосредственно приступаем к обработке файлов. В самом окне пользователь может выбрать минимальную частоту слова. То есть, выведены в итоге будут слова, встречавшиеся не реже, чем столько раз (слова, встречавшиеся по 1 разу). Также через меню Инструменты->Настройки можно изменить некоторые другие настройки:

Диалоговое окно настроек

Рис. 9. Диалоговое окно настроек 

Нажмём в окне анализа кнопку Частотный анализ для подсчёта частот вхождения отдельных слов. Во время подсчётов в нижней области будет показана информация о ходе выполнения обработки:

Обработка данных

Рис. 10. Обработка данных 

Итогом будет являться таблица с частотами слов:

Таблица с частотами

Рис. 11. Таблица с частотами 

Теперь можно посмотреть, какие слова чаще всего встречаются в выбранных файлах. Для этого достаточно упорядочить таблицу по последнему столбцу, нажав несколько раз на название последнего столбца:

Упорядоченная таблица с частотами

Рис. 12. Упорядоченная таблица с частотами 

Далее можно просмотреть, с какой частотой встречались слова разной длины в разных файлах, нажав кнопку Посмотреть статистику:

Статистика по файлам

Рис. 13. Статистика по файлам 

Также можно сохранить частоты в файлах STATISTICA, нажав кнопку Сохранить как таблицу STATISTICA:

Сохранение в таблицу STATISTICA

Рис. 14. Сохранение в таблицу STATISTICA 

Теперь у пользователя есть возможность применения всех возможностей пакета STATISTICA для обработки полученных данных.

В начало


Пример 2. Анализ файлов, расположенных на компьютере пользователя

Теперь в стартовом окне нажмём на кнопку Выбрать файлы на компьютере. После этого мы попадём в окно выбора:

Выбор файлов на компьютере

Рис. 15. Выбор файлов на компьютере 

Нажав кнопку Добавить файл, мы сможем выбрать файлы, расположенные на компьютере:

Выбор файлов

Рис. 16. Выбор файлов 

В данном примере будем работать с приведенными выше файлами. Первые 10 из них – часть статей Reuters:

Текст файла

Рис. 17. Текст файла 

Файл Version_9_Features.pdf – описание новых возможностей STATISTICA версии 9:

Файл Version_9_Features.pdf

Рис. 18. Файл Version_9_Features.pdf  

А файл Курсы StatSoft Russia.doc – информация о курсах, проводимых StatSoft Russia: 

Файл Курсы StatSoft Russia.doc

Рис. 19. Файл Курсы StatSoft Russia.doc

Итак, мы выбрали все файлы:

Выбор файлов на компьютере

Рис. 20. Выбор файлов на компьютере 

После этого нажимаем кнопку Далее и попадаем в уже знакомое нам по первому примеру окно:

Выбор файлов для анализа

Рис. 21. Выбор файлов для анализа 

Далее поступаем аналогично первому примеру – переносим файлы в рабочую область, выделив их и нажав соответствующую кнопку >>. 

Дальнейшие наши действия также аналогичны проделанным в примере 1 – нажимаем кнопку Далее и в окне анализа нажимаем кнопку Частотный анализ. Программа автоматически преобразует выбранные файлы к подходящему формату (текстовому) и обработает их. Вот что мы получим в результате:

Таблица с частотами

Рис. 22. Таблица с частотами

В начало


Частотный анализ речей Б. Обамы

Начальное окно программы

Рис. 23. Начальное окно программы

В данном окне пользователь может выбрать источник текстовых данных, с которыми он будет работать в дальнейшем.

Мы будем работать с файлами, расположенными локально (на компьютере пользователя). Для этого нажмём кнопку Выбрать файлы на компьютере

Выбор файлов на компьютере

Рис. 24. Выбор файлов на компьютере

В данном окне пользователь может выбрать файлы на компьютере, которые он желает проанализировать. Для этого необходимо нажать кнопку Добавить файл

Выбор файлов

Рис. 25. Выбор файлов

и выбрать соответствующие файлы. Имеется возможность выбрать сразу несколько файлов. 

После выбора файлов их имена будут отображены в рабочей области окна:

Выбор файлов на компьютере

Рис. 26. Выбор файлов на компьютере

При желании, пользователь может удалить некоторые файлы из списка (например, при случайном выборе ненужного файла). Для этого стоит использовать кнопки Удалить файлы и Очистить. После выбора нужных файлом нажимаем кнопку Далее и попадаем в следующее окно. 

Выбор файлов для анализа

Рис. 27. Выбор файлов для анализа

В данном окне пользователь имеет возможность выбрать для анализа файлы, которые он до этого указал на компьютере вместе с файлами, скачанными из интернета.

Для переноса файлов в область анализа (большую область справа) необходимо выделить файлы:

Выделение файлов

Рис. 28. Выделение файлов

И нажать соответствующую кнопку >>: 

Перенос файлов

Рис. 29. Перенос файлов

После этого следует нажать кнопку Далее для перехода к окну начального анализа. 

Окно анализа

Рис. 30. Окно анализа

Значение минимальной частоты слова показывает, начиная с какой частоты, слова будут выведены. К примеру, если это значение указано равным 5, то будут выведены лишь те слова, которые встречались не менее пяти раз.

Опция Использовать stoplist указывает, исключать ли из рассмотрения слова, приведённые в файле Stoplist.txt. В этом файле собраны часто встречающиеся слова, не несущие особой смысловой нагрузки, такие как "а", "в", "to", "at"… 

В нижней области окна будут появляться файлы, уже обработанные программой.

Кнопка Остановить позволяет остановить подсчёт частот слов и вывести текущие данные. 

Для запуска анализа нажмём Частотный анализ

Таблица с частотами

Рис. 31. Таблица с частотами

Здесь мы увидим слова, встречавшиеся в документах, расположенные в алфавитном порядке. В третьем столбце представлены частоты слов.

Для того чтобы упорядочить слова от самых частых к самым редким, необходимо нажать на название третьего столбца:

Таблица частот, упорядоченная по полю Частота

Рис. 32. Таблица частот, упорядоченная по полю Частота

Теперь можно увидеть наиболее используемые слова. Как можно видеть, самыми часто используемыми словами, несущими смысловую нагрузку, являются "people" и "america". 

Нажав кнопку Сохранить как таблицу STATISTICA, мы получим данные о словах, представленные в виде таблиц STATISTICA.

Результаты в виде таблицы STATISTICA

Рис. 33. Результаты в виде таблицы STATISTICA

В начало

‹‹
››
ПнВтСрЧтПтСбВс


                info@statsoft.ru         +7 (495) 787-77-33      +7 (499) 674-06-15          STATISTICA 13.3 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2023

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта