К настоящему моменту в силу стремительного развития сети интернет скопилось огромное количество текстовой информации. Естественно, у многих исследователей и аналитиков появляется желание извлечь толк из этой информации. Информация, представленная в текстовом виде, трудна для анализа и может быть разбросана по сети Интернет.
Система Text-Analizer предназначена в первую очередь для более удобного анализа представления текстовых данных. С помощью данной системы пользователь может с лёгкостью скачать себе на компьютер все документы, расположенные по ссылкам с выбранной им страницы. Это может быть полезно, когда пользователя интересует содержимое статей, ссылки на которые приведены на главной странице некоторого ресурса. После этого пользователь может просмотреть частоты, с которыми встречаются различные слова и провести более серьёзные аналитические исследования в системе STATISTICA.
Также присутствует возможность обрабатывать файлы, уже находящиеся на компьютере пользователя – процедура анализа будет такой же, но изменится лишь способ получения данных.
Пользователь может обрабатывать как обычные текстовые данные (в файлах *.txt), так и файлы в форматах html и xml. Также есть возможность работать с документами Microsoft Word (*.doc) и Portable Document Format (*.pdf), причем для этого не требуется наличие специализированных программ на подобие Microsoft Word или Adobe Reader.
Инструменты для анализа неструктурированной текстовой информации Вы также можете найти в продукте STATISTICA Text Miner.
Система Text-Analyzer может быть использована для оценки имиджа компании в СМИ, объективного анализа текстовой информации.
Ниже приведены примеры применения системы:
На начальном этапе нам предлагается выбрать источник данных:
Рис. 1. Начальное окно программы
Нажмём кнопку Скачать файлы, так как мы будем получать информацию прямо из Интернет. При этом мы попадаем в окно настроек скачивания:
Рис. 2. Диалоговое окно Закачка файлов из Internet
После этого мы вводим в верхнем правом углу адрес http://www.statsoft.ru/ (адрес должен быть указан точно и полностью). Также мы указываем, что минимальная глубина скачки равна 2 – мы собираемся скачать не только главную страничку, но и те странички, на которые она ссылается:
Рис. 3. Ввод адреса сайта
После этого можно начать скачивание, нажав кнопку Скачать. Внизу окна будут отображаться файлы, обрабатываемые в данный момент времени:
Рис. 4. Закачка файлов
После завершения скачивания пользователь увидит следующее информационное окно:
Рис. 5. Информационное окно
Затем, нажав кнопку Далее, мы попадаем в окно выбора файлов, которые будут проанализированы:
Рис. 6. Выбор файлов для анализа
В левой половине окна мы видим две области – в верхней области приведены скачанные из Интернет странички, нижняя область предназначена для файлов, расположенных на компьютере. При желании, пользователь может обрабатывать эти два типа файлов единым потоком.
На данном этапе пользователь может выбрать, какие из скачанных файлов он желает анализировать. Сейчас мы будем анализировать все скачанные файлы, поэтому выберем все файлы в верхней области и нажмём соответствующую кнопку >>. После этого в правой области окажутся названия всех страничек:
Рис. 7. Добавление страниц для анализа
Затем нажимаем кнопку Далее и попадаем в окно анализа:
Рис. 8. Окно анализа
Здесь мы непосредственно приступаем к обработке файлов. В самом окне пользователь может выбрать минимальную частоту слова. То есть, выведены в итоге будут слова, встречавшиеся не реже, чем столько раз (слова, встречавшиеся по 1 разу). Также через меню Инструменты->Настройки можно изменить некоторые другие настройки:
Рис. 9. Диалоговое окно настроек
Нажмём в окне анализа кнопку Частотный анализ для подсчёта частот вхождения отдельных слов. Во время подсчётов в нижней области будет показана информация о ходе выполнения обработки:
Рис. 10. Обработка данных
Итогом будет являться таблица с частотами слов:
Рис. 11. Таблица с частотами
Теперь можно посмотреть, какие слова чаще всего встречаются в выбранных файлах. Для этого достаточно упорядочить таблицу по последнему столбцу, нажав несколько раз на название последнего столбца:
Рис. 12. Упорядоченная таблица с частотами
Далее можно просмотреть, с какой частотой встречались слова разной длины в разных файлах, нажав кнопку Посмотреть статистику:
Рис. 13. Статистика по файлам
Также можно сохранить частоты в файлах STATISTICA, нажав кнопку Сохранить как таблицу STATISTICA:
Рис. 14. Сохранение в таблицу STATISTICA
Теперь у пользователя есть возможность применения всех возможностей пакета STATISTICA для обработки полученных данных.
Теперь в стартовом окне нажмём на кнопку Выбрать файлы на компьютере. После этого мы попадём в окно выбора:
Рис. 15. Выбор файлов на компьютере
Нажав кнопку Добавить файл, мы сможем выбрать файлы, расположенные на компьютере:
Рис. 16. Выбор файлов
В данном примере будем работать с приведенными выше файлами. Первые 10 из них – часть статей Reuters:
Рис. 17. Текст файла
Файл Version_9_Features.pdf – описание новых возможностей STATISTICA версии 9:
Рис. 18. Файл Version_9_Features.pdf
А файл Курсы StatSoft Russia.doc – информация о курсах, проводимых StatSoft Russia:
Рис. 19. Файл Курсы StatSoft Russia.doc
Итак, мы выбрали все файлы:
Рис. 20. Выбор файлов на компьютере
После этого нажимаем кнопку Далее и попадаем в уже знакомое нам по первому примеру окно:
Рис. 21. Выбор файлов для анализа
Далее поступаем аналогично первому примеру – переносим файлы в рабочую область, выделив их и нажав соответствующую кнопку >>.
Дальнейшие наши действия также аналогичны проделанным в примере 1 – нажимаем кнопку Далее и в окне анализа нажимаем кнопку Частотный анализ. Программа автоматически преобразует выбранные файлы к подходящему формату (текстовому) и обработает их. Вот что мы получим в результате:
Рис. 22. Таблица с частотами
Рис. 23. Начальное окно программы
В данном окне пользователь может выбрать источник текстовых данных, с которыми он будет работать в дальнейшем.
Мы будем работать с файлами, расположенными локально (на компьютере пользователя). Для этого нажмём кнопку Выбрать файлы на компьютере.
Рис. 24. Выбор файлов на компьютере
В данном окне пользователь может выбрать файлы на компьютере, которые он желает проанализировать. Для этого необходимо нажать кнопку Добавить файл:
Рис. 25. Выбор файлов
и выбрать соответствующие файлы. Имеется возможность выбрать сразу несколько файлов.
После выбора файлов их имена будут отображены в рабочей области окна:
Рис. 26. Выбор файлов на компьютере
При желании, пользователь может удалить некоторые файлы из списка (например, при случайном выборе ненужного файла). Для этого стоит использовать кнопки Удалить файлы и Очистить. После выбора нужных файлом нажимаем кнопку Далее и попадаем в следующее окно.
Рис. 27. Выбор файлов для анализа
В данном окне пользователь имеет возможность выбрать для анализа файлы, которые он до этого указал на компьютере вместе с файлами, скачанными из интернета.
Для переноса файлов в область анализа (большую область справа) необходимо выделить файлы:
Рис. 28. Выделение файлов
И нажать соответствующую кнопку >>:
Рис. 29. Перенос файлов
После этого следует нажать кнопку Далее для перехода к окну начального анализа.
Рис. 30. Окно анализа
Значение минимальной частоты слова показывает, начиная с какой частоты, слова будут выведены. К примеру, если это значение указано равным 5, то будут выведены лишь те слова, которые встречались не менее пяти раз.
Опция Использовать stoplist указывает, исключать ли из рассмотрения слова, приведённые в файле Stoplist.txt. В этом файле собраны часто встречающиеся слова, не несущие особой смысловой нагрузки, такие как "а", "в", "to", "at"…
В нижней области окна будут появляться файлы, уже обработанные программой.
Кнопка Остановить позволяет остановить подсчёт частот слов и вывести текущие данные.
Для запуска анализа нажмём Частотный анализ.
Рис. 31. Таблица с частотами
Здесь мы увидим слова, встречавшиеся в документах, расположенные в алфавитном порядке. В третьем столбце представлены частоты слов.
Для того чтобы упорядочить слова от самых частых к самым редким, необходимо нажать на название третьего столбца:
Рис. 32. Таблица частот, упорядоченная по полю Частота
Теперь можно увидеть наиболее используемые слова. Как можно видеть, самыми часто используемыми словами, несущими смысловую нагрузку, являются "people" и "america".
Нажав кнопку Сохранить как таблицу STATISTICA, мы получим данные о словах, представленные в виде таблиц STATISTICA.
Рис. 33. Результаты в виде таблицы STATISTICA
Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
|
© StatSoft Russia |
StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран. |