Для того чтобы систематизировать большой массив разрозненных данных используются специальные компьютерные программы. Они предназначены для анализа, сортировки и классификации файлов, в которых содержатся цифровые таблицы, тексты и изображения, описывающие разнообразные факты и явления. С помощью программных инструментов осуществляется проверка, преобразование и визуализация данных перед их размещением в информационных базах.
Задачи, которые решаются с помощью программ анализа и классификации
Целью классификации является распределение многочисленных данных на определенные группы по признакам сходства или отличия.
В процессе обработки информации решают следующие задачи:
-
Очистка информации, собранной из разнородных источников – выявление расхождений, устранение ошибок, удаление фоновых шумов;
-
Упорядочивание, минимизация объема информационных массивов, представление объектов в единообразной форме, удобной для изучения и машинной обработки;
-
Выбор методик анализа и моделей классификации;
-
Машинное обучение (настройка нейросетей) с помощью «библиотек» (таких как Scikit-Learn, Turtle Graphics, Boost). В памяти компьютера закрепляются алгоритмы преобразования исходных данных и получения конечных результатов;
-
Разделение объектов на классы с использованием определенных моделей классификаторов;
-
Визуализации результатов (данные представляются в графической, текстовой или иной форме).
Для решения всех этих задач используются разнообразные программные приложения, написанные на языках Python, Lisp, C++, R, Java, Prolog и других.
Программные средства машинного обучения
При анализе социально-экономических явлений, производственных процессов, медицинских и научных данных исследователям приходится иметь дело с многоплановой, разнотипной информацией. Для ее обработки используются различные методы интеллектуального анализа (Data Mining): «кластерный анализ», «метод опорных векторов», «к-ближайших соседей», «дерево решений», «наивный байесовский классификатор» и другие.
Для машинного обучения используются такие программные приложения, как:
-
NeoNeuro Machine Learning – для проведения математических расчетов и исследования статистических показателей;
-
AutoML – для создания графических каталогов, а также определения места расположения многочисленных объектов на изображении;
-
Комплекс программ STATISTICA– для проведения кластерного, факторного, дискриминантного анализа, а также применения методов «деревья классификации» и «многомерное шкалирование»;
-
TensorFlow (Тензорный поток) – для перевода исходных объектов информации в матричную или векторную форму, выполнения математических преобразований многомерных массивов с текстовыми данными;
-
Azure ML Studio – для сбора и подготовки информации, составления выборки, анализа и классификации объектов методами линейной регрессии;
-
Microsoft Cognitive Toolkit – для создания приложений, «записных книжек», проведения интерактивного обмена информациией и ее графической визуализации.
Такие программные средства применяют для интеллектуального анализа и классификации информации в финансовой сфере (для оценки бизнес-рисков, прогнозирования прибылей, планирования инвестиций). Они используются в маркетинге (для анализа товарооборота), здравоохранении (при диагностике заболеваний), в производственной, научной и образовательной сфере.
ПО с открытым исходным кодом
Так называют программное обеспечение, доступное для просмотра и самостоятельного внесения изменений. Программы с открытым кодом используются для распознавания текстов, изучения электронных словарей, хранения личных данных и фотографий.
Открытыми программами являются:
-
Apache Spark MLlib – средство для быстрой обработки большого количества неструктурированных данных, восстановления информации в памяти компьютера после отказов и зависания программ. Производится трансформация, фильтрация, объединение, кластеризация объектов информации;
-
DropIt – бесплатное средство копирования, перемещения, переименования, объединения или разделения документов, архивирования, отправки данных по email;
-
TagScanner – приложение для обработки музыкальных файлов. Задаются правила их сортировки, после чего файловые данные автоматически распределяются по жанрам, альбомам и исполнителям;
-
XnView – бесплатная версия программы PhotoMove для сортировки фотоснимков, упорядочивания фотоальбомов, конвертации графических файлов и поиска дублированных данных;
-
Hazel – программное приложение для распределения по отдельным папкам данных различного вида (изображений, документов, звуковых файлов). Программа позволяет обозначить данные с помощью ключевых слов (тегов), переименовать и архивировать файлы;
-
IBM Watson – группа приложений для машинного обучения, обеспечения доступа к интернет-серверам, ускорения работы в операционной системе macOS.
Программное обеспечение для сбора, статистического анализа информации
Используются программные продукты следующего назначения:
-
Набор алгоритмов Knime – анализ информации методами математической статистики, составление отчетов в процессе классификации объектов;
-
OpenRefine – очистка, преобразование формата, а также расширение данных (обработка больших информационных массивов);
-
R-Programming – статистические расчеты и получение результатов в виде графических изображений;
-
Orange – визуализация результатов в виде точечных диаграмм, столбцов (гистограмм), древовидных схем (дендрограмм), цветовых (тепловых) карт;
-
RapidMiner – подготовка, обработка исследуемой информации, машинное обучение, анализ, визуализация, размещение в базовых хранилищах (в «интегрированной среде»);
-
Pentaho – анализ, визуализация, составление отчетов и прогнозирование результатов классификации;
-
NodeXL – анализ и визуализация объектов, расчет статистических зависимостей, ускорение доступа к информации в социальных сетях;
-
Gephi – выявление и отражение связей между данными при проведении сетевого анализа (например, построение сетевой модели служебных взаимоотношений сотрудников большой компании).
Анализ информации, которая хранится в файловой системе предприятия, помогает провести «СёрчИнформ FileAuditor».
Программные средства визуализации информации
Примерами таких приложений являются:
-
Datawrapper – позволяет размещать в текстах данные в виде графиков и таблиц (файлов CSV, PDF или Excel);
-
Solver – используется для представления результатов финансового отчета, показателей рентабельности, характеристик бюджета компаний;
-
QlikView – применяется для сжатия информации, ее сохранения в памяти компьютера и предоставления пользователям доступа к данным;
-
Tableau Public – устанавливается для быстрого подключения к электронным файлам, таблицам, а также публикации общедоступных бизнес-материалов;
-
Google Fusion Tables – используется для построения картографических документов (например, расположения объектов нефтедобычи в определенном районе).
Программные приложения для сентимент-анализа информации
Сентимент-анализом называют эмоциональную оценку качественных и количественных характеристик объектов (составление отзывов о событиях, товарах, документах). Такая оценка позволяет классифицировать данные с позитивной, негативной и нейтральной эмоциональной окраской (определить «полярность»).
Для этих целей используют следующие программные приложения:
-
Opentext – распознавание достоверности сведений, определение степени их субъективности путем оценки мнения авторов контента;
-
Semantria – сбор и анализ комментариев, отзывов клиентов для разработки новых идей и проектов развития бизнеса;
-
Trackur – мониторинг социальных сетей по ключевым словам для выявления настроений и тенденций в бизнесе, общественной жизни;
-
SAS Sentiment Analysis – уточнение классификации, добавление новых терминов на основании лингвистического анализа текстов, а которых описываются исследуемые данные;
-
Opinion Crawl – оценка событий, товаров, людей, компаний. Построение круговых диаграмм сопоставления данных, поиск публикаций, посвященных определенным объектам.
***
Классификация множества данных, собранных из разнотипных источников, позволяет сгруппировать объекты по характерным признакам, упростить их поиск в хранилищах и дальнейшее использование.
В процессе классификации используется специальное программное обеспечение для сбора информации, преобразования в форму, пригодную для компьютерной обработки.
С помощью программ машинного обучения задаются алгоритмы поиска сходства, отличий и взаимосвязей между анализируемыми данными. Для удобного восприятия и возможности сопоставления объектов, разделенных на категории, проводится их визуализация. При этом используются программные приложения для представления объектов в виде графиков, диаграмм, таблиц или альбомов.
02.12.2020