Компании в своей работе сталкиваются с большими объемами информации, анализ которой позволяет оптимизировать процесс принятия решения. Но если данные находятся в неструктурированном состоянии, работа с ними усложняется. Кроме того, современные технологии машинного обучения подразумевают обработку огромных массивов информации, big data, на основе их изучения компьютер находит самостоятельные варианты поведения в новых для себя ситуациях. Часть этого массива информации занимают неструктурированные данные, что вызывает системные сложности.
От качества классификации данных зависит скорость работы с ней в программах бизнес-аналитики и релевантность итогового результата.
В информационных технологиях выделяют три группы данных:
Для неструктурированных данных применяют два типа анализа:
Задача анализа неструктурированных данных с разной долей успеха решается уже несколько лет. Большинство информации, образующейся в компании или полученной из внешних источников, не структурируется и не проходит специальную подготовку. Около 60% информации, хранящейся на серверах корпораций, не только не является структурированной, она или бесполезна, или копирует уже существующие данные, или не пригодна для применения.
Бессистемное хранение важных сведений способно привести к тому, что персональные данные и другая конфиденциальная информация окажутся в открытом доступе. Поэтому необходимо проанализировать все корпоративные информационные ресурсы на предмет их содержания, условий хранения, соблюдения режима конфиденциальности. Агентство Gartner, один из лидеров мирового рынка в сфере информационных технологий и ERP (англ. Enterprise Resource Planning, планирование ресурсов предприятия), в 2014 году выпустило политику с правилами работы с неструктурированными корпоративными данными, где обозначила конечные цели работы с данными:
«СёрчИнформ FileAuditor» проводит автоматическую классификацию данных в файловой системе, которые содержат конфиденциальную информацию.
На рынке широко представлены программы для изучения неструктурированных данных. Среди популярных продуктов разработки компании Hewlett-Packard, но можно найти решения от других вендоров.
Программа призвана решить задачи, связанные с оптимизацией хранения, она подойдет системным администраторам и лицам, отвечающим за сохранность данных.
В ней реализованы две функции:
Под репозиторием разработчики программы подразумевают место хранения анализируемой информации, это могут быть базы данных, файлы, MS Exchange, MS SharePoint, Hadoop (утилита для создания библиотек с открытым кодом), Lotus Notes, системы электронного документооборота. Разработчики предусмотрели возможность доработки ПО, если данные находятся в приложении, взаимодействие с которым в программе пока не предусмотрено, это делается по отдельному заказу.
Компоненты программы:
После индексации информация хранится в базе данных MS SQL. Отчет о результатах работы генерируется в виде круговой диаграммы, в секторах которой указывается процент ненужных и редко востребованных данных, дубликатов. Критерии востребованности и ненужности настраиваются вручную на основании политик по работе с данными каждой организации. Также есть отчеты в виде графиков, анализирующих данные по времени добавления, типам, частоте обновления.
По результатам работы системному администратору предлагается настроить политики удаления или перемещения неструктурированных данных в автоматическом или ручном режиме.
Продукт по работе с неструктурированными данными станет удачным решением для служб информационной безопасности. Он обеспечит комплексное изучение сведений и файлов, содержащихся в корпоративных информационных системах, и снизит бизнес-риски, связанные с хранением неизученных или избыточных НД.
В программе есть следующие функции:
ПО способно анализировать информацию не только по метаданным, но и по содержимому. Информация индексируется и относится к определенной категории не только по меткам, но и по смыслу.
В качестве средств визуализации предлагаются кластерная карта и спектрограф. Один кластер содержит информацию, относящуюся к определенной группе. Просмотреть данные, отнесенные к определенному кластеру, можно в диаграмме.
Спектрограф покажет эволюцию кластеров во времени, графически отображая изменения объема и содержания входящей в него информации. Опция категоризации мобильна, на первом этапе это происходит автоматически, средствами HP IDOL, далее администратор может сам назначать политики разбиения данных на разные группы. По результатам работы программа предлагает принять решение по судьбе файлов, содержащих неструктурированные данные.
Помимо удаления или перемещения, можно:
Перенос данных может производиться в безопасном режиме: они временно перемещаются в систему управления корпоративными записями HP Records Manage и маркируются метаданными, определяющими настройки конфиденциальности.
Бизнес-аналитика только на основе числовых рядов уходит в прошлое, сейчас программы, на основании которых принимаются управленческие решения, работают с неструктурированными данными и текстовой информацией.
Для достижения лучшего результата используются следующие виды анализа:
Эти типы исследований данных нацелены на поиск закономерностей, служащих предпосылками для выводов, имеющих значение для бизнеса.
Первым этапом работы программного обеспечения с данными является структурирование. Оно происходит путем поиска и нахождения общих смысловых единиц, характерных для речи или текста, например, частей речи или иных лингвистических или аудиальных структур.
Среди решений, обеспечивающих изучение неструктурированных данных с использованием метода естественного языка и интеллектуального анализа, называют:
Если ранее неструктурированные данные являлись проблемой, пугали своим количеством, неподконтрольностью и недоступностью для использования в качестве базы для принятия решений, то сегодняшний рынок предлагает достаточно продуктов, способных категоризировать и проанализировать НД.
12.12.2019
Подпишитесь на нашу рассылку и получите
свод правил информационной безопасности
для сотрудников в шуточных