Анализ неструктурированных данных

Аудит и классификация данных
на базе системы

СёрчИнформ FileAuditor
30 дней для тестирования «СёрчИнформ FileAuditor»ОФОРМИТЬ ЗАЯВКУ
Время чтения
Шрифт

Компании в своей работе сталкиваются с большими объемами информации, анализ которой позволяет оптимизировать процесс принятия решения. Но если данные находятся в неструктурированном состоянии, работа с ними усложняется. Кроме того, современные технологии машинного обучения подразумевают обработку огромных массивов информации, big data, на основе их изучения компьютер находит самостоятельные варианты поведения в новых для себя ситуациях. Часть этого массива информации занимают неструктурированные данные, что вызывает системные сложности.

Различия между структурированными и неструктурированными данными

От качества классификации данных зависит скорость работы с ней в программах бизнес-аналитики и релевантность итогового результата. 
В информационных технологиях выделяют три группы данных:

  • структурированные данные. Эта группа уже подготовлена для переработки. Они хранятся в базах данных SQL в таблице со строками и столбцами, имеют реляционный ключ, позволяющий быстро идентифицировать группу элементов и отнести ее к определенной категории, легко перегружаются для обработки в аналитическую программу. Временные и финансовые затраты на изучение структурированной информации минимизированы;
  • полуструктурированные. Эти данные не хранятся в систематизированной базе, но имеют признаки, позволяющие облегчить обработку, например, общие для группы метки или иные организационные свойства;
  • неструктурированные данные (НД). Работа с ними затруднена, они не систематизированы, хранятся в различных приложениях, например, файлах Word, PDF, текстовых файлах, в социальных сетях. Современные программы для бизнес-аналитики данных уже умеют обрабатывать такую информацию без особых сложностей. Примером таких данных станут статьи в газетах, письма в архиве электронной почты, записи телефонных разговоров или речей политиков, web-страницы.

Для неструктурированных данных применяют два типа анализа:

  • вида информации, выявляющий, данные каких категорий находятся в распоряжении компании, с целью оптимизации их хранения;
  • бизнес-аналилитика в котором неструктурированные и специально не подготовленные данные служат основой для вычислений и выводов, на основе которых строятся управленческие решения.

Обработка неструктурированных данных

Задача анализа неструктурированных данных с разной долей успеха решается уже несколько лет. Большинство информации, образующейся в компании или полученной из внешних источников, не структурируется и не проходит специальную подготовку. Около 60% информации, хранящейся на серверах корпораций, не только не является структурированной, она или бесполезна, или копирует уже существующие данные, или не пригодна для применения.

Бессистемное хранение важных сведений способно привести к тому, что персональные данные и другая конфиденциальная информация окажутся в открытом доступе. Поэтому необходимо проанализировать все корпоративные информационные ресурсы на предмет их содержания, условий хранения, соблюдения режима конфиденциальности. Агентство Gartner, один из лидеров мирового рынка в сфере информационных технологий и ERP (англ. Enterprise Resource Planning, планирование ресурсов предприятия), в 2014 году выпустило политику с правилами работы с неструктурированными корпоративными данными, где обозначила конечные цели работы с данными:

  • оптимизация хранения данных. Понимание, какие именно массивы информации находятся в распоряжении компании, помогает систематизировать их, удалить лишнее, освободив место на дисках;
  • выявление ненужных данных, их ликвидация и перенос корпоративного архива в облако. Агентство рекомендует эту модель работы с корпоративной информацией как оптимальную;
  • классификация. Позволит присвоить данным метки конфиденциальности, структурировать по группам, что облегчит их использование в бизнес-процессах;
  • выполнение предписаний регулятора по защите персональных данных и внутренних политик информационной безопасности по обеспечению режима конфиденциальности для коммерческой тайны;
  • присвоение уровней доступа. Систематизация данных, информационных массивов и присвоение им меток позволят увеличить степень конфиденциальности, структурировав уровни доступа пользователей к данным разных типов;
  • упрощение проведения аудита и расследований инцидентов информационной безопасности.

«СёрчИнформ FileAuditor» проводит автоматическую классификацию данных в файловой системе, которые содержат конфиденциальную информацию.


Программы для работы с неструктурированными данными

На рынке широко представлены программы для изучения неструктурированных данных. Среди популярных продуктов разработки компании Hewlett-Packard, но можно найти решения от других вендоров.

HP Storage Optimizer

Программа призвана решить задачи, связанные с оптимизацией хранения, она подойдет системным администраторам и лицам, отвечающим за сохранность данных. 

В ней реализованы две функции:

  1. Изучение метаданных объектов в библиотеках и репозиториях НД.
  2. Присвоение меток и определение политик иерархического хранения.

Под репозиторием разработчики программы подразумевают место хранения анализируемой информации, это могут быть базы данных, файлы, MS Exchange, MS SharePoint, Hadoop (утилита для создания библиотек с открытым кодом), Lotus Notes, системы электронного документооборота. Разработчики предусмотрели возможность доработки ПО, если данные находятся в приложении, взаимодействие с которым в программе пока не предусмотрено, это делается по отдельному заказу.

Компоненты программы:

  • коннекторы. Они от имени приложения взаимодействуют с репозиториями данных;
  • Connector Framework Server, который получает информацию от коннекторов, снабжает метаданными (метками, содержащими информацию о характере данных) и направляет на индексирование, облегчающее дальнейший поиск.

После индексации информация хранится в базе данных MS SQL. Отчет о результатах работы генерируется в виде круговой диаграммы, в секторах которой указывается процент ненужных и редко востребованных данных, дубликатов. Критерии востребованности и ненужности настраиваются вручную на основании политик по работе с данными каждой организации. Также есть отчеты в виде графиков, анализирующих данные по времени добавления, типам, частоте обновления.

По результатам работы системному администратору предлагается настроить политики удаления или перемещения неструктурированных данных в автоматическом или ручном режиме.

HP Control Point

Продукт по работе с неструктурированными данными станет удачным решением для служб информационной безопасности. Он обеспечит комплексное изучение сведений и файлов, содержащихся в корпоративных информационных системах, и снизит бизнес-риски, связанные с хранением неизученных или избыточных НД. 

В программе есть следующие функции:

  • оптимизация хранения;
  • разработка и внедрение политик хранения данных;
  • управление жизненным циклом информации компании.

ПО способно анализировать информацию не только по метаданным, но и по содержимому. Информация индексируется и относится к определенной категории не только по меткам, но и по смыслу. 

В качестве средств визуализации предлагаются кластерная карта и спектрограф. Один кластер содержит информацию, относящуюся к определенной группе. Просмотреть данные, отнесенные к определенному кластеру, можно в диаграмме. 

Спектрограф покажет эволюцию кластеров во времени, графически отображая изменения объема и содержания входящей в него информации. Опция категоризации мобильна, на первом этапе это происходит автоматически, средствами HP IDOL, далее администратор может сам назначать политики разбиения данных на разные группы. По результатам работы программа предлагает принять решение по судьбе файлов, содержащих неструктурированные данные. 

Помимо удаления или перемещения, можно:

  • «заморозить» объект. Он находится в прежнем месте хранения, но никто из пользователей не вправе изменить или удалить его;
  • создать рабочий процесс (workflow). Это значит, что перед тем, как файл будет перемещен или удален, об этом будет оповещен пользователь, указанный в качестве его владельца, и он сможет повлиять на судьбу интересующих его данных.

Перенос данных может производиться в безопасном режиме: они временно перемещаются в систему управления корпоративными записями HP Records Manage и маркируются метаданными, определяющими настройки конфиденциальности.

Интеллектуальный анализ НД

Бизнес-аналитика только на основе числовых рядов уходит в прошлое, сейчас программы, на основании которых принимаются управленческие решения, работают с неструктурированными данными и текстовой информацией. 

Для достижения лучшего результата используются следующие виды анализа:

  • интеллектуальный анализ данных (data mining);
  • обработка естественного языка (Natural Language Processing);
  • интеллектуальное изучение текста.

Эти типы исследований данных нацелены на поиск закономерностей, служащих предпосылками для выводов, имеющих значение для бизнеса. 

Первым этапом работы программного обеспечения с данными является структурирование. Оно происходит путем поиска и нахождения общих смысловых единиц, характерных для речи или текста, например, частей речи или иных лингвистических или аудиальных структур.

Среди решений, обеспечивающих изучение неструктурированных данных с использованием метода естественного языка и интеллектуального анализа, называют:

  • IBM Watson – программа на базе искусственного интеллекта получает вопросы на естественном языке и ищет на них ответы среди неструктурированных данных с использованием технологий ИИ;
  • ABBYY FlexiCapture – программа для интеллектуальной работы с НД;
  • SPSS Statistics, предлагающая статистические методы исследования НД для общественных наук.

Если ранее неструктурированные данные являлись проблемой, пугали своим количеством, неподконтрольностью и недоступностью для использования в качестве базы для принятия решений, то сегодняшний рынок предлагает достаточно продуктов, способных категоризировать и проанализировать НД.

12.12.2019

ПОДПИШИТЕСЬ НА ПОЛЕЗНЫЕ СТАТЬИ

Рассказываем о тенденциях отрасли, утечках и способах борьбы с ними