Анализ неструктурированных данных - SearchInform

Анализ неструктурированных данных

Аудит и классификация данных
на базе системы

Компании в своей работе сталкиваются с большими объемами информации, анализ которой позволяет оптимизировать процесс принятия решения. Но если данные находятся в неструктурированном состоянии, работа с ними усложняется. Кроме того, современные технологии машинного обучения подразумевают обработку огромных массивов информации  на основе их изучения компьютер находит самостоятельные варианты поведения в новых для себя ситуациях. Часть этого массива информации занимают неструктурированные данные, что вызывает системные сложности.

Различия между структурированными и неструктурированными данными

От качества классификации данных зависит скорость работы с ней в программах бизнес-аналитики и релевантность итогового результата. 
В информационных технологиях выделяют три группы данных:

  • структурированные данные. Эта группа уже подготовлена для переработки. Они хранятся в базах данных SQL в таблице со строками и столбцами, имеют реляционный ключ, позволяющий быстро идентифицировать группу элементов и отнести ее к определенной категории, легко перегружаются для обработки в аналитическую программу. Временные и финансовые затраты на изучение структурированной информации минимизированы;
  • полуструктурированные. Эти данные не хранятся в систематизированной базе, но имеют признаки, позволяющие облегчить обработку, например, общие для группы метки или иные организационные свойства;
  • неструктурированные данные (НД). Работа с ними затруднена, они не систематизированы, хранятся в различных приложениях, например, текстовых файлах, в социальных сетях и пр. Современные программы для бизнес-аналитики данных уже умеют обрабатывать такую информацию без особых сложностей. Примером таких данных станут статьи в газетах, письма в архиве электронной почты, записи телефонных разговоров или речей политиков, веб-страницы.

Для неструктурированных данных применяют два типа анализа:

  • вида информации, выявляющий, данные каких категорий находятся в распоряжении компании, с целью оптимизации их хранения;
  • бизнес-аналилитика в котором неструктурированные и специально не подготовленные данные служат основой для вычислений и выводов, на основе которых строятся управленческие решения.

Обработка неструктурированных данных

Задача анализа неструктурированных данных с разной долей успеха решается уже несколько лет. Большинство информации, образующейся в компании или полученной из внешних источников, не структурируется и не проходит специальную подготовку. Около 60% информации, хранящейся на серверах корпораций, не только не является структурированной, она или бесполезна, или копирует уже существующие данные, или не пригодна для применения.

Бессистемное хранение важных сведений способно привести к тому, что персональные данные и другая конфиденциальная информация окажутся в открытом доступе. Поэтому необходимо проанализировать все корпоративные информационные ресурсы на предмет их содержания, условий хранения, соблюдения режима конфиденциальности. Агентство Gartner, один из лидеров мирового рынка в сфере информационных технологий и ERP (англ. Enterprise Resource Planning, планирование ресурсов предприятия), в 2014 году выпустило политику с правилами работы с неструктурированными корпоративными данными, где обозначила конечные цели работы с данными:

  • оптимизация хранения данных. Понимание, какие именно массивы информации находятся в распоряжении компании, помогает систематизировать их, удалить лишнее, освободив место на дисках;
  • выявление ненужных данных, их ликвидация и перенос корпоративного архива в облако. Агентство рекомендует эту модель работы с корпоративной информацией как оптимальную;
  • классификация. Позволит присвоить данным метки конфиденциальности, структурировать по группам, что облегчит их использование в бизнес-процессах;
  • выполнение предписаний регулятора по защите персональных данных и внутренних политик информационной безопасности по обеспечению режима конфиденциальности для коммерческой тайны;
  • присвоение уровней доступа. Систематизация данных, информационных массивов и присвоение им меток позволят увеличить степень конфиденциальности, структурировав уровни доступа пользователей к данным разных типов;
  • упрощение проведения аудита и расследований инцидентов информационной безопасности.

«СёрчИнформ Файловый аудитор» (СёрчИнформ FileAuditor) проводит автоматическую классификацию данных в файловой системе, которые содержат конфиденциальную информацию.


Интеллектуальный анализ НД

Бизнес-аналитика только на основе числовых рядов уходит в прошлое, сейчас программы, на основании которых принимаются управленческие решения, работают с неструктурированными данными и текстовой информацией. 

Для достижения лучшего результата используются следующие виды анализа:

  • интеллектуальный анализ данных (data mining);
  • обработка естественного языка (Natural Language Processing);
  • интеллектуальное изучение текста.

Эти типы исследований данных нацелены на поиск закономерностей, служащих предпосылками для выводов, имеющих значение для бизнеса. 

Первым этапом работы программного обеспечения с данными является структурирование. Оно происходит путем поиска и нахождения общих смысловых единиц, характерных для речи или текста, например, частей речи или иных лингвистических или аудиальных структур.

Если ранее неструктурированные данные являлись проблемой, пугали своим количеством, неподконтрольностью и недоступностью для использования в качестве базы для принятия решений, то сегодняшний рынок предлагает достаточно продуктов, способных категоризировать и проанализировать НД.

12.12.2019

Закажите бесплатный 30-дневный пилотный период
Полнофункциональное ПО без ограничений
по пользователям и функциональности
Подпишитесь на нашу рассылку и получите свод правил информационной безопасности для сотрудников в шуточных стишках-пирожках.