Управленческие решения следует принимать на основе анализа данных. Для корректного анализа информация должна быть структурирована. Проводится ее классификация, сведения снабжаются метаданными – метками, позволяющими определить категорию и место расположения данных, не обращаясь к самой информации. В ходе создания корпоративных хранилищ информации в составе ERP- или CRM-систем предварительная классификация данных облегчает их размещение в базах и последующую обработку.
Цели дифференциации данных
Определение данных производится в рамках нескольких систем. Под данными понимают цифры, значения, факты, наблюдения, явления, которые могут быть отражены в определенной знаковой, цифровой, семантической или иной системе. Они могут размещаться в памяти информационной системы, обрабатываться и анализироваться.
Информация классифицируется при создании первичной модели будущей базы данных, которая станет основой для оптимизации бизнеса компании, обучения и научных разработок.
В ходе обработки данных необходимо устранить следующие недостатки:
-
разрозненность;
-
дублируемость и повторяемость;
-
разноформатность;
-
неподтвержденная достоверность;
-
отсутствие разнесения по различным смысловым группам. Так, в одном каталоге и файле могут содержаться данные о клиентах и поставщиках.
После выявления типов данных, их категорий, форматов, исключения случайных сведений можно строить модель классификации – каталоги верхнего уровня (клиенты, сделки) разделяют на более узкие, родственные по смыслу группы.
«СёрчИнформ FileAuditor» проводит автоматическую классификацию данных в файловой системе, которые содержат конфиденциальную информацию.
Способы классификации данных
Перед загрузкой в базу данных информацию нужно классифицировать. Сделать это можно с использованием разных моделей. Рассмотрим некоторые из них.
Первичный вариант ранжирования делит данные по типу:
-
записи. К ним относят табличные, матричные, документальные, транзакционные или операционные данные, где каждая запись описывает трансакцию и содержит набор значений. Записи могут быть числовыми и текстовыми;
-
компьютерный код;
-
графические данные. Они воспринимаются проще, чем табличные. К ним относятся WWW-данные (в формате ссылок на информационные ресурсы), молекулярные структуры, графы, графики, диаграммы, карты;
-
химические данные (SIF);
-
астрономические данные (FITS);
-
данные, представленные в видео- и аудиоформате.
Дифференциация данных по источникам их получения:
-
наблюдение. Сведения получают в режиме реального времени с видеокамер, датчиков измерения температуры, влажности, давления, от приборов, проводящих медицинские исследования;
-
эксперимент. Данные получают в лабораториях или иных условиях, предполагающих контроль за ходом процессов. Примеры: последовательность генов, хроматограмма, показания магнитных полей;
-
моделирование. Тренды, климатические модели, экономические прогнозы;
-
статистика и производные ее обработки, например, обобщение сведений о сделках за определенный период (бухгалтерская и бизнес-информация, сведения о покупках, данные маркетинговых исследований);
-
синтез данных, полученных из разных источников и представленных в разных форматах. Например, интеллектуальный анализ текста, слитые таблицы, 3D-модели;
-
ссылки к другим ресурсам, когда в матрице таблицы находится только отсылка на данные, размещенные на другом информационном ресурсе.
Дифференциация данных по количеству учитываемых измерений и присваиваемых характеристик:
-
реляционные данные, содержащиеся в таблицах. Они имеют две характеристики – по столбцу и строке;
-
многомерные. Они находятся в кубах OLAP (Online Analytical Processing – интерактивный анализ данных), которые представляют собой многомерный массив сведений, разреженный и долговременно хранимый, используемый в реляционных СУБД. Единица хранения информации имеет три и более характеристики или измерения, выбранные автором базы, например, размерность, иерархия, участники.
По принципу постоянства значений данные делят на:
-
постоянные. Не зависят от внешних факторов и не меняются. Это математические константы, координаты неподвижных объектов;
-
переменные. Они меняют значение в процессе анализа, например, данные о рыночных ценах, курсе доллара или погоде;
-
условно-постоянные. Они могут изменяться, но не часто.
По времени:
-
собранные за определенный период;
-
точечные, актуальные на момент времени.
Выбор модели классификации данных зависит от функционала создаваемой информационной системы. Для ERP- и СRM-системы дифференциация будет различаться: в первом случае учитываются производство и реализация, во втором – только реализация. Поэтому среди предметов, учитываемых в ERP, появятся, например, данные финансового анализа.
В ERP данные делят на:
-
ресурсы (здания, оборудование, каналы связи, дороги, находящиеся на балансе, материалы, незавершенная продукция);
-
субъекты (поставщики, клиенты, подрядчики, подразделения, цеха, бригады, персонал);
-
продукты (например, сырая нефть и продукты переработки);
-
события;
-
сделки;
-
договоры;
-
расположения;
-
правила;
-
справочники.
Помимо отнесения к различным бизнес-явлениям, при разработке модели БД данные классифицируют по структуре их представления:
-
связные списки. В ячейке хранения информации содержатся сведения о содержании пункта и указание на следующий в списке пункт;
-
стеки. От списков отличаются тем, что добавить элемент можно, только убрав один из элементов в начале перечня;
-
очереди. Удалять элементы можно только из конца списка;
-
множества. Элементы информации хранятся без определенного порядка, не повторяясь. При объединении двух множеств совпадающие элементы сливаются в один;
-
MAP. Каждое значение имеет собственный ключ, используемый для быстрого поиска;
-
хэш-таблицы. Сходны по структуре с MAP, для каждого информационного элемента есть ключ, алгоритмы обработки уменьшают время поиска;
-
двоичное дерево поиска. Данные располагаются по модели корневого и последующего каталогов. Каждый узел поиска имеет от 0 до 2 дочерних узлов. Элементы дерева можно быстро искать, добавлять и удалять;
-
префиксное дерево. Схоже с двоичным, используется для хранения текстовой информации;
-
двоичная куча. Данные располагаются также в древовидной структуре;
-
граф (сеть). Совокупность узлов и ребер (отношений между узлами). Граф часто изображается в виде матрицы смежности, подразделяется на два типа – с ребрами, имеющими направление, и не имеющими его.
Большинство способов структурирования данных используют для баз, где хранятся Big Data. Выбор модели зависит от алгоритма работы программы, которой предстоит обрабатывать данные. Так, графы могут быть использованы для программных продуктов, предусматривающих опцию графового анализа.
***
Тип классификации данных выбирают на этапе построения БД исходя из двух параметров – типа программного продукта, для которого создается БД, и функционала ПО для анализа. Классификация по виду требуется на окончательной стадии создания БД, а на всем пути разработки используется несколько способов ранжирования. Форма итоговой подачи информации, система подразделения ее по категориям зависят от бизнес-процессов организации.
17.11.2020
ПОПРОБУЙТЕ «СЁРЧИНФОРМ FILEAUDITOR»!
Полнофункциональное ПО без ограничений по пользователям и функциональности.