Принципы классификации данных

Аудит и классификация данных
на базе системы

СёрчИнформ FileAuditor
30 дней для тестирования «СёрчИнформ FileAuditor»ОФОРМИТЬ ЗАЯВКУ
Время чтения
Шрифт

Целью классификации данных, которые хранятся в информационных базах, является упрощение их поиска и последующей обработки. От правильной группировки объектов информации зависит надежность их защиты. Неточное распределение по категориям может привести к слабой защищенности конфиденциальных сведений или к необоснованно высоким затратам на обеспечение информационной безопасности. При выборе методов классификации придерживаются определенных правил, учитывающих качественные и количественные характеристики объектов, а также связи между ними.

Формы представления и виды информации

Данными называют информацию, которая хранится и обрабатывается в компьютерных системах.

Используются различные формы представления информации:

  • Текстовая – описания событий или явлений, главы научных сочинений, перечни товаров;
  • Графическая – схемы, диаграммы, рисунки, чертежи и другие наглядные изображения;
  • Числовая – цифровые таблицы, математические матрицы и формулы;
  • Звуковая – голосовые сообщения, музыка, сигналы;
  • Комбинированная – видеоматериалы, графические изображения с голосовым или текстовым сопровождением.

В качестве признаков классификации используют физические или технические характеристики объектов, сходство или различие в их предназначении, результаты сравнения с каким-либо эталоном.

В зависимости от используемых классификационных признаков объекты информации подразделяют на:

  • Простые (элементарные) и сложные (структурированные). К простым объектам относятся символы и числа, имеющие однозначный смысл или определенное обозначение (идентификатор). Структурированные объекты – это совокупность элементарных данных, связанных между собой (к сложным объектам относятся, например, справочные книги);
  • Постоянные и переменные. Такое разделение производится в процессе классификации объектов информации с использованием компьютерных программ;
  • Входные, промежуточные и конечные (выходные). В память компьютера вводятся исходные параметры, которые обрабатываются программой для получения конечных результатов. По ним машина составляет классификаторы (систематизированные перечни объектов).

Подходы к распределению объектов на классы

Программы классификации обрабатывают информацию, объединяют объекты по определенным признакам, формируют пакеты, удобные для исследования, хранения в информационной базе и переноса на электронные носители. При этом используются логический, физический и концептуальный принципы группировки объектов информации.

Логический подход подразумевает поиск способов представления исходных данных, а также выбор методов оптимального структурирования простых объектов.

Физический подход – это решение вопроса о наиболее подходящем формате конечного представления классифицируемых объектов на носителях информации (в бумажных документах, на оптических дисках, в памяти компьютера или на USB-устройствах).

Концептуальный подход подразумевает выбор метода (модели) компьютерной обработки объектов и общей концепции их группировки при составлении массивов.

Модели представления информации

Существуют разнообразные модели концептуального представления. У каждой из них имеются сильные и слабые стороны:

  • Иерархическая – данные распределяются по классам, образующим древовидную структуру. Классификация производится от «корня» к разветвленной вершине. Объекты, расположенные на каждом следующем уровне, связаны с объектами предыдущего уровня, но не имеют связи между собой. Такая модель используется для классификации данных небольшого объема. Ее достоинства – простота и наглядность представления объектов. Однако иерархическая система не подходит для систематизации больших массивов объектов со сложными связями;
  • Сетевая – все объекты информации взаимосвязаны (между ними существуют «групповые отношения»). Примером сетевой модели является интернет, в котором множество разнообразных сведений объединяется гиперссылками. Достоинствами сетевой модели являются эффективность использования компьютерной памяти. Недостаток состоит в сложности учета многообразных связей между объектами классификации;
  • Реляционная – представление сведений в виде простой таблицы из строк и столбцов. Например, сведения о группе людей разного возраста и рода занятий можно разместить в таблице.
ID   Фамилия Имя Род занятий Год рождения
1 Иванов   Александр Врач  1990
2 Петрова Мария Студентка 2001
3 Сидорова Наталья Пенсионерка 1958
4 Николаев Игорь Инженер 1985

С помощью такой модели невозможно точно отразить связи иерархического или реляционного типа, существующие между объектами.

Технологии компьютерной классификации

Для классификации применяется «новая информационная технология» компьютерной обработки данных с помощью специальных программ. При этом задаются алгоритмы действий, которые позволяют машине выявить сходство или отличие между объектами. 

Производится машинное обучение:

  • С учителем – вводятся исходные данные и конечные результаты. В процессе обучения машина запоминает алгоритм преобразования;
  • Без учителя – нейросети самостоятельно находят взаимосвязи между вводными и конечными величинами.

Для введения информации в компьютер используют языки программирования Python, SQL и другие. Вычисления производятся методами математической статистики с использованием алгоритмов imports from sklearn, import load iris, model fit.


«СёрчИнформ FileAuditor» проводит автоматическую классификацию данных в файловой системе, которые содержат конфиденциальную информацию. 


Использование всевозможных способов представления информации и методов их классификации позволяет систематизировать большое количество всевозможных данных. 

При этом выявляются связи и отношения между объектами, что упрощает сбор и аналитическую обработку информации, ее размещение в хранилищах и необходимую защиту.

02.12.2020

ПОДПИШИТЕСЬ НА ПОЛЕЗНЫЕ СТАТЬИ

Рассказываем о тенденциях отрасли, утечках и способах борьбы с ними