Целью классификации данных, которые хранятся в информационных базах, является упрощение их поиска и последующей обработки. От правильной группировки объектов информации зависит надежность их защиты. Неточное распределение по категориям может привести к слабой защищенности конфиденциальных сведений или к необоснованно высоким затратам на обеспечение информационной безопасности. При выборе методов классификации придерживаются определенных правил, учитывающих качественные и количественные характеристики объектов, а также связи между ними.
Формы представления и виды информации
Данными называют информацию, которая хранится и обрабатывается в компьютерных системах.
Используются различные формы представления информации:
- Текстовая – описания событий или явлений, главы научных сочинений, перечни товаров;
- Графическая – схемы, диаграммы, рисунки, чертежи и другие наглядные изображения;
- Числовая – цифровые таблицы, математические матрицы и формулы;
- Звуковая – голосовые сообщения, музыка, сигналы;
- Комбинированная – видеоматериалы, графические изображения с голосовым или текстовым сопровождением.
В качестве признаков классификации используют физические или технические характеристики объектов, сходство или различие в их предназначении, результаты сравнения с каким-либо эталоном.
В зависимости от используемых классификационных признаков объекты информации подразделяют на:
- Простые (элементарные) и сложные (структурированные). К простым объектам относятся символы и числа, имеющие однозначный смысл или определенное обозначение (идентификатор). Структурированные объекты – это совокупность элементарных данных, связанных между собой (к сложным объектам относятся, например, справочные книги);
- Постоянные и переменные. Такое разделение производится в процессе классификации объектов информации с использованием компьютерных программ;
- Входные, промежуточные и конечные (выходные). В память компьютера вводятся исходные параметры, которые обрабатываются программой для получения конечных результатов. По ним машина составляет классификаторы (систематизированные перечни объектов).
Подходы к распределению объектов на классы
Программы классификации обрабатывают информацию, объединяют объекты по определенным признакам, формируют пакеты, удобные для исследования, хранения в информационной базе и переноса на электронные носители. При этом используются логический, физический и концептуальный принципы группировки объектов информации.
Логический подход подразумевает поиск способов представления исходных данных, а также выбор методов оптимального структурирования простых объектов.
Физический подход – это решение вопроса о наиболее подходящем формате конечного представления классифицируемых объектов на носителях информации (в бумажных документах, на оптических дисках, в памяти компьютера или на USB-устройствах).
Концептуальный подход подразумевает выбор метода (модели) компьютерной обработки объектов и общей концепции их группировки при составлении массивов.
Модели представления информации
Существуют разнообразные модели концептуального представления. У каждой из них имеются сильные и слабые стороны:
- Иерархическая – данные распределяются по классам, образующим древовидную структуру. Классификация производится от «корня» к разветвленной вершине. Объекты, расположенные на каждом следующем уровне, связаны с объектами предыдущего уровня, но не имеют связи между собой. Такая модель используется для классификации данных небольшого объема. Ее достоинства – простота и наглядность представления объектов. Однако иерархическая система не подходит для систематизации больших массивов объектов со сложными связями;
- Сетевая – все объекты информации взаимосвязаны (между ними существуют «групповые отношения»). Примером сетевой модели является интернет, в котором множество разнообразных сведений объединяется гиперссылками. Достоинствами сетевой модели являются эффективность использования компьютерной памяти. Недостаток состоит в сложности учета многообразных связей между объектами классификации;
- Реляционная – представление сведений в виде простой таблицы из строк и столбцов. Например, сведения о группе людей разного возраста и рода занятий можно разместить в таблице.
ID | Фамилия | Имя | Род занятий | Год рождения |
1 | Иванов | Александр | Врач | 1990 |
2 | Петрова | Мария | Студентка | 2001 |
3 | Сидорова | Наталья | Пенсионерка | 1958 |
4 | Николаев | Игорь | Инженер | 1985 |
С помощью такой модели невозможно точно отразить связи иерархического или реляционного типа, существующие между объектами.
Технологии компьютерной классификации
Для классификации применяется «новая информационная технология» компьютерной обработки данных с помощью специальных программ. При этом задаются алгоритмы действий, которые позволяют машине выявить сходство или отличие между объектами.
Производится машинное обучение:
- С учителем – вводятся исходные данные и конечные результаты. В процессе обучения машина запоминает алгоритм преобразования;
- Без учителя – нейросети самостоятельно находят взаимосвязи между вводными и конечными величинами.
Для введения информации в компьютер используют языки программирования Python, SQL и другие. Вычисления производятся методами математической статистики с использованием алгоритмов imports from sklearn, import load iris, model fit.
«СёрчИнформ FileAuditor» проводит автоматическую классификацию данных в файловой системе, которые содержат конфиденциальную информацию.
Использование всевозможных способов представления информации и методов их классификации позволяет систематизировать большое количество всевозможных данных.
При этом выявляются связи и отношения между объектами, что упрощает сбор и аналитическую обработку информации, ее размещение в хранилищах и необходимую защиту.
02.12.2020