Система классификации данных - SearchInform

Система классификации данных

Защита информации
с помощью DLP-системы

В процессе сбора и анализа научных, финансовых исторических, социальных данных и событий возникает необходимость распределения информации по конкретным признакам. При этом используются различные системы классификации, отличающиеся способами группировки объектов информации, а также методами поиска закономерностей, связывающих их между собой. Классификация информации облегчает и ускоряет ее обработку, позволяет получать более достоверные результаты аналитических исследований.

Какие требования учитывают при распределении объектов по классам

Для того чтобы классификация была понятной и полезной, системы группировки данных должны: 

  • Охватывать максимум информации, касающейся определенных явлений, событий, результатов экспериментов, финансовой или производственной деятельности;
  • Использовать однозначные, логически понятные признаки разделения объектов информации;
  • Оставлять возможность для пополнения классов новыми данными.

Системы классификации выбирают с учетом характера собранных материалов и целей их систематизации.


«СёрчИнформ FileAuditor» проводит автоматическую классификацию данных в файловой системе, которые содержат конфиденциальную информацию. 


Системы классификации и их особенности

В процессе классификации объектов учитывают признаки сходства между ними и отличия от объектов других классов. Существуют три системы подобного разделения: иерархическая, фасетная и дескрипторная.

Иерархическая классификация

При распределении объектов информации выявляют признаки сходства, выраженные в разной степени. Объекты попадают в группы, расположенные на разных уровнях «лестницы». На последнем уровне находятся классы объектов с наиболее близкими свойствами.

На нулевом уровне располагается исходное множество данных, которые разделяются на подклассы, образующие первый уровень.

Объекты первого уровня подразделяются на подклассы второго уровня с еще более конкретными признаками и т. д.

В такой системе строится «лестница классификации» определенной «глубины» (то есть количества ступеней-уровней). По мере увеличения «глубины» переходят от главных (общих) признаков к второстепенным (частным) признакам.

При этом соблюдают следующие правила:

1. Объект должен быть отнесен только к одному классу каждого уровня;

2. Признаки классификации в различных разветвлениях лестницы не должны повторяться;

3. Элементы разделения и их возможные сочетания должны быть определены заранее.

Достоинством подобной системы является простота построения «лестницы» с любым количеством классов, имеющих независимые признаки.

Недостаток иерархической системы состоит в том, что при возникновении любых изменений в отдельных классах приходится полностью менять структуру лестницы и перераспределять все объекты.

Примером использования иерархической классификации является структура российского законодательства. Основным законом является Конституция РФ, на основе которой формируются федеральные законы, правительственные акты, приказы отдельных ведомств. 

Фасетная классификация

В подобной системе объекты распределяют по параллельным независимым признакам (фасетам).

Например, информация классифицируется:

  • По характеру (фасет 1) – входящая, исходящая, внешняя, внутренняя;
  • По регулярности поступления (фасет 2) – периодическая, ежедневная;
  • По стадии обработки (фасет 3) – исходная, вторичная, промежуточная, конечная;
  • По выполняемой функции (фасет 4) – справочно-нормативная, отчетная, плановая, оперативная, аналитическая.

Преимущества такой классификации состоят в том, что можно добавлять неограниченное количество фасет, не внося изменений в предыдущие. Изменения в отдельных фасетах не сказываются на остальных объектах.
«Глубина классификации» с помощью подобной системы может быть любой, но чем больше фасет, тем сложнее процесс группировки объектов.

Фасетная классификация используется, например, при распределении информации в каталогах поисковых интернет-систем, где ее подразделяют по темам, жанрам, адресам, источникам поступления, сферам применения.

Дескрипторная классификация

Методика используется при составлении информационно-справочных описаний. 

В основе системы лежит распределение объектов информации с помощью ключевых слов:

1.  Рассматривают однородные объекты и выбирают ключевые слова, с помощью которых их можно было бы охарактеризовать. При этом учитывают синонимы;

2.  Производят так называемую «нормализацию» признаков: из всей совокупности выбирают ключевые слова, употребляемые чаще всего;

3.  Из отобранных слов составляют «словарь дескрипторов», состоящий из категорий (классов), включающих наборы объектов. Например, при описании состава персонала предприятия выделяют группы: «рабочие», «инженерно-технические работники», «менеджеры заводоуправления», «сотрудники бухгалтерии», «руководители».

Дескрипторы могут быть связаны между собой различными способами, расширяющими зону поиска информации:

  • Синонимический способ. При выборе ключевых слов используют синонимы (например, «рабочие – аппаратчики – операторы»);
  • Родовидный способ. Отдельные классы объектов включают в более общие. Например, «работники цеха» входят в состав «заводского персонала»;
  • Ассоциативный способ. Поиск информации ведут по дескрипторам, связанным ассоциативно (например, «работники отдела кадров» – «служащие компании»).

Для полного охвата информации с использованием такой системы необходимо знание специфических слов-синонимов и связей, существующих между объектами разнообразных предметных областей. 

Кодирование информации

В ходе систематизации данным присваивают определенные буквенные, цифровые, штриховые обозначения (коды).

Используют различные системы кодирования:

Порядковая Объектам присваивают определенные номера. Порядковый код не содержит никаких сведений. Такой способ применяют при небольшом количестве данных, отличающихся по единственному признаку.
Серийно-порядковая Объекты, имеющие несколько признаков отличия, подразделяют на серии, внутри которых производится порядковая нумерация.
Позиционная Каждому объекту соответствует конкретная позиция. Например, код 01.07.02 означает, что объект относится к цеху 01, участку 07, рабочему месту 02.
Иерархическая По мере конкретизации признаков, характеризующих объекты разных иерархических уровней, к кодовому шифру добавляется новый знак.
Фасетная Общий код объекта включает несколько кодов, относящихся к отдельным фасетам (параллельным признакам).
Штриховая Данные снабжаются штрих-кодом, представленным в двоичной системе исчисления, понятной для ЭВМ. При составлении кода используется «штриховая символика» (отображение комбинации цифр в виде штрихов и пробелов). С помощью штрих-кода в компьютер вводится разнообразная информация, позволяющая  идентифицировать и стандартизировать объекты.

Для систематизации объемной информации применяют разнообразные компьютерные системы группировки (классификаторы), такие как «логистическая регрессия», «деревья решений», «метод ближайших соседей» и другие. В них используются различные программы поиска сходства или отличий между классифицируемыми данными.

***

Системы классификации помогают расположить информацию, полученную из различных источников, в определенном порядке. Систематизированные объекты снабжаются определенными кодами, по которым их легко найти в каталоге или таблице.

При обработке больших объемов информационных объектов, имеющих разнообразные ключевые признаки, используют машинные методы классификации.

30.11.2020

Подпишитесь на нашу рассылку и получите свод правил информационной безопасности для сотрудников в шуточных стишках-пирожках.