В процессе сбора и анализа научных, финансовых исторических, социальных данных и событий возникает необходимость распределения информации по конкретным признакам. При этом используются различные системы классификации, отличающиеся способами группировки объектов информации, а также методами поиска закономерностей, связывающих их между собой. Классификация информации облегчает и ускоряет ее обработку, позволяет получать более достоверные результаты аналитических исследований.
Для того чтобы классификация была понятной и полезной, системы группировки данных должны:
Системы классификации выбирают с учетом характера собранных материалов и целей их систематизации.
«СёрчИнформ FileAuditor» проводит автоматическую классификацию данных в файловой системе, которые содержат конфиденциальную информацию.
В процессе классификации объектов учитывают признаки сходства между ними и отличия от объектов других классов. Существуют три системы подобного разделения: иерархическая, фасетная и дескрипторная.
При распределении объектов информации выявляют признаки сходства, выраженные в разной степени. Объекты попадают в группы, расположенные на разных уровнях «лестницы». На последнем уровне находятся классы объектов с наиболее близкими свойствами.
На нулевом уровне располагается исходное множество данных, которые разделяются на подклассы, образующие первый уровень.
Объекты первого уровня подразделяются на подклассы второго уровня с еще более конкретными признаками и т. д.
В такой системе строится «лестница классификации» определенной «глубины» (то есть количества ступеней-уровней). По мере увеличения «глубины» переходят от главных (общих) признаков к второстепенным (частным) признакам.
При этом соблюдают следующие правила:
1. Объект должен быть отнесен только к одному классу каждого уровня;
2. Признаки классификации в различных разветвлениях лестницы не должны повторяться;
3. Элементы разделения и их возможные сочетания должны быть определены заранее.
Достоинством подобной системы является простота построения «лестницы» с любым количеством классов, имеющих независимые признаки.
Недостаток иерархической системы состоит в том, что при возникновении любых изменений в отдельных классах приходится полностью менять структуру лестницы и перераспределять все объекты.
Примером использования иерархической классификации является структура российского законодательства. Основным законом является Конституция РФ, на основе которой формируются федеральные законы, правительственные акты, приказы отдельных ведомств.
В подобной системе объекты распределяют по параллельным независимым признакам (фасетам).
Например, информация классифицируется:
Преимущества такой классификации состоят в том, что можно добавлять неограниченное количество фасет, не внося изменений в предыдущие. Изменения в отдельных фасетах не сказываются на остальных объектах.
«Глубина классификации» с помощью подобной системы может быть любой, но чем больше фасет, тем сложнее процесс группировки объектов.
Фасетная классификация используется, например, при распределении информации в каталогах поисковых интернет-систем, где ее подразделяют по темам, жанрам, адресам, источникам поступления, сферам применения.
Методика используется при составлении информационно-справочных описаний.
В основе системы лежит распределение объектов информации с помощью ключевых слов:
1. Рассматривают однородные объекты и выбирают ключевые слова, с помощью которых их можно было бы охарактеризовать. При этом учитывают синонимы;
2. Производят так называемую «нормализацию» признаков: из всей совокупности выбирают ключевые слова, употребляемые чаще всего;
3. Из отобранных слов составляют «словарь дескрипторов», состоящий из категорий (классов), включающих наборы объектов. Например, при описании состава персонала предприятия выделяют группы: «рабочие», «инженерно-технические работники», «менеджеры заводоуправления», «сотрудники бухгалтерии», «руководители».
Дескрипторы могут быть связаны между собой различными способами, расширяющими зону поиска информации:
Для полного охвата информации с использованием такой системы необходимо знание специфических слов-синонимов и связей, существующих между объектами разнообразных предметных областей.
В ходе систематизации данным присваивают определенные буквенные, цифровые, штриховые обозначения (коды).
Используют различные системы кодирования:
Порядковая | Объектам присваивают определенные номера. Порядковый код не содержит никаких сведений. Такой способ применяют при небольшом количестве данных, отличающихся по единственному признаку. |
Серийно-порядковая | Объекты, имеющие несколько признаков отличия, подразделяют на серии, внутри которых производится порядковая нумерация. |
Позиционная | Каждому объекту соответствует конкретная позиция. Например, код 01.07.02 означает, что объект относится к цеху 01, участку 07, рабочему месту 02. |
Иерархическая | По мере конкретизации признаков, характеризующих объекты разных иерархических уровней, к кодовому шифру добавляется новый знак. |
Фасетная | Общий код объекта включает несколько кодов, относящихся к отдельным фасетам (параллельным признакам). |
Штриховая | Данные снабжаются штрих-кодом, представленным в двоичной системе исчисления, понятной для ЭВМ. При составлении кода используется «штриховая символика» (отображение комбинации цифр в виде штрихов и пробелов). С помощью штрих-кода в компьютер вводится разнообразная информация, позволяющая идентифицировать и стандартизировать объекты. |
Для систематизации объемной информации применяют разнообразные компьютерные системы группировки (классификаторы), такие как «логистическая регрессия», «деревья решений», «метод ближайших соседей» и другие. В них используются различные программы поиска сходства или отличий между классифицируемыми данными.
***
Системы классификации помогают расположить информацию, полученную из различных источников, в определенном порядке. Систематизированные объекты снабжаются определенными кодами, по которым их легко найти в каталоге или таблице.
При обработке больших объемов информационных объектов, имеющих разнообразные ключевые признаки, используют машинные методы классификации.
30.11.2020
Подпишитесь на нашу рассылку и получите
свод правил информационной безопасности
для сотрудников в шуточных