Методы классификации данных - SearchInform

Методы классификации данных

Защита информации
с помощью DLP-системы

Систематизация облегчает сбор и обработку информации, ее использование в практических целях. Задачи классификации данных решаются с помощью различных методов поиска закономерностей и взаимосвязей между объектами информации. 

Методики классификации объектов

Для разделения объектов информации на классы чаще всего применяются методики двух типов: иерархическая и фасетная. Они отличаются способами обнаружения характерных признаков классификации и распределения данных по группам.

Иерархическая методика

Объекты разделяют на группы, образующие «ступени» классификационной лестницы, которые располагаются в иерархическом порядке. Количество ступеней называют «глубиной» классификации. Объекты подразделяются по степени значимости признаков (от главных к второстепенным, от общих к частным). Количество признаков, характеризующих объект, может быть бесконечным. На практике для решения задачи, связанной с группировкой объектов, обычно используются «лестницы» с числом ступеней меньше 10.

Метод «деревья решений»

Это разновидность иерархической методики. Для решения задачи классификации данных производится их разделение на более мелкие группы с целью уточнения отличительных свойств. При этом категории сортировки постепенно конкретизируются. С каждым разделением в группах остается все меньше объектов. 

Процесс завершается тогда, когда в группе остается один объект, который снабжается меткой о принадлежности к определенному классу. Происходит «разветвление» категорий анализа. Для того чтобы классифицировать данные, обычно создаются «бинарные деревья», то есть производится разделение признаков на две ветви, потом еще на две и т. д.

Фасетный метод

Объекты информации разделяют по одному общему признаку (например, по назначению, цвету, форме или составу) на независимые группы. Признаки разделения должны быть сопоставимыми по значимости для различных объектов.

С помощью фасетного метода можно легко распределить по классам группу товаров или классифицировать оборудование, используемое в крупной компании.

Классификация числовых и градуированных показателей

Исследуемые цифровые данные распределяются по числовым диапазонам. Каждая серия таких показателей укладывается в определенный интервал.

Существуют следующие методики разделения числовых объектов информации:

1. Заданные интервалы. Их размер определяется заранее. Количество интервалов (классов) рассчитывается автоматически в зависимости от размеров анализируемой выборки. В ней должно быть не меньше трех классов, поэтому интервалы должны быть достаточно мелкими;

2. Равные интервалы. Диапазон числовых значений, отражающих одно и то же свойство разных объектов, подразделяется на равные интервалы. В результате объекты попадают в группы с разными качественными характеристиками. Такая методика подходит, например, для оценки эффективности работы нескольких компаний, выпускающих одну и ту же продукцию. Чтобы сделать выводы, товары, реализованные за определенный период, подразделяют по срокам их службы: 0-100 дней, 101-200 дней, 201-300 дней. Это позволяет судить о качестве продукции;

3. Естественные границы. Интервалы устанавливаются таким образом, чтобы внутри классов отличия признаков были минимальными, а между различными группами – максимальными;

4. Среднеквадратическое отклонение. Объекты группируются по степени отклонения их числовых характеристик от среднего значения, вычисляемого компьютером;

5. Квантиль. Объекты равномерно распределяются по классам без учета их качественных характеристик. 


«СёрчИнформ FileAuditor» позволяет провести классификацию данных в автоматизированном режиме и узнать, сколько в компании данных, содержащих конфиденциальные сведения. 


Методы классификации с использованием машинного обучения

Для того чтобы классифицировать объекты информации, используют различные приемы машинного обучения и специальные программы (библиотеки), составленные на языке Python. Одной из наиболее популярных библиотек является Scikit-Learn. Она предназначена для проведения машинного обучения «с учителем» и создания классификаторов, группирующих объекты по определенным признакам.

При обучении «с учителем» в компьютер вводят исходные данные с заранее известными свойствами и программируют действия (алгоритмы), которые необходимо выполнить, чтобы произвести классификацию. В результате в нейросетях закрепляется шаблонный алгоритм преобразования входных параметров («признаков») и придания им конкретных «меток» принадлежности к классам.

Программы-классификаторы отличаются приемами поиска сходства между объектами информации, а также формами представления результатов.

Метод ближайших соседей

Принадлежность анализируемого объекта к определенному классу устанавливается по степени его близости к объектам «обучающего набора», уже прошедшим классификацию.

Объект будет отнесен к той группе, в которую входят его ближайшие «соседи». Признаками близости могут быть, например, интересы или особенности поведения людей, внешнее сходство предметов, наличие у них одинакового вкуса или цвета.

Машина находит признаки сходства с классифицированными объектами обучающей выборки, сравнивает показатели выраженности, заданные по 10-балльной шкале. 

Например, необходимо решить следующую задачу: к какому классу продуктов относятся «яблоко», «мясо» и «банан». Для сравнения задается показатель «сладость»:

  • Яблоко – 9;
  • Мясо – 4;
  • Банан – 10.

Решая поставленную задачу, машина сопоставляет заданные показатели, причисляет яблоко и банан к фруктам, а мясо – к белковым продуктам.

Если анализируется множество объектов, то каждый из них относят к тому классу, к которому принадлежит большинство его соседей из «обучающего набора».

Такой метод применяется для классификации данных с незначительным количеством сходных признаков. При решении задач с большими массивами и использовании множества показателей точность результатов снижается.

Метод опорных векторов

Анализируемые данные («векторы») группируются по классам, имеющим между собой определенные отличия. Объекты с различными признаками располагаются по обе стороны условной разделительной линии. Машина определяет, как должна проходить такая линия («гиперплоскость максимальной разницы»), чтобы распределение объектов по классам оказалось наиболее точным.

Наивный байесовский классификатор

Методика основана на «наивных» гипотезах теоремы Байеса, используемой в теории вероятностей. Чтобы классифицировать исследуемый объект, компьютер вычисляет вероятность принадлежности его к тому или иному классу. 

Вначале производится независимый расчет по отдельным признакам. Например, рассчитывается вероятность того, что исследуемый фрукт является яблоком, поскольку он: круглый, сладкий, красный. Затем производится расчет общей вероятности с учетом предыдущих результатов.

К достоинствам классификатора относят простоту «машинного обучения» подобной методике, легкость интерпретации результатов расчета.

Линейный дискриминантный анализ

Преобразование анализируемых данных производится путем группировки схожих признаков («уменьшения числа переменных»). Результаты проецируются на одну линию, после чего объекты классифицируются по принципу удаленности от центральной точки. 

Основной задачей машины является составление линейных уравнений, описывающих свойства объектов (поиск «дискриминантных функций»), и расчет вероятности попадания объектов в конкретный класс.

Классификацию с помощью такой методики проводят, например, для оценки финансового состояния клиентов банка, подавших заявки на выдачу кредита. Клиенты классифицируются на две группы: «надежные» и «ненадежные».

Подобный вариант отбора подходит также в случае тестирования кандидатов, принимаемых на работу. Во время собеседования претендентов делят на категории «удовлетворяющих» и «неудовлетворяющих» требованиям.

Логистическая регрессия

Анализируемые показатели переводятся в двоичную систему счисления, за счет чего объем исследования уменьшается, и обработка информации цифровыми электронными устройствами значительно упрощается. Объекты анализа представляются в виде точек в интервале от 0 до 1 и разделяются на группы «больше 0.5» и «меньше 0.5».

Пример: Врач обследует пациентов, чтобы определить наличие или отсутствие болезни.

В компьютер загружается обучающая выборка показателей, учитываемых при обследовании, в частности таких как:

  • концентрация глюкозы в крови;
  • уровень инсулина;
  • индекс массы тела;
  • вероятность наследственного заболевания.

В двоичной системе задаются границы: 1 – наличие диабета, 0 – отсутствие болезни.

Сравнивая показатели больного с данными обучающей выборки, компьютер рассчитывает коэффициент «логистической регрессии», по которому можно судить о вероятности наличия заболевания.

***

Группировка данных по классам упрощает выявление связей и закономерностей между ними и проведение аналитических исследований. Классифицированную информацию легче обрабатывать и размещать в хранилищах. При распределении объектов по классам используются различные приемы выявления сходных и отличительных признаков. Рассчитывается вероятность принадлежности объектов информации к определенным группам. Осуществляя классификацию, используют разнообразные методики машинного обучения «с учителем». С помощью специальных программ производят необходимое преобразование входящих данных, находят определенные закономерности между ними и представляют результаты классификации в наглядной форме.

05.11.2020

Подпишитесь на нашу рассылку и получите свод правил информационной безопасности для сотрудников в шуточных стишках-пирожках.