Контроль данных

Аудит и классификация данных
на базе системы

СёрчИнформ FileAuditor
30 дней для тестирования «СёрчИнформ FileAuditor»ОФОРМИТЬ ЗАЯВКУ
Время чтения
Шрифт

Учет входящей и исходящей информации – важная часть работы с данными. Необходимо удостоверяться в точности фактов, иначе выводы будут строиться на ложной информации.

Что такое контроль данных?

Контроль данных (англ. data validation) – процесс или совокупность процессов, определяющий точность и полноту информации, а также ее соответствие заданным критериям. Контролирование данных – не только их проверка на соответствие. Он может включать проведение тестов и вычисление допустимости (насколько возможен тот или иной результат).

Цель контроля данных – распределить статистические сведения согласно их назначению. Это необходимая процедура, так как хранение и использование постоянно изменяющихся сведений – тяжелый процесс, порой требующий усилий нескольких сотрудников.

Контроль данных разделяется на два основных типа:

  1. Контроль ввода данных.
  2. Контроль выводимых данных.

Контроль ввода данных – проверка подлинности и сочетаемости вводимой информации. Например, бухгалтер рассчитывает зарплату работникам на основе рабочих часов. Он должен убедиться в точности итоговых цифр, иначе кому-то будет начислено меньше или больше денег.

В архивах важно сохранять достоверные сведения. Сложно предугадать, какая информация понадобится компании в определенный момент. Если сохранить неверные факты, то в будущем ошибки в статистике «помогут» сделать ложный вывод.

Контроль выводимой информации – проверка сведений, выдаваемых какому-то кругу лиц, например, ежемесячного отчета работодателю. Он также подразумевает недопущение утечек важных данных и грамотное представление фактов.

Виды контроля

Контролирование осуществляется разными методами, в зависимости от обстоятельств. Например, при проверке достоверности информации используют четыре подхода:

  • синтаксический;
  • логический;
  • арифметический;
  • прагматический.

Синтаксический анализ – это проверка структуры документа, наличия необходимых реквизитов и заполнения всех полей, согласно установленным правилам. Акцент делается на правильном заполнении строк формуляров, жестком соблюдении всех правил. Это основа, на которой строится остальной контроль данных. Допустим, клиент не заполнил все формы в анкете. Недостаток данных может отразиться на результате, поэтому ответственный работник должен проконтролировать, чтобы клиент указал всю информацию.

При большом объеме информации задействуется вычислительная техника и ИИ (искусственный интеллект), пресекающий любые отклонения от нормы. Подобный принцип работает при заполнении форм в Сети. Вы не сможете продвинуться дальше, если указали неверные данные.

Логический вид анализа исправляет ошибки в описании и ассоциации. Если данные введены строго по правилам, это не значит, что они верные. 

Логическая проверка информации включает следующее: 

  • правильность записи данных;
  • соответствие наименований и значений;
  • проверка ассоциаций (выявление несовместимостей);
  • сопоставление вопросов и ответов.

Если обнаруживается ошибка, то ответственный должен внести правки в исходный документ. Например, при учете товара в магазине электроники смартфон получил ценник 100 рублей. Товаровед логически сопоставил среднюю цену на подобные товары и, заметив несоответствие, обратился к исходникам.

Арифметический контроль выявляет итоговую верность документа. Чаще всего арифметическая проверка опирается на зависимость одного показателя от другого (или других). Если при предварительных и итоговых подсчетах выявляется несоответствие, значит была допущена ошибка. Возможно потребуется проверить правильность сведений на предыдущих этапах. Не надо спешить с выводами, иначе появится еще больше ложной информации.

Прагматический показывает полезность информации для конкретных пользователей. Потребительская ценность, своевременность, актуальность, полнота и доступность – все эти параметры относятся к контролю выводимых данных.

В прагматический анализ включается окончательная проверка информации на точность:

  • орфография;
  • проверка аббревиатур;
  • проверка на пределы допустимого диапазона.

Это базовые методы очистки данных, не задевающие исходную информацию и заточенные под выявление незначительных ошибок.

Зачем контролировать информацию?

По назначению контроль делят на три типа:

  • профилактический;
  • диагностический;
  • генезисный.

Профилактический – легкий тестовый контроль, проводящийся при любых изменениях в системе (например, в алгоритмах работы). Затрагивает только сделанные недавно изменения или основные участки системы.

Диагностический – полная проверка работоспособности системы и выявление неисправностей. Отвечает за нахождение причин сбоев, но только в рамках правил и установленных инструкций.

При заметной неисправности или серьезном просчете используется генезисная проверка. В этом случае проверяющий обращается к предыдущему времени работы системы. Это помогает проанализировать сбои в прошлом, собрать статистику и выяснить характер сбоя.

Способы реализации

Выделяется три способа реализации контроля:

1. Организационный.

2. Программный.

3. Комбинированный.

Организационный

Это совокупность мероприятий, предназначенных для выявления ошибок при работе администратора системы с сотрудниками. Сюда включаются:

  • обучение;
  • разработка нормативов;
  • проверка по определенным пунктам;
  • установка сроков;
  • установление отчетности;
  • визуальный мониторинг сотрудников.

Этот способ поможет минимизировать человеческий фактор и халатность. Чем больше будет принято мер по контролю за работниками, тем меньше шансов потерять важные сведения или испортить систему.

Программный

Этот вид реализации основан на построении логических цепочек, нахождении правильных ассоциаций, сравнении арифметических расчетов, прогнозировании на основе статистики.

Комбинированный

Этот способ реализации подразумевает использование нескольких способов одновременно. Однако стоит быть осторожным, чтобы не запутаться в распределении данных.

Типы некачественных данных

Чтобы решить проблему несоответствия и больше ее не допустить, нужно знать причины возникновения ошибок. Все ошибки распределены по классам. 

  1. Общая классификация:
  2. Ошибки в начальных данных.
  3. Ошибки в процессе эксплуатации.
  4. Технические сбои вычислительной техники.

Ошибки в начальных данных – намеренный ввод неверной информации, сокращение текста, несоблюдение нормативов или невнимательность при обработке документов. При длительном хранении информации, смене администратора или оборудования могут измениться форматы хранения. Это затруднит обращение к нужной информации.

Ошибки в процессе эксплуатации – несоблюдение алгоритмов работы, спешка, намеренное изменение правил без согласования. Халатность сотрудников часто приводит к изменениям или потере файлов.

Сбои вычислительной техники – неожиданное явление, которое сложно предугадать. Но если неправильно эксплуатировать устройства хранения и обработки данных, то, скорее всего, техника быстро выйдет из строя. Следить за исправностью оборудования – задача системного администратора.

Классы ошибок данных подразделяются на категории:

  • Неполные.
  • Неправильные.
  • Непонятные.
  • Непоследовательные.

Неполные данные – это документы, в которых не указана важная информация. Причины могут быть разными: от сбоя вычислительной техники до невнимательности работников.

Неправильные – это информация, записанная неверно. Документ может быть правильно заполнен, однако некоторые показатели окажутся ложными.

Непонятные не дают возможности расшифровать документ. В это понятие включается разница форматов, неизвестные сокращения, неразборчивый почерк, устаревшая форма заполнения формуляров.

Непоследовательные – это документы, потерянные во времени. К примеру, если не обнаружена информация за какой-то месяц, может оказаться, что данные просто записаны под другим числом.

Ниже приведены некоторые конкретные виды ошибок:

  1. Неполные сведения. Недостаточность информации в БД, некачественные документы и невнимательность.
  2. Старые методы расчетов. Сведения, записанные по устаревшим методам.
  3. Ошибки в расчетах. Сделанные ранее вычисления оказались неверными.
  4. Информация введена не в ту форму. Некачественное создание форм, строки без четкой системы контроля ввода (дата, время, место записаны в разных местах).
  5. Хранение в разных форматах. Использование разных каналов связи и множества носителей.
  6. Дупликация. Слияние информации из двух БД из-за невнимательности администратора.
  7. Неизвестные значения. Аббревиатуры и сокращения, которые никому непонятны.
  8. Непоследовательные данные. Потеря хронологии и счета времени.
  9. Разные алгоритмы ведения статистических расчетов. В одной компании для оценки похожих значений используются разные методы.
  10. Сложность ведения БД. Чем дольше существует БД, тем сложнее обращаться к предыдущим записям. Работники уходят, алгоритмы меняются.

Контроль информации – сложный и ответственный процесс. Не следует пренебрегать грамотным составлением документов, алгоритмом подсчета и оценки, а также верным хранением информации. Иначе повышается вероятность ее потери. 

24.12.2019

ПОДПИШИТЕСЬ НА ПОЛЕЗНЫЕ СТАТЬИ

Рассказываем о тенденциях отрасли, утечках и способах борьбы с ними