Аудит качества данных - SearchInform

Аудит качества данных

Аудит и классификация данных
на базе системы

Решения в бизнесе принимаются на основе анализа вводных параметров, от их подбора зависит эффективность управления. Аудит качества данных призван определить, насколько верно подготовлен материал для анализа и не приведет ли его использование к ошибкам.

Понятие аудита качества информации

Основным требованием к сведениям всегда будет их актуальность. Информация имеет тенденцию устаревать и крайне редко пригодна для анализа в течение длительного времени. В бизнес-аналитике под более широким понятием качества данных подразумевается такая характеристика наборов цифровой и семантической информации, которая определит степень ее пригодности к обработке и анализу и то, насколько она соответствует предъявляемым требованиям. Такие требования могут быть специальными, определяемыми особенностями бизнеса, и нормативными, основанными на законодательстве.

Отдельным вопросом внутри компании становится согласование наборов сведений, используемых различными подразделениями. Их непротиворечивость говорит о качестве. При проведении внешнего аудита качество и достоверность финансовых и бухгалтерских сведений дают основание сделать вывод о достоверности бухгалтерской отчетности организации в целом, а хорошее аудиторское заключение становится основой для заключения выгодных контрактов.

Цели проверки качества

Необходимость аудита качества данных обусловливается бизнес-логикой. Обычно администрация организации предполагает, что обрабатываемые в программах бизнес-аналитики сведения являются качественными изначально, но при появлении сомнений необходимо проведение аудита.

Стандарты качества информации

Международные стандарты качества управления предъявляют свои требования и к качеству анализируемой информации. В России они отражены в стандарте ГОСТ ISO 9000:2015 «Системы менеджмента качества».

Среди основных проблем, снижающих потребительские характеристики информации, называются:

  • пропущенные значения;
  • фрагменты информации, дублирующие друг друга;
  • противоречия различных вводных;
  • наличие аномальных значений меняющих основную линию тренда;
  • шум или сведения, не имеющие отношения к предмету анализа;
  • неполнота сведений;
  • нарушение целостности информации;
  • некорректные или нечитаемые форматы, ошибки в предоставлении сведений;
  • фиктивные сведения;
  • ошибки ввода информации;
  • нарушение структуры для табличных и иных значений.

Некоторые проблемы не носят существенного характера, некоторые становятся критическими, поскольку способны заблокировать аналитические алгоритмы. Так, пропуск значения является весомой ошибкой, а наличие дубликатов не мешает реализации алгоритмов, однако искажает результатам анализа. 

Как организовать аудит качества информации для устранения ошибок

Руководство предприятия может проводить аудит качества сведений самостоятельно или привлекать специализированные организации. Любой аналитический проект должен начинаться с аудита первичной информации.  Результаты такой проверки становятся основой для проведения мероприятий по повышению качества. 

Одним из основных этапов data mining, интеллектуального анализа, является предобработка «сырой» информации. Она проходит в два этапа:

  1. Аудит качества информации, помогающий определить проблемы и найти приемлемые решения их устранения.
  2. Очистка – использование совокупности методов для решения проблем, таких, как восстановление пропущенных параметров, поиск и редактирование аномальных значений, устранение дубликатов и противоречий.

При проведении аудита качества информации важно решить следующие задачи:

  • определить состояние сведений с точки зрения их формирования, хранения, структурированности;
  • оценить, насколько соблюдаются стандарты качества информации с точки зрения ее целостности, конфиденциальности, доступности;
  • определить направления повышения качества.

Системные интеграторы, привлекаемые для решения этих задач, должны:

  • обеспечить организацию аудита информационных ресурсов заказчика и сформулировать критерии их качества с точки зрения соответствия бизнес-процессам, назвать основные направления оптимизации;
  • сформулировать план оптимизации, с учетом желаемого результата и минимизации затрат.

Часто компании сталкиваются с необходимостью срочного аудита информации, обнаружив в ходе бизнес-процесса неполноту или противоречивость информации. Если большой поток сведений для работы компании нужен постоянно, целесообразно настроить автоматическую и регулярную проверку, а не надеяться на разовый аудит. 


Регулярный автоматизированный аудит конфиденциальных данных в файловой системе компании проводит «СёрчИнформ FileAuditor»


Программные решения, применяемые для аудита и последующего восстановления характеристик информации, должны обеспечивать:

  • контроль целостности структуры информационных объектов на уровне форматов и содержания;
  • проверку содержания ссылок и их наличия;
  • полную прямую и перекрестную логическую проверку;
  • проверку всех дополнительных признаков качества.

Системные интеграторы предлагают готовые решения для аудита, но они отличаются невысокой гибкостью и отсутствием возможности доработки. 

Среди лидеров рынка эксперты называют:

  • Informatica;
  • SAP;
  • IBM;
  • SAS;
  • Oracle.

Наиболее востребованными являются решения по аудиту сведений компании SAP – Smart Data Quality, SAP Information Steward, SAP Data Services и SAP Data Hub, которые внедрены на десятках тысяч предприятий в мире. Среди российских разработок, обеспечивающих аудит качества сведений, эксперты называют SoftServe Business Systems – решение, предлагающее многоуровневый контроль.

Обязательными функциями таких программных решений по аудиту информации являются:

  • профилирование;
  • синтаксический анализ семантической информации;
  • стандартизация форматов;
  • очистка от шумов;
  • сопоставление и удаление дубликатов;
  • пополнение недостающей информации;
  • регулярный мониторинг качества сведений.

Итогом аудита должно стать ежедневное получение оперативной сводки, в которой отражается информация о состоянии информации, динамике изменений трендов отклонений, результирующий показатель, отражающий общее состояние информации.

В качестве плюсов выпущенных на рынок аудиторских продуктов, как российских, так и зарубежных, можно назвать обучение, поддержку, полное закрытие вопроса с контролем MDM (англ. master data management) – наиболее важных для бизнеса сведений. Недостатками программ аудита являются несовместимость с большинством бизнес-инструментов, не всегда приемлемые цены на лицензии. Минусом продуктов SAP часто называют недоработанный интерфейс, в котором неудобно работать.

Собственная разработка программ для аудита качества

Недостатки готовых программ побуждают крупные компании к созданию собственных решений по аудиту качества информации. Подобным образом поступили в Ростелекоме. Компании удалось решить проблему совместимости, и ее продукт с равным успехом работает с информацией, содержащейся в разных базах и программах.

В качестве основы для внедрения системы аудита в Ростелекоме была использована CRM-система предприятия, созданная в Oracle. Именно в общей системе управления бизнес-процессами содержится база метаданных хранения, документирования и хранения результатов аудита. 

Для сверок был применен оркестратор Informatica, который обеспечивает:

  • сравнение количества позиций на входе и в базе;
  • техническую сверку и обнаружение дублей в ключевых полях;
  • проверку на отсутствие нулевых значений;
  • тренд-анализ изменения количества сведений.

Помимо технической проверки качества, проверяется история загрузок на отсутствие пробелов и разрывов. Обязательно проводится верификация сведений, находящихся в системе, с теми, которые содержатся в источнике загрузки.

Результаты аудита визуализируются в виде диаграмм и графиков, это позволяет быстро принимать решения об устранении ошибок.
Выбор, приобретать ли готовый продукт или опираться на собственные разработки в области контроля качества данных, зависит от стратегии компании и от того, как именно она использует информацию. В любом случае отказ от аудита качества информации невозможен, это снизит эффективность бизнес-решений.

12.12.2019

Закажите бесплатный 30-дневный триал
Полнофункциональное ПО без ограничений по
пользователям и функциональности
Подпишитесь на нашу рассылку и получите свод правил информационной безопасности для сотрудников в шуточных стишках-пирожках.