Анализ метаданных

Аудит и классификация данных
на базе системы

СёрчИнформ FileAuditor
30 дней для тестирования «СёрчИнформ FileAuditor»ОФОРМИТЬ ЗАЯВКУ
Время чтения
Шрифт

Под метаданными в информационных технологиях понимают сведения, описывающие содержимое файла. В бизнесе они часто встречаются в программных продуктах, облегчающих управление предприятием, например, в 1С, и позволяют восстановить структуру программы после ее свертки. Также они облегчают анализ информации, хранящейся в базах данных, классифицируя файлы по различным признакам.

Понятие метаданных

Метаданные особенно важны для публичных и открытых сведений, они предоставляют возможность ознакомиться со структурой и содержанием файла. Метаданные могут описывать не только объекты, но и процессы, и форматы их представления оказываются различными.

Классификация объектов метаданных для пользователя производится по различным признакам, чаще всего визуальным. 

Среди параметров, по которым производится классификация:

  • содержание (descriptive) – описание объекта метаданных по признакам размера и типа файла, сведений о его содержании (например, «в этом видео можно услышать пение птиц»);
  • отношение к сайту, на котором размещен описываемый при помощи метаданных файл, или его компонентам. В этом случае метаданные содержат основные сведения о каком-либо объекте (например, имя файла, название фильма или описание сюжета, актерского состава);
  • логический вывод на основе разделения объекта на три слоя. Первый слой описывает файл, второй представляет собой описание первого слоя, третий помогает сделать логический вывод о содержимом первого слоя на основании данных, заданных во втором.

Эти три варианта оснований классификации метаданных не являются исчерпывающими, практика предлагает и другие решения. 

В информационных системах востребованы следующие типы классификации:

  • внутренние характеристики, описывающие размер или тип файла;
  • административные, содержащие информацию об объекте, например, об авторе или сюжете;
  • данные о природе объекта, его отличительных признаках, ссылки на другие объекты, связанные с описываемым.

Метаданные следует отличать от данных вообще. Так, название статьи в качестве строки текста относится к данным, а в качестве его описания – к метаданным.


Анализ информации, которая хранится в файловой системе предприятия, помогает провести «СёрчИнформ FileAuditor». 


Форматы метаданных

Структура метаданных предполагает несколько вариантов форматов, в которых заполняются ключевые поля:

  • MARC и его подтипы. Он применяется для описания текстовых файлов, книг, иных библиографических ресурсов, содержит данные об авторе, годе выпуска, издательстве или журнале;
  • DCMI. В этом формате описываются электронные ресурсы и документы, электронные научные журналы;
  • FOAF и vCard. Форматы метаданных описывают персональные данные людей и реквизиты организаций, при импорте информации с мобильных устройств vCard обеспечивает сохранение перечня контактов;
  • CDWA предоставляет возможность сохранить информацию об объектах истории и культуры, музейных фондах;
  • ONIX и PRISM содержат информацию об издательстве;
  • CIF описывает параметры кристалла;
  • VICAR применяется для сохранения данных об изображениях, получаемых со спутников;
  • NewsXML описывает метаданные о новостях.

В качества отдельного формата метаданных называют XML, в нем сохраняется либо информация с тегами, либо настройки программ, к которым они прикреплены. 

Все форматы метаданных облегчают работу по хранению и обработке файлов и объектов, помогая их классифицировать. С их помощью можно создавать отдельные таблицы в СУБД для дальнейшего изучения.

Управление метаданными

Качественное управление метаданными в компании призвано обеспечить структурирование информации в целях хранения и дальнейшего исследования. Для анализа метаданных разрабатываются простые программные решения, которые за короткое время просмотрят информацию на сайте или в СУБД и подготовят отчет о свойствах объектов, реквизитах и других сведениях об объекте метаданных в визуализированном или табличном виде. Структура таких таблиц никогда не бывает застывшей и окончательной: по мере изменения характеристик метаданных меняются наименования строк и столбцов.

Использование метаданных для изучения содержимого сайтов

Создание метаданных– задача для разработчика или администратора сайта либо информационной системы. Сведения в файлы чаще вносят вручную, чем автоматически. Правильное внесение сведений в метаданные позволяет решить многие практические задачи. 

Описывая файлы и страницы, специалист должен отразить сведения, позволяющие выполнить:

  • идентификацию объектов информационной среды и их атрибутов;
  • идентификацию источников данных;
  • описание семантики данных источников и ХД (хранилищ данных);
  • описание алгоритмов преобразования и агрегации данных;
  • описание путей доступа к данным.

Для полной и качественной обработки метаданные должны содержать следующую информацию:

  • описание смысла файла, а именно наименование, описание файла и предметной области, к которой он относится, краткое резюме, цель сбора данных, уровень их переработки, тезаурус понятий, контекстные отсылки, маркировка данных по времени, месту, актуальности, зависимости, значимости;
  • структура файла с перечислением базовых и неделимых элементов, принципы группировки элементов структуры, их взаимосвязи, ограничения, допускаемые проблемы со структурной целостностью;
  • форматы кодировок, описания, применение форматов, возможность конвертации, соответствие данных заданному формату.

При работе с сайтами использование программ для изучения метаданных позволит получить относительно закрытую информацию. Так, с ресурса, на котором публикуются научные статьи, можно получить сведения об используемом программном обеспечении, логины авторов, подобрать список тем для рассылок, как безопасных, так и фишинговых. Для такого анализа часто применяется программа FOCA – Fingerprinting Organizations with Collected Archive. Она сканирует домен при помощи популярных поисковых систем и извлекает нужные сведения. Хранение метаданных организовывается таким образом, чтобы в любой момент можно было получить ответ как на предметные вопросы, так и на внезапно возникшие.

СЕО-оптимизация

Изучение метаданных снимет часть задач, связанных с СЕО-оптимизацией ресурса. В этом случае под метаданными понимается информация, которую видит робот-поисковик. Обычно она ограничивается предметными областями, семантическим ядром или сведениями, получаемыми из Wordstat. 

Необходимо просмотреть:

  • метатег title. Это название страницы сайта, оно должно быть уникальным для каждой отдельной вкладки;
  • description. Метаданные появляются в поисковике под ссылкой на страницу найденного сайта;
  • keywords. 10-15 ключевых слов, описывающих содержимое страницы.

Изучение того, насколько корректно введены метаданные, поможет оптимизировать продвижение ресурса после изучения и выработки рекомендаций о том, какие именно форматы метаданных лучше видны поисковым роботам.

Свертка базы данных и метаданные

Анализ метаданных поможет осуществить свертку базы данных в 1С, сохранив файлы, но убрав всю информацию о действиях с ними. Перед тем, как производить свертку базы, требуется проанализировать метаданные, сформировав список объектов и подсчитав количество записей по объекту. Перед сверткой данные сохраняются в файлы формата *.xml, а после свертки они раскрываются, и информация используется для восстановления параметров базы. Файлы *.xml создаются для каждого типа метаданных. Изучение и обработка данных позволяет определить тип свертки.

Метаданные – удобный инструмент управления информацией. Их грамотное использование позволяет структурировать данные в ИС, оптимизировать хранение сведений и провести качественный анализ.

17.12.2019

ПОДПИШИТЕСЬ НА ПОЛЕЗНЫЕ СТАТЬИ

Рассказываем о тенденциях отрасли, утечках и способах борьбы с ними