Под метаданными в информационных технологиях понимают сведения, описывающие содержимое файла. В бизнесе они часто встречаются в программных продуктах, облегчающих управление предприятием, например, в 1С, и позволяют восстановить структуру программы после ее свертки. Также они облегчают анализ информации, хранящейся в базах данных, классифицируя файлы по различным признакам.
Понятие метаданных
Метаданные особенно важны для публичных и открытых сведений, они предоставляют возможность ознакомиться со структурой и содержанием файла. Метаданные могут описывать не только объекты, но и процессы, и форматы их представления оказываются различными.
Классификация объектов метаданных для пользователя производится по различным признакам, чаще всего визуальным.
Среди параметров, по которым производится классификация:
- содержание (descriptive) – описание объекта метаданных по признакам размера и типа файла, сведений о его содержании (например, «в этом видео можно услышать пение птиц»);
- отношение к сайту, на котором размещен описываемый при помощи метаданных файл, или его компонентам. В этом случае метаданные содержат основные сведения о каком-либо объекте (например, имя файла, название фильма или описание сюжета, актерского состава);
- логический вывод на основе разделения объекта на три слоя. Первый слой описывает файл, второй представляет собой описание первого слоя, третий помогает сделать логический вывод о содержимом первого слоя на основании данных, заданных во втором.
Эти три варианта оснований классификации метаданных не являются исчерпывающими, практика предлагает и другие решения.
В информационных системах востребованы следующие типы классификации:
- внутренние характеристики, описывающие размер или тип файла;
- административные, содержащие информацию об объекте, например, об авторе или сюжете;
- данные о природе объекта, его отличительных признаках, ссылки на другие объекты, связанные с описываемым.
Метаданные следует отличать от данных вообще. Так, название статьи в качестве строки текста относится к данным, а в качестве его описания – к метаданным.
Анализ информации, которая хранится в файловой системе предприятия, помогает провести «СёрчИнформ FileAuditor».
Форматы метаданных
Структура метаданных предполагает несколько вариантов форматов, в которых заполняются ключевые поля:
- MARC и его подтипы. Он применяется для описания текстовых файлов, книг, иных библиографических ресурсов, содержит данные об авторе, годе выпуска, издательстве или журнале;
- DCMI. В этом формате описываются электронные ресурсы и документы, электронные научные журналы;
- FOAF и vCard. Форматы метаданных описывают персональные данные людей и реквизиты организаций, при импорте информации с мобильных устройств vCard обеспечивает сохранение перечня контактов;
- CDWA предоставляет возможность сохранить информацию об объектах истории и культуры, музейных фондах;
- ONIX и PRISM содержат информацию об издательстве;
- CIF описывает параметры кристалла;
- VICAR применяется для сохранения данных об изображениях, получаемых со спутников;
- NewsXML описывает метаданные о новостях.
В качества отдельного формата метаданных называют XML, в нем сохраняется либо информация с тегами, либо настройки программ, к которым они прикреплены.
Все форматы метаданных облегчают работу по хранению и обработке файлов и объектов, помогая их классифицировать. С их помощью можно создавать отдельные таблицы в СУБД для дальнейшего изучения.
Управление метаданными
Качественное управление метаданными в компании призвано обеспечить структурирование информации в целях хранения и дальнейшего исследования. Для анализа метаданных разрабатываются простые программные решения, которые за короткое время просмотрят информацию на сайте или в СУБД и подготовят отчет о свойствах объектов, реквизитах и других сведениях об объекте метаданных в визуализированном или табличном виде. Структура таких таблиц никогда не бывает застывшей и окончательной: по мере изменения характеристик метаданных меняются наименования строк и столбцов.
Использование метаданных для изучения содержимого сайтов
Создание метаданных– задача для разработчика или администратора сайта либо информационной системы. Сведения в файлы чаще вносят вручную, чем автоматически. Правильное внесение сведений в метаданные позволяет решить многие практические задачи.
Описывая файлы и страницы, специалист должен отразить сведения, позволяющие выполнить:
- идентификацию объектов информационной среды и их атрибутов;
- идентификацию источников данных;
- описание семантики данных источников и ХД (хранилищ данных);
- описание алгоритмов преобразования и агрегации данных;
- описание путей доступа к данным.
Для полной и качественной обработки метаданные должны содержать следующую информацию:
- описание смысла файла, а именно наименование, описание файла и предметной области, к которой он относится, краткое резюме, цель сбора данных, уровень их переработки, тезаурус понятий, контекстные отсылки, маркировка данных по времени, месту, актуальности, зависимости, значимости;
- структура файла с перечислением базовых и неделимых элементов, принципы группировки элементов структуры, их взаимосвязи, ограничения, допускаемые проблемы со структурной целостностью;
- форматы кодировок, описания, применение форматов, возможность конвертации, соответствие данных заданному формату.
При работе с сайтами использование программ для изучения метаданных позволит получить относительно закрытую информацию. Так, с ресурса, на котором публикуются научные статьи, можно получить сведения об используемом программном обеспечении, логины авторов, подобрать список тем для рассылок, как безопасных, так и фишинговых. Для такого анализа часто применяется программа FOCA – Fingerprinting Organizations with Collected Archive. Она сканирует домен при помощи популярных поисковых систем и извлекает нужные сведения. Хранение метаданных организовывается таким образом, чтобы в любой момент можно было получить ответ как на предметные вопросы, так и на внезапно возникшие.
СЕО-оптимизация
Изучение метаданных снимет часть задач, связанных с СЕО-оптимизацией ресурса. В этом случае под метаданными понимается информация, которую видит робот-поисковик. Обычно она ограничивается предметными областями, семантическим ядром или сведениями, получаемыми из Wordstat.
Необходимо просмотреть:
- метатег title. Это название страницы сайта, оно должно быть уникальным для каждой отдельной вкладки;
- description. Метаданные появляются в поисковике под ссылкой на страницу найденного сайта;
- keywords. 10-15 ключевых слов, описывающих содержимое страницы.
Изучение того, насколько корректно введены метаданные, поможет оптимизировать продвижение ресурса после изучения и выработки рекомендаций о том, какие именно форматы метаданных лучше видны поисковым роботам.
Свертка базы данных и метаданные
Анализ метаданных поможет осуществить свертку базы данных в 1С, сохранив файлы, но убрав всю информацию о действиях с ними. Перед тем, как производить свертку базы, требуется проанализировать метаданные, сформировав список объектов и подсчитав количество записей по объекту. Перед сверткой данные сохраняются в файлы формата *.xml, а после свертки они раскрываются, и информация используется для восстановления параметров базы. Файлы *.xml создаются для каждого типа метаданных. Изучение и обработка данных позволяет определить тип свертки.
Метаданные – удобный инструмент управления информацией. Их грамотное использование позволяет структурировать данные в ИС, оптимизировать хранение сведений и провести качественный анализ.
17.12.2019