Анализ данных - SearchInform

Анализ данных

Защита информации
с помощью DLP-системы

Анализ данных – это синтез действий по проверке, очистке, преобразованию и интерпретации данных для обнаружения эффективной информации, верификации выводов и принятия решений. Он проводится с помощью различных методик и программ, позволяя со всех сторон изучить проблему и учесть множество факторов риска. Используется во всех областях жизнедеятельности человека: в бизнесе, науке, социальной сфере. 

Синтез действий по проверке, очистке, преобразованию и интерпретации данных относится к разделу математики и информатики. Его применяют для создания и исследования общих математических моделей и вычислительных алгоритмов, а также для изучения результатов проведенных экспериментов (например, при сравнении результатов лечения разных групп больных, принимающих экспериментальные препараты). Он используется для поиска, фильтрации, преобразования и моделирования данных, извлечения полезной информации и принятия решений. Это не только обработка информации, но и способ проверки различных теорий. Цель любого анализа данных – понять всю изучаемую ситуацию: выявить тенденции, в том числе и отрицательные отклонения от планов, сделать прогноз и получить рекомендации. Для достижения этой цели определены следующие этапы процедуры:

  • сбор информации;
  • структурирование информации;
  • очистка данных;
  • проведение расчетов;
  • разработка рекомендаций на базе результатов расчетов.

Рассмотрим каждый этап более подробно.

Сбор и обработка информации

Сбор информации осуществляется из различных источников. Специалисты-аналитики сообщают требования к хранилищам информации. Данные могут быть получены от различных датчиков и камер наблюдения, спутников и записывающих устройств, из документации и интернета. Информация может быть числовой (numerical data). К такому виду информации относится зарплата, температурные показатели, атмосферное давление, численность населения и т.д. Также существует категориальная информация (categorical data). К ней относится принадлежность к какой-либо расе, цветовая гамма, статус человека в обществе, другие категории выборки. 

Обычно цифровые данные представлены в виде таблиц XLS и текстовых файлов CSV, web-страниц HTML, папок XML.

Когда источники информации упорядочены и доступны в интернете, используется автоматический сбор информации. В Microsoft Excel есть специальный инструмент для сбора информации, в том числе из интернета. 

Для этого нужно:

1. Включить программу Microsoft Excel;

2. В главном меню найти пункт «Данные»;

3. Перейти в раздел «Импорт данных» и нажать кнопку «From web»;

4. В окне «Создать сетевой запрос», в адресной строке ввести адрес веб-сайта, на котором есть необходимые данные, и нажать кнопку «Старт»;

5. На открывшейся странице зеленым маркером отметить таблицу, в которой содержатся необходимые данные.

В результате произведенных манипуляций данные будут импортированы в документ Excel.

Импорт данных из интернета в MS Excel

Структурирование информации

Как правило, для проведения расчетов данные предоставляются в табличном виде. Но часто данные могут быть представлены с некоторыми особенностями и в виде больших числовых значений, текстовых фалов, ошибочных значений, отличных от таблиц форм. Эти нюансы могут вызвать определенные трудности во время последующего анализа данных либо сделать его невозможным. 

Чтобы устранить несоответствия, выполняются следующие действия:

  • структуризация – преобразование собранной информации в табличный вид;
  • выборка – удаление некорректных значений;
  • нормализация – доведение числовых значений до определенного диапазона, к примеру 0...10;
  • шифрование – представление категориальной информации в числах. Допустим, в двоичной классификации один из классов можно представить цифрой «0», а второй класс – цифрой «1». При множественной классификации система кодирования становится немного сложнее: сформируется больше числовых полей на основе количества классов в выборке.

В результате аналитик получает только те данные, которые необходимы для проведения расчетов. 

Очистка данных

Необходимость в очистке возникает из-за ошибок при вводе и хранении информации. Очистка – это комплекс действий по недопущению и исправлению этих неточностей.

Основные задачи очистки данных – это сравнение записей, обнаружение искажений, определение общего качества собранной информации, уникализация и фрагментация таблиц. Эти проблемы с данными можно выявить при помощи разных методик.

Возьмем в качестве примера данные, необходимые для финансового анализа. В этом случае конечные значения некоторых переменных можно сравнить с отдельно пропечатанными цифрами, которые можно считать надежными. Также могут быть пересмотрены искаженные суммы выше или ниже ранее заданных пороговых значений. 

Есть несколько видов очистки информации в зависимости от ее типа (телефонные номера, email-адреса, индексы и т.д.). Так, способы количественного анализа данных для выявления выброса используются для ликвидации неверно введенной информации. Например, вы можете использовать средства проверки орфографии текстовых файлов, чтобы уменьшить количество слов с ошибками, но не сможете определить правильность самих слов и уместность их использования.

Цифровой анализ данных и проведение расчетов

Существует множество методик проведения расчетов. Ниже кратко описаны наиболее распространенные методики. 

Исследовательская методика включает обнаружение новых свойств данных и верификацию статистических предположений (обнаружение или подтверждение существующих гипотез). К ней относятся описательная статистика (генерируется серединное значение для считки и расшифровки информации) и визуализация (изучение информации в графических форматах для получения дополнительных данных).

Регрессионная методика – это способ моделирования измеряемых величин и изучения их характеристик. Информация состоит из двоичных значений зависимой переменной (переменная ответа) и независимой (разъясняющей) переменной. Часто используется в рекламном бизнесе. Там математическая регрессия используется для создания модели, чтобы понять, как реклама (объясняющая переменная Х) влияет на итоги продаж (зависимая переменная Y). 

Кластерная методика – это идентификация групп (кластеров) объектов в наборе данных (см. рисунок ниже). От классификации кластерная методика отличается тем, что не использует выборку ранее классифицированной информации. Решение о том, к какой группе принадлежат данные, может приниматься на основании характеристик объектов исследования.

Кластерный график

Также применяют интеллектуальную методику, которая фокусируется на создании моделей и открытии данных, а не на их описании.

В процессе изучения текстовых файлов используются статистические, языковые и семантические методы выявления и систематизации данных из текстовых источников неструктурированной информации.

При разработке алгоритмов расчетов нужно учитывать, сколько времени займет вычисление. 

В целом скорость зависит от таких значений, как:

  • вычислительная сложность используемых моделей;
  • метод программной реализации алгоритма;
  • вычислительное оборудование.

Опираясь на эти переменные, следует выбирать подходящую методику расчетов. 


Контроль активности пользователей и анализ изменений в базах данных можно провести с помощью «СёрчИнформ Database Monitor». Бесплатный тест на 30 дней.  


Кто такие аналитики данных?

Data-аналитик (или аналитик данных) – это специалист, собирающий, обрабатывающий, исследующий информацию. Дата-аналитики анализируют собранную информацию и формируют отчеты с рекомендациями, сделанными на основе проведенных расчетов. Это помогает принимать решения в бизнесе, политике, управленческой и научной деятельности.

Аналитики проводят A/B-тестирования и создают модели, чтобы проверить, как пользователи или клиенты отреагируют на инновации. Их задача – оценить перспективы конкретной бизнес-идеи. Хороший дата-аналитик – это не только математик с навыками программирования. Он разбирается в бизнес-процессах и отлично знает продукт. Такой профессионал понимает, как та или иная компания зарабатывает прибыль. 

Алгоритм работы аналитика выглядит так:

1. Сбор информации (запросы аналитик формирует самостоятельно, либо получает указания от руководства);

2. Ознакомление с параметрами выборки (типы данных, способы сортировки);

3. Проведение предварительной обработки (очистка от искажений и дубликатов, упорядочивание информации);

4. Интерпретация (проведение расчетов, решение поставленной задачи);

5. Подведение итогов;

6. Визуализация (выявление, подтверждение либо опровержение предположений);

7. Подведение к принятию решения. 

Дата-аналитик должен: 

  • знать несколько языков программирования, такие как Python или R; 
  • уметь прописывать запросы к базам данных SQL; 
  • уметь строить алгоритмы и разбираться в бизнес-процессах, делать отчеты в виде простых дашбордов для понимания руководителями происходящего в компании. 

Конечный результат работы этого специалиста – грамотно составленный отчет о проведенном анализе данных с выводами и рекомендациями.

05.10.2020

Подпишитесь на нашу рассылку и получите свод правил информационной безопасности для сотрудников в шуточных стишках-пирожках.