Анализ действий с данными

Аудит и классификация данных
на базе системы

СёрчИнформ FileAuditor
30 дней для тестирования «СёрчИнформ FileAuditor»ОФОРМИТЬ ЗАЯВКУ
Время чтения
Шрифт

Современные технологии позволяют без труда находить любую информацию. Больше не нужно часами сидеть в библиотеке, достаточно воспользоваться Интернетом и поисковой строкой. Однако большой объем информации требует грамотного анализа. Как отфильтровать ненужные данные?

Что такое анализ данных?

Анализ – это заключение, или вывод из полученных данных. Данные могут анализироваться с помощью следующих методов и действий:

  • математические методы; 
  • вычислительные алгоритмы (могут быть основаны на математических);
  • исследование (сопоставление информации);
  • фильтрация (отсеивание ненужной информации);
  • экспериментальные методы (наблюдение);
  • наглядные (моделирование ситуаций).

Любой из способов должен дать какой-либо результат, который поможет принять решение или выстроить правильный алгоритм действий. Например, бухгалтер хочет проанализировать прибыль компании. Он сделает это с помощью математического метода. Вывод покажет, упала прибыль или нет, что поможет выстроить стратегический план на следующий период.

Типы анализа данных

Существует множество типов анализа данных. Одни относятся к узкой специализации, другие включают ряд подходов (длительное наблюдение, проведение экспериментов). 

Выделяют несколько распространенных типов анализа данных: 

  • описательный;
  • разведочный;
  • индуктивный;
  • прогностический;
  • казуальный;
  • механистический. 

Последний тип не используется в разовых алгоритмах анализа данных. Механистический тип – это изучение системы с помощью большого числа экспериментов. Чаще всего невозможно за один раз проанализировать данные механистическим образом.

Действия при анализе данных

Типы анализа напрямую связаны с последовательностью действий. Сам по себе тип может функционировать отдельно, но при полном анализе данных необходимо соблюдать последовательность. Некорректно начинать анализ с типа, который по логике должен использоваться на втором или третьем шаге.

Ниже представлена правильная последовательность всех типов анализа данных.

Описательный. Это начальный метод, подразумевающий сбор информации. В него также включается поиск достоверных источников. Качество исходных данных очень важно, иначе будет сделан неверный вывод. 

Отыскав данные по теме, нужно провести их фильтрацию. Даже если источник достоверен, следует отсеять ненужные данные. Однако фильтровать данные по мере их нахождения – работа сложная и не всегда верная. Естественно, определенное отсеивание на стадии поиска есть, но оно не должно быть чересчур скрупулезным.

Теперь по порядку. Качественное ознакомление с информацией проводится следующей последовательностью действий:

  1. Сбор данных. Аналитик не может точно знать, какая информация ему пригодится в будущем. Поэтому создается простая таблица, в которую переносятся найденные данные. Это уже принесет немало пользы.
  2. Выделение наиболее важных данных. Часть информации сразу определяется как наиболее полезная. Например, модератор желает «забанить» нескольких игроков. Он находит аккаунты с большим количеством жалоб и выделяет их в таблицу. Но Игроки с самым большим числом «репортов» сразу бросаются в глаза. Модератор в первую очередь выделяет эти данные. 
  3. Создание ассоциаций. Некоторые данные связаны между собой и дополняют друг друга. Их нужно сгруппировать, проведя ассоциации. 
  4. Фильтрация. Когда данные собраны и сгруппированы в ассоциации, начинается этап фильтрации. Допустим, если аналитику поручили высчитать прирост уникальных игроков в онлайн-игре, после сбора информации он может провести исследование. При этом аналитик может убрать из таблицы пол игроков и возраст, так как эта информация ему не пригодится.

Важное уточнение: фильтрация применяется на протяжении всего анализа данных. Однако, выявление ненужной или «фейковой» информации должно проводиться на первом этапе. Иначе часть работы будет строиться на лжи.

Разведочный. Этап «разведки» преобразовывает данные в графику. Голые цифры или факты в таблице – неудобный формат анализа. Поэтому собранную информацию можно преобразовать в графический формат. Диаграммы, графики, гистограммы – любая визуальная составляющая поможет объективнее посмотреть на информацию.

В график следует перевести данные, которые помечены как «особо важные». Увидев иллюстрацию, аналитик сможет заметить все пробелы, выделить нужную переменную и не упустить из виду нужную информацию.

Какой именно график подойдет, нужно решить исходя из специфики данных. Так, для оценки роста и падения лучше всего подходит диаграмма Парето, а для разделения объекта на части – круговая диаграмма.

Индуктивный. Этот тип анализа поможет сделать статистические выводы по собранной и описанной в предыдущих шагах информации.
Качественный статистический вывод невозможен без вопроса. Каждый факт нужно подвергнуть сомнению. 

Примеры:

  1. Проверка на ошибки. Насколько я уверен в правильности эксперимента? Может ли поменяться значение, если повторить эксперимент?
  2. Отличия. Насколько среднее значение отличается от ожидаемого?
  3. Проверка ассоциаций. Действительно ли эти два значения взаимосвязаны?

Чем больше будет задано вопросов по предоставленным данным, тем больше ошибок или наоборот, соответствий будет найдено.

Прогностический. Данный тип анализа подразумевает прогнозирование сферы, в которой работает аналитик. Во многих областях жизни можно увидеть закономерность, запомнить «симптомы». Аналитики в сфере бизнеса могут предсказать рост или падение акций, увеличение или снижение продаж и так далее.

Начинается прогнозирование с определения класса данных. Чем выше класс, (то есть данные имеют множество ассоциаций, основаны на фактах и влияют на другие сферы), тем проще найти закономерность.

Допустим, бизнесмен желает просчитать будущую прибыль. Он берет данные о продажах за последний квартал. В них указано количество проданного товара, розничная стоимость и налоги, а также конкретный период. Если товар – солнечные очки, а квартал пришелся на лето, то бизнесмен может прогнозировать, что осенью продажи могут упасть на N пунктов.

Дать точный прогноз можно только при наличии достоверной информации «из прошлого». Поэтому важно убедиться в точности фактов и цифр.
Для наиболее точного прогнозирования используется логическая регрессия. На основе регрессии работает машинное обучение и нейронные сети.

Казуальный. На данном этапе устанавливается причинно-следственная связь между прошлым, настоящим и возможным будущим. В первую очередь необходимо понять, что привело к настоящему. Исходя из графиков, статистических выводов и недалеких прогнозов делается вывод.
Почему упала прибыль? Почему этот пост набрал большего всего «лайков»? Без предыдущих шагов невозможно определить причину и следствие любого результата.

Но есть ограничения. Возможно, тот или иной положительный результат получился не за счет качественного подхода, а по стечению обстоятельств. Чтобы это выяснить, потребуются дополнительные эксперименты.

Анализ данных – скрупулезная работа, требующая внимательности. Чем больше инструментов в руках аналитика, тем качественнее будет сделан вывод. Следует повышать квалификацию в каждом этапе, оптимизируя и ускоряя рабочий процесс.

09.12.2019

ПОДПИШИТЕСЬ НА ПОЛЕЗНЫЕ СТАТЬИ

Рассказываем о тенденциях отрасли, утечках и способах борьбы с ними