Анализ данных

Аудит и классификация данных
на базе системы

СёрчИнформ FileAuditor
30 дней для тестирования «СёрчИнформ FileAuditor»ОФОРМИТЬ ЗАЯВКУ
Время чтения
Шрифт

В бизнесе, социологии, прогнозировании анализ данных стал одним из важнейших инструментов, позволяющих формировать базу для принятия управленческих и политических решений. Анализ больших массивов информации (big data) лежит в основе технологий машинного обучения и нейронных сетей. 

Все разновидности математических и программных методов анализа редко используются в прикладных целях. Для решения частных задач изучения данных предлагаются конкретные способы. 

Понятие

В общем смысле под анализом как методом исследования и познания понимается мысленное разделение объекта или явления на несколько частей с дальнейшим нахождением взаимосвязей между различными его сторонами. 

С точки зрения информационных технологий под анализом данных понимают совокупность методов преобразования данных в выводы, реализуемых при помощи программных средств.

Использование специализированного ПО позволяет:

  • оптимизировать процесс принятия решений;
  • анализировать большие объемы данных, подгружаемых из всех доступных источников – Интернета, корпоративных и социальных сетей, статистических отчетов;
  • минимизировать погрешности.

На основе решений, используемых в аналитических программах, создают утилиты, решающие проблемы потребителей, нуждающихся в аналитике данных, например, программы-роботы для игры на бирже.

Под данными для обработки понимаются первичные, необработанные факты и числа. При выборе программного продукта для работы с данными необходимо определиться с целями. Числовую информацию можно анализировать в Excel, для работы с семиотической информацией, получения данных из широкого списка внутренних и внешних источников, интеллектуального анализа данных, качественной визуализации потребуется специализированный софт.

Интеллектуальный анализ (data mining) предполагает использование не только привычных и общедоступных, но и ранее не изучаемых, нетривиальных, однако полезных и доступных данных. Единственным ограничением для его применения является качество и достоверность данных.

Интеллектуальный, как и обычный статистический анализ, основывается на применении различных типов интеллектуальной обработки данных:

1. Описательный (descriptive). Данные описываются с количественной точки зрения, в результате формируются такие показатели, как среднее, минимальное, максимальное, медианное значения, дисперсия, отклонение. Способ используется для анализа объемов продаж по регионам, показателей посещаемости сайтов.

2. Разведочный (exploratory). Основан на преобразовании данных в графики, которые при схожих значениях показателей в разных случаях отражают разную картину. Пример таких графиков – Квартет Энскомба. Использование графиков при анализе данных позволяет представить явление более масштабно и увидеть ранее скрытые закономерности и ошибки.

3. Индуктивный (inferential). Построен на сравнении выбранного набора данных с более широкой совокупностью, из которой этот набор данных извлечен. Например, информация о продажах товара определенного бренда в регионе сравнивается с данными о продаже всех товаров этого типа в том же районе. Экзитпол, предсказывающий результаты избирательной кампании на основе небольшой выборки, строится на этом методе, где за базу берутся сведения о типичном поведении избирателя. 

4. Прогностический (predictive). Является развитием индуктивного и направлен на разработку моделей поведения изучаемых показателей в будущем. Для успешной реализации этого метода изучения данных тенденции должны быть устойчивы. Так, поведение потребителей предсказать можно с большей вероятностью, чем землетрясение. Метод применяется для разработки роботов для игры на бирже, спам-фильтров, он будет успешен при прогнозировании результатов кросс-продаж, избирательных кампаний. 

5. Казуальный (casual). Причинно-следственный метод изучения позволяет выявить, данные просто коррелируют между собой или между ними существует устойчивая причинно-следственная связь. Например, выявление связи между временем отправки сообщения по электронной почте и количеством его просмотров. 

Программы чаще строятся на использовании двух первых методов, три оставшихся применяются для конкретных задач.

Методы

Программный продукт для обработки данных, выбранный для решения задач корпорации, должен обладать всем инструментарием современного data mining. На базе перечисленных типов интеллектуальной обработки данных в программе должны быть предусмотрены следующие статистические методы изучения информации:

  • Дескриптивный как часть описательного, при котором находятся вторичные числовые величины – среднее арифметическое и геометрическое, отклонение, дисперсия.
  • Корреляционный, позволяющий выявить коэффициенты корреляции между переменными. С его помощью можно, например, восстановить облик ископаемого животного по одной кости. 
  • Регрессионный, позволяющий исследовать влияние нескольких независимых переменных на одну зависимую. Широко используется в машинном обучении, позволяет отличить сигнал от шума.
  • Факторный. Многомерный метод проводит аналоги и устанавливает взаимосвязи между отдельными параметрами переменных, известных, малоизученных и предполагаемых. Используется два метода: детерминированный изучает явные, сформировавшиеся связи, стохастический ищет косвенные.
  • Дисперсионный. Исследует существенность различий в средних показателях для каждой из групп данных. Изменение среднего фактора изменяет влияющие на него параметры.
  • Компонентный. Позволяет разложить показатель на минимально допустимые параметры и исследовать их поведение. Чаще используется в лингвистике, в прикладном значении может быть применен в маркетинге и рекламе для изучения реакции потребителей на семантические единицы.
  • Дискриминантный. Многомерный метод анализа, исследующий различия между двумя большими группами объектов. Применяется в технологиях машинного обучения как способ распознавать образы с помощью искусственного интеллекта.
  • Временных рядов. Предсказывает будущее значение неизвестной переменной на основе ее прошлых и настоящих значений. Широко используется в технологиях машинного обучения, позволяет отсечь шум. Под этим термином понимаются внешние неконтролируемые переменные и/или ошибки, которые влияют на распределение измерений, и погрешности.
  • Выживаемости. Применяется в медицине и страховании. Позволяет на базе изучения большого количества данных предсказать время наступления критического события.
  • Анализ связей оценивает связи между объектами сети, их формирование и устойчивость.

Выбор метода изучения данных зависит от цели, поставленной компанией. Алгоритмы машинного обучения зависят от типа поступающей информации. Они закладываются в программы с тем расчетом, чтобы принимаемые искусственным интеллектом решения основывались на достоверных данных и исключали поведение, основанное на шуме. 

Популярные программы для анализа данных

В помощь аналитику компании разработаны десятки программных инструментов для обработки данных. Многие по старинке пользуются широким спектром возможностей Excel, но рынок готов предложить более эффективные решения.

MS Excel Power Query

К стандартному функционалу программы Excel добавлена опция загрузки данных из внешних источников. Программа найдет информацию во внешних источниках и в корпоративных сетях:

  • в Интернете;
  • в файлах, размещенных на сервере в формате Excel, CSV, XML, текстовом, в папках с метаданными;
  • в файлах баз данных SQL Server, Access, Oracle, IBM DB2, MySQL, PostgreSQL; 
  • в корпоративных библиотеках и суппозиториях;
  • в социальных сетях, «Википедии» и других источниках.

Например, в программу можно загрузить личные профили тысяч пользователей Facebook для анализа их предпочтений в музыке или видео, мест, которые они посетили, что будет актуальным для звукозаписывающей компании или туроператора. Есть функции загрузки и анализа писем из Outlook. Программа умеет визуализировать, работает с табличными и многомерными моделями, обрабатывает цифровые и семиотические данные. Однако сложна в освоении для простых пользователей, поэтому больше подходит для профессиональных аналитиков.


Для автоматизированного анализа и аудита файловой системы предприятия, поиска нарушений прав доступа и отслеживания изменений в критичных данных можно использовать «СёрчИнформ FileAuditor».  


MS Power Bl

Инструмент для бизнес-анализа. Предоставляет возможность совместной работы нескольким пользователям, визуализирует результаты в виде графиков, диаграмм, гистограмм. 

Основные возможности:

  • быстрое создание визуализированных аналитических отчетов, размещаемых в корпоративной сети;
  • корректировка готовых отчетов при изменении вводных данных;
  • создание каталога данных с метатегами для облегчения поиска;
  • возможна работа с мобильных устройств.

Источники данных задаются аналитиком, это могут быть фондовые индексы, биржевая информация, статистические данные банков и иные сведения, свободно размещаемые в Сети. Легкое в освоении бизнес-решение справляется с простыми задачами, но не имеет полного спектра возможностей для интеллектуального анализа.

Pyramid Analytics

Популярная облачная программа для бизнес-аналитики состоит из трех компонентов:

  • интеллектуальный анализ;
  • визуализация и интерактивная работа с данными из всех доступных источников;
  • генерация отчетов.

Программа может работать с Big Data, моделирует данные (собирает информацию, отражающую бизнес-процессы организации), решает задачи совместной аналитики. Pyramid Analytics считается наиболее мощным решением, но ее минусом является высокая цена.

Выбор программного продукта зависит от структуры бизнеса. Для брокерской компании, учитывающей миллионы факторов, влияющих на цену акций, нужен мощный инструмент статистического анализа, туристическое агентство решит задачи при помощи простой бизнес-утилиты.

10.12.2019

ПОДПИШИТЕСЬ НА ПОЛЕЗНЫЕ СТАТЬИ

Рассказываем о тенденциях отрасли, утечках и способах борьбы с ними