В бизнесе, социологии, прогнозировании анализ данных стал одним из важнейших инструментов, позволяющих формировать базу для принятия управленческих и политических решений. Анализ больших массивов информации (big data) лежит в основе технологий машинного обучения и нейронных сетей.
Все разновидности математических и программных методов анализа редко используются в прикладных целях. Для решения частных задач изучения данных предлагаются конкретные способы.
В общем смысле под анализом как методом исследования и познания понимается мысленное разделение объекта или явления на несколько частей с дальнейшим нахождением взаимосвязей между различными его сторонами.
С точки зрения информационных технологий под анализом данных понимают совокупность методов преобразования данных в выводы, реализуемых при помощи программных средств.
Использование специализированного ПО позволяет:
На основе решений, используемых в аналитических программах, создают утилиты, решающие проблемы потребителей, нуждающихся в аналитике данных, например, программы-роботы для игры на бирже.
Под данными для обработки понимаются первичные, необработанные факты и числа. При выборе программного продукта для работы с данными необходимо определиться с целями. Числовую информацию можно анализировать в Excel, для работы с семиотической информацией, получения данных из широкого списка внутренних и внешних источников, интеллектуального анализа данных, качественной визуализации потребуется специализированный софт.
Интеллектуальный анализ (data mining) предполагает использование не только привычных и общедоступных, но и ранее не изучаемых, нетривиальных, однако полезных и доступных данных. Единственным ограничением для его применения является качество и достоверность данных.
Интеллектуальный, как и обычный статистический анализ, основывается на применении различных типов интеллектуальной обработки данных:
1. Описательный (descriptive). Данные описываются с количественной точки зрения, в результате формируются такие показатели, как среднее, минимальное, максимальное, медианное значения, дисперсия, отклонение. Способ используется для анализа объемов продаж по регионам, показателей посещаемости сайтов.
2. Разведочный (exploratory). Основан на преобразовании данных в графики, которые при схожих значениях показателей в разных случаях отражают разную картину. Пример таких графиков – Квартет Энскомба. Использование графиков при анализе данных позволяет представить явление более масштабно и увидеть ранее скрытые закономерности и ошибки.
3. Индуктивный (inferential). Построен на сравнении выбранного набора данных с более широкой совокупностью, из которой этот набор данных извлечен. Например, информация о продажах товара определенного бренда в регионе сравнивается с данными о продаже всех товаров этого типа в том же районе. Экзитпол, предсказывающий результаты избирательной кампании на основе небольшой выборки, строится на этом методе, где за базу берутся сведения о типичном поведении избирателя.
4. Прогностический (predictive). Является развитием индуктивного и направлен на разработку моделей поведения изучаемых показателей в будущем. Для успешной реализации этого метода изучения данных тенденции должны быть устойчивы. Так, поведение потребителей предсказать можно с большей вероятностью, чем землетрясение. Метод применяется для разработки роботов для игры на бирже, спам-фильтров, он будет успешен при прогнозировании результатов кросс-продаж, избирательных кампаний.
5. Казуальный (casual). Причинно-следственный метод изучения позволяет выявить, данные просто коррелируют между собой или между ними существует устойчивая причинно-следственная связь. Например, выявление связи между временем отправки сообщения по электронной почте и количеством его просмотров.
Программы чаще строятся на использовании двух первых методов, три оставшихся применяются для конкретных задач.
Программный продукт для обработки данных, выбранный для решения задач корпорации, должен обладать всем инструментарием современного data mining. На базе перечисленных типов интеллектуальной обработки данных в программе должны быть предусмотрены следующие статистические методы изучения информации:
Выбор метода изучения данных зависит от цели, поставленной компанией. Алгоритмы машинного обучения зависят от типа поступающей информации. Они закладываются в программы с тем расчетом, чтобы принимаемые искусственным интеллектом решения основывались на достоверных данных и исключали поведение, основанное на шуме.
В помощь аналитику компании разработаны десятки программных инструментов для обработки данных. Многие по старинке пользуются широким спектром возможностей Excel, но рынок готов предложить более эффективные решения.
К стандартному функционалу программы Excel добавлена опция загрузки данных из внешних источников. Программа найдет информацию во внешних источниках и в корпоративных сетях:
Например, в программу можно загрузить личные профили тысяч пользователей Facebook для анализа их предпочтений в музыке или видео, мест, которые они посетили, что будет актуальным для звукозаписывающей компании или туроператора. Есть функции загрузки и анализа писем из Outlook. Программа умеет визуализировать, работает с табличными и многомерными моделями, обрабатывает цифровые и семиотические данные. Однако сложна в освоении для простых пользователей, поэтому больше подходит для профессиональных аналитиков.
Для автоматизированного анализа и аудита файловой системы предприятия, поиска нарушений прав доступа и отслеживания изменений в критичных данных можно использовать «СёрчИнформ FileAuditor».
Инструмент для бизнес-анализа. Предоставляет возможность совместной работы нескольким пользователям, визуализирует результаты в виде графиков, диаграмм, гистограмм.
Основные возможности:
Источники данных задаются аналитиком, это могут быть фондовые индексы, биржевая информация, статистические данные банков и иные сведения, свободно размещаемые в Сети. Легкое в освоении бизнес-решение справляется с простыми задачами, но не имеет полного спектра возможностей для интеллектуального анализа.
Популярная облачная программа для бизнес-аналитики состоит из трех компонентов:
Программа может работать с Big Data, моделирует данные (собирает информацию, отражающую бизнес-процессы организации), решает задачи совместной аналитики. Pyramid Analytics считается наиболее мощным решением, но ее минусом является высокая цена.
Выбор программного продукта зависит от структуры бизнеса. Для брокерской компании, учитывающей миллионы факторов, влияющих на цену акций, нужен мощный инструмент статистического анализа, туристическое агентство решит задачи при помощи простой бизнес-утилиты.
10.12.2019
Подпишитесь на нашу рассылку и получите
свод правил информационной безопасности
для сотрудников в шуточных