Системы анализа данных - SearchInform

Системы анализа данных

Защита информации
с помощью DLP-системы

Тенденция последних лет – сбор и обработка больших объемов информации, Big Data. Это решает задачи науки и бизнеса, но требует более совершенных инструментов, чем стандартный Excel. Грамотное использование Big Data и систем анализа данных (САД) для принятия управленческих решений и разработки стратегических планов сулит успех в конкурентной борьбе. 

Кому нужны САД

В бизнесе аналитика востребована, особенно в компаниях, работающих на потребительском рынке, где изучение и прогнозирование поведения больших групп покупателей помогает оторваться от конкурентов. 

Специалисты в области Data Science – аналитики данных – нужны:

  • в менеджменте – для построения стратегии развития компании;
  • в финансах – для предсказания поведения валютных и фондовых рынков;
  • в маркетинге – для определения предпочтений потребителей. 

Для качественного выполнения поставленных задач нужны современные программные средства, способные быстро и корректно обрабатывать большие объемы информации. В стандартной ситуации бизнес рассчитывает на возможности собственного ИТ-отдела, но взаимопонимание выстраивается редко. Бизнес часто не может точно сформулировать задачу и требуемый результат, а программисты не обладают необходимым понятийным аппаратом и не понимают, что именно они должны предложить руководству.

Это приводит к тому, что задачу по получению ответа на поставленные вопросы приходится возлагать на отдельных специалистов, имеющих финансовое образование и знания в области ИТ. Они должны уметь работать с САД, обеспечивать подготовку, обработку данных и их глубокую аналитику, включающую Machine Learning и другие инструменты Data Science. Некоторые задачи решаются простыми способами, для других требуется специализированное программное обеспечение.

Популярные методы работы с данными

Excel до сих пор остается удобным и популярным аналитическим программным продуктом. Но для обработки Big Data часто требуются более сложные инструменты. Их выбор определяется уровнем задачи и компетенцией специалиста.

Excel

Хорошее знание возможностей программы и макросов позволит проанализировать табличные данные. Возможно построение сводных таблиц, создание прогнозов и отчетов с визуализацией. При расчетах программа работает с корреляцией, регрессией, скользящим средним. Есть опции для расширения возможностей программы. 

Минус – невысокая производительность. Если файл включает более миллиона строк, скорость обработки существенно замедляется. Дополнительные сложности возникают, когда с одной БД работает несколько подразделений, при этом происходит обмен данных с 1С и другими приложениями. В этом случае не только замедляется скорость работы, но и снижается точность результата. 

BI-системы

Программные продукты типа Business Intelligence дают больше возможностей. К наиболее часто используемым в российской практике относятся Power BI и Tableau. Их преимущества – возможность собирать данные из нескольких источников, баз компании, Интернета, приводить к единому формату и использовать для составления сложных отчетов. 

Обычно BI-программы используют для создания управленческой и аналитической отчетности, мониторинга ключевых показателей эффективности подразделений. Объем анализируемой информации в них существенно больше чем в Excel. Отчеты формируются на регулярной основе, они хорошо детализированы. Визуализация результатов наглядная, информация может быть представлена в виде графиков и диаграмм.

BI-системы позволяют анализировать прошлые периоды и текущую ситуацию, но они не идеальны для долгосрочного прогнозирования. Продвинутая аналитика в этих САД невозможна, ее не позволяют реализовать даже встроенные языки программирования. Решить практические задачи, не предусмотренные функционалом, например, спрогнозировать поведение клиента или определить, какие факторы влияют на продажи, можно, только создав дополнительную подпрограмму, а это способны сделать не все аналитики.

Существенной проблемой, затрудняющей работу программных продуктов типа Business Intelligence, становится первичная обработка данных. Их нужно найти, проверить на достоверность, очистить, загрузить, привести к единому стандарту. Эта работа занимает до 80 % времени аналитика. Отчет, включающий данные, полученные из нескольких производств и с разных точек продаж, загруженные различными подразделениями, готовится несколько недель. Если в компании нет единой для всех СУБД, то работа с серьезной аналитикой будет затруднена или вовсе невозможна.

Использование языков программирования

Если аналитик умеет работать с языками программирования Python и R, то он способен самостоятельно написать программу, которая добьется решения поставленного руководством вопроса. Создано и представлено в открытом доступе множество библиотек для визуализации, ETL, машинного обучения и интеллектуального анализа данных. Использование готовых разработок и библиотек сэкономит средства компании на покупке дорогостоящего ПО. Наличие в штате аналитика, способного самостоятельно писать коды, окажется серьезным конкурентным преимуществом, если компания не готова создавать собственное аналитическое подразделение.

Аналитические low-code платформы

Системы этого типа относятся к классу инструментов визуального проектирования. Среди популярных – Loginom и Alteryx. Их использование не требует навыков программирования и позволяет быстро получить визуализированный отчет. Программа на базе low-code – это набор готовых кодов, решений, позволяющих справляться со сложными задачами, создавая аналитические инструменты из предложенных скриптов. Работают с большими объемами данных, отличаются производительностью. 

Среди функций при работе с данными:

  • загрузка из различных источников;
  • объединение;
  • преобразование в единый формат;
  • очистка;
  • вычисления разной степени сложности;
  • визуализация.

Эти системы позволяют экономить время аналитика при обработке первичных, «сырых» данных. В программных продуктах есть компоненты машинного обучения, что помогает решать сложные аналитические задачи. Хорошо разработанная документация и простота настройки дают возможность использовать инструменты этого класса для решения большинства прикладных задач. Специалисту потребуются знания в области математической статистики и анализа данных, но в обобщенном виде.

Ограниченное количество компонентов, однако, не позволяет решать нетривиальные задачи, иногда программный код приходится дописывать. Но для малого и среднего бизнеса функционала этих систем обработки информации будет достаточно.

Профессиональные продукты для анализа

Если компания использует в работе Big Data, придется установить один из представленных на рынке специализированных инструментов.

RapidMiner

Программный продукт на основе технологий машинного обучения для продвинутого анализа и прогнозирования. Подходит для бизнеса различного уровня. Распространяется по лицензии, есть демо-версия. 

Среди функций:

  • анализ данных, обычный и интеллектуальный, Data Mining представляет собой поиск закономерностей в больших объемах данных при помощи математических алгоритмов. Работа с такими объемами невозможна для стандартных средств САД;
  • машинное обучение;
  • искусственный интеллект.

Устанавливается на сервере или в облаке. Минус –отсутствие русскоязычного интерфейса.

В3

Программа предназначена для средних и крупных компаний. Она работает с обычной аналитикой и Data Mining, легко обрабатывает Big Data, способна давать долгосрочные прогнозы на основе данных машинного обучения.
Искусственный интеллект повышает точность прогнозирования: программный продукт покажет руководителю текущие рыночные тенденции и возникающие аномалии, укажет потенциальные направления изменения рынка. Преимущества использования в усилении контроля за текущей ситуацией, повышении точности финансового и маркетингового прогнозирования. 

Предложен широкий инструментарий, данные могут быть изучены в любом разрезе. Облачная платформа доступна также в мобильной версии, что позволяет сотрудникам работать с информацией удаленно. Успешно внедряемое в корпорациях программное решение пока не русифицировано.


Анализ информации, которая хранится в файловой системе предприятия, помогает провести «СёрчИнформ FileAuditor» 


IQPLATFORM

Решение для компаний со сложной организационной структурой. Продукт подходит для сбора, обработки, хранения и глубинного анализа больших объемов структурированных и неструктурированных данных из различных источников – корпоративных и внешних. Преимущества решения – развернутое прогнозирование и возможность на основе имеющейся информации создавать новые типы данных. 

Предназначено для:

  • банков и финансовых организаций;
  • промышленности;
  • компаний ТЭК.

Дает возможность:

  • выявлять неочевидные закономерности и скрытые тенденции;
  • проводить сквозной анализ любых объектов и событий – клиентов, сделок, финансовых трансакций;
  • создавать новые аналитические модели.

Среди функций:

  • работа с цифровой и текстовой информацией;
  • работа с неограниченным объемом данных;
  • графовая аналитика;
  • поиск среди источников информации объектов с заданными характеристиками;
  • управление единой информационной средой геопространственных данных с использованием OpenStreetMap.

Существует механизм резервного копирования данных, опция смс-оповещения о неполадках и сбоях, выявленных в ходе самодиагностики. Поддерживает русский язык.

Informatica PowerCenter

Платформа для крупных корпораций, работающих с данными различных типов. Основное достоинство – быстрый сбор сведений из разных источников, в том числе из облачных приложений, объединение форматов (например, когда часть информации загружается в файлах Word, а часть в Excel), преобразование данных и приведение их в состояние, подходящее для анализа. Продукт по мере роста компании легко масштабируется на новые подразделения и филиалы. 

Основана на принципе комбинирования новых задач из готовых блоков. Например, в стандартной версии нет задачи проанализировать клиентов по времени года, когда наиболее часто происходят закупки, но такой формат отчета в программе можно создать с нуля. Легко работает с данными любого типа, поэтому подходит для разных бизнесов. Есть встроенные механизмы аудита для проверки данных на достоверность. Высокая производительность решения позволяет работать с любым объемом данных и исключает сбои. Легко работает с Data Mining и большими данными, обеспечивая высокий уровень бизнес-аналитики и прогнозирования. Есть русскоязычный интерфейс.  

SAS Enterprise Miner

Программа для Data Mining в крупных компаниях. Позволяет создавать глубокие прогнозные и описательные модели, опираясь на структурированные алгоритмы. Способна найти неявные взаимосвязи и ключевые модели поведения на рынке, понять логику действий клиентов и партнеров. Выявить рыночные тренды и назревающие проблемы. Решение использует механизмы машинного обучения, нейронных сетей, искусственного интеллекта. Обеспечивается многопользовательский доступ, база данных, обрабатываемых САД, может размещаться на сервере или в облаке.  

***

При выборе решения для обработки данных нужно учитывать их формат, количество и качество источников данных, глубину аналитики. На рынке представлено много продуктов, и несложные задачи решаются при помощи программ с открытой лицензией.

05.11.2020

Подпишитесь на нашу рассылку и получите свод правил информационной безопасности для сотрудников в шуточных стишках-пирожках.