Анализ данных позволяет систематизировать разрозненные сведения, выбрать наиболее существенную информацию, расположить ее определенном порядке. В процессе анализа выявляют закономерности, делают выводы, строят прогнозы. Данные сортируют, группируют в массивы, удобные для хранения и поиска. Изучение информации ведется с использованием различных современных технологий, позволяющих исследовать большие объемы данных (Big data), а также сопоставлять результаты событий, отдаленных по времени.
Выбор методов анализа зависит от характера изучаемой информации.
Анализируемые данные принято делить на следующие типы:
Точность результатов аналитических исследований напрямую зависит от объема собранных данных. Например, при проведении социологических опросов необходимо узнать мнение о событии у максимально большого числа людей.
Анализ большого количества данных проводится с использованием таких методик, как:
К ним относятся следующие виды обработки и исследования данных:
Все аналитические расчеты, необходимые для получения результатов, производятся с использованием различных методов математической статистики (регрессивный, дискриминантный, корреляционный анализ).
Метод заключается в том, что собранные данные разбиваются на группы с однородными признаками (кластеры). Например, покупателей определенных товаров можно разделить на тех, кто при выборе ориентируется в основном на качество, и тех, кто больше внимания обращает на цену.
Задачей кластеризации является облегчение исследования «больших данных». При этом исследователь определяет, на сколько групп можно их разбить и устанавливает «меру сходства» («коэффициент сходства»). Кластерный анализ применяется в маркетинге, в археологии, в медицине (при выявлении симптомов психических и других заболеваний), в социологических и научных исследованиях.
Достоинство метода состоит в том, что он позволяет разбивать объекты не по одному, а сразу по нескольким признакам, группировать множество данных произвольного типа.
Недостатком кластеризации является возможность искажения результатов из-за разделения данных на группы меньшего размера. Возможна потеря индивидуальных черт объектов в результате обобщения и стандартизации параметров.
В этом методе исследуются факторы взаимосвязи между различными признаками, присущими объектам или явлениям. В ходе обработки данных рассчитывается так называемая «факторная нагрузка» (степень взаимозависимости между отдельными признаками).
Методы факторизации данных широко применяются в социологии, биологии, химии, психологии, педагогике и других областях.
Пример. Данные социологических опросов показывают, что существуют различные мнения о приеме беженцев в Германию. Выделяют две противоположные позиции («фактора»), объединяющие различные мнения («признаки»).
Фактор 1. Враждебность | Фактор 2. Доброжелательность |
Засилье иностранцев – гибель для нации; | Враждебность к иностранцам нанесет урон экономике; |
Германия не обязана никого содержать; | Важно поддерживать хорошие отношения с другими народами; |
Наплыв беженцев – причина роста криминала. | Главное – ускорить интеграцию иностранцев в Европе. |
Сопоставляя весомость «признаков» устанавливают значимость «факторов» и делают выводы.
Это методика быстрого анализа данных с помощью искусственного интеллекта. Производится имитация работы головного мозга, для чего создаются сети программ для распознавания данных и изображений, а также совершения определенных действий с ними.
Проводится предварительное машинное обучение в одном из двух форматов:
1. Для того чтобы компьютер «запомнил» последовательность желаемых действий задаются исходные данные и конечные результаты. Машина выявляет взаимосвязь, а затем по образцу обрабатывает другие анализируемые параметры (машинное обучение «с учителем»);
2. В компьютер вводят исходные данные. Программа самостоятельно находит их общие признаки и взаимосвязи (обучение «без учителя»).
Например, можно «обучить» компьютер распознавать лица людей разного пола, обнаруживать признаки подделки документов или финансового мошенничества.
С помощью этого метода можно проанализировать экономическую ситуацию в стране, спрогнозировать результаты выборов.
Достоинствами искусственных нейронных сетей (ИНС) является то, что они способны отсеивать фоновую информацию, самостоятельно анализировать входные данные и подстраиваться под изменения (например, прогнозировать цены с учетом изменения курса валют). Такие системы отличаются быстродействием и отказоустойчивостью (способностью выдавать правильные результаты даже при повреждении отдельных участков).
Недостатком метода является непредсказуемость результатов, поскольку уловить логику действий в системе ИНС невозможно. Компьютер иногда выдает противоречивые ответы.
Это методика, позволяющая анализировать данные, моделируя различные варианты развития ситуации, ее логического завершения. В конце исследования принимается решение о выборе правильного действия.
Пример. Необходимо принять решение о выдаче человеку кредита. Выстраивается «дерево» с «ответвлениями», каждое из которых представляет собой комбинацию ответов на следующие вопросы:
На основе ответов принимается логическое решение «выдать кредит» или «отказать».
Такой метод исследования данных особенно эффективен, если на принятие решения влияет множество факторов.
Дерево решений применяется:
Для сбора и сортировки данных используются не только компьютерные методы. Иногда к решению подобных задач привлекают группы людей. Перед ними ставят задачу самостоятельно просматривать большие таблицы данных, выбирая из них информацию определенного типа. Такой анализ, как правило, применяется в том случае, когда проблема возникла однократно и использование сложного программного обеспечения и компьютерных методик нецелесообразно. Если требуется регулярное проведение анализа, то использование краудсорсинга невыгодно, поскольку такое исследование данных обойдется дороже, чем разработка программных методик.
Этот метод применяется для сбора и сортировки данных из разных источников, в которых они представлены в разнородном формате. Для работы требуется придать параметрам однородный вид. Для этого используются такие приемы, как:
Затем совмещают параметры, имеющиеся в разных источниках, и удаляют ненужную информацию.
Такой метод применяется, например, когда для изучения спроса на товары и объема продаж требуется собрать и изучить кассовые чеки, интернет-заказы, товарные накладные и другие разнородные документы.
Эта методика позволяет не просто проанализировать информацию, поступившую за определенный период, но и сделать прогнозы по поводу развития ситуации. При этом за основу берутся результаты исследования прошлых показателей и основные факторы влияния.
Пример. Необходимо выяснить перспективы продолжения сотрудничества с выгодным клиентом. Факторами влияния в этом случае являются объемы товарооборота, окупаемость затрат, длительность сотрудничества. С помощью методов математической статистики и нейронных сетей по выбранным факторам рассчитывается вероятность согласия на дальнейшее сотрудничество или отказа от него.
Этот метод анализа данных используется, когда необходимо узнать, как повлияет на общую ситуацию изменение одного или нескольких параметров (например, как изменятся продажи, если повысить цены на 5%). Чтобы не рисковать понапрасну, ситуацию моделируют, используя такие параметры, как средний объем продаж, количество клиентов и стоимость различных товаров.
Затем проводят виртуальные эксперименты, меняя цены, ассортимент продукции и другие параметры. В результате выясняют, как скажутся на продажах различные нововведения.
Имитационное моделирование позволяет избежать потерь, к которым могут привести реальные эксперименты с бизнесом. Точность результата подобного моделирования и уровень риска зависят от полноты учитываемых данных.
***
Аналитическое исследование данных, имеющихся в распоряжении компании, проводится для их систематизации, удобства хранения и практического использования.
Применяются компьютерные и ручные методы сбора и сортировки информации из разнородных источников, приведения данных в единую форму и размещения их в хранилищах. При исследовании производятся расчеты с использованием методов математической статистики.
Используются технологии, позволяющие сгруппировать разрозненную информацию по определенным признакам, изучить взаимосвязи между отдельными параметрами, моделировать гипотетические ситуации.
По результатам аналитического исследования данных оценивается вероятность развития событий в определенном направлении, составляются прогнозы на будущее.
27.10.2020
Подпишитесь на нашу рассылку и получите
свод правил информационной безопасности
для сотрудников в шуточных