В различных областях хозяйственной деятельности, бизнеса, общественной жизни, науки людям приходится сталкиваться с многочисленными и разнообразными данными. Для того чтобы обнаружить взаимосвязи, упорядочить информацию, сделать выводы и прогнозы, требуется провести статистический анализ полученных сведений. Для выявления закономерностей при изучении объемных информационных массивов используются различные методы математической статистики. Они позволяют оценивать вероятность развития событий или прогнозировать результаты изменений путем моделирования ситуаций и проведения количественных расчетов.
Методы математической статистики используются в научных и практических целях. Они эффективны в тех случаях, когда сделать конкретные выводы по отдельным показателям невозможно. Для получения результатов исследования требуется изучение совокупности «больших данных».
При проведении вероятностной оценки используются такие понятия, как «генеральная совокупность» и «выборочная совокупность».
Генеральная совокупность представляет собой множество различных значений изучаемого показателя. Например, выпуск продукции в цеху может составлять 50, 70, 100 штук/час (в зависимости от количества работников).
Если исследователя интересуют не все сведения, а показатели в каком-то интервале (временном или количественном), то изучается выборка из генеральной совокупности.
Для получения достоверных результатов выборка должна быть достаточно большой. Например, для прогнозирования продаж на рынке автомобилей недостаточно проанализировать спрос только на японскую технику. Необходимо оценить популярность десятков брендов и показатели годовых продаж в отдельных регионах.
Использование методов статистики позволяет оценить количество объектов, имеющих общие признаки, путем распределения их по группам и подсчета характерных показателей в выборках.
При проведении исследования анализируются связи между различными переменными величинами, которые подразделяют на зависимые и независимые.
Зависимые переменные имеют конкретные значения, которые можно измерить (например, габариты изделий, скорость езды). Значения независимых величин можно изменять, получая соответствующие конечные результаты расчетов.
Для оценки переменных используются различные шкалы:
1. Номинальная шкала подразумевает распределение объектов исследования по классам (по профессиям, географическим районам, половым признакам), внутри которых можно подсчитать частоту каких-либо событий;
2. Порядковая (ранговая) шкала позволяет не только сгруппировать объекты, но и упорядочить их внутри каждого класса;
3. Интервальная шкала устанавливает нулевой отсчетный показатель, относительно которого располагаются остальные значения с определенным интервалом (пример – температурная или временная шкала);
4. Относительная шкала используется, когда речь идет об относительных величинах, которые меняются в произвольном порядке (например, рост или вес человека, размер доходов, средняя продолжительность жизни);
5. Абсолютная шкала ведет точный отсчет показателей в определенном масштабе, начиная с нулевой точки (например, рассчитывается показатель безработицы в стране или доходность какого-либо производства).
Для исследования данных проводят:
Методы математической статистики, используемые при исследовании данных, отличаются способом поиска взаимосвязей между одной или несколькими переменными величинами, отражающими суть событий, результаты экспериментов и другие показатели.
Для выявления аналитических признаков и сравнения объектов рассчитывается коэффициент корреляции, определяющий степень связанности случайных величин.
Если описывается связь между двумя показателями (например, между почасовой оплатой и временем работы), то коэффициент называют простым. А если речь идет о взаимосвязи между одной и несколькими величинами, то коэффициент считается множественным. Примером может служить связь между возрастом человека и качеством жизни, включая состояние здоровья, трудоспособность, материальную независимость.
Если коэффициент приближается к +1, то корреляция (связь между изучаемыми объектами) положительная, то есть увеличение исходной переменной ведет к увеличению производных показателей. Если коэффициент приближается к -1, то корреляция отрицательная (рост исходного показателя ведет к падению зависимых параметров). Нулевой коэффициент указывает на отсутствие зависимости между объектами.
При регрессивном анализе выявляется взаимосвязь между одним параметром и несколькими другими (между зависимой случайной переменной и независимыми переменными). Исследователь моделирует разные ситуации, условно выбирая зависимые показатели (результативные признаки или отклики) и независимые факторы (регрессоры). Если имеется единственный фактор – это простая регрессия. Если их несколько – множественная.
Регрессионный метод:
В процессе дискриминантного анализа проводится дискриминация данных (распределение объектов по группам, имеющим характерные признаки). Например, врач, анализируя состояние пациентов по таким признакам, как температура, показания анализов, наличие различных симптомов, может разделить их на следующие группы:
Суть дискриминантного метода состоит в том, чтобы выявить у объектов признаки, по которым их можно отнести к заранее выделенным группам.
В процессе исследования компьютерная программа находит дискриминантные функции (комбинации уравнений), описывающие различные группы переменных величин с определенными свойствами. Затем производится расчет вероятности попадания анализируемых показателей в ту или иную группу.
Это метод, в котором большие объемы данных разбиваются на множество классов (групп однородности) по нескольким признакам. Каждый объект может находиться только в одной группе. Статистические показатели распределяются таким образом, чтобы в пределах одного класса они имели максимальное сходство, а в разных классах как можно больше отличались друг от друга.
Кластерный статистический анализ может быть использован, например, страховщиками для оценки вероятности обращения владельцев автомобилей по поводу выплаты страховки ОСАГО. При расчетах учитываются такие переменные, как марка, возраст и стоимость автомобиля, а также возраст и стаж владельца. Для сопоставления показателей разного вида вычисляются стандартные отклонения параметров от математического ожидания (среднего значения). Параметры группируются в кластеры по интервалам отклонений, после чего оценивается страховой риск.
Используется для исследования характеристик, зависящих от большого количества переменных. Анализируемые параметры группируют, выявляя сближающие факторы. В процессе исследования информация стандартизируется, вычисляется факторная нагрузка (степень близости показателей, объединяемых определенным фактором). Составляется корреляционная матрица, по которой проводится дальнейшее исследование.
Это статистический метод распределения информации по классам. Принадлежность объекта (зависимой переменной) к той или иной группе устанавливается после обнаружения у него определенных признаков (независимых переменных). Это метод разведочного анализа, при котором для получения конечного результата используются все более сложные комбинации независимых переменных.
В процессе поиска решений получают разветвленное дерево, с помощью которого можно рассортировать данные.
Для наглядности можно представить себе устройство для сортировки множества шариков диаметром 3, 5 и 10 мм. На первом ответвлении с наименьшими отверстиями провалятся мелкие шары, на втором – средние, а на последнем – самые крупные.
Этот метод обычно применяется при изучении сложных объектов (процессов или явлений), логически не связанных между собой. Он основан на поиске различий между шкалируемыми объектами (в отличие от других методов, выявляющих максимальное сходство между ними). Рассчитываются показатели меры различия, которые отображаются графически в виде матрицы (набора точек в многомерном пространстве). О сходстве или различии объектов судят по расстоянию между отдельными точками матрицы.
В ходе аналитического исследования выявляются скрытые (латентные) отличительные признаки.
Объекты подразделяются на группы по степени различия, что позволяет «сжать» исследуемый массив данных и визуализировать результаты анализа.
При расчетах меры различий используется интервальная шкала (метрическое шкалирование) или порядковая шкала (неметрическое многомерное шкалирование).
***
Использование методов математической статистики для аналитического исследования информации позволяет систематизировать большой объем разнообразных сведений.
При этом выявляются признаки наибольшего сходства или различия между объектами. По этим признакам классифицируется разрозненная информация, прогнозируются результаты экспериментов.
Статистические данные, полученные в ходе расчетов, отображаются в виде графических или числовых матриц, позволяющих сжать объемные массивы, упростить исследование процессов и явлений. С помощью методов статистики можно рассчитать вероятность развития событий, выявить сложные взаимосвязи между социально-экономическими явлениями, научными фактами.
27.10.2020
Подпишитесь на нашу рассылку и получите
свод правил информационной безопасности
для сотрудников в шуточных