Выборочный метод
Статистическая совокупность — это подлежащее изучению множество однородных объектов, их количество — объем совокупности. Всем элементам совокупности присущ некоторый признак (случайная величина) при переходе от одного элемента к другому, значение признака варьируется.
Генеральная совокупность — это все мыслимые наблюдения, анализируемого признака. Для получения ряда значений признака проводят статистическое наблюдение (сплошное или выборочное).
Сплошное наблюдение — изучается каждый элемент совокупности. Однако оно может оказаться невозможным. Чаще проводят выборочное наблюдение.
Выборка — часть выборочной совокупности, обладающая свойствами генеральной совокупности. То есть выборка должна быть репрезентативной.
Репрезентативность достигается наличием: равновероятности значений, большим объёмом данных, однородностью рассеивания значений элементов.
Ряд распределений
Вариационный ряд — это выборка из значений (вариант изучаемого количественного признака ). Ранжированный вариационный ряд предполагает расположение вариант в порядке возрастания.
Признак — дискретный если варианты отличаются на конечную заранее известную величину (год рождения, тарифный разряд, число людей). Иначе — значения отличаются на сколь угодно малую величину. Признак непрерывен (вес, объём, стоимость).
Частотой дискретного признака называют число одинаковых вариантов в выборке.
Компактная форма соответствия вариант дискретного признака и их частот называется статистическим распределением.
Статистическое распределение для непрерывного признака принято представлять интервальным рядом — таблицей где варианты представлены интервалом вида , это не разность а интервал значений вариант.
Часто вместо частот в распределении указывают относительные частоты. — показывает процент вариант выборки (частость).
Накопленной частотой называется число значений признака
Таким образом можно прийти к ряду накопленных частот и эмпирической функции распределения.
Графическое представление
Дискретный ряд изображают в виде полигона частот или частости .
Интервальный ряд изображают в виде гистограммы — ступенчатой фигуры, состоящей из прямоугольников основания которых равны интервалам длины , а высоты плотности частот или частости .
Кумулятивные ряды изображают в виде кумуляты (аналог графика интегральной функции случайной величины).
Выборочные характеристики
Выборочная средняя
Характеризует типичное для выборки значение признака причем лишь приближенно. В случае интервального вариационного ряда необходимо перейти к дискретному, путём нахождения середины интервала.
Если данные сгруппированы, то выборочная средняя рассчитывается как взвешенная средняя.
Если же данные наблюдения не сгруппированы, то выборочная средняя рассчитывается как простая средняя арифметическая.
Структурные средние
Мода
Мода — наиболее часто встречающиеся значения признака
При вычислении моды в случае интервального ряда находят модальный интервал. В случае равновеликих интервалов (шаг одинаков) модальным будет тот, которому характерна максимальная частота, иначе модальным будет интервал в котором достигается максимальная плотность частоты (накопленная частость).
Медиана
Медиана — серединное значение ранжированного вариационного ряда.
Если объем выборки — четное значение, то медиана рассчитывается как среднее арифметическое двух центральных элементов выборки.
Если же объем выборки — нечетное значение, то медиана рассчитывается как следующий элемент после середины выборки.
Показатели вариации
Размах
Размах — разность между наибольшим и наименьшим значениями результатов наблюдений.
Дисперсия
Дисперсия — мера, которая показывает разброс между результатами.
Среднеквадратическое отклонение
Среднеквадратическое отклонение — статистическая характеристика распределения случайной величины, показывающая среднюю степень разброса значений величины относительно математического ожидания.
Коэффициент вариации
Коэффициент вариации — величина, равная отношению среднеквадратичного отклонения случайной величины к ее математическому ожиданию. Применяется для сравнения вариативности одного и того же признака в нескольких совокупностях с различным средним арифметическим.
Если коэффициент вариации > 33%, выборка считается неоднородной и её следует кластеризовать.
Статистическое оценивание
Оценивание — это приближенное оценивание по выборочным данным параметров генеральной совокупности. Статистические оценки могут быть точными и интервальными. Точечной оценкой неизвестного параметра называют число, которое приблизительно равно оцениваемым параметрам и может заменить его с достаточной степенью точности в стат расчета.
Для того чтобы точечные оценки обеспечивали достаточную точность, они должны обладать тремя свойствами:
Несмещенность, то есть оценка , полученная по выборке должна в среднем соответствовать , иначе будет иметь место систематическая ошибка завышения или занижения результата.
Дисперсия оценки должна быть минимальной при фиксированном объеме выборки
Оценка с достаточной вероятностью при увеличении к объему выборки приближается к оцениваемому параметру.
На основе точечных оценок происходит построение интервальных оценок. Интервальной оценкой неизвестного параметра называют доверительный интервал , который с заданной вероятностью покрывает неизвестный параметр.
Интервальная оценка — это доверительные интервал, — доверительная вероятность или надежность интервальной оценки. Границы доверительного интервала находят по выборке, они могут меняться в зависимости от ее качественного состава. Следовательно, оценка тем точнее определяет неизвестный параметр, чем меньше разность между параметром и оценкой.
Доверительную вероятность задают заранее как правило числом близким к единице.
Находят точность интервальной оценки .
Интервальная оценка математического ожидания нормального распределения при известном среднеквадратическим отклонении
Пусть существует Предположим, что параметр известен, требуют оценить неизвестный параметр для этого проводится выборка объемом и рассчитывается средняя выборочная. Известно что средняя выборочная является точной оценкой средней генеральной. С доверительной вероятность гамма найдем такое число чтобы выполнялось равенство доверительного интервала для оценки истинного среднего значения генеральной совокупности.
Проверка статистических гипотез
Статистическая гипотеза — это некоторое предположение о свойствах и характеристиках генеральной совокупности, сформулированная на основе анализа выборки. При этом выборка должна быть репрезентативной, то есть являться генеральной совокупностью в уменьшенном масштабе (все свойства должны быть сохранены в выборке).
Основная или нулевая гипотеза — это гипотеза которой мы придерживаемся пока наблюдения (выборка) не заставят признать обратное, ей всегда соответствует альтернативная (конкурирующая) гипотеза Статистические методы не позволяют доказать гипотезу. По выборки мы можем опровергнуть гипотезу. Чтобы определить, когда гипотезу отвергать, а когда нет, применяют два понятия:
Ошибка первого рода — ситуация когда отвергается, хотя на самом деле она верная.
Ошибка второго рода — ситуация когда принимается, хотя на самом деле она не верная.
Минимизировать обе ошибки невозможно, при уменьшении растет и наоборот. Обычно контролируют ошибку первого рода
Для проверки гипотезы используется статистический критерий — случайная величина, закон распределения которой описан и значения вычисляются по выборке (статистический критерий по другому называют статистикой).
Мощность критерия — это вероятность не совершить ошибку второго рода . Наиболее мощным критерием с уровнем значимости называется тот, который обладает наибольшей мощностью.
Для определения момента с которого мы отвергаем необходимо определиться с критической областью — областью значений критерия при которой отвергается
Виды критических областей
Правосторонняя
Левостороння
Двусторонняя
Вид критической области определяется видом критерия и видом альтернативной гипотезы По выборке рассчитывают наблюдаемое значение критерия.
Правило — если наблюдаемое значение критерия принадлежит критической области, то отвергается и принимается с вероятностью совершить ошибку первого рода
Проверка гипотезы о нормальном законе распределения генеральной совокупности
Где — число степеней свободы, — число вариационных групп статистического распределения выборки.
В данном случаем применяется правосторонняя критическая область Рассчитывается приближенное значение критерия.
Где — эмпирические частоты, — теоретические частоты.
Проверка гипотезы о равенстве генеральных дисперсий
Допустим имеются две независимые выборки объемом и из соответствующих генеральных совокупностей . Известно, что закон распределения в обоих генеральных совокупностях — нормальный.
С применением выборочного метода, вычислены выборочные характеристики.
Необходимо ответить на вопрос: сравнимы ли генеральные совокупности? Если будет доказано, что различия между исправленными выборочными дисперсиями — значимый, то генеральные совокупности сравнивать нельзя.
— можно сравнивать.
— нельзя сравнивать.
Задают уровень значимости В данном случае в качестве инструмента проверки используется случайная величина , имеющая распределения Фишера-Снедекора с параметрами Где — объём выборки с большей дисперсией, — с меньшей.
Рассчитывается наблюдаемое значение критерия.
В данном случае критическая область является правосторонней.
Сравнение генеральных средних двух нормально распределённых генеральных совокупностей дисперсии которых неизвестны и одинаковы
Генеральные совокупности — сравнимы, критерий применён и получены соответствующие выводы.
Вид альтернативной гипотезы зависит от постановки задачи.
Если требуется сравнить и сделать вывод о том какая из генеральных средних больше или меньше используется
Если требуется проверить различия генеральных средних, используется
Задают уровень значимости Инструментом проверки является случайная величина , имеющая распределение Стьюдента с параметром .
Рассчитывается наблюдаемое значение критерия.
Определяется критическая точка.
Проверка гипотезы о равенстве вероятностей
Пусть по отношению к событию проводится независимых испытаний. в каждом испытании — заранее известно, но есть основание предположить, что она равна гипотетической вероятности . Для этого находят статистическую вероятность и проверяют гипотезу.
Задают уровень значимости В качестве инструмента используется случайная величина Рассчитывается наблюдаемое значение критерия.
Критическая точка определяется с помощью функции Лапласа.