Выборочный метод

Статистическая совокупность — это подлежащее изучению множество однородных объектов, их количество — объем совокупности. Всем элементам совокупности присущ некоторый признак (случайная величина) при переходе от одного элемента к другому, значение признака варьируется.

Генеральная совокупность — это все мыслимые наблюдения, анализируемого признака. Для получения ряда значений признака проводят статистическое наблюдение (сплошное или выборочное).

Сплошное наблюдение — изучается каждый элемент совокупности. Однако оно может оказаться невозможным. Чаще проводят выборочное наблюдение.

Выборка — часть выборочной совокупности, обладающая свойствами генеральной совокупности. То есть выборка должна быть репрезентативной.

Репрезентативность достигается наличием: равновероятности значений, большим объёмом данных, однородностью рассеивания значений элементов.

Ряд распределений

Вариационный ряд — это выборка из nn значений (вариант изучаемого количественного признака XX). Ранжированный вариационный ряд предполагает расположение вариант в порядке возрастания.

x1x2xn, i=1,nx_1 \leq x_2 \leq \ldots \leq x_n, ~i=\overline{1,n}

Признак XX — дискретный если варианты отличаются на конечную заранее известную величину (год рождения, тарифный разряд, число людей). Иначе — значения отличаются на сколь угодно малую величину. Признак непрерывен (вес, объём, стоимость).

Частотой mim_i дискретного признака xx называют число одинаковых вариантов xix_i в выборке.

x1,x1,,x1m,,xi,xi,,ximi,,xk,xk,,xkmkn\overbrace{\underbrace{x_1, x_1, \ldots, x_1}_m, \cdots, \underbrace{x_i, x_i, \ldots, x_i}_{m_i}, \cdots, \underbrace{x_k, x_k, \ldots, x_k}_{m_k}}^n

Компактная форма соответствия вариант дискретного признака и их частот называется статистическим распределением.

x1x_1\ldotsxix_i\ldotsxkx_k
m1m_1\ldotsmim_i\ldotsmkm_k

Статистическое распределение для непрерывного признака принято представлять интервальным рядом — таблицей где варианты представлены интервалом вида [xi1xi)[x_{i-1} - x_i), это не разность а интервал значений вариант.

xi1xix_{i-1} - x_ix0x1x_0 - x_1x1x2x_1 - x_2\ldotsxk1xkx_{k-1} - x_k
mim_im1m_1m2m_2\ldotsmkm_k

Часто вместо частот в распределении указывают относительные частоты. wi=minw_i = \frac{m_i}{n} — показывает процент вариант выборки (частость).

i=1kwi=1\sum\limits_{i=1}^k w_i = 1

Накопленной частотой называется число значений признака X<x.X<x.

H(x)=m(X<x)H(x)=m(X<x)

Таким образом можно прийти к ряду накопленных частот и эмпирической функции распределения.

F(x)=H(x)n=m(X<x)nF^*(x)=\frac{H(x)}{n}=\frac{m(X<x)}{n}

Графическое представление

Дискретный ряд изображают в виде полигона частот xi,mix_i, m_i или частости xi,wix_i, w_i.

Интервальный ряд изображают в виде гистограммы — ступенчатой фигуры, состоящей из прямоугольников основания которых равны интервалам длины hih_i, а высоты плотности частот mih\frac{m_i}{h} или частости wih\frac{w_i}{h}.

Кумулятивные ряды изображают в виде кумуляты (аналог графика интегральной функции случайной величины).

Выборочные характеристики

Выборочная средняя

Характеризует типичное для выборки значение признака xx причем лишь приближенно. В случае интервального вариационного ряда необходимо перейти к дискретному, путём нахождения середины интервала.

xi=xi+xi12x_i' = \frac{x_i+x_{i-1}}{2}

Если данные сгруппированы, то выборочная средняя рассчитывается как взвешенная средняя.

xB=i=1kximin=i=1kxiwi\overline x_B = \frac{\sum\limits_{i=1}^k x_i m_i}{n}=\sum\limits_{i=1}^k x_i w_i

Если же данные наблюдения не сгруппированы, то выборочная средняя рассчитывается как простая средняя арифметическая.

xB=i=1nxin\overline x_B = \frac{\sum\limits_{i=1}^n x_i}{n}

Структурные средние

Мода

Мода — наиболее часто встречающиеся значения признака x.x.

mi=maxxmo=xim_i = max \Rightarrow x_{mo}=x_i

При вычислении моды в случае интервального ряда находят модальный интервал. В случае равновеликих интервалов (шаг одинаков) модальным будет тот, которому характерна максимальная частота, иначе модальным будет интервал в котором достигается максимальная плотность частоты (накопленная частость).

Медиана

Медиана — серединное значение ранжированного вариационного ряда.

Если объем выборки — четное значение, то медиана рассчитывается как среднее арифметическое двух центральных элементов выборки.

xme=xj+xj+12, j=n2x_{me} = \frac{x_j + x_{j+1}}{2}, ~j=\frac{n}{2}

Если же объем выборки — нечетное значение, то медиана рассчитывается как следующий элемент после середины выборки.

xme=xj+1, j=n12x_{me} = x_{j+1}, ~j=\frac{n-1}{2}

Показатели вариации

Размах

Размах — разность между наибольшим и наименьшим значениями результатов наблюдений.

R=xmaxxminR=x_{max}-x_{min}

Дисперсия

Дисперсия — мера, которая показывает разброс между результатами.

DB=x2xB2D_B=\overline{x^2} - \overline x_B^2x2=i=1kxi2min\overline{x^2} = \frac{\sum\limits_{i=1}^k x_i^2 m_i}{n}

Среднеквадратическое отклонение

Среднеквадратическое отклонение — статистическая характеристика распределения случайной величины, показывающая среднюю степень разброса значений величины относительно математического ожидания.

σB=DB\sigma_B = \sqrt{D_B}

Коэффициент вариации

Коэффициент вариации — величина, равная отношению среднеквадратичного отклонения случайной величины к ее математическому ожиданию. Применяется для сравнения вариативности одного и того же признака в нескольких совокупностях с различным средним арифметическим.

ν=σBxB100%\nu=\frac{\sigma_B}{\overline x_B} \cdot 100\%

Если коэффициент вариации > 33%, выборка считается неоднородной и её следует кластеризовать.

Статистическое оценивание

Оценивание — это приближенное оценивание по выборочным данным параметров генеральной совокупности. Статистические оценки могут быть точными и интервальными. Точечной оценкой неизвестного параметра называют число, которое приблизительно равно оцениваемым параметрам и может заменить его с достаточной степенью точности в стат расчета.

θθ\theta \approx \theta^*

Для того чтобы точечные оценки обеспечивали достаточную точность, они должны обладать тремя свойствами:

  1. Несмещенность, то есть оценка θ\theta^*, полученная по выборке должна в среднем соответствовать θ\theta, иначе будет иметь место систематическая ошибка завышения или занижения результата.

    M(θ)=θM(\theta^*)=\theta
  2. Дисперсия оценки должна быть минимальной при фиксированном объеме выборки n.n.

    D(θ)=minD(\theta^*)=min
  3. Оценка с достаточной вероятностью при увеличении к объему выборки приближается к оцениваемому параметру.

    θPθ, n\theta^* \xrightarrow{\text{P}} \theta, ~n \to \infty
Xgen(M(X))XBX_{gen}(M(X)) \to \overline{X_B}Dgen(D(X))S2D_{gen}(D(X)) \to S^2S2=DBnn1S^2 = D_B \cdot \frac{n}{n-1}σgen(σ(x))S, S=S2\sigma_{gen}(\sigma(x)) \to S, ~S = \sqrt{S^2}

На основе точечных оценок происходит построение интервальных оценок. Интервальной оценкой неизвестного параметра θ\theta называют доверительный интервал (θmb, θnp)(\theta^{mb}, ~\theta^{np}), который с заданной вероятностью γ\gamma покрывает неизвестный параметр.

P(θmb<θ<θnp)=γP(\theta^{mb}<\theta<\theta^{np}) = \gamma

Интервальная оценка — это доверительные интервал, γ\gamma — доверительная вероятность или надежность интервальной оценки. Границы доверительного интервала находят по выборке, они могут меняться в зависимости от ее качественного состава. Следовательно, оценка тем точнее определяет неизвестный параметр, чем меньше разность между параметром и оценкой.

θθmin|\theta - \theta^*| \to min

Доверительную вероятность задают заранее как правило числом близким к единице.

(γ0,9)(\gamma \geq 0,9)

Находят точность интервальной оценки Δ\Delta.

P(θΔ<θ<θ+Δ)=γP(\theta^* - \Delta < \theta < \theta^* + \Delta) = \gamma

Интервальная оценка математического ожидания нормального распределения при известном среднеквадратическим отклонении

Пусть существует XN(a=M(X), σ=σ(X)).X\sim N(a=M(X), ~\sigma=\sigma(X)). Предположим, что параметр σ\sigma известен, требуют оценить неизвестный параметр aa для этого проводится выборка объемом nn и рассчитывается средняя выборочная. Известно что средняя выборочная является точной оценкой средней генеральной. С доверительной вероятность гамма найдем такое число Δ>0,\Delta > 0, чтобы выполнялось равенство доверительного интервала для оценки истинного среднего значения генеральной совокупности.

P(XBΔ<Xgen<XB+Δ)=γP(\overline{X_B} - \Delta < \overline X_{gen} < \overline X_B + \Delta) = \gammaγ=2Φ(Δnσ)\gamma = 2\Phi(\frac{\Delta \sqrt n}{\sigma})Φ=Δnσ=γ2\Phi = \frac{\Delta \sqrt n}{\sigma} = \frac{\gamma}{2}Δnσ=tΔ=tσn\frac{\Delta \sqrt n}{\sigma} = t \Rightarrow \Delta = \frac{t \cdot \sigma}{\sqrt n}

Проверка статистических гипотез

Статистическая гипотеза — это некоторое предположение о свойствах и характеристиках генеральной совокупности, сформулированная на основе анализа выборки. При этом выборка должна быть репрезентативной, то есть являться генеральной совокупностью в уменьшенном масштабе (все свойства должны быть сохранены в выборке).

Основная или нулевая гипотеза H0H_0 — это гипотеза которой мы придерживаемся пока наблюдения (выборка) не заставят признать обратное, ей всегда соответствует альтернативная (конкурирующая) гипотеза H1.H_1. Статистические методы не позволяют доказать гипотезу. По выборки мы можем опровергнуть гипотезу. Чтобы определить, когда гипотезу отвергать, а когда нет, применяют два понятия:

  1. Ошибка первого рода — ситуация когда H0H_0 отвергается, хотя на самом деле она верная.

    α=PH0(H1)\alpha = P_{H_0} (H_1)
  2. Ошибка второго рода — ситуация когда H0H_0 принимается, хотя на самом деле она не верная.

    β=PH1(H0)\beta = P_{H_1} (H_0)

Минимизировать обе ошибки невозможно, при уменьшении α,\alpha, растет β\beta и наоборот. Обычно контролируют ошибку первого рода α<0.1.\alpha < 0.1.

Для проверки гипотезы используется статистический критерий — случайная величина, закон распределения которой описан и значения вычисляются по выборке (статистический критерий по другому называют статистикой).

Мощность критерия — это вероятность не совершить ошибку второго рода (1β)(1 - \beta). Наиболее мощным критерием с уровнем значимости α\alpha называется тот, который обладает наибольшей мощностью.

Для определения момента с которого мы отвергаем H0H_0 необходимо определиться с критической областью — областью значений критерия при которой отвергается H0.H_0.

Виды критических областей

  1. Правосторонняя ω(φcrit; +).\omega \in (\varphi_{crit}; ~+\infty).

  2. Левостороння ω(; φcrit).\omega \in (-\infty; ~\varphi_{crit}).

  3. Двусторонняя ω(; φcrit)(φcrit; +).\omega \in (-\infty; ~\varphi_{crit}) \cup (\varphi_{crit}; ~+\infty).

Вид критической области определяется видом критерия и видом альтернативной гипотезы H1.H_1. По выборке рассчитывают наблюдаемое значение критерия.

Правило — если наблюдаемое значение критерия принадлежит критической области, то H0H_0 отвергается и принимается H1H_1 с вероятностью совершить ошибку первого рода α.\alpha.

φω, H0:"", H1:"+" α\varphi \in \omega, ~H_0: "-", ~H_1: "+" | ~\alpha

Проверка гипотезы о нормальном законе распределения генеральной совокупности

H0:XNH_0: X\sim NH1:XMH_1: X\sim Mf(χ2)=12k2Γ(k2)χ2k21eχ22f(\chi^2) = \frac{1}{2^{\frac{k}{2}} \Gamma (\frac{k}{2})} \cdot {\chi^2}^{\frac{k}{2} - 1} \cdot e^{-\frac{\chi^2}{2}}

Где k=S3k = S - 3 — число степеней свободы, SS — число вариационных групп статистического распределения выборки.

В данном случаем применяется правосторонняя критическая область χcrit2(α;k).\chi^2_{crit} (\alpha; k). Рассчитывается приближенное значение критерия.

χ2=i=1S(miϵmiT)2miT\chi^2 = \sum\limits_{i=1}^S \frac{(m_i^\epsilon - m_i^T)^2}{m_i^T}

Где miϵm_i^\epsilon — эмпирические частоты, miTm_i^T — теоретические частоты.

χ2ω, H0:"", H1:"+" α\chi^2 \in \omega, ~H_0: "-", ~H_1: "+" | ~\alpha

Проверка гипотезы о равенстве генеральных дисперсий

Допустим имеются две независимые выборки объемом nxn_x и nyn_y из соответствующих генеральных совокупностей X,YX, Y. Известно, что закон распределения в обоих генеральных совокупностях — нормальный.

XN(ax,σx), YN(ay,σy)X \sim N(a_x, \sigma_x), ~Y \sim N(a_y, \sigma_y)

С применением выборочного метода, вычислены выборочные характеристики.

XB, YB\overline X_B, ~\overline Y_BSx2, Sy2S_x^2, ~S_y^2

Необходимо ответить на вопрос: сравнимы ли генеральные совокупности? Если будет доказано, что различия между исправленными выборочными дисперсиями — значимый, то генеральные совокупности сравнивать нельзя.

H0:D(x)=D(y)H_0: D(x) = D(y) — X, YX, ~Y можно сравнивать.

H1:D(x)>D(y)H_1: D(x) > D(y) — X, YX, ~Y нельзя сравнивать.

Задают уровень значимости α=PH0(H1).\alpha = P_{H_0} (H_1). В данном случае в качестве инструмента проверки используется случайная величина FF, имеющая распределения Фишера-Снедекора с параметрами k1,k2.k_1, k_2. Где n1n_1 — объём выборки с большей дисперсией, n2n_2 — с меньшей.

k1=n11, k2=n21k_1 = n_1 - 1, ~k_2 = n_2 - 1f(F)=k1k12k2k22Γ(k1+k22)Γ(k12)Γ(k22)Fk121(Fk1+k2)k1+k22f(F) = \frac{k_1^{\frac{k_1}{2}} k_2^{\frac{k_2}{2}} \Gamma(\frac{k_1 + k_2}{2})}{\Gamma(\frac{k_1}{2}) \Gamma(\frac{k_2}{2})} \cdot F^{\frac{k_1}{2}-1} \cdot (F k_1 + k_2)^{-\frac{k_1 + k_2}{2}}

Рассчитывается наблюдаемое значение критерия.

Fobs=Sgreater2Sless21F_{obs}=\frac{S^2_{greater}}{S^2_{less}} \geq 1

В данном случае критическая область является правосторонней.

ω(Fcrit; ), Fcrit(α;k1;k2)\omega \in (F_{crit}; ~\infty), ~F_{crit}(\alpha; k_1; k_2)Fobsω, H0:"", H1:"+" αF_{obs} \in \omega, ~H_0: "-", ~H_1: "+" | ~\alpha

Сравнение генеральных средних двух нормально распределённых генеральных совокупностей дисперсии которых неизвестны и одинаковы

Генеральные совокупности — сравнимы, критерий FF применён и получены соответствующие выводы.

H0:M(x)=M(y)H_0: M(x) = M(y)H1:M(x)>M(y)H_1': M(x) > M(y)H1:M(x)<M(y)H_1'': M(x) < M(y)H1:M(x)M(y)H_1''': M(x) \neq M(y)

Вид альтернативной гипотезы H1H_1 зависит от постановки задачи.

Если требуется сравнить и сделать вывод о том какая из генеральных средних больше или меньше используется H1, H1.H_1', ~H_1''.

Если требуется проверить различия генеральных средних, используется H1.H_1'''.

Задают уровень значимости α=PH0(H1).\alpha = P_{H_0} (H_1). Инструментом проверки является случайная величина TT, имеющая распределение Стьюдента с параметром kk.

k=nx+ny2k = n_x + n_y - 2f(T)=Γ(n+12)nπ Γ(n2)(1+T2n)n+12f(T) = \frac{\Gamma (\frac{n+1}{2})}{\sqrt{n \pi} ~\Gamma (\frac{n}{2}) (1 + \frac{T^2}{n})^{\frac{n+1}{2}}}

Рассчитывается наблюдаемое значение критерия.

Tobs=XBYB(nx1)Sx2+(ny1)Sy2nxny(nx+ny2)nx+nyT_{obs} = \frac{\overline X_B - \overline Y_B}{\sqrt{(n_{x-1}) S_x^2 + (n_{y-1}) S_y^2}} \cdot \frac{n_x n_y (n_x + n_y - 2)}{n_x + n_y}

Определяется критическая точка.

H1:ω(Tcrit; +)H_1': \omega \in (T_{crit}; ~+\infty)H1:ω(; Tcrit)H_1'': \omega \in (-\infty; ~T_{crit})H1:ω(; Tcrit)(Tcrit; +)H_1''': \omega \in (-\infty; ~T_{crit}) \cup (T_{crit}; ~+\infty)Tobsω, H0:"", H1:"+" αT_{obs} \in \omega, ~H_0: "-", ~H_1: "+" | ~\alpha

Проверка гипотезы о равенстве вероятностей

Пусть по отношению к событию AA проводится nn независимых испытаний. P(A)=pP(A) = p в каждом испытании pp — заранее известно, но есть основание предположить, что она равна гипотетической вероятности P0P_0. Для этого находят статистическую вероятность nm\frac{n}{m} и проверяют гипотезу.

H0:p=P0H_0: p = P_0H1:pP0H_1': p \neq P_0H1:p>P0H_1'': p > P_0H1:p<P0H_1''': p < P_0

Задают уровень значимости α=PH0(H1).\alpha = P_{H_0} (H_1). В качестве инструмента используется случайная величина UN(α=0, σ=1).U \sim N(\alpha = 0, ~\sigma = 1). Рассчитывается наблюдаемое значение критерия.

Uobs=(nmP0)nP0Q0U_{obs} = \frac{(\frac{n}{m} - P_0) \sqrt n}{\sqrt{P_0 Q_0}}

Критическая точка определяется с помощью функции Лапласа.

H1:pP0, Φ(Ucritdouble)=1α2H_1': p \neq P_0, ~\Phi(U_{crit}^{double}) = \frac{1 - \alpha}{2}H1:p>P0, Φ(Ucritright)=12αH_1'': p > P_0, ~\Phi(U_{crit}^{right}) = \frac{1}{2} - \alphaH1:p<P0, Φ(Ucritright)=12αH_1''': p < P_0, ~\Phi(-U_{crit}^{right}) = \frac{1}{2} - \alphaUobsω, H0:"", H1:"+" αU_{obs} \in \omega, ~H_0: "-", ~H_1: "+" | ~\alpha