Аналитик данных. Часть 20. Проверка гипотез. Критерии согласия. Критерии однородности

В заключительной части блока по теории вероятностей мы рассмотрим как применять критерии на практике и принцип их работы.

В проверке гипотез мы делаем предположение о распределении данных, и наша задача состоит в том, чтобы определить, содержит ли выборка достаточно информации, чтобы отвергнуть это предположение или нет. Но прямо «в лоб» говорить, что эта гипотеза верная мы не можем:

Чтобы иметь возможность отвергнуть предположение, нам необходимо предоставить альтернативу — иное предположение о распределении данных, относительно которого мы будем решать, отвергать основную гипотезу или нет. Т.е. мы сравниваем обе гипотезы и выбираем ту, которая наиболее вероятна.

Содержание

Статистический критерий

Обратимся к классическому примеру: предположим, что кто-то подбросил 16 раз монетку, и в 12 случаях она упала орлом вверх. Можно ли считать эту монетку симметричной?

Здесь у нас такое же классическое распределение Бернулли: X₁, . . . , X_n ∼ Ber(p).

H₀: p = 1/2 (основная или нулевая гипотеза).

H₁: p ≠ 1/2 (альтернативная гипотеза).

Правило, позволяющее принять или отвергнуть гипотезу H₀ на основе выборки называется статистическим критерием. Сам статистический критерий задается при помощи функции от выборки T(x₁, . . . , x_n), называемой статистикой критерия. Каждый критерий считает некоторую функцию от данных.

Статистика любого критерия T(x₁, . . . , x_n) должна обладать двумя основными свойствами:

При верной H₀ статистика T должна принимать умеренные значения, а при неверной H₀ — другие, экстремальные.
При верной H₀ статистика T должна иметь известное распределение G₀(называется нулевым распределением), а при неверной H₀ — распределение отличное от G₀ (возможно, неизвестное).

Проверка гипотезы

Как узнать, что гипотеза H₀верная? В нашем примере в качестве статистики T можно взять

T(x₁, . . . , x_n) = x₁ + . . . + x_n.

При верной типичными значениями H₀ будут значения, близкими к n/2, а экстремальными — значения, близкие к 0 или n. Итого:

При верной H₀ имеет распределение Bin(n, p) с p = 1/2
При верной H₁ имеет распределение Bin(n, p), но с p ≠ 1/2

Давайте объединим все данные, которые мы имеем:

Выборка: X = (x₁, . . . , x_n), X_i ∼ F (все случайные величины имеют какое-то конкретное распределение)

Нулевая гипотеза: H₀ : F ∈ Ϝ₀ (F принадлежит какому-то классу распределений Ϝ)

Альтернативная гипотеза: H₁ : F ∈ Ϝ₁, Ϝ₁ ∩ Ϝ₀ = ∅ (два класса не должны пересекаться)

Статистика: T(x₁, . . . , x_n), T(X) ∼ G₀ при H₀ (если мы подставляем в статистику подставляем выборку из случайных величин, то статистика H₀ должна иметь какое-то конкретное распределение) , T(X) не∼ G₀ при H₁

Фактический уровень значимости или p-value — это вероятность для статистики T при верной H₀ принять значение t = T(x), которое получилось на выборке x = (x₁, . . . , x_n) или ещё более экстремальное. Иногда p-value называют достигаемым уровнем значимости.

Если p-value будет маленьким, то это означает, что значение, которое будет получено, будет экстремальным, т.е. вероятность получить именно такое значение крайне мало (0,001% например). Это будет свидетельствовать о том, что альтернативная гипотеза (H₁) более вероятна (лучше не использовать слово «верна»). Если p-value большое — мы попали в область типичных значений для данной статистики, а значит данные не свидетельствуют против нулевой гипотезы H₀ в пользу альтернативы H₁

Если для статистики T экстремальными значениями являются большие значения, то это можно записать так:

p(x) = P(T(X) ≥ t | H₀).

Нулевая гипотеза H₀ отвергается при p(x) ≤ α, α — уровень значимости, который мы задаем. Вероятность отвергнуть нулевую гипотезу зависит не только от того, насколько она отличается от истины, но и от размера выборки: по мере увеличения n нулевая гипотеза может сначала приниматься, но потом выявятся более тонкие несоответствия выборки гипотезе H₀, и она будет отвергнута.

При помощи инструментов проверки гипотез нельзя доказать, что нулевая
гипотеза верна!

Пример

Ваш закадычный друг утверждает, что у него есть некоторый скилл: он различает чем разбавлен коньяк в коктейле — кока-колой или пепси, и предпочитает только колу. Протестируем его предложим ему выпить n-количестве коктейлей, чтобы проверить: сможет ли он отличить колу от пепси.

Выборка: X = (x₁, . . . , x_n), где X_i ∼ Ber(p).

Реализация выборки: x = (x₁, . . . , x_n) — это вектор длины n, где

0 — Друг выбрал коктейль с пепси
1 — Друг выбрал коктейль с колой

Статистика: T(x₁, . . . , x_n) = x₁ + . . . + x_n.

Реализация статистики: t = T(x).

Гипотезы:

H₀: друг не может различить колу от пепси p = 1/2.
H₁: друг может различить колу от пепси, p > 1/2.

Какие значения T считаются экстремальными? При альтернативе H₁ экстремальными являются большие значения t (они свидетельствуют против H₀ в пользу H₁).

Если нулевая гипотеза H₀ справедлива и друг не может различить колу от пепси, то
T будет иметь биномиальное распределение Bin(n, 1/2).

Пусть количество коктейлей n = 16, тогда Bin(n, 1/2) будет иметь следующий вид

Предположим, что t = 12, то есть в 12 случаях из 16 друг действительно угадал, что в стакане кола. В таком случае p-value будет равен:

P(T(X) ≥ 12 | H₀) = 2517 / 65536 ≈ 0.0384

Здесь у нас p-value достаточно мало — это указывает на то, что альтернативная гипотеза (H₁) более вероятна, т.е. друг действительно различит колу от пепси

Теперь немного изменим альтернативную гипотезу:

H₁: Друг любит определенный коктейль, но неизвестно какой (с колой или с пепси), то есть p ≠ 1/2. При такой альтернативе и большие, и маленькие значения t будут
свидетельствовать против H₀ в пользу H₁

Предположим (снова), что t = 12, то есть в 12 случаях из 16 друг действительно угадал, что в стакане кола (опять). Тогда p-value будет равен:

P(T(X) ≥ 12 или T(X) ≤ 4|H₀) = 5034 / 65536 ≈ 0.0768

Чем больше, «шире» альтернатива, тем сильнее данные свидетельствуют против нулевой гипотезы H₀(тем больше значений будут считаться экстремальными). С помощью инструментов проверки гипотез нельзя доказать верность нулевой гипотезы в принципе

Критерии согласия

Критерии, которые отвечают на вопрос согласуется ли распределения данных с каким-либо видом распределения, называют критериями согласия.

Пусть нам дана выборка x₁, . . . , x_n ∼ F, где F — некоторое неизвестное распределение. Давайте рассмотрим критерии согласия, в которых в качестве H₀ будем рассматривать гипотезу о принадлежности F какому-то параметрическому семейству, то есть F ∈ Ϝ₀. Альтернативой H₁ мы будем считать принадлежность F всем остальным распределениям

• H₀: F ∈ Ϝ₀ (нулевая гипотеза), проверяем гипотезу, что наше распределение F, которое мы не знаем, принадлежит некоторому классу распределений Ϝ₀
• H₁: F ∉ Ϝ₀ (альтернативная гипотеза)

где Ϝ₀ — некоторое параметрическое семейство распределений.

Критерии согласия так называются, потому что они отвечают на вопрос, согласуется ли наша выборка с каким-то параметрическим семейством или нет. В англоязычной литературе такие критерии называют Goodness of Fit

Чтобы построить критерий согласия достаточно найти такое свойство, которое будет выполняться для всех распределений в классе и на его основе реализовать статистику. Возьмем за правило, что произвольная гипотеза H является простой, если H : F = F₀, то есть гипотеза заключается в равенстве одному конкретному распределению F₀. В противном случае мы будем называть гипотезу сложной, т.е. нулевая гипотеза состоит из нескольких распределений (двух и более)

Произведем проверку простой нулевой гипотезы:

H₀ : F = F₀ для некоторого конкретного распределения F₀.
H₁ : F ≠ F₀.

Критерий Колмогорова

Критерий Колмогорова позволяет проверить гипотезу согласия для непрерывного случая и основан на отклонении функции распределения F₀ построенной по выборке эмпирической функции распределения

Функцией распределения случайной величины X называют функцию
F_X : R → [0, 1], задаваемая следующей формулой

F_X(u) = P(X ≤ u)

Значение F в точке u сосредотачивает вероятности всех возможных значений X вплоть до u (включительно).

Основное свойство функций распределения:

Любую случайную величину X можно задать через функцию распределения. То есть по функции распределения можно восстановить распределение случайной величины X:

В дискретном случае можно восстановить a_k и p_k(т.е. сможем найти возможные значения и вероятности)
В непрерывном случае можно восстановить f(u) (т.е. восстановить функцию плотности)

Эмпирическая функция распределения — это функция, которая оценивает истинную функцию распределения выборки F. Она задается формулой

где I_{xi≤u} — индикатор события {xi ≤ u} — это функция, которая равна 1, если событие
произошло, и 0 в обратном случае).

Визуально график представляет собой кусочно-постоянную функцию, у которой скачки происходят в точках выборки x₁, . . . , x_n, а высота скачков равна 1/n. По графику видимо, что истинная функция распределения хорошо аппроксимируется с эмпирической функцией распределения

Для выборки достаточно большого размера, эмпирическая функция распределения Fbn(u) не должна существенно отклоняться от истинной функции распределения F.

Теорема (Гливенко-Кантелли)

Если F — это функция распределения элементов выборки, то F_n(u) будет эмпирической функцией распределения, построенной по этой выборке. Тогда, для всех одновременно аргументов функции (u) и при n → ∞

Эмпирическая функция распределения будет стремиться к истинной функции распределения с вероятностью 1

Статистика критерия Колмогорова основана на такой величине максимального отклонения одной функции от другой:

Теорема (Колмогоров)

Пусть верна гипотеза H₀, то есть F₀ является функцией распределения элементов выборки. Если F₀ непрерывна, то, при n → ∞, для любого t > 0

K(t) называется функцией Колмогорова, а соответствующее ему распределение — распределением Колмогорова. Быстрая сходимость к предельному закону позволяет пользоваться этим приближением уже при n ≥ 20. Условие непрерывности функции распределения необходимо

Критерий Пирсона (хи-квадрат)

Критерий Пирсона можно использовать для проверки простой гипотезы согласия в дискретном случае (можно и для непрерывного — но это

Пусть F₀является (пока конечным) дискретным законом, который задается таблицей распределения

Критерий Пирсона базируется уже на другой статистике — частотах. Статистикой критерия является величина

где V_i (греческая буква ню) — количество значений a_i в выборке x₁, . . . , x_n.

Распределением χ²_k (хи-квадрат) с k степенями свободы называется распределение случайной величины

Y = χ²₁ + . . . + χ²_k

где x₁, . . . , x_k независимы и стандартно нормально распределены, то есть X_i ∼ N (0, 1).

Теорема (Пирсон)

Если при n → ∞ распределение статистики T_n сходится к распределению χ²_k-1 то нулевая гипотеза верна, т.е. F₀ является функцией распределения элементов выборки

Приближение распределения статистики T_n с помощью закона χ²_k-1является достаточно точным при n ≥ 50 и npi ≥ 5 для всех i = 1, . . . , k.

Сложные нулевые гипотезы

Лучше всего проверять гипотезы со специализированными критериями. Поэтому давайте посмотрим на самые чувствительные критерии, которые построены для конкретных семейств распределений.

Проверка экспоненциальности (показательности)

Исключение неизвестного параметра

Положим S_k = X₁ + . . . + X_k, k = 1, . . . , n.

Можно доказать, что для экспоненциального распределения вектор (т.е. выборка Xi-тых заменённая на такую) S₁/S_n, . . . , S_n−1/S_n, распределен так же, как и упорядоченный ряд из равномерного распределения на [0, 1] размера n − 1.

Данное преобразование сводит задачу к проверке равномерности, которую можно решить с помощью критерия Колмогорова. Но за исключение «мешающего» параметра λ приходится платить уменьшением размера выборки на 1.

Критерий Джини (Gini)

Этот критерий базируется на статистике, а по сути индексу Джини:

где X_(i) — это i-ый элемент в упорядоченной по возрастанию выборке (вариационном ряду). Известно, что при верной H₀ величина 12(n − 1)(G_n − 0.5) сходится к нормальному распределению. На этом факте и основан критерий Джини.

Проверка экспоненциальности (показательности)

Для проверки экспоненциальности существует и ряд других критериев (например, Шапиро-Уилка для экспоненциального случая или Андерсона-Дарлинга).

Проверка нормальности

Критерий Шапиро-Уилка (Shapiro-Wilk).

Критерий Шапиро-Уилка базируется на статистике, которая является отношением квадрата линейной оценки стандартного отклонения к смещенной оценке дисперсии:

где a_i — некоторые константы. При верной H₀ распределение SW_n является табличным. На этом факте и основан критерий Шапиро-Уилка.

Критерий Харке-Бера (Jarque-Bera). Этот критерий основан на статистике, которая использует выборочные коэффициенты асимметрии и эксцесса:

где µ_k — центрированный выборочный момент порядка k

Данная статистика сходится к распределению χ²₂. На этом факте и основан критерий Харке-Бера.

Квантильный график

До проверки критериев мы делаем визуальный анализ данных. Согласия хорошо проверять с помощью гистограммы. Но по ней довольно сложно судить о правильности убывания хвостов. Чтобы это проверить был придуман квантильный график

Согласие выборки с распределением, которое образовано с помощью сдвига/масштаба, можно проверить визуально с помощью квантильного графика (Q-Q Plot). К таким распределениям относятся: равномерное, экспоненциальное, нормальное и т.д.

На квантильном графике имеются точки, которые должны расположится вдоль некоторой прямой. Если они располагаются как на графике ниже — тогда у нас отличное согласие.

Критерии однородности (A/B тесты)

Критерия однородности, в отличии от критериев согласия, не проверяют согласия выборки с каким-то конкретным распределением, а рассматривают согласие двух выборок, т.е. мы хотим проверить гипотезу, что у них одинаковое распределение.

Например, у нас есть автолюбители, которые предпочитают шины марки А — это будет первая выборка, а есть те, которые без ума от шин марки Б — это будет вторая выборка. Значения в этих выборках — это эффективность работы автомобильных шин (длина тормозного пути, эффективность торможения, шум и т.д.). Требуется выяснить, имеется ли значимое различие эффективности шин А и Б

Есть еще и другой пример: Первая выборка — характеристики до переобувания в зимнюю резину (пусть будут все те же самые, что и выше). Вторая выборка — характеристики после переобувания в зимнюю резину. Требуется выяснить, имеется ли значимое отличие в характеристиках до и после переобувания.

Эти примеры разные в том плане, что в одном случае мы имеем дело с независимым выборкам, а в другом — с зависимыми выборками. Мы будем применять для этих случаев разные критерии.

Параметрические и непараметрические критерии

Параметрические критерии предполагают, что выборка имеет нормальное распределение, т.е. взята из некоторого параметрического семейства распределений. Статистики параметрических критериев более чувствительны к отклонениям от нулевой гипотезы и, в целом, работаю лучше, чем непараметрические (грубо говоря p-value у параметрических обычно ниже, чем у непараметрических критериев)

Но есть одна интересная особенность: непараметрические критерии работают лучше в случае, если совсем немного отходим от нормального распределения. При небольших отклонениях от идеальных условий — они не требуют идеальных условий, например, нормальности данных.

Независимые выборки

Двухвыборочный t-критерий Стьюдента (Уэлча)

Данные критерии основаны на распределении Стьюдента t_k с k степенями свободы называется распределение случайной величины, где в числителе стандартная случайная величина, в знаменателе — квадратный корень распределения хи-квадрат с k степенями свободы деленный на количество степеней свободы

где X ∼ N (0, 1), Y ∼ χ²_k и являются независимыми.

Плотность распределения Стьюдента с k степенями свободы:

где Γ(u) — гамма-функция Эйлера (специальная функция). Как мы видим, здесь хвосты убывают «тяжелее», чем у нормального распределения

Теорема (Лемма Фишера).Пусть X₁, . . . , X_n — выборка из нормального распределения N (µ, σ²). Обозначим среднее арифметическое по выборке и несмещенную оценку для дисперсии:

Тогда случайные величины X и S² независимы

Выборки: X = (X₁, . . . , X_n1), X_i ∼ N (µ₁, σ²₁) и Y = (Y₁, . . . , Y_n2), Y_i ∼ N (µ₂, σ²₂). Выборки могут быть разного размера и имеют нормально распределение. Нюанс: X, Y независимые, σ₁ и σ₂неизвестны
Нулевая гипотеза: H₀ : µ₁ = µ₂
Альтернатива: H₁ : µ₁ ≠ µ₂ или µ₁ > µ₂, или µ₁ < µ₂
Нулевое распределение: T_n ≈ t_k для некоторого k ∈ N

В целом сравнение средних двух нормальных выборок при неизвестных и неравных дисперсиях известна как проблема Беренса-Фишера. При этом рассмотренная аппроксимация (критерий Уэлча) достаточно точна в двух ситуациях:

Если выборки одинакового размера n₁ = n₂.
Если знак неравенства между n₁ и n₂ такой же, как между σ₁ и σ₂,
то есть выборка с большей дисперсией имеет больший объем.

Критерий Колмогорова-Смирнова

В качестве первого непараметрического критерия можно использовать модификацию критерия Колмогорова (для непрерывных распределений). Например, две выборки X = (X₁, . . . , X_n) и Y = (Y₁, . . . , Y_n2) с функциями распределения F_X и F_Y соответственно. Обозначим их эмпирические функции распределения и рассмотрим статистику

Если F_X = F_Y , то D_n должна принимать малые значения

При выполнении нулевой гипотезы F_X = F_Y , для любого t > 0 выполняется

где K(t) — функция Колмогорова (при n₁, n₂ ≥ 20 аппроксимация является достаточно точной)

Выборки: X = (X₁, . . . , X_n1), X_i ∼ F_X и Y = (Y₁, . . . , Y_n2), Y_i ∼ F_y (X, Y независимые; F_X, F_Yнепрерывные)
Нулевая гипотеза: H₀ : F_X = F_Y
Альтернатива: H₁ : F_X ≠ F_Y

Критерий Манна-Уитни

Критерий Манна-Уитни (или ранговых сумм Уилкоксона) — еще один непараметрический критерий для проверки гипотезы однородности. Он был предложен Уилкоксоном для выборок одинакового размера. Манн и Уитни обобщили его на случай выборок разного размера.

Напомним, что по любой выборке X₁, . . . , X_n всегда можно сопоставить вариационный ряд, то есть упорядочить её по неубыванию:

Рангом наблюдения X_i называется:

Его позиция в вариационном ряду, если X_i не попадает в связку
(j₁ + j₂)/2, если x_i попадает в связку от j₁ до j₂; то есть в связке все
объекты получают одинаковый средний ранг.

Критерий Манна-Уитни основан на следующей статистике V_n:

Обозначим через R_j ранг порядковой статистики Y_(j), j = 1, . . . , m, в вариационном ряду, построенном по объединенной выборке (X₁, . . . , X_n1, Y₁, . . . , Y_n2).
Положим V_n = R₁ + . . . + R_n2

Выборки: X = (X₁, . . . , X_n1), X_i ∼ F_X и Y = (Y₁, . . . , Y_n2), Y_i ∼ F_y (X, Y независимые)
Нулевая гипотеза: H₀ : F_X = F_Y
Альтернатива: H₁ : F_X ≠ F_Y
Статистика: V_n = R₁ + . . . + R_n2
Нулевое распределение: табличное для малых выборок нормальное приближение для больших выборок

Зависимые выборки

Двухвыборочный t-критерий Стьюдента

В некоторых случаях связанные выборки имеют элементы X_i и Y_i
соответствуют одному и тому же объекту, но измерения сделаны в
разные моменты (например, до и после применения лекарства).
Размеры выборок в этом случае должны совпадать:

n₁ = n₂ = n

Рассмотрим выборку, образованную разностями X_i и Y_i

Z_i = Y_i − X_i, i = 1, . . . , n.

Сравнение средних в зависимых выборках ничем не отличается от сравнения среднего разности Z_i с нулём.

Выборки: X = (X₁, . . . , X_n1), Y = (Y₁, . . . , Y_n2), Z_i = Y_i − X_i и Z_i ∼ N (µ, σ²). При этом X, Y зависимые, σ неизвестна
Нулевая гипотеза: H₀ : µ = 0
Альтернатива: H₁ : µ ≠ 0 или µ > 0, или µ < 0
Нулевое распределение: T_n ∼ t_n−1

Далее, чтобы сформулировать непараметрические критерии, возьмем каждое приращение Z_i и разложим их на две части:

Zi = θ + εi, i = 1, . . . , n

где θ — систематический сдвиг, который не зависит от человека, а ε_i — случайные ошибки, включающие в себя влияние неучтенных факторов на Z_i

В данных обозначениях нулевую гипотезу H₀ можно записать как H₀: θ = 0. Мы будем предполагать, что ε₁, . . . , ε_n независимы и имеют непрерывные и разные распределения с равной нулю медианой.

Критерий знаков

Самым простым непараметрическим критерием однородности для двух зависимых выборок является критерий знаков. Статистикой критерия знаков является величина

При верной H₀ статистика S_n будет иметь биномиальное распределение Bin(n, 1/2), т.е. с успехом 1/2. Для больших n можно использовать сходимость к нормальному закону.

Выборки: X = (X₁, . . . , X_n1), X_i ∼ F_X, Y = (Y₁, . . . , Y_n2), Y_i ∼ F_Y, Z_i = Y_i − X_i и Z_i = θ + ε_i
Нулевая гипотеза: H₀ : θ = 0
Альтернатива: H₁ : θ ≠ 0 или θ > 0, или θ < 0
Нулевое распределение: S_n ∼ Bin(n, 1/2)

Критерий знаковых рангов Уилкоксона

Предположим, что случайные величины ε₁, . . . , ε_n имеют одинаковое распределение, симметричное относительно медианы (или же нуля). Условие строгой симметрии относительно медианы является почти столь же нереалистичным, как и предположение, что распределение величин Z_i в точности нормально. Как правило, надежно проверить симметрию можно лишь по выборке из нескольких сотен наблюдений

Критерий знаковых рангов Уилкоксона основан на статистике

W_n = R₁U₁ + . . . + R_nU_n,

где U_i = I_{Zi>0} и R_i — ранги величин |Z_i| в ряду |Z₁|, . . . , |Z_n|.

При верной H₀ статистика W_n будет иметь табличное распределение (его можно посчитать явно). Для больших n можно использовать сходимость к нормальному
закону.

Выборки: X = (X₁, . . . , X_n1), X_i ∼ F_X, Y = (Y₁, . . . , Y_n2), Y_i ∼ F_Y, Z_i = Y_i − X_i и Z_i = θ + ε_i, X, Y зависимые, ε_iсимметрично распределены
Нулевая гипотеза: H₀ : θ = 0
Альтернатива: H₁ : θ ≠ 0 или θ > 0, или θ < 0
Нулевое распределение: табличное для малых выборок нормальное приближение для больших выборок

Сервисы

Скиллы

Девайсы

Жиза

Хелпдеск

Онбординг

Инвестору

Аналитик данных. Часть 20. Проверка гипотез. Критерии согласия. Критерии однородности

Ах, Фунтик, ты со мной согласен?

Статистический критерий

Проверка гипотезы

Пример

Критерии согласия

Критерий Колмогорова

Теорема (Гливенко-Кантелли)

Теорема (Колмогоров)

Критерий Пирсона (хи-квадрат)

Теорема (Пирсон)

Сложные нулевые гипотезы

Проверка экспоненциальности (показательности)

Исключение неизвестного параметра

Критерий Джини (Gini)

Проверка экспоненциальности (показательности)

Проверка нормальности

Квантильный график

Критерии однородности (A/B тесты)

Параметрические и непараметрические критерии

Независимые выборки

Двухвыборочный t-критерий Стьюдента (Уэлча)

Критерий Колмогорова-Смирнова

Критерий Манна-Уитни

Зависимые выборки

Двухвыборочный t-критерий Стьюдента

Критерий знаков

Критерий знаковых рангов Уилкоксона

Добавить комментарий Отменить ответ