in

Аналитик данных. Часть 19. Суммы случайных величин. Предельные теоремы. Неравенства концентрации

Дорогу осилит идущий. Идущий к предельным теоремам

Часто в практических задачах возникает необходимость рассмотрения нескольких случайных величин одновременно: какова вероятность, что в Магните будет акция не только на дошик, но и на пельмени?

Распределение суммы случайных величин

Пусть даны две независимые случайные величины X и Y. Что такое, в принципе, расчёт распределения сумм? Это означает какие значение сумма принимает и с какой вероятностью:

Минимальное значение, которое мы можем получить — 0, максимальное — 2n

Всё сводится к формуле полной вероятности — пробегаемся по всем значениям одной случайной величины. Узнав её, мы восстанавливаем значение второй, зная, что в сумме они дадут k. Вероятность получить значение k складывается как сумма всех значений вероятности X от 0 до k, при этом Y будет k-j

Например, нам нужно узнать  чему будут равны вероятности P(X + Y = k), где
k — любое целое число от 0 до 2n (сумма не превышает 2n)? Распределение суммы X + Y можно найти так: для 0 ≤ k ≤ 2n

Формула в дискретном случае

Формула распределения сумм в дискретном случае называется дискретной свёрткой. Чтобы найти вероятности P(X + Y = c) для всех возможных значений c ∈ R нужно понять, при каких ai и bj получается ai + bj = и просуммировать соответствующие произведения вероятностей pi· qj

Формула в непрерывном случае

Формула распределения сумм в дискретном случае называется непрерывной свёрткой.

Если две случайные величины независимые, то плотность суммы вычисляется по след. формуле (сумму меняем на интеграл, вероятность меняем на плотность умноженную на dz). Пусть X имеет плотность fX(u), а Y — плотность fY (u).

В непрерывном случае, для подсчета суммы двух случайных величин их нужно перемножить и проинтегрировать. Поэтому данные формулы довольно сложно использовать на практике, т.к. их вычислительная сложность растёт с ростом количества слагаемым.

Неравенства концентрации

Неравенства концентрации — это некоторые неравенства, которые позволяют оценить вероятность событий для случайной величины, если мы не знаем её распределения или оно считается очень сложно. Неравенства концентрации — оценка вероятности P(X ∈ A) с помощью числовых характеристик X.

Теорема (Неравенство Чебышёва)

Давайте возьмем произвольную случайную величину, неважно какая у неё таблица распределения или функция плотности, но мы точно знаем, что у неё конечная дисперсия. В таком случае выполняется подобное неравенство: случайная величина примет «плохие» для себя значения (сильно отойдет от своего математического ожидания) на уровень больше, чем t

Пусть X — произвольная случайная величина и Var(X) < ∞. Тогда для любого t > 0

Вероятность, которую мы оценивали в неравенстве Чебышёва можно оценить по-другому, например

Закон больших чисел

Пусть X1, X2, X3, Xn — независимые одинаково распределенные случайные величины. Например, наша месячная зарплата в день. Определим сумму первых n-членов последовательности: Sn = X1 + . . . + Xn.

Так как у нас случайные величины распределены равномерно, у них совпадает мат. ожидание и дисперсия. Поэтому пусть µ = E[Xn] и σ2 = Var(Xn) < ∞.

Таким образом, Теорема (Закон больших чисел, ЗБЧ)  любого t > 0: Вероятность (P) среднего арифметического (Sn/n) отклонится от мат. ожидания на уровень больше чем t сводится к нулю при n -> ∞

Закон больших чисел можно интерпретировать по-другому: «Sn / n сходится к u по вероятности»

Доказательство закона больших чисел

Найдем мат. ожидание Sn/n. Здесь мы воспользуемся лайфхаком: константу можно вынести из под мат. ожидания (1/n). Еще одно свойство: мат. ожидания суммы — это сумма мат. ожиданий:

Далее найдем дисперсию. Здесь мы тоже можем вынесем константу, только с квадратом (1/n2)

По неравенству Чебышёва:

Центральная предельная теорема. Концентрация сумм

Давайте посмотрим, как ведут себя отклонения, если Sn / n сходится к u по вероятности?

Центральная предельная теорема (ЦПТ) — любые вероятности (вероятность попасть в отрезок от a до b) для Sn после вычитания мат. ожидания E[Sn] и деления на корень дисперсии, т.е. стандартизации, будут сходиться при n -> ∞ к таким же вероятностям, где мы стандартизованную величину (то, что у нас в скобочках) заменим на Z, где Z ∼ N (0, 1).

Стандартизация Sn / n и Sn дает одинаковый результат:

Стоит учесть, что вероятности P(a < Z < b) для Z ∼ N (0, 1) считаются с помощью функции распределения Φ(u) = P(Z ≤ u) по формуле P(a < Z < b) = Φ(b) − Φ(a).

Решение задач #1

В Уездном городе в месяц рождается 10 000 детей. Оцените с помощью неравенства Чебышёва и центральной предельной теоремы вероятность того, что число мальчиков, среди новорожденных будет отличаться от 5000 не более, чем на 100.

Что мы знаем? У нас есть случайные величины X1….Xn. Все они из распределения Бернулли с вероятностью успеха р, в нашем случае это  ∼ Ber(1/2). Количество экспериментов n = 10 000.

Как мы знаем: Sn = X1 + . . . + Xn.Таким образом, Sn — это и будет количество мальчиков. Т.е. по условиям задачи нам нужно оценить вероятность того, что этот параметр будет лежать в диапазоне от 4900 до 5100. Сначала найдем мат. ожидание и дисперсию Sn

Мат. ожидание: E[Sn] = E[X1 + . . . + Xn] = n · E[X1] = np = 5 000

Дисперсия: Var(Sn) = Var(X1 + . . . + Xn) = n · Var(X1) = np(1 − p) = 2500 (дисперсия одного слагаемого p(1-p))

По неравенству Чебышёва: В оригинальной трактовке неравенства мы отклонялись «больше, чем на уровень». Сейчас у нас ситуация обратная — нам надо найти «не больше, чем на уровень», поэтому мы переходим к дополнительному событию (добавляем 1- к P(|Sn − E[Sn]| > 100 и Var(Sn)/1002), соотв. меняется и знак неравенства

По неравенству Чебышёва вероятность отклониться от мат. ожидания не больше, чем на 100 —  она больше или равна 75 процентам, т.е. в трёх случаях из четырёх это событие будет происходить.

По центральной предельной теореме: Сразу упрощаем внешний вид для удобства, т.е. запишем вероятность как P(4900 ≤ Sn ≤ 5100). Далее переходим к нормальному распределению:

 

Решение задач #2

Вы — фанат прогулок. Ваши шаги — независимые одинаково распределенные случайные величины, равномерно распределенные на [70, 80] см. С какой вероятностью вы за 10 000 шагов пройдете расстояние, отличное от 7.5 км. не более, чем на 10 м.?

Небольшая хитрость данной задачи состоит в том, что у неё разные единицы измерения. Для удобства приведём все значения в метры: пусть X1, . . . , Xn ∼ Unif[0.7, 0.8] (метров), n = 10 000, в то время как сумма последовательностей у нас Sn = X1 + . . . + Xn

Как обычно, сначала находим мат. ожидание и дисперсию:

E[Sn] = E[X1 + . . . + Xn] = n · E[X1] = n ·(0.8 + 0.7/2) = 7 500

Var(Sn) = Var(X1 + . . . + Xn) = n · Var(X1) = n · (0.8 − 0.7)2 / 12 = 100 / 12

По неравенству Чебышёва:

По центральной предельной теореме:

Добавить комментарий

Ваш адрес email не будет опубликован.