1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/wizardforcel-data8-textbook-zh

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Это зеркальный репозиторий, синхронизируется ежедневно с исходного репозитория.
Клонировать/Скачать
10.md 44 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
gitlife-traslator Отправлено 30.11.2024 06:54 043962f

Проверка гипотез

Данные учёные часто сталкиваются с вопросами, которые предполагают однозначный ответ «да» или «нет». В этом курсе мы уже видели примеры таких вопросов:

  • Шоколад полезен для вас?
  • Была ли вода из насоса на Брод-стрит причиной эпидемии холеры?
  • Изменилась ли демографическая ситуация в Калифорнии за последние десять лет?

Ответ на эти вопросы зависит от данных, которыми мы располагаем. Например, данные переписи населения Калифорнии позволяют ответить на вопрос об изменении демографической ситуации, и ответ почти не вызывает сомнений. Мы знаем, что вода в насосе на Брод-стрит была загрязнена из-за больных холерой, поэтому мы можем с уверенностью предположить, что она могла вызвать эпидемию.

Однако определить, приносит ли шоколад пользу конкретному человеку, может только врач, но первым шагом будет анализ данных исследований и экспериментов.

В этой главе мы попытаемся ответить на подобные вопросы, основываясь на выводах, сделанных на основе выборки и распределения вероятностей. В качестве примера мы рассмотрим исследование, проведённое ACLU (Американский союз защиты гражданских свобод) в 2010 году.

Отбор присяжных заседателей

Присяжные заседатели — это группа людей, выбранных для участия в судебном процессе; из них формируется коллегия присяжных. Количество присяжных может варьироваться от нескольких десятков до нескольких тысяч человек, в зависимости от характера дела. По закону присяжные должны быть представителями сообщества, в котором проходит судебный процесс. Калифорнийский «Гражданский процессуальный кодекс» гласит: «Все лица, выбранные для работы в суде присяжными, выбираются случайным образом из источника или источников, включающих репрезентативную выборку населения района, обслуживаемого судом».

Окончательный состав коллегии присяжных формируется путём намеренного включения или исключения присяжных из первоначального состава. Закон позволяет потенциальным присяжным быть освобождёнными от обязанностей по медицинским причинам; обе стороны могут выбрать потенциальных присяжных для так называемого «предварительного отвода» («peremptory challenges»). Судья первой инстанции может выбирать присяжных на основании их анкет; и так далее. Но первоначальный состав присяжных, похоже, представляет собой случайную выборку квалифицированных присяжных в целом.

Состав коллегии присяжных в округе Аламеда

Исследование ACLU было сосредоточено на расовом составе коллегии присяжных округа Аламеда. ACLU отредактировал данные о расовом составе коллегий присяжных по 11 уголовным делам, рассмотренным в округе Аламеда в 2009 и 2010 годах. Всего в этих коллегиях присяжных было 1453 человека. ACLU собрал данные обо всём населении и сравнил их с составом всех квалифицированных присяжных в этом округе.

Эти данные представлены в таблице ниже, которая называется «jury». Для каждой расы первый столбец показывает долю всех квалифицированных кандидатов в присяжные этой расы. Второй столбец показывает процент представителей этой расы среди присяжных.

Ethnicity Eligible Panels
Asian 0.15 0.26
Black 0.18 0.08
Latino 0.12 0.08
White 0.54 0.54
Other 0.01 0.04

Некоторые расы представлены чрезмерно, а некоторые недостаточно. Гистограмма помогает визуализировать различия.

Ethnicity Eligible Panels
Азиат 0,15 0,26
Чёрный 0,18 0,08
Латиноамериканец 0,12 0,08
Белый 0,54 0,54
Другой 0,01 0,04

Визуализация позволяет быстро понять сходства и различия между двумя распределениями. Чтобы более точно описать эти различия, мы должны сначала количественно оценить разницу между двумя распределениями. Это позволит нашему анализу основываться на большем количестве информации, чем просто оценка, которую мы можем сделать на глаз.

Чтобы измерить разницу между двумя распределениями, мы вычислим количество, называемое общим расстоянием вариации (total variation distance).

Для вычисления общего расстояния вариации мы сначала рассмотрим разницу между пропорциями в каждой категории.

Ethnicity Eligible Panels Difference
Asian 0.15 0.26 0.11
Black 0.18 0.08 -0.1
Latino 0.12 0.08 -0.04
White 0.54 0.54 0
Other 0.01 0.04 0.03

Это количество 0,14 является общим расстоянием вариации между расовым составом квалифицированных присяжных и расовым составом коллегий присяжных (TVD).

Если мы добавим положительные различия, то получим тот же результат. Однако наш метод включает все абсолютные различия, и нам не нужно отслеживать, какие различия положительны, а какие отрицательны.

Функция для вычисления TVD

Функция total_variation_distance возвращает общее расстояние вариации между двумя массивами.

def total_variation_distance(distribution_1, distribution_2):
    return np.abs(distribution_1 - distribution_2).sum()/2

Функция table_tvd использует функцию total_variation_distance для возврата общего расстояния вариации между двумя столбцами таблицы.

def table_tvd(table, label, other):
    return total_variation_distance(table.column(label), table.column(other))

table_tvd(jury, 'Eligible', 'Panels')
0.14000000000000001

Является ли коллегия присяжных репрезентативной?

Теперь мы перейдём к общему расстоянию вариации между квалифицированными присяжными и коллегиями присяжных. Как мы интерпретируем значение 0,14? Чтобы ответить на этот вопрос, вспомните, что коллегии присяжных должны формироваться путём случайного отбора. Поэтому сравнение значения 0,14 с общим расстоянием вариации между квалифицированным присяжным и случайно выбранной коллегией присяжных поможет нам.

Для этого мы воспользуемся нашими навыками моделирования. В исследовании участвовало 1453 квалифицированных присяжных. Итак, давайте выберем случайную выборку размером 1453 из совокупности квалифицированных присяжных.

Техническая заметка. Квалифицированные присяжные будут выбраны без замены. Однако, если размер выборки относительно невелик по сравнению с размером генеральной совокупности, выборка без замены аналогична выборке с заменой; пропорции в генеральной совокупности не сильно меняются между несколькими выборками. Население округа Аламеда превышает миллион человек, по сравнению с этим 1500 человек — довольно небольшая выборка. Таким образом, мы будем использовать выборку с заменой.

Случайная выборка из квалифицированных присяжных

До сих пор мы использовали np.random.choice для выборки элементов из массива и sample для выборки строк из таблицы. Теперь нам нужно выбрать из распределения: группы рас и их пропорции.

Мы используем функцию proportions_from_distribution для этого. У неё есть три параметра:

  • название таблицы;
  • ярлык столбца, содержащего пропорции;
  • размер выборки.

Эта функция выполняет выборку с заменой и возвращает новую таблицу с дополнительным столбцом «Random Sample», который содержит пропорции в случайной выборке.

Размер всех коллегий присяжных составляет 1453, поэтому давайте присвоим это число переменной и вызовем:

proportions_from_distribution.

panel_size = 1453
panels_and_sample = proportions_from_distribution(jury, 'Eligible', panel_size)
panels_and_sample
``` **Результаты**.hist(bins = np.arange(0, 0.2, 0.01))

Случайный образец TVD меньше полученного значения 0,18, которое является TVD коллегии присяжных и квалифицированных присяжных заседателей.

В этом анализе данные не были скрыты проблемой, как в предыдущих анализах — количество людей, вовлечённых в дело, относительно невелико, а также работа статистиков в Верховном суде очень тщательна.

Таким образом, наш анализ привёл к чёткому выводу: коллегия присяжных не представляет общество в целом. Решение Верховного суда о том, что «общая разница в процентах невелика», трудно принять.

Термины проверки

На фоне примеров, выбранных коллегией присяжных, мы уже сформировали некоторые предположения о базовой концепции статистической проверки. Использование статистических проверок в качестве метода принятия решений является стандартом во многих областях, и существуют стандартные термины. Ниже приводится порядок шагов большинства статистических проверок, а также некоторые термины и примеры.

Первый шаг: гипотеза

Все статистические проверки пытаются сделать выбор между двумя точками зрения в мире. Точнее говоря, это выбор между двумя способами генерации данных. Эти две точки зрения называются гипотезами.

Нулевая гипотеза. Это означает, что данные генерируются случайным образом при определённых условиях гипотезы, которые делают вероятность вычисления возможной. Слово «ноль» усиливает эту точку зрения, то есть если данные выглядят иначе, чем предсказано нулевой гипотезой, то это различие случайно.

В примере выбора коллегии присяжных в округе Аламеда нулевая гипотеза заключается в том, что коллегия присяжных выбирается случайным образом из группы квалифицированных присяжных. Хотя состав коллегии присяжных отличается от состава квалифицированных присяжных в целом, нет никаких оснований для различий, кроме случайной изменчивости.

Альтернативная гипотеза. То есть помимо вероятности существуют другие причины, по которым данные отличаются от предсказанных нулевой гипотезой. Неформально альтернативная гипотеза считает наблюдаемое различие «реальным».

В нашем примере выбора коллегии присяжных в округе Аламеда альтернативная гипотеза состоит в том, что эти группы не выбираются случайным образом. Помимо вероятности, существуют и другие факторы, приводящие к различию в составе коллегии присяжных и общем составе квалифицированных присяжных.

Второй шаг: проверка статистики

Чтобы сделать выбор между этими двумя гипотезами, мы должны выбрать статистику в качестве основы для нашего решения. Это называется проверкой статистики.

В случае коллегии присяжных округа Аламеда мы использовали проверку статистики, которая представляет собой общее расстояние вариации между составом коллегии присяжных и общим составом квалифицированных присяжных.

Вычисление наблюдаемого значения проверки статистики обычно является первым шагом в статистической проверке. В нашем примере наблюдаемое значение расстояния общей вариации между коллегией присяжных и общей группой квалифицированных присяжных составляет 0,14.

Третий шаг: распределение вероятностей статистики проверки при нулевой гипотезе

Этот шаг отодвигает наблюдаемое значение проверки статистики на задний план и фокусируется на том, какое значение статистики ожидается при истинной нулевой гипотезе. При нулевой гипотезе, основанной на вероятности, могут возникнуть различные ситуации из-за случайности выборки. Поэтому статистика может отличаться. Этот шаг включает в себя вычисление всех возможных значений статистики и их вероятностей в предположении случайной нулевой гипотезы.

Другими словами, на этом этапе мы предполагаем, что нулевая гипотеза верна, и вычисляем распределение вероятностей значения статистики проверки. Для многих статистических показателей это сложная задача с математической и вычислительной точек зрения. Поэтому мы аппроксимируем распределение вероятностей статистики проверки через эмпирическое распределение, полученное путём многократного повторения процесса выборки.

В нашем случае мы визуализировали это распределение с помощью гистограммы.

Четвёртый шаг: заключение проверки

Выбор между нулевой и альтернативной гипотезами зависит от сравнения результатов шага 2 и шага 3: наблюдаемого значения статистики проверки и её распределения, как предсказывает нулевая гипотеза.

Если они согласуются друг с другом, наблюдаемое значение статистики проверки соответствует предсказанию нулевой гипотезы. Другими словами, эта проверка не склоняется к альтернативной гипотезе; данные больше поддерживают нулевую гипотезу.

Однако, если они не согласуются, как в случае коллегии присяжных округа Аламеда, данные не поддерживают нулевую гипотезу. Вот почему мы пришли к выводу, что коллегия присяжных выбрана не случайным образом. Вероятность влияет на их состав.

Если данные не подтверждают нулевую гипотезу, мы говорим, что проверка отклоняет нулевую гипотезу.

Горох Менделя

Грегор Мендель (1822–1884) был австрийским монахом, который считается основателем современной области генетики. Мендель провёл тщательные и масштабные эксперименты с растениями, выдвинув основные законы генетики.

Многие из его экспериментов проводились на различных сортах гороха. Он предложил ряд моделей для каждого сорта. Затем он посадил растения и собрал данные, чтобы проверить эффективность своих моделей.

Давайте проанализируем данные эксперимента и посмотрим, насколько хороши модели Менделя.

У определённого сорта каждое растение имеет либо фиолетовый, либо белый цветок. Цвет каждого растения не зависит от цвета других растений. Мендель предположил, что у растений должна быть вероятность 3 к 1 иметь фиолетовый или белый цветок, независимо от цвета других растений.

Нулевая гипотеза. Для каждого растения вероятность того, что оно будет иметь фиолетовый цветок, составляет 75%, а вероятность того, что оно будет белым, — 25%, независимо от цвета других растений.

То есть нулевая гипотеза предполагает, что модель Менделя хороша. Любые наблюдаемые отклонения модели являются результатом случайной изменчивости.

Конечно, существует противоположная точка зрения.

Альтернативная гипотеза. Модель Менделя неэффективна.

Посмотрим, какие данные Менделя больше подтверждают одну из этих гипотез.

Таблица «Цветы» содержит предсказанные пропорции модели и данные о растениях, посаженных Менделем.

flowers = Table().with_columns(
    'Color', make_array('Purple', 'White'),
    'Model Proportion', make_array(0.75, 0.25),
    'Plants', make_array(705, 224)
)

flowers
Цвет Пропорция модели Растения
Фиолетовый 0,75 705
Белый 0,25 224

Всего 929 растений. Чтобы наблюдать, близко ли распределение цветов к предсказаниям модели, мы можем найти общее расстояние вариации между наблюдаемой пропорцией и пропорцией модели, как мы делали раньше. Однако, поскольку есть только два класса (фиолетовый и белый), у нас есть более простой вариант: мы можем посмотреть на долю фиолетовых цветов. Доля белых цветов не даёт новой информации, потому что она просто равна 1 минус доля фиолетовых цветов.

total_plants = flowers.column('Plants').sum()
observed_proportion = flowers.column('Plants').item(0)/total_plants

Статистика проверки. Поскольку модель предсказывает, что 75% растений имеют фиолетовый цвет, соответствующая статистика — это разница между долей растений с фиолетовым цветом и 0,75.

observed_statistic = abs(observed_proportion - 0.75)

Как это значение соотносится с тем, что предсказывает нулевая гипотеза? Чтобы ответить на этот вопрос, нам нужно использовать модель для имитации новых образцов растений и вычислить статистику проверки для каждого образца.

Сначала мы создадим массив model_colors, содержащий цвета и пропорции, заданные моделью. Затем мы можем использовать np.random.choice для случайного отбора из этого массива 929 раз. Согласно модели Менделя, это процесс создания растений.

model_colors = make_array('Purple', 'Purple', 'Purple', 'White')
new_sample = np.random.choice(model_colors, total_plants)

Чтобы сравнить с наблюдаемой статистикой, нам нужно знать долю растений с фиолетовыми цветами в этом новом образце и разницу с 0,75.

proportion_purple = np.count_nonzero(new_sample == 'Purple')/total_plants
abs(proportion_purple - 0.75)
0,016953713670613602

Распределение статистики проверки при нулевой гипотезе. Неудивительно, что мы получили значение, близкое к наблюдаемому значению статистики проверки, равному 0,00888. Но что, если мы возьмём ещё один образец? Насколько он будет отличаться? Вы можете ответить на этот вопрос, повторно запустив две предыдущие ячейки или используя цикл for для моделирования статистики проверки.

repetitions = 5000

sampled_stats = make_array()

for i in np.arange(repetitions):
    new_sample = np.random.choice(model_colors, total_plants)
    proportion_purple = np.count_nonzero(new_sample == 'Purple')/total_plans
    sampled_stats = np.append(sampled_stats, abs(proportion_purple - 0.75))

results = Table().with_column('Distance from 0.75', sampled_stats)
results.hist()

Заключение проверки. Исходя из данных Менделя, значение статистики наблюдения составляет 0,00888, ровно 0,01 или меньше. Это точно в центре этого распределения.

results.hist()

#Plot the observed statistic as a large red point on the horizontal axis
plots.scatter(observed_statistic, 0, color='red', s=30);
``` **Значение  это вероятность, при которой значение наблюдения в данных равно значению, предполагаемому в исходной гипотезе, или даже больше в направлении альтернативной гипотезы.**

Давайте сначала посмотрим, как это определение согласуется с результатами вычислений из предыдущего раздела.

### Обзор теоремы Менделя о наследовании признаков гороха

В этом примере мы оцениваем, насколько хорошо модель Менделя описывает наследование признаков у гороха. Сначала мы рассмотрим процесс принятия решения, а затем рассмотрим определение значения P в этом контексте.

**Исходная гипотеза**: модель Менделя хорошая: цветки растения имеют фиолетовую или белую окраску, аналогично выборке из генеральной совокупности фиолетовых и белых цветков, взятых случайным образом.

**Альтернативная гипотеза**: модель Менделя плохая.

**Статистический критерий**: 0,75 и доля растений с фиолетовыми цветками:

$\frac{\text{количество растений с фиолетовым цветом}}{\text{общее количество растений}}$.

Размер выборки большой (929), поэтому если модель Менделя хороша, то ожидаемая доля растений с фиолетовыми цветками должна быть близка к 0,75. Если модель Менделя плоха, то наблюдаемая доля растений с фиолетовыми цветками не должна быть близкой к 0,75, что приводит к увеличению статистического критерия.

Таким образом, в данном случае «направление альтернативной гипотезы» означает «больше».

Наблюдаемое значение статистического критерия (округлённое до пяти знаков после запятой) составляет 0,00888. Согласно определению, значение P  это вероятность получения статистического критерия, равного или превышающего наблюдаемое значение, при условии, что исходная гипотеза верна.

Хотя мы ещё не научились точно вычислять эту вероятность, мы можем приблизить её с помощью моделирования, что мы и сделали в предыдущем разделе. Ниже приведён весь соответствующий код для этой части.

```py
# Модель и данные
model_colors = make_array('Purple', 'Purple', 'Purple', 'White')
total_plants = 929
observed_statistic = 0.0088805166846070982
# Моделирование тестового критерия при нулевой гипотезе
repetitions = 5000
sampled_stats = make_array()
for i in np.arange(repetitions):
    new_sample = np.random.choice(model_colors, total_plants)
    proportion_purple = np.count_nonzero(new_sample == 'Purple')/total_plants
    sampled_stats = np.append(sampled_stats, abs(proportion_purple - 0.75))

# Значение P (приближение на основе моделирования)
empirical_P = np.count_nonzero(sampled_stats >= observed_statistic)/repetitions
# Отображение результатов
results = Table().with_column('Расстояние от 0.75', sampled_stats)
print('Эмпирическое значение P:', empirical_P)
results.hist()
plots.scatter(observed_statistic, 0, color='red', s=30);
Эмпирическое значение P: 0,5436

Значение P рассчитывается на основе модели Менделя и всех выборок, полученных путём повторения, и каждый раз вычисляется статистический критерий:

empirical_P = np.count_nonzero(sampled_stats >= observed_statistic) / repetitions

empirical_P равен 0,5436.

Это доля выборок, статистический критерий которых больше или равен наблюдаемому значению 0,00888.

Результаты вычислений показывают, что если исходная гипотеза Менделя верна, то получение выборки растений, статистический критерий которой больше или равен значению наблюдения Менделя, имеет вероятность примерно 54%. Это большая вероятность (и намного больше общепринятого порогового значения 5%). Таким образом, данные Менделя дают статистический критерий, который не является неожиданным на основе его модели, и эти данные поддерживают его модель, а не альтернативную гипотезу.

Обзор аргументации GSI

В этом примере третья группа состоит из 27 студентов из класса из 12 групп, и их средний балл за промежуточный экзамен ниже, чем у других групп. Мы пытаемся принять решение между следующими гипотезами:

Исходная гипотеза: средний балл третьей группы похож на средний балл случайно выбранной группы из 27 учеников из всего класса.

Альтернативная гипотеза: нет, он слишком низкий.

Статистический критерий: среднее значение баллов выборки.

Здесь альтернативная гипотеза говорит о том, что наблюдаемый средний балл слишком низок и не может быть получен из случайной выборки – что-то в третьей группе делает средний балл ниже.

Поэтому здесь «направление альтернативной гипотезы» указывает на «меньше».

Значение наблюдения статистического критерия составляет 13,6667 для третьей группы. Следовательно, согласно определению, значение P представляет собой вероятность того, что средний балл 27 случайно выбранных учеников будет меньше или равен 13,6667.

Это вероятность, которую мы приблизили путём моделирования. Это код из предыдущего раздела.

# Данные
scores = Table.read_table('scores_by_section.csv')
sec_3_mean = 13.6667
sec_3_size = 27
# Моделирование тестового критерия при нулевой гипотезе
repetitions = 10000
means = make_array()
for i in np.arange(repetitions):
    new_mean = scores.sample(sec_3_size, with_replacement=False).column('Midterm').mean()
    means = np.append(means, new_mean)

# Значение P (эмпирическое приближение на основе моделирования)
empirical_P = np.count_nonzero(means <= sec_3_mean)/repetitions
# Отображение результатов
print('Эмпирическое значение P:', empirical_P)
results = Table().with_column('Среднее значение случайной выборки', means)
results.hist()  
plots.scatter(sec_3_mean, 0, color='red', s=30);
Эмпирическое значение P: 0,0569

Эмпирическое значение P вычислено в следующей ячейке.

empirical_P = np.count_nonzero(means <= sec_3_mean) / repetitions

empirical_P равно 0,0569.

Это пропорция выборочных средних значений, меньших или равных среднему значению третьей группы 13,667.

Моделирование результатов показывает, что средний балл случайной выборки из 27 учащихся ниже среднего балла третьей группы с вероятностью около 6%. Если использовать традиционное пороговое значение 5% для определения «малого» значения P, то 6% уже не мало, и результат не является статистически значимым. Другими словами, у вас недостаточно доказательств, чтобы отвергнуть нулевую гипотезу о случайности.

Вы можете решить отклониться от соглашения и выбрать другое пороговое значение. Однако помните о следующих моментах:

  • Всегда предоставляйте значение наблюдения статистического критерия и значение P, чтобы читатель мог сам решить, является ли значение P малым.
  • Только когда традиционный результат не соответствует вашим предпочтениям, следует отклоняться от соглашения.
  • Даже если ваш вывод заключается в том, что средний балл третьей группы ниже, чем средний балл случайно выбранных студентов, это не даёт никакой информации о том, почему он ниже. Сейчас для эмпирического значения P, это вероятность (при исходной гипотезе), что полученное значение тестовой статистики равно наблюдаемому значению или более смещено в сторону альтернативной гипотезы. Чтобы понять, как его вычислить, важно вспомнить другую гипотезу:

Альтернативная гипотеза: снижение давления мячей команды Patriots не является исключительно результатом случайной вариации.

«Направление альтернативной гипотезы» — это значительное снижение давления мячей у команды Patriots, соответствующее нашей тестовой статистике, «среднее значение давления мячей у Patriots минус среднее значение у команды Broncos» большое. Поэтому значение P — это вероятность (в рамках исходной гипотезы), что значение тестовой статистики больше или равно 0,73352272727272805.

empirical_P = np.count_nonzero(simulated_statistics >= observed_statistic)/repetitions
empirical_P
0.0027

Это очень маленькое значение P. Для его наблюдения ниже представлено эмпирическое распределение значений тестовой статистики при исходной гипотезе, где наблюдаемое значение статистики отмечено на оси X.

print('Observed Statistic:', observed_statistic)
print('Empirical P:', empirical_P)
results = Table().with_column('Simulated Statistic', simulated_statistics)
results.hist()
plots.scatter(observed_statistic, 0, color='red', s=30);
Observed Statistic: 0.733522727273
Empirical P: 0.0027

Большинство значений сосредоточено около нуля. При исходной гипотезе снижение давления у команды Patriots — это случайная выборка из всех 15 снижений давления, то же самое верно и для команды Broncos. Таким образом, средние значения этих двух групп должны быть примерно равны, а их разница должна быть около нуля.

Однако наблюдаемое значение тестовой статистики находится далеко от центра распределения. Используя любое разумное пороговое значение для определения «малости», эмпирическое значение P остаётся маленьким. Поэтому мы окончательно отвергаем случайность снижения давления у команды Patriots и делаем вывод, что оно слишком велико и не может быть объяснено только случайными колебаниями.

Независимая исследовательская группа проанализировала данные различными способами и с учётом физических законов. В окончательном отчёте говорится:

«Среднее снижение давления мячей у команды Patriots превышает среднее снижение давления мячей у команды Broncos на 0,45 psi до 1,02 psi, в зависимости от различных предположений относительно используемого измерительного прибора, и предполагается, что начальное давление мячей у команды Patriots составляет 12,5 psi, а у команды Broncos — 13,0 psi».

  • Отчёт о расследовании по заказу NFL, 18 января 2015 года, AFC Championship Game

Наш анализ показывает, что среднее снижение давления составляет примерно 0,73 psi, близко к центру «0,45 до 1,02psi», что согласуется с официальным анализом.

Следует помнить, что наш тест гипотез не определяет, является ли различие причинно-следственным. Установление причинно-следственной связи обычно сложнее, чем проведение теста гипотез.

Но самая важная проблема в мире футбола — это причинно-следственная связь: вопрос в том, было ли чрезмерное давление мячей у команды Patriots преднамеренным. Если вам интересно узнать ответ исследовательской группы, вот полный отчёт.

Комментарий ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://gitlife.ru/oschina-mirror/wizardforcel-data8-textbook-zh.git
git@gitlife.ru:oschina-mirror/wizardforcel-data8-textbook-zh.git
oschina-mirror
wizardforcel-data8-textbook-zh
wizardforcel-data8-textbook-zh
master