2025年10月6日中文

掌握 Python 中的统计假设检验。本指南涵盖数据科学的概念、方法和实际应用。

Python 数据科学：统计假设检验综合指南

统计假设检验是数据科学的一个关键方面，它使我们能够基于数据做出明智的决策。它提供了一个评估证据的框架，并确定关于一个总体的说法是否可能是真实的。本综合指南将使用 Python 探索统计假设检验的核心概念、方法和实际应用。

什么是统计假设检验？

其核心在于，假设检验是使用样本数据来评估关于总体的说法的过程。它涉及形成两个相互竞争的假设：零假设（H0） 和 备择假设（H1）。

零假设（H0）： 这是正在检验的说法。它通常代表现状或没有效果。例如，“男性和女性的平均身高相同。”
备择假设（H1）： 这是我们试图寻找证据来支持的说法。它与零假设相矛盾。例如，“男性和女性的平均身高不同。”

假设检验的目标是确定是否有足够的证据来拒绝零假设，转而支持备择假设。

假设检验中的关键概念

理解以下概念对于执行和解释假设检验至关重要：

P 值

p 值是在假设零假设为真的情况下，观察到与样本数据计算出的检验统计量一样极端或更极端的概率。小的 p 值（通常小于显著性水平 alpha）表明有强有力的证据反对零假设。

显著性水平（Alpha）

显著性水平（α）是一个预先确定的阈值，它定义了拒绝零假设所需的证据量。alpha 的常用值是 0.05（5%）和 0.01（1%）。如果 p 值小于 alpha，我们就拒绝零假设。

I 类和 II 类错误

在假设检验中，我们可能犯两类错误：

I 类错误（假阳性）： 在零假设实际上为真时拒绝零假设。犯 I 类错误的概率等于 alpha (α)。
II 类错误（假阴性）： 在零假设实际上为假时未能拒绝零假设。犯 II 类错误的概率用 beta (β) 表示。

检验的功效

检验的功效是在零假设为假时正确拒绝零假设的概率（1 - β）。高功效的检验更有可能检测到真实效果。

检验统计量

检验统计量是从样本数据计算出的一个数字，用于确定是否拒绝零假设。例如，t 统计量、z 统计量、F 统计量和卡方统计量。检验统计量的选择取决于数据的类型和正在检验的假设。

置信区间

置信区间提供了一个数值范围，在这个范围内，真实的总体参数很可能落在其中，具有一定的置信度（例如，95% 置信度）。置信区间与假设检验有关；如果零假设值落在置信区间之外，我们将拒绝零假设。

Python 中常见的假设检验

Python 的 scipy.stats 模块提供了广泛的函数来执行统计假设检验。以下是一些最常用的检验：

1. T 检验

T 检验用于比较一个或两个组的均值。有三种主要的 t 检验类型：

单样本 T 检验： 用于将单个样本的均值与已知的总体均值进行比较。
独立样本 T 检验（双样本 T 检验）： 用于比较两个独立组的均值。此检验假设两个组的方差相等（如果它们不相等，可以进行调整）。
配对样本 T 检验： 用于比较两个相关组的均值（例如，同一受试者在测量前后的指标）。

示例（单样本 T 检验）：

假设我们要检验一所特定学校（日本）的学生平均考试成绩是否与全国平均水平（75）有显著差异。我们收集了 30 名学生的考试成绩样本。

```python import numpy as np from scipy import stats # 样本数据（考试成绩） scores = np.array([82, 78, 85, 90, 72, 76, 88, 80, 79, 83, 86, 74, 77, 81, 84, 89, 73, 75, 87, 91, 71, 70, 92, 68, 93, 95, 67, 69, 94, 96]) # 总体均值 population_mean = 75 # 执行单样本 t 检验 t_statistic, p_value = stats.ttest_1samp(scores, population_mean) print("T-statistic:", t_statistic) print("P-value:", p_value) # 检查 p 值是否小于 alpha（例如 0.05） alpha = 0.05 if p_value < alpha: print("拒绝零假设") else: print("未能拒绝零假设") ```

示例（独立样本 T 检验）：

假设我们要比较两个不同国家（加拿大和澳大利亚）的软件工程师的平均收入。我们收集了这两个国家软件工程师的收入数据样本。

```python import numpy as np from scipy import stats # 加拿大软件工程师的收入数据（以千美元计） canada_income = np.array([80, 85, 90, 95, 100, 105, 110, 115, 120, 125]) # 澳大利亚软件工程师的收入数据（以千美元计） australia_income = np.array([75, 80, 85, 90, 95, 100, 105, 110, 115, 120]) # 执行独立样本 t 检验 t_statistic, p_value = stats.ttest_ind(canada_income, australia_income) print("T-statistic:", t_statistic) print("P-value:", p_value) # 检查 p 值是否小于 alpha（例如 0.05） alpha = 0.05 if p_value < alpha: print("拒绝零假设") else: print("未能拒绝零假设") ```

示例（配对样本 T 检验）：

假设德国一家公司实施了一项新的培训计划，并希望了解它是否能提高员工绩效。他们测量了一组员工在培训计划前后的绩效。

```python import numpy as np from scipy import stats # 培训前绩效数据 before_training = np.array([60, 65, 70, 75, 80, 85, 90, 95, 100, 105]) # 培训后绩效数据 after_training = np.array([70, 75, 80, 85, 90, 95, 100, 105, 110, 115]) # 执行配对样本 t 检验 t_statistic, p_value = stats.ttest_rel(after_training, before_training) print("T-statistic:", t_statistic) print("P-value:", p_value) # 检查 p 值是否小于 alpha（例如 0.05） alpha = 0.05 if p_value < alpha: print("拒绝零假设") else: print("未能拒绝零假设") ```

2. Z 检验

Z 检验用于比较一个或两个组的均值，当总体标准差已知或样本量足够大（通常 n > 30）时。与 t 检验类似，也有单样本和双样本 z 检验。

示例（单样本 Z 检验）：

越南一家生产灯泡的工厂声称其灯泡的平均寿命为 1000 小时，已知标准差为 50 小时。一个消费者团体测试了 40 个灯泡的样本。

```python import numpy as np from scipy import stats from statsmodels.stats.weightstats import ztest # 样本数据（灯泡寿命） lifespan = np.array([980, 1020, 990, 1010, 970, 1030, 1000, 960, 1040, 950, 1050, 940, 1060, 930, 1070, 920, 1080, 910, 1090, 900, 1100, 995, 1005, 985, 1015, 975, 1025, 1005, 955, 1045, 945, 1055, 935, 1065, 925, 1075, 915, 1085, 895, 1095]) # 总体均值和标准差 population_mean = 1000 population_std = 50 # 执行单样本 z 检验 z_statistic, p_value = ztest(lifespan, value=population_mean) print("Z-statistic:", z_statistic) print("P-value:", p_value) # 检查 p 值是否小于 alpha（例如 0.05） alpha = 0.05 if p_value < alpha: print("拒绝零假设") else: print("未能拒绝零假设") ```

3. 方差分析（ANOVA）

ANOVA 用于比较三个或更多组的均值。它检验组均值之间是否存在显著差异。ANOVA 有不同类型，包括单因素 ANOVA 和双因素 ANOVA。

示例（单因素 ANOVA）：

巴西一家营销公司希望检验三种不同的广告活动是否对销售产生显著影响。他们测量了每个活动产生的销售额。

```python import numpy as np from scipy import stats # 各广告活动的销售数据 campaign_A = np.array([100, 110, 120, 130, 140]) campaign_B = np.array([110, 120, 130, 140, 150]) campaign_C = np.array([120, 130, 140, 150, 160]) # 执行单因素 ANOVA f_statistic, p_value = stats.f_oneway(campaign_A, campaign_B, campaign_C) print("F-statistic:", f_statistic) print("P-value:", p_value) # 检查 p 值是否小于 alpha（例如 0.05） alpha = 0.05 if p_value < alpha: print("拒绝零假设") else: print("拒绝零假设") ```

4. 卡方检验

卡方检验用于分析分类数据。它检验两个分类变量之间是否存在显著关联。

示例（卡方检验）：

一项南非的调查询问了人们的政治倾向（民主党、共和党、独立党）以及他们对某项政策的看法（支持、反对、中立）。我们想看看政治倾向和对政策的看法之间是否存在关联。

```python import numpy as np from scipy.stats import chi2_contingency # 观察频率（列联表） observed = np.array([[50, 30, 20], [20, 40, 40], [30, 30, 40]]) # 执行卡方检验 chi2_statistic, p_value, dof, expected = chi2_contingency(observed) print("Chi-square statistic:", chi2_statistic) print("P-value:", p_value) print("Degrees of freedom:", dof) print("Expected frequencies:", expected) # 检查 p 值是否小于 alpha（例如 0.05） alpha = 0.05 if p_value < alpha: print("拒绝零假设") else: print("未能拒绝零假设") ```

实际考虑

1. 假设检验的假设

许多假设检验都有特定的假设，这些假设必须满足才能使结果有效。例如，t 检验和 ANOVA 通常假设数据是正态分布且方差相等。在解释检验结果之前，检查这些假设很重要。违反这些假设可能导致不准确的结论。

2. 样本量和功效分析

样本量在假设检验的功效中起着至关重要的作用。较大的样本量通常会增加检验的功效，使其更有可能检测到真实效果。功效分析可用于确定达到所需功效水平所需的最小样本量。

示例（功效分析）：

假设我们正在计划进行 t 检验，并希望确定所需的样本量，以便在 5% 的显著性水平下实现 80% 的功效。我们需要估计效应量（我们要检测的均值差异）和标准差。

```python from statsmodels.stats.power import TTestIndPower # 参数 effect_size = 0.5 # Cohen's d alpha = 0.05 power = 0.8 # 执行功效分析 analysis = TTestIndPower() sample_size = analysis.solve_power(effect_size=effect_size, power=power, alpha=alpha, ratio=1) print("每组所需的样本量:", sample_size) ```

3. 多重检验

在执行多次假设检验时，犯 I 类错误（假阳性）的概率会增加。为了解决这个问题，重要的是使用调整 p 值的方法，例如 Bonferroni 校正或 Benjamini-Hochberg 程序。

4. 结合背景解释结果

至关重要的是，在研究问题和正在分析的数据的背景下解释假设检验的结果。统计学上显著的结果并不一定意味着实际意义。考虑效应的大小及其现实世界的影响。

高级主题

1. 贝叶斯假设检验

贝叶斯假设检验提供了一种替代传统（频率学派）假设检验的方法。它涉及计算 Bayes 因子，它量化了支持一个假设相对于另一个假设的证据。

2. 非参数检验

当不满足参数检验（例如，正态性）的假设时，可以使用非参数检验。例如，Mann-Whitney U 检验、Wilcoxon 符号秩检验和 Kruskal-Wallis 检验。

3. 重采样方法（Bootstrap 和置换检验）

重采样方法，如 bootstrap 和置换检验，提供了一种在不对底层总体分布做出强烈假设的情况下估计检验统计量抽样分布的方法。

结论

统计假设检验是在科学、商业和工程等各个领域做出数据驱动型决策的有力工具。通过理解核心概念、方法和实际考虑因素，数据科学家可以有效地利用假设检验从数据中获得洞察并得出有意义的结论。Python 的 scipy.stats 模块提供了全面的函数集，用于执行各种假设检验。请记住，仔细考虑每个检验的假设、样本量以及多重检验的可能性，并在研究问题的背景下解释结果。本指南为您开始将这些强大的方法应用于现实世界问题奠定了坚实的基础。继续探索和试验不同的检验和技术，以加深您的理解并提高您的数据科学技能。

进一步学习：

统计学和数据科学在线课程（例如，Coursera、edX、DataCamp）
统计学教材
Python scipy.stats 模块的文档
关于特定假设检验技术的 istatistical 研究论文和文章