各种分布和检验

正态分布

正态分布对应的检验方法是Z检验
主要有两种类型
- 单样本Z检验（One-sample Z-test）：用于比较样本均值与已知总体均值。
  - 例如，检验某组学生的平均成绩是否显著高于已知的全国平均成绩。
  - 公式如下：
  - 其中，x̄ 是样本均值，μ 是总体均值，σ 是总体标准差，n 是样本量。
- 两样本Z检验（Two-sample Z-test）：用于比较两个独立样本的均值是否有显著差异。
  - 例如，检验两个不同教学方法下的学生平均成绩是否有显著差异。
  - 公式如下，
  - 其中，x1 bar 和 x2 bar 是两个样本的均值**，σ1** 和 σ2 是两个样本的标准差，n1 和 n2 是样本量。

T检验

【【统计科普】五分钟轻松掌握三大 t 检验 - 独立样本t检验、配对样本t检验与单样本t检验】 https://www.bilibili.com/video/BV1eg411a7eh/?share_source=copy_web&vd_source=51cc2cdad73ec82b95881f9d39cacb48

先举个例子，a班平均成绩80，b班平均成绩82，这样直接比较平均值后就说b班成绩好于a班的说法是没有说服力的，因为存在偶然性。

，t检验相比于直接比较两组数据之间的平均数更有说服力，更具有说服力的理由如下：

现在提出假设：

H0：a班和b班的成绩是相等的

H1：a班和b班的成绩是不相等的

只要证明H0假设成立的可能性低于5%，则拒绝原假设，相较于直接比较平均数更具有说服力

计算出的t值如果大于t临界值，则拒绝原假设，证明a班和b班的成绩是不相等的，又因为a班平均成绩80，b班平均成绩82，因此b班成绩好于a班。

F检验和方差分析（ANOVA）

，之前的T检验只能检验两组数据之间均值是否存在显著差异。

先举个例子，现在想看医学，心理学，生物学的学生在推理能力上是否存在显著差异。

医学生平均分，81，心理学学生平均分83，生物学学生平均分87。

这样直接比较平均分，就说生物学学生推理能力更强是没有说服力的，因为存在偶然性。

方差分析相比于，直接比较三组数据之间的平均数更有说服力，更具有说服力的理由如下：

现在提出假设：

H0：医学，心理学，生物学的学生在推理能力是相等的

H1：至少存在一组的均数与其他组不想等。

只要证明H0假设成立的可能性低于5%，则拒绝原假设，相较于直接比较平均数更具有说服力 $$ F = \frac{\frac{1}{k - 1} \sum_{i=1}^{k} n_i (\bar{X}i - \bar{X})^2}{\frac{1}{N - k} \sum^{k} \sum_{j=1}^{n_i} (X_{ij} - \bar{X}_i)^2} $$

同样，计算出的F值如果大于F临界值，则拒绝原假设。

卡方检验

$$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$

主要有两种常见的卡方检验：

独立性检验 (Chi-square test of independence)：用于判断两个分类变量是否具有统计上的独立性，即是否存在关联关系。
- - 卡方检验用于衡量每个特征与目标变量之间的关联性。通过检验每个特征与目标变量是否存在显著关联，能够筛选出对目标变量有较强影响的特征。
  - 如果某个特征与目标变量之间的卡方统计量较大，说明该特征和目标变量之间的关联性较强，可以保留该特征。
  - 如果某个特征与目标变量之间的卡方统计量较小，说明它与目标变量的关联性较弱，可以考虑剔除该特征。
拟合优度检验 (Chi-square goodness-of-fit test)：用于判断观测值是否与期望值相符。比如，可以检验一组数据是否符合某种分布。
- 卡方值越大，说明观测数据和期望数据之间的差距越大，即拟合程度不好。这可能表明数据不符合期望的分布模型，或者模型不适合描述数据。
- 我们通常根据卡方值对应的p值来做判断。卡方值越大，p值越小。如果 p值小于设定的显著性水平（例如 0.05），就可以拒绝原假设，认为变量之间有显著的关联，或模型不适合数据。

各种分布和检验 ​

正态分布 ​

T检验 ​

F检验和方差分析（ANOVA） ​

卡方检验 ​

各种分布和检验

正态分布

T检验

F检验和方差分析（ANOVA）

卡方检验