1. 解释
- 指原假设$H_0$成立的条件下,出现的结果与样本相同或者更为极端的概率。
- 解释:p值越小,说明结果与样本相同的情况或更极端情况几乎不可能发生
一个事件如果发生的概率很小的话,那么它在一次试验中是几乎不可能发生的,但在多次重复试验中几乎是必然发生的。统计学上通常认为$P$≤ 0.01 或 0.05 的概率为小概率。而显著性水平α是公认的小概率事件发生的概率值,在每次假设检验之前都必须确定,通常取α= 0.01 或 0.05(与前面小概率事件对应)
即在原假设$H_0$成立的条件下,样本或更为极端的结果发生的概率(从总体中抽取样本数据或得到更为极端的数据的概率)。如果这个概率p小于等于小概率原理的阈值,则表示在原条件成立下,抽取到样本数据是几乎不可能发生的,但是我们却确确实实地抽取到了这样的数据,那么说明我们要拒绝原假设(即对原假设$H_0$不利),转而选择备择假设$H_1$。
2. 例子1
假设我们有一枚硬币,抛十次。
- 原假设$H_0$:抛硬币正面朝上的概率是0.5(硬币是公平且均匀的)
- 备择假设$H_1$:抛硬币正面朝上的概率不是0.5(硬币不公平且不均匀)
- 零假设:$H_0$,一般是保守的的假设,也是一般想要拒绝的假设(这里抛硬币的例子不是),通常设为是等于=、大于等于≥、小于等于≤。
- 备择假设:$H_1$,一般是激进的假设,通常设为不等于≠、大于>、小于<。
则在原假设$H_0$成立的条件下,显然是服从二项分布$$ X \sim B(10,0.5)$$
- 在这个条件下,我们计算一下极端情况出现的概率(如何定义极端是主观的),这里认为八次及以上正面朝上为极端情况,此时概率和p为 0.05 (单侧p值),而反面朝上的情况也是极端的,则此时p为 0.10(双侧p值)。
- 使用单侧p值或者双侧p值取决于应用。
$$P(8≤X≤10)=0.05,P(0≤X≤2)+P(8≤X≤10)=0.10$$
- 单侧检验:$H_0: u_A=u_B;H_1: u_A>u_B或u_A<u_B$
- 双侧检验:$H_0: u_A=u_B;H_1: u_A≠u_B$
- 单侧检验:强调差异的方向性,即关心研究对象是高于还是低于某一总体水平。
- 双侧检验:只关心两个总体参数之间是否有差异,而不关心大小。
- 通俗理解:双侧检验只能说明比较的两个对象存在差异性(≠),却无法比较大小,但是单侧检验可以。
而这里我们可以看到不论是单侧还是双侧的p值均大于等于 0.05 ,那么可以认为这些极端情况的出现不是小概率事件,是有可能发生的,是有可能由于噪声(随机干扰)而引起的。这一结论支持原假设$H_0$,那么可以认为我们所使用的数据与原假设$H_0$关联度很高(数据支持假设)。
- p值即表示数据与假设之间的匹配度,p值越小则越不匹配。
2. 例子2
以披萨配送时间为例子(此例子满足上文中假设的一般性选择)
- 原假设$H_0$:披萨平均配送时间小于等于 30 分钟
- 备择假设$H_1$:披萨平均配送时间大于 30 分钟
对披萨配送时间随机采样,目的是检验平均配送时间是否大于 30 分钟。如果最终的结果支持披萨店的说法(平均配送时间小于等于 30 分钟),那就接受零假设。否则,就拒绝零假设。
现在已经抽样得到了一些配送时间,计算后发现平均配送时间要长 10 分钟,p 值为 0.03。
这意味着在披萨配送时间小于等于 30 分钟(零假设成立)的世界中,由于随机噪声的影响,我们有 3% 的概率会看到披萨配送时间延长了至少 10 分钟。
然而,p≤0.05,那么披萨配送时间延长了至少10分钟这件事可以被视为小概率事件,在一次试验中几乎不可能发生,但是却的的确确发生了。说明该事件不太可能由噪声引起,则数据越不支持原假设$H_0$,对原假设$H_0$越不利,数据与假设之间的关联性越小,匹配度越差。
3. p值的常见误区
- p值只是数据与假设的关系(反映样本与原假设相悖程度),并不代表假设为真的概率
- p值不能表示效应(差异)的大小:在抛硬币的例子中,如果p值显著,只能说明硬币是不均匀的,均匀程度无法通过p值大小体现。不能说p值越小,硬币就越不均匀。更小的p值并不意味着更大的效应值或者更显著的结果。
effect size,是对于试验效果描述的统计量,通常表示不同的处理下总体均值差异的大小,效应量衡量实验真实效果大小或者变量关联强度的指标, 不受样本容量大小的影响,以解决P值无法刻画相关程度大小和差异大小的问题。
假设检验的基本思想是“小概率事件”原理,其统计推断方法是带有某种概率性质的反证法。小概率思想是指小概率事件在一次试验中基本上不会发生。反证法思想是先提出检验假设,再用适当的统计方法,利用小概率原理,确定假设是否成立。即为了检验一个假设$H_0$是否正确,首先假定该假设$H_0$正确,然后根据样本对假设$H_0$做出接受或拒绝的决策。如果样本观察值导致了“小概率事件”发生,就应拒绝假设$H_0$,否则应接受假设$H_0$。
假设检验中的P值是指在由无效假设所规定的总体做随机抽样,获得大于及等于(或等于及小于)现有统计量的概率,即各样本统计量的差异来自抽样误差的概率,它是判断H0成立与否的依据。
评论(0)