小提示:直接在B站视频地址".com"前面加仩jj回车即可到下载页面!
积分 13, 距离下一级还需 11 积分
道具: 涂鴉板, 彩虹炫, 雷达卡, 热点灯
购买后可立即获得 权限: 隐身
道具: 金钱卡, 变色卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
|
自20 世纪以来统计推断在科学研究中起到越来越重要的作用,科学研究的结论也越来 越依赖于统计推断的正确应用目前使用最为广泛的统计推断方法是零假设检验(Null hypothesis significance test, 及p 值嘚误解和盲目使用,因此可能反而会带来了 些消极的后果例如,p 值被用来支持不合理且无法重复的研究结果引起了关于 NHST 是 否适合于科學研究的争论。在这个背景之下有研究者推荐使用prtools5贝叶斯斯因子替代NHST。
prtools5贝叶斯斯因子(Bayes factor)是prtools5贝叶斯斯统计(Bayesian statistics)中用来进行模型比较和假设 检验的方法在假设检验中,其代表的是当前数据对零假设与备择假设支持的强度之间的比率 正如下一节将要详述的,prtools5贝叶斯斯因子能够量化哋反映当前数据对各个假设支持的程度因此可能更加适用于科研中的假设检验。但是由于prtools5贝叶斯斯因子的统计原理及实现相对复杂,其在各个学科的研究中并未获得广泛关注例如,虽然早在上世纪 60 年代已有研究者试图将prtools5贝叶斯斯 因子引入心理学研究却一直未能获得廣泛使用。
但是随着计算机运算能力的大大提升,prtools5贝叶斯斯统计在计算机等领域获得了巨大的成功 同时,研究者们开发出用于prtools5贝叶斯斯统计的工具如 WinBUGs 、JAGS 、Stan 等,这些软件的出现促进prtools5贝叶斯斯方法在各个研究领域中的使用。在这些prtools5贝叶斯斯统计相关的工具中也有用于計算prtools5贝叶斯斯因子的工具,如 R 语言中的 BayesFactor而在心理学及相关领域,不少研究者也试图引入prtools5贝叶斯斯统计的方法尤其是在最近大量心理学研究无法重复的背景之。但对于不少心理学及相关领域的研究者来说使用 R 语言或其他计算机语言进行prtools5贝叶斯 斯因子计算仍然有一些困难。为解决这一障碍研究者们进一步开发了与商业统计软件
本文旨在为向心理学及相关学科的研究者介绍prtools5贝叶斯斯因子及其使用。首先本攵将介绍prtools5贝叶斯斯因子的原理及其相对于传统假设检验中 p 值的优势;再以独立样本 t 检验为例,介绍了如 何使用 JASP 计算prtools5贝叶斯斯因子以及如哬解读和报告其结果。在此基础上讨论了prtools5贝叶斯斯因子 的不足及应用价值。
prtools5贝叶斯斯因子是prtools5贝叶斯斯统计在假设检验上的应用因此要悝解prtools5贝叶斯斯因子,首先需要理解prtools5贝叶斯斯统计的原理
1.1 prtools5贝叶斯斯统计的简介
statistics)是统计学中主要的两个学派,其最核心的差异在于他们对于概率(probability)有着不一样的定义对于频率学派而 言,概率是通过无数次重复抽样中频率(frequency)的预期值与之相反,prtools5贝叶斯斯学派则认为 概率是对一件事情的相信程度,从0 到1 表示人们基于事先所获得的信息在多大程度上相信 某件事情是真的。由于不同人对同一事件的相信程度可能不哃因此,prtools5贝叶斯斯学派的概率是具 有主观性但prtools5贝叶斯斯学派的概率却不是任意的:人们通过合理的方式,不断获取并更新已知信 息可鉯最终消除主观性,从而达成一致
由于频率学派将概率定义为长期行为表现的结果,因此要理解频率学派的概率通常需要 假想那些尚未发生的事件。例如在NHST 框架之下,p 值的意义是假定H0 为真的情况下出现当前结果及比当前结果更加极端结果的概率。换句话说p 值表达嘚是:如果以完全相同的条件无数次地重复当前实验,这些实验中有多少大比例会出现当前结果模式或者更极端结果 的模式因此,p 值的意義暗含一个假设:我们能够进行无数次相同的试验但是实际上,研 究者往往难以理解这种对未出现的无数次相同试验的假定而误认为 p 值昰一次检验中拒绝零 假设时犯错误的概率。这种对NHST 的误解恰好是带有prtools5贝叶斯斯统计色彩,即根据当前的数据计算某个模型正确或错误的概率
与频率学派统计不同,prtools5贝叶斯斯统计最大的特点之一在于:prtools5贝叶斯斯统计考虑了个体对不同可 能性的可信度(credibility)而改变其可信度的,正昰人们不断获得的数据这种思维方式 与人们在日常生活中的经验非常相似:当我们不断地获得支持某个观点的证据时,我们会更加相信该觀点
虽然prtools5贝叶斯斯统计对概率的理解与频率学派不同,但是其对概率的计算却严格依照概率的基 本原则:加法原则与乘法原则prtools5贝叶斯斯統计中最核心的prtools5贝叶斯斯法则(Bayes rule),也是根据简 单的加法原则与乘法原则推导而来依据概率的乘法原则,随机事件A与随机事件B 同时发生的概率为:
公式1 即为联合概率的公式即随机事件A 与随机事件B 同时发生的概率。其意义为:
随机事件 A 与随机事件 B 的联合概率(p(A∩B))为在 B 发生的条件下 A
對公式 1 进行变换,即可以得到如下公式:
公式2 即为prtools5贝叶斯斯定理公式其代表的意义是,如果我们要计算随机事件 B 发生的条件 下A 同时发生的概率(p(A∩B))除以B 发生的 概率(p(B))也就等于在 A 发生的条件下 B 发生的概率,与A 发生概率的乘积再除以 B 发 生的概率。公式2 将两个条件概率联系起来從而使得计算不同的条件概率成为可能。
在prtools5贝叶斯斯统计的框架之下公式 2 可以看作是一次信息的更新。假定我们需要根据一次实验收集箌的数据(data)来检验某个理论模型为真的可能性如果我们以心理学研究中常用的 零假设 H0 为例,则可以将公式2 改写如下:
正确的概率即后验概率(posterior);p (H0)表示 更新数据之前认为理论模型 H0 H0)则是在模型H0之下,出现当前数据的概率即边缘似然性(marginal likelihood)。由此可以看出在prtools5贝叶斯斯统 计之中,一次数據收集(实验)的主要功能在于帮助我们更新理论模型的可信度
根据公式3,我们可以使用数据对任意的模型为真的概率进行更新在假设检驗中,我们可以根据观测数据同时对零假设(理论模型H0)和备择假设(理论模型 H1)的可信度进行更新(分别见公式3 和公式4)得到它们更新的后验概率。
在公式6 中BF10 中下标的1,代表的是H10 代表的是H0,因此BF10 即代表的是 H1与H0对比的prtools5贝叶斯斯因子,而BF01即代表的是H0与H1对比的prtools5贝叶斯斯因子例如,BF10 =19表示的是在在备择假设H1为真条件下出现当前数据的可能性是虚无假设H0条件下出现当前 数据的可能性的19
从prtools5贝叶斯斯因子的公式中可以看出,prtools5贝叶斯斯因子不依赖于对先验假设(p(H1)和 p(H0))更重要的是,正是prtools5贝叶斯斯因子根据当前数据将先验概率更新为后验概率
因此,NHST 与prtools5贝叶斯斯因孓回答了不同的问题NHST 试图回答“假定我们已知两个变量的关系(如,两种条件没有差异)出现当前观测数据的模式或者更加极端模式的概率(p(more extreme > observed data|H0))有多大”的问题;而prtools5贝叶斯斯因子试图回答的是,在当前数据更可 能在哪个理论模型下出现考虑到研究者往往想知道当前数据模式条件丅,H0 或者 H1 为真的 概率(分别为 p(H1|data))在假设检验中,prtools5贝叶斯斯因子具有一些 NHST 不具备的 优势下一小节将对这些优势进行详细说明。
对prtools5贝叶斯斯因孓的大小所代表的意义进行原则上的划分(见表2)但是这个划分仅是大致参考,不能严格对应研究者需要根据具体的研究来判断prtools5贝叶斯斯洇子的意义。
1.2 备择假设的默认先验
由于prtools5贝叶斯斯因子中先验概率具有至关重要的作用因此如何选择备择假设的先验分布变成 了一个非常偅要的问题。其中一个较为合理的做法是根据采用该范式的先前研究(如元分析得到的效应量)来假设备择假设的先验分布。但这种做法在佷多情况下并不现实:首先根据范式的不同效应量的可能分布不同;更重要地,由于许多研究本身具有一定的探索性并没有先前研究结果莋为指导。因此更加常用的做法是使用一个综合的、标准化的先验。
例如在prtools5贝叶斯斯 t 检验中,零假设的先验比较好确定但是对于备擇假设的先验分布应该 如何选择,则比较困难有研究者指出,使用柯西分布(Cauchy distribution)可能是比较合理 的选择与标准正态分布相比,柯西分布在 0 附近概率密度相对更小一些因此其比 标准的正态允许更多较大的效应(见图 1);而与均匀分布(即效应量在所有值上的分布完全相 同)相比,柯西汾布更偏好零假设一些因此,对于备择假设的先验分布可以如下表示:
Jeffreys (1961)最早提出在prtools5贝叶斯斯因子中使用柯西分布作为先验来比较两样本嘚问题。最近研究者的进一步验证表明柯西分布可以作为先验用于计算心理学常规假设检验中的prtools5贝叶斯斯因 子,如 t 检验、ANOVA和相关分析等这些验证性的工作,为prtools5贝叶斯斯因子在心理学 及相关学科研究中的应用打下了基础
如前所述,在假设检验中prtools5贝叶斯斯因子除了更加苻合人们的直觉之外,还具有一些 NHST具备的优势这些优势可以总结为五个方面(见表 1)。以下将从这五个方面展开
如前所述,prtools5贝叶斯斯因子嘚计算同时考虑 H0 和 H1并根据全部现有数据对 H0 和 H1 为真的 先验概率进行更新,在此基础之上比较在当前数据下哪个理论模型(H0 和 H1)更合理。这种思路与 NHST 不同:在 NHST 框架之下计算 p 值需要假定 H0 为真,而对 H1 不做任何假设因此p值与H1无关;NHST的逻辑是,如果H0为真观察到当前数据出现的概率非常尛,则拒绝 H0接受 H1;这种情况下,NHST 忽略了一种可能性:当前数据下H1 为真的概率与H0 为真的概率相当或者更小。例如在 Bem (2011)中,H0 是被试的反应不受箌未来出现 刺激的影响H1 是未来出现的刺激会影响到被试当前反应,即被试能够“预知”尚未出现的刺 激虽然采用NHST 的逻辑 Bem (2011)得到了 p < 0.05 的结果,即 H0 为真时得到当前数据 的概率(p(data|H0))很低,因此作者选择拒绝 H0 而接受 H1认为被试能够预知未来出现的刺 激。然而研究者更关心的是,根据當前数据某个模型/假设(如 H0 为真时得到当前数据的概率(p(data| H0))。考虑到先验知识告诉我们 H1 本身为 真的概率可能非常低在当前数据模式下,H1 为真嘚可能性
此外p 值等于在 H0 为真的情况下,多次重复实验观察到与当前数据一样极端或者更加极端结果的概率即 p 值是假定 H0 为真时概率分布嘚尾端面积的积分值。因此对 p 值的理 解需要假定存在着比当前数据更加极端的数据模式,而人们在直觉上并不太擅长做出这种假定 常瑺会带来对 p
因此,由于prtools5贝叶斯斯因子分别量化了当前数据对 H0 和 H1 的支持强度对 H0 和 H1 同等对待, 而不是像 NHST 一样完全不考虑 H1另外,prtools5贝叶斯斯因孓不需要假定未出现的数据也更加符合人们的直觉
同样,由于同时量化了当前数据对 H0 和 H1 各自的支持强度prtools5贝叶斯斯因子可以用来支持 H0。茬prtools5贝叶斯斯的框架下只要 H0 和 H1 假设是具体的,prtools5贝叶斯斯因子就可以根据当前数据对他们 的后验概率进行一次更新从而得到当前数据更支歭哪个假设的结果。如果 H0 比 H1 更加符合数据的模式则prtools5贝叶斯斯因子能够表明当前数据支持 H1。但是在传统的 NHST 框架之下,由于假设检验仅在 H0 為真的假设下进行仅凭借大于显著性性水平(比如 0.05 或 0.005)的 p值是无法为 H0 是否为真提供证据。比如仅依据假设检验的结果 p = 0.20 并不能断言有证据 表奣没有效应(evidence of absence)(除非结合样本量、效应量和统计效力 Power
在实际的研究中,能够对 H0 提供量化的证据具有非常重要的意义它可以直观地让 研究者区汾出有证据表明没有效应(evidence of absence)和没有证据表明有效应(absence of evidence)这两种情况。更具体来说prtools5贝叶斯斯因子的结果有三种状态:(1)提供了支持 H1 的 证据(即有证据表奣有效应);(2)支持 H0 的证据(即有证据表明没有效应);或(3)证据对 两者都不支持(没有足够的证据表明有效应还是无效应)。例如零假设与备择假设相比嘚贝 叶斯因子BF01 =15,则说明的是在这种情况下观察到的数据出现在H0为真情况下的可能 性是在 H1 为真情况下的可能性的 15 倍,表明当前数据更加支歭没有效应的假设 H0但是, 假如 BF01 = 1.5则说明观察到的数据出现在 H0 为真情况下的可能性是在 H1 为真情况下的 可能性的 1.5 倍,则说明当前数据对于两個假设的支持程度相当没有足够的证据支持 H0 或 者 H1(见表 2 关于prtools5贝叶斯斯因子大小意义的建议)。
值得注意的是不管是支持 H1,还是支持 H0prtools5贝叶斯斯因子提供的证据是相对的,即相 对于某个假设更支持另一个假设,但可能存在第三个模型 H2 比 H1 和 H0 均更接近真实情况 具有更高的后验概率。此外最近有研究者在 NHST 框架之下发展出可以接受零假设的方法: 等同性检验(Equivalence Test)。这种方法通过设定多个 H0 来检验效应量是否与 0 没有差异
從而检验是否能接受 H0。但等同性检验仍然使用了非常主观的 p 值无法提供对证据的测量。
2.3 不“严重”地倾向于反对 H0
prtools5贝叶斯斯因子同时分别量化了当前数据对 H0 和 H1 支持的强度因此,与传统 NHST 相比其在比较数据对 H0 和 H1 的支持强度时更加均衡,从而其拒绝 H0 的倾向也相对没有那么强烈
事实上,在传统 NHST 假设之下研究者总能拒绝 H0。例如有研究者分析了美国总结选 举中候选人的身高与当选之间的关系,对相关系数进行顯著性检验之后发现 r = 0.39p = .007,但使用prtools5贝叶斯斯因子分析表明 BF10 = 6.33虽然两种方法大致上支持了同样的结论(即 拒绝 H0 与中等程度的证据支持 H1)。但是从 p 值仩看似乎表明拒绝 H0 的证据很强,而prtools5贝叶斯 斯因子得到的支持则是有保留的Wetzels, et al. 比较了 855 个 t 检验的结果,发现虽然大部 分的情况下 p 值与prtools5贝叶斯斯因子在结论上是一致的但是prtools5贝叶斯斯因子相对来说更加谨慎:p 值在0.01 与 0.05 之间的统计显著结果,其对应的prtools5贝叶斯斯因子只表明有非常弱的证據对传统 p 值的prtools5贝叶斯斯解读,详见
2.4 可以监控证据的强度变化
计算prtools5贝叶斯斯因子时,可以根据数据更新对 H0 和 H1 支持的程度因此,随着新數据的出现 可以不断对不同假设的支持程度进行更新。在prtools5贝叶斯斯框架之下prtools5贝叶斯斯因子的计算与解读均不 需要假定存在无数的重复實验,而是按照似然性法则对prtools5贝叶斯斯因子进行更新此外数据的出现 顺序不会影响prtools5贝叶斯斯因子的解读。
正是由于在prtools5贝叶斯斯统计的框架之下没有假阳性的概念,因此对prtools5贝叶斯斯因子的解读不会 受到何时停止收集数据的影响。实际上如果研究者们能够采用序列prtools5贝叶斯斯因子设计,在实 验开始前提前设置prtools5贝叶斯斯因子的合理阈值(通常是 10即较强的证据),则能够在实验中根据 数据增加对后验概率进行更噺可以在适当的时候停止收集数据。这种不受到停止规则影 响的原则对实际研究具有重要的意义,使得研究者能合理有效地收集数据
2.5 不受抽样计划的影响
由于prtools5贝叶斯斯因子的计算使用似然性原则,其对数据的分析没有预先的假设因此也不受 到抽样计划的影响。换句話说即使研究者对数据收集的过程不清楚,仍能够计算和解读prtools5贝叶斯 斯因子这个特点对于分析自然情境中获得的数据非常实用。
仍然鉯上述的美国总结选举中候选人的身高与当选之间关系的研究为例研究者发现 r = 0.39,p = .007在 NHST 框架之下,要对 p 值进行合理的解读我们必须假定 p 徝是实验 者在总统选举之前已经计划好进行 46 次选举,并且在第 46 次选举后停止收集数据在此基础 之上计算相关系数;否则,p = 0.007 代表的意义很难解读但很明显的是,这些假设是不成立 的因此,对于这个例子来说使用 NHST 的前提条件是不满足的。
同样这个例子也存在与停止规则楿关的问题:在真实的生活中,美国的总统选举还会继 续数据会继续增加。如何分析未来的这些数据呢?如果每新增加一个数据均进行一次 NHST汾析则会引起多重比较的问题,使得假阳性增加
与 NHST 相反,prtools5贝叶斯斯因子能够随着新数据不断地出现而不断地更新从而能够分析实验 室之外的真实数据,也能够对数据进行有意义的解读因此,在这个例子数据随着时间慢慢积累,prtools5贝叶斯斯因子实时监控证据的优势与鈈受抽样计划影响的优势也相互关联起来:这两个优 势均是因为prtools5贝叶斯斯因子不依赖于研究者收集数据的意图但是,正如我们在后面要提箌的虽然随着数据更新而更新prtools5贝叶斯斯因子不会影响到对其解读,但这种忽略假阳性的做法并不能避免 假阳性的升高研究者仍需要通過提前设置合理的阈值和(或)选择合适的先验来控制假阳性。
总之prtools5贝叶斯斯因子以观察到的数据为条件,定量地分析当前数据对 H0 和 H1 提供的支持程度通过实时地监控证据强度的变化,prtools5贝叶斯斯因子让研究者可以在收集数据的同时监控证据强 度的变化如果预先确定prtools5贝叶斯斯洇子的停止阈值(比如 BF10 大于 10 或者 BF10 小于 1/10 时停 止收集数据),研究者能够在证据足够充足停止收集数据此外,即使缺乏数据收集计划信息 的情况丅prtools5贝叶斯斯因子仍然能够从观测数据中得到证据来更加支持哪个假设。更重要的是贝 叶斯因子本质上是对不同的模型的进行比较,因此其不需要假定某个模型为真
3 使用 JASP 计算prtools5贝叶斯斯因子
由于prtools5贝叶斯斯因子的独特优势,因此很早就有研究者将其引入心理学的研究之中茬实际情况中,prtools5贝叶斯斯因子计算的具体公式会随着数据类型和分析的类型而变得更加复杂相关公式可以参考。正是由于这个原因prtools5贝葉斯斯因子在心理学的研究中一直受到很大的限制。 但是最近研究者利用 R 语言丰富的软件包,开发了可视化的统计工具 JASP (https://jasp- stats.org/)该软件采用与SPSS 類似的用户界面,让prtools5贝叶斯斯因子的计算变得更加容易实现本 小节将介绍 JASP 软件及其使用。
JASP 是一个免费、开源的统计软件其使用 R 语言的笁具包进行数据处理,但其使用不 需要安装 RJASP 的长期目标是让所有人能够通过免费的统计软件进行最先进统计技术,尤 其是prtools5贝叶斯斯统计Φ的prtools5贝叶斯斯因子
JASP 是在心理学研究面临可重复危机的背景下开发的,其开发理念如下:第一开源与免费,因为透明应该是科学研究的本質元素;第二包容性,即包括prtools5贝叶斯斯分析也包括NHST分析方法,而且NHST 分析方法中增加了对效应量及其置信区间的输出;第三,简洁性即JASP 嘚基本软件中仅包括最常用的分析,而更高级的统计方法又可以通过插件模块进行补充;第四友好的图形界面,例如输出部分随着用户選择变量输入而实时更新,表格使用心理学学术论文的标准格式APA 格式同时,JASP 的使用递进式输出即默认的结果输出是最 简洁的,更多的結果输出可以由研究者自己进行定义此外,为方便公开和分享分析过程JASP将输入的数据与输出结果保存于同一个后缀为.jasp 的文件之中,每個分析的结果均与相应的 分析和变量数据相关联这种结果与数据整合的文件可以与开放科学平台 OSF 兼容,从而做到数据与结果分享
3.2 prtools5贝叶斯斯因子分析在JASP 的实现及其结
JASP 中可以实现多种实验设计的prtools5贝叶斯斯因子分析,包括单样本 t 检验、独立样本 t 检验、 配对样本 t 检验、方差分析、重复测量的方差分析、ANCOVA 和相关分析对于每一种分析, 均提供了频率学派的方法和prtools5贝叶斯斯的方法JASP 的prtools5贝叶斯斯因子分析中采用前述的默认先验分 布,但也可以修改接下来本文将 Wagenmakers et
房用的钟,而另一组则以逆时针方向拨动随后,被试填写一个评估经验开放性的问卷他們的数据表明,被试顺时针转时比逆时针转的被试报告更高的对经验的开放性 重复在实验开始前确定停止收集数据的标准:当支持某一个假设的prtools5贝叶斯斯因子达到 10 时即 停止收集数据,或者每条件下达到 50 个样本后停止收集数据此外,预注册时采用单侧 t 检 验的默认先验即 r = 1 的柯西分布。而单侧的 t 检验的先验是只有正效应的柯西分布即备择假设为 H+ : Cauchy (0, 1)。
有研究者认为默认先验分布 Cauchy (0, 1)是不现实的,因为在这个分布中大的效应量占 的比例太大(大于 1 的效应量在分布中占了 50%以上);相反,另一些人觉得这个分布不现实 是因为这个分布中靠近 0 的效应量的比重呔大,即效应量为 0 是最可能的值一个避免这些 问题的做法是减小柯西分布的参数 r。在 BayesFactor
JASP 中对于单侧的 t 检验同样采用这个先验r 减小意味着H1 囷H0 相似,他们对观测数 据的预测相似更难得到支持H0 的强证据。
使用 JASP 可以对这批数据进行prtools5贝叶斯斯的独立样本 t 检验首先用JASP 打开数据(File 右边嘚所示:与顺时针相比,逆时针对经验的开放性稍微高一些这个结果的方向与Topolinski and Sparenberg (2012)所假设的正好相反。
posterior”及其子选项的“Additional info”这两个选项结果洳图 2 右侧所示。从实线的分布可以看出大 部分的后验概率是负值,其的中值是-0.1395%的可信区间从-0.5到0.23。BF01 =3.71表明 观察到的数据在 H0 假设之下的可能性是在 H1 假设之下可能性的 3.71 倍(我们选择了
通过这个初步的展示,我们可以了解到如何进行prtools5贝叶斯斯独立样本 t 检验的操作接下来展 示如何按照提前注册过的方法,对这批数据进行prtools5贝叶斯斯单侧独立样本 t 检验(除使用 r = 0.707而非 1 外)由于描述性统计输出表明顺时针是组 1 而逆时针是组 2,峩们将在”Hypothesis”的
单侧检验的结果如图 3 右边部分所示与预期的一致,如果观察到的效应是与假设相反 则这种使用单侧检验将先验知识整匼到分析之中的做法,增加支持 H0 的相对证据(也见 Matzke et al. 下的可 能是在 H+可能性的 7.74 倍
值得注意的是,在 H+下的后验分布是集中在 0 但不是没有负值(见图 3 祐侧)与 H+中的顺序限制是一致的。这一点与传统频率主义的单侧置信区间不同传统方法的单尾置信区间为[-.23 +∞) 。虽然传统频率主义的区间茬数学上是良好定义的(即它包括了全部的不会被单尾的 a = 0.05 显著性检验拒绝的值),但是大部分研究者会发现这个区间即不好理解也没有信息量
对prtools5贝叶斯斯因子的影响。如图 4 所示选中“Bayes factor robustness check”的选项,这将得到图 4 右侧上面的图从该图可以看到,当 Cauchy =10.75因此,在一系列r的先验值中 当前数据显示了对 H0 的中等到强的证据支持。
右侧下半部分的图序列分析显示的是prtools5贝叶斯斯因子随着着抽样而变 化的结果,也就是说研究都可以在新数据收集到时对证据的积累进行监控和可视化。从图中 可以看到实际上 Wagenmakers et al. (2015)并未按预注册时的 r = 1 时立刻停止收集数据: 在 55 个被试の后,虚线超过了 BF0+ > 10但是数据 仍然继续收集。在实践中每隔几天检验一次prtools5贝叶斯斯因子,有助于了解prtools5贝叶斯斯因子是否在某个时间点上超过预先决定的标准并据此决定是否停止数据。
序列分析的一个优点是它可视化了prtools5贝叶斯斯因子在不同先验条件下的收敛过程即prtools5贝叶斯斯因子在 log 尺度上差异开始稳定不变 (e.g.)。在当前的例子中当被试数量达到 35 时, 不同先验下的prtools5贝叶斯斯因子开始出现收敛要理解为什么在prtools5貝叶斯斯因子的 log 值的差异会在一些 初步的观测数据之后不再变化,我们可以假定数据 y 包括两个部分 y1 和 (y2|y1)这个公式表明,prtools5贝叶斯斯因子并非昰对不同数据进行盲目 地相乘实际上公式中的第二个因子——BF0+(y2|y1) —— 反映的是:当先验分布已经根据数 据 y1 如何变化,通过 y1 更新后均得到大致楿同的结果分布(在大部分情况下这种 情况很快就会出现)。而通过 y1 得到的这个后验分布又变成了数据 y2 的先验分布,即成为log(BF0+(y2|y1))的先验在这種情况下,log(BF0+(y2|y1))的值大致相似(相似的先验分布相 同的数据)。因此不一样的 r 值会让数据 y1 产生不同的后验分布,但当数据 y1 是足够的大 后使得 y1 嘚后验分布大致相似,此时 y2 再次对模型进行更新的大小也是相似这就使得log(BF0+(y2|y1))在不同的 r 下相似,产生收敛的现象
3.3 使用prtools5贝叶斯斯因子时如何報告
prtools5贝叶斯斯统计在目前的心理学研究中并不常见。虽然大部分杂志的编辑和审稿人会欣赏采用 更加合理的统计手段但是出于对prtools5贝叶斯斯方法的陌生,研究者需使用prtools5贝叶斯斯因子时需要提供 相关的背景信息让编辑和审稿人了解这种背景。因此除了报告prtools5贝叶斯斯因子的結果之外,还需要首先报告如下几点第一、选用prtools5贝叶斯斯因子的动机与原因,即为什么在某个报告中使用贝 叶斯因子而不是 NHST例如,可鉯说明prtools5贝叶斯斯因子提供了更加丰富的信息或者数据特点不满足 NHST 的前提假设(如在自然情境下收集的数据,无法判断数据收集的动机和实驗假设) 第二、描述prtools5贝叶斯斯因子在模型比较中的基本逻辑。即假定读者并不非常了解prtools5贝叶斯斯因子,简 单地解释prtools5贝叶斯斯因子中模型仳较的思想第三、描述prtools5贝叶斯斯因子分析中的先验分布以及采用该 先验的原因,先验分布应该或多或少对数据分析提供一些信息第四、解释prtools5贝叶斯斯因子,将贝 叶斯因子与研究中的理论或假设结合起来
prtools5贝叶斯斯因子不使用统计显著,而是描述数据对假设的支持程度唎如,在 Wagenmakers, et al. 中对Jeffreys 默认先验下的prtools5贝叶斯斯结果进行如下描述:
“prtools5贝叶斯斯因子为 BF01 = 10.76,说明在(假定没有效应的)零假设下出现当前数据的可能性 是在(假定存在效应的)备择假设下可能性的 10.76 倍根据 Jeffreys (1961)提出的分类标准, 这是较强的证据支持了零假设即在顺时针和立逆时针转钟表指针的人在經验开放性(NEO) 得分上没有差异。”
此外使用prtools5贝叶斯斯因子进行分析时,还可以报告探索性的结果如稳健性分布和序列分析的结果,这些結果将进一步丰富结果的信息给其他研究者提供更加全面的结果。
近年来科学研究的可重复问题备受关注,尤其是心理学对 NHST 的过度依 赖正是原因之一。prtools5贝叶斯斯因子作为一种假设检验方法具有 NHST 不具备的一些优势,其能够对当前心理学研究中对 NHST 框架下的 p 值的过度依赖起到补充的作用但是值得注意的是,心理学研究重复失败的原因多种多样仅使用prtools5贝叶斯斯因子不能让心理学的研究变得可重 复。例如數据不开放以及研究过程不透明、对探索性分析与验证性分析不加区分、以发表论文为核心的奖励体系等都可能是造成当前研究可重复率低的原因即便如此,作为一种不同于传统 NHST 的方法prtools5贝叶斯斯因子有助于研究者使用多种的方法对同一研究进行分析,从而得到更加稳定嘚统计的推断得到更加客观的结论。需要指出的是采用多种方法进行分析时,需要报告全部的分析过程和结果而非选择最有利于自巳结论的分析结果进行报告。
4.1 prtools5贝叶斯斯因子的不足
prtools5贝叶斯斯因子是prtools5贝叶斯斯统计在假设检验方面的应用而prtools5贝叶斯斯学派与频率学派统计嘚争议一直存在。实际上有研究者认为prtools5贝叶斯斯因子也可能存在许多问题,充分了解这些反对的观点将更加有利于我们在研究中合理哋使用prtools5贝叶斯斯因子。
对prtools5贝叶斯斯因子最强烈的质疑来自于对其先验概率的设定可能会认为先验概率过于主观、 过于保守从而不容易出現较强的证据等。也有研究者认为默认的先验对小的效应不利。例如Bem, et al. 认为,Wagenmakers, et al. 对 Bem的数据进行重新分析时采用了不合 适的先验概率是 Wagenmakers, et al. 未能得到与 Bem一致结论的原因。这种批评实质上是对prtools5贝叶斯斯因子的误用即未将先验知识转化成为合适的先验概率。有趣的是只要研究者將自己使用的先验概率保持透明与公开,其他研究者可以采用交叉验证从而起到充分探索的作用。
其次也有研究者认为,prtools5贝叶斯斯因孓没有考虑假阳性的问题在 NHST 框架之下,研究者 非常强调控制一类错误与二类错误的问题例如心理学研究中一般将一类错误控制在 5%以内, 因此显著性水平设置为 0.05也正是需要控制一类错误,NHST 框架之下有许多方法用来调整 阈值使其一类错误率不至于太高例如直接提高显著性水平阈限到 0.005和多重比较校正 的方法。而prtools5贝叶斯斯统计主要是为了不断地对证据的强度进行测量其不考虑控制假阳性(即一 类错误)的问题。因此当研究者基于prtools5贝叶斯斯因子进行决策(效应是否存在)时,就可能犯下 一类错误因此,在实际的prtools5贝叶斯斯因子分析中可以通过先驗来解决多重比较的问题。 例如直接说明研究者预期假阳性率有多大。
还有研究者指出基于估计的统计总是要比假设检验更优,因为估计本身将不确定性考虑进来例如,Cumming (2014) 建议使用效应量及其置信区间以替代 p 值但是考虑到参数 估计与假设检验在科研中均有其相应最适鼡的问题,因此prtools5贝叶斯斯因子无法直接与基于估计的频 率主义学派统计进行比较但是,prtools5贝叶斯斯统计中也有基于估计的方法。
最后prtools5貝叶斯斯因子进行假设检验,本质上是证据的不断累积而非得到二分的结论。因此一次实验的结果可以被看作是试探性的,研究者可鉯继续收集数据或者进行重复实验
4.2 prtools5贝叶斯斯因子的应用前景
prtools5贝叶斯斯因子作为基于prtools5贝叶斯斯统计的假设检验方法,与 NHST 相比具有一些优势其使得研究者可以直接检验数据是否支持零假设,不再受抽样意图和停止收集数据标准的影响从而更加灵活地进行数据分析。这些优勢可能帮助心理学家更好地在研究过程中进行决策同时,prtools5贝叶斯斯因子的采用也可以促进研究者去更加深入地理解prtools5贝叶斯斯方向的适用范围以及前提条件等
JASP 的推出,使用prtools5贝叶斯斯因子的计算和解读变得更加简便研究者即便没有很强的编程 基础,也能够使用 JASP 迅速地进行prtools5貝叶斯斯因子分析这可能有助于推动研究者研究中更加广 泛地使用prtools5贝叶斯斯因子。此外JASP 本身正在快速发展,其功能的深度和广度正在鈈断地扩大 新的方法和标准将不断地整合到软件之中,可能使研究者更科学地进行研究