第三节 临床研究常用的统计方法
一、计量资料常用的检验方法
(一)两小样本(n<30)均数的比较
两小样本均数比较的t检验要求两样本服从正态分布(normal distribution),方差齐性(homoscedasticity)。见表11-1。
表11-1 甲乙两组病人年龄状况
分组
例数(n) S
甲组2944.717.1
乙组2745.716.1
先对甲、乙两组病人的年龄进行方差齐性检验(homoscedasticity test),
F= 17.12÷16.12 =1.13 , F<F0.05(27,26)=2.16(本例查F0.05(30,26)),P>0.05
表示甲、乙两组方差齐性,可采用两组比较的t检验,本例t=0.22,P>0.05,差异无显著性,可以认为甲、乙两组病人年龄差异无统计学意义。若两组方差不齐时,可采用变量变换,若变换后可能解决方差不齐的问题可进行t检验;否则可采用t检验,也可用秩和检验(rank sum test)。见表11-2。
表11-2 甲、乙两组治疗前症侯指标计分值
分组
例数(n)S
甲组2936.59.7
乙组2734.15.1
两组症候指标计分值经方差齐性检验F=3.62,P<0.05,两组方差不齐,改用t检验(或秩和检验),经t检验,t=1.17,t0.05=2.05,P>0.05,可以认为两组症侯计分值差异无显著性意义。
(二)两大样本(n>30)均数比较
当样本含量较大时,t分布趋向于正态分布,此时可采用两组比较的u检验。见表11-3。
表11-3 甲、乙两组红细胞均数比较
分组
nS
甲组1504.65×1012/L0.548×1012/L
乙组1004.18×1012/L0.601×1012/L
经u检验,u=6.27,P<0.01,差异有显著性,可以认为甲、乙两组红细胞均数差异有统计学意义。
(三)配对资料的t检验
在临床试验中,经常用到配对t检验(paired t test),常见的配对设计有:同一批受试对象试验前后的配对数据;同一批受试者身体的两个部位如左、右臂皮肤上做敏感试验测得的一对数据;同一批受试对象用两种方法(两种仪器、两种条件)检测的结果;病例-对照研究,如将同性别、同年龄、同病型、同病程的病人配成对子(临床试验很难办到),分别用两种疗法治疗,观察其疗效。当该疾病不属自愈性疾病,对同一受试对象治疗前后的数据分析,经用配对t检验处理,所推导的结论仍具有一定价值。见表11-4。
表11-4 三棱莪术液抑瘤试验的效果
小白鼠 注射药液组 对照组
对子号差值
d d2
1 3.0 3.6 0.6 0.36
2 2.3 4.5 2.2 4.84
3 2.4 4.2 1.8 3.24
4 1.1 4.4 3.3 10.89
5 4.0 3.7 -0.3 0.09
6 3.7 5.6 1.9 3.61
7 2.7 7.0 4.3 18.49
8 1.9 4.1 2.2 4.84
9 2.6 5.0 2.4 5.76
10 1.3 4.5 3.2 10.24
合计 21.6 62.36
* 资料来源于:中医科研设计与统计方法.湖南科学技术出版社.1989年
经配对t检验,t=5.17,P<0.01,差异有显著性,可以认为注射三棱莪术液有一定的抑瘤作用。
在作自身对照(自身前后配对)的t检验时,下结论一定要慎重,因为同一个体在经历一段时间后,即使不作任何处理(治疗),或处理(治疗)毫无作用,所得指标也可能有变化,甚至有上升或下降的倾向性,为了鉴别这种情况,临床试验中设立了一个平行对照组,这样试验组和对照组在试验完成后就有4组数据,即试验组观察前后和对照组观察前后的数据,为了比较客观的评价试验组与对照组的疗效,可分别求出两组的变化值(差值)或变化率(疗前值-疗后值)/疗前值=变化率)、平均变化值或平均变化率及标准差,再进行两组间的t检验,也可用两组前后差值(变化值)的均数进行t检验,如果用两组治疗后的均数进行t检验,下结论时一定要慎重,因为这种处理没有利用治疗前和前后变化的信息。用前后差值的平均变化率比较,比用前后变化值(差值)的均数比较更能提高检验效能(见表11-5),但必须注意进行变化率的组间比较,随着检验效能的提高,假阳性的可能性也会增大。
表11-5 甲、乙两组治疗前后指标分值
组别例数疗前值疗后值前后差值前后差值变化率
甲组2585±1981±16-4.0±5.2-5.6±5.5%
乙组2573±2875±211.70±8.8 1.9±7.9%
组间
t值…1.771.142.65(P<0.05)3.90(P<0.01)
方差齐性F值………………2.86(P<0.05)2.06(P>0.05)
* 资料来源于:全国新药生物统计研讨会资料汇编.1996年
(四)多组样本均数比较及两两比较
临床试验中,有时用某种新药的不同剂量与对照组比较时,这就构成了多组均数的比较,此时可采用方差分析(analysis of variance,ANOVA);使用方差分析时,仍然要考虑各组样本均数是否服从正态分布、方差是否齐性,可先用X2检验作多组间的方差齐性检验,若方差齐性(P>0.05),可进一步计算F值,当P<0.05时,再进行各组间的两两比较。进行各组间的两两比较,常用q检验。若进行多个试验组(如不同剂量)与一个对照组均数间的两两比较,可采用最小显著差法(侧重在减少第二类错误)或新复极差法(侧重在减少第一类错误);进行方差齐性检验时,当结果为P<0.05,表示各组方差不齐,此时可对各组变量进行代换,使方差齐性,再进行方差分析,但有时数据代换后方差仍不齐性,这时可选择多组资料的秩和检验及两两比较。见表11-6至表11-8。
表11-6三组小鼠的FDP酶活力(每小时微克分子无机磷/毫克氮)
对照组水 层
RNA组酚 层
RNA组合 计
Xij2.793.835.41
2.693.153.47
3.114.704.92
3.473.974.07
1.772.032.18
2.442.873.13
2.833.653.77
2.525.094.26
ΣXij
n21.62
829.29
831.21
882.12 ΣΣXij
24 N(ΣnI)
.s.
i
0.50
2.70250.99
3.66131.02
3.90…… ….
3.42 3.42
ΣXij260.179114.031128.990303.1998 ΣΣXij2
*资料来源于:中国医学百科全书医学统计学.上海科学技术出版社。1985.107
表11-7 方差分析
变异来源SS ν MS F
总变异
组 间
组内(误差) 22.2125 23
6.4368 2 3.2184 4.28
15.7757 21 0.7512
本例F=3.2184/0.7512=4.28,P<0.05,差异有显著性,可以认为三种不同处理诱导肝癌的FDP酶活力的差异有统计学意义。
表11-8 大鼠端脑新皮质AchE阳性神经纤维密度(N/0.01mm2 ± s)
组 别 内 嗅 皮 质
青年正常组
老年正常组
模型一组
模型二组
阳性对照一组
阳性对照二组 165.8±17.3
164.4±43.2
134.4±20.9
111.8±12.9
132.4±19.2
131.1±18.3
经多组方差齐性检验,X2 =14.75,P<0.01,差异有显著性,可以认为各组方差不齐,此时可采用变量变换,使方差齐性后再进行方差分析,或采用秩和检验。
一、分类资料常用的检验方法
(一)试验组与对照组率的比较
临床试验中,常需比较试验组与对照组之间总有效率的差异,当两组样本较大(n>100),而率又不太小时(比如np或n (1-p)均大于5,此时率的分布近似正态分布),可选择两率比较的u检验或X2检验(Chi-square test)。见表11-9
表11-9 甲、乙两组总有效率比较
组别总有效数无效数合计总有效率(%)
甲组2881830694.12
乙组905014064.29
合计3786844684.75
u=8.13, P<0.01,差异有显著性意义,可认为甲、乙两组总有效率不同,甲组总有效率高于乙组。也可用X2检验,X2=66.15,P<0.01,结果与u检验相同,因为u=
由此可见u检验适用于大样本资料两率的比较,而四格表X2检验大、小样本均可适用,但四格表X2检验公式的选择有其适用条件:
1、当总例数n>40,各组理论数T>5时,可直接计算X2值,例见表9的数据及结果X2=66.15,P<0.01。
2、当总例数n>40, 1<T<5时,由于理论数偏小,往往使得X2值偏大,此时可应用四格表X2值校正公式。见表11-10
表11-10 甲、乙两组疗效情况
分组有效数无效数合计数
甲组381048
乙组282(4.62)*30
合计661278
*括号内的数据为理论数(30×12)/78=4.62
表中有一个理论数为4.62大于1小于5,此时可用X2值校正公式
(|38×2-10×28|-78/2)2×78
X2 = = 1.86
48×30×66×12
P>0.05,差异无统计学意义,可以认为甲、乙两组有效率相同,如用X2值计算的一般公式X2=2.85,比未校正公式X2偏大。
3、当总例数n>40,但有理论数0<T<1,或总例数n<40,有实际观察数为0的情况,此时应采用确切概率法直接算出概率P。
下边分有实际数为零和无零的情况:
(1)有实际数为零的情况。见表11-11。
表11-11 两种药物治疗结果
组别治愈未愈合计
新药505
旧药246
合计7411
5! 6! 7! 4!
P= = 0.045
4! 2! 0! 5! 11!
这里有一点需要说明的是双侧检验以P<0.025,表示差异有显著性,单侧以P<0.05表示差异有显著性。如果研究者掌握的情况是有可能两药疗效一样,也有可能新药优于阳性对照药,也有可能新药不如对照药,研究者无法判断属哪一种情况,此时可选用双侧检验,今P= 0.045>0.025,差异无显著性,可以认为两药疗效相同。如研究的问题是新药是否优于对照药(理论上认为新药不可能比对照药差),可用单侧检验,本例P=0.045<0.05,差异有显著性意义。关于用单侧检验还是用双侧检验的问题,应在试验设计时根据实际情况确定,不得在试验结束后根据统计结果主观选择。
(2)实际数不为零的情况
根据四格表假设检验的基本思想,即在周边合计数不变的条件下,直接计算表内四个数据各种组合的概率之和。见表11-12。
表11-12 两种药物治疗结果比较
组别治愈未愈合计
新药4(2.77)26
旧药257
合计6713
* 资料来源于:医用统计方法。上海医科大学出版社.1993.165-166
本例在计算概率时,要把出现更极端的概率都计算出来,即原来治愈率高的治愈人数更要加多,治愈率低的,治愈人数更要减少,直至为零。
本例在周边合计数不变的条件下可组成7个(包括原始表)四格表,保留原始表条件|A-T|≥1.23即(4-2.77=1.23)的只有两个四格表
1(3.23) 5 6 0(3.23) 6 6
6 1 7 7 0 7
7 6 13 7 6 13
∣|1-3.23|=2.23>1.23 ∣|0-3.23|=3.23>1.23
计算包括原始表在内的各四格表的概率PI
6!7!6!7!
p1 = =0.1836
4!2!2!5!13!
6!7!6!7!
p2 = =0.0245
1!5!6!1!13!
6!7!6!7!
p3 = =0.0006
0!6!7!0!13!
三个四格表的概率求和P=ΣPi = 0.2087>0.025,差异无统计学意义,可以认为两药疗效是相同的,可以看出在实际计算时,p1= 0.1836已经大于0.025,其余的2个四格表确切概率不必计算就可以判断了。
(二) 配对资料的比较
表11-13 甲、乙两种药有效率的比较
乙药有效乙药无效合计
甲药有效75(a)15(b)90
乙药有效5(c)5(d)10
合计8020100
1、当b+c>40,用公式X2=(b-c)2/(b+c)
2、当 b+c<40,用公式X2=(|b-c|-1)2/(b+c)
本例X2=(|15-5|-1)2/(15+5)=4.05,P<0.05,差异有显著性,可以认为两种药物疗效不同。
(三) 多个样本率的比较
当行数(或列数),或行列数均大于2时,称行×列表或R×C表,R×C表计算X2 值时,要求<5的理论数的个数不能超过基本格子的1/5。见表11-14。可用公式:
X2 = n (Σ(A2/nrnc)-1)
表11-14 三组疗法有效率比较
组别有效数无效数合计有效率(%)
中西药结合组46125879.31
中药组28608831.82
西药组6162227.27
合计808816847.62
表14称R×C表(3×2表)共有6个基本格子,且各格理论数均大于5,可用下式计算X2值,X2=168(462/(58×80)+122/(58×88)+••+162/(22×88)-1)=35.81,X2> X20.01,2,P<0.01,差异有显著性,可以认为三组疗效不同,若要进一步作两两比较,可分成三个四格表再进行检验。
组别有效无效合计
中西药结合组461258
中药组286088
合计7472146
X2=31.55,P<0.01
组别有效无效合计
中西药结合组461258
西药组61622
合计522880
X2=18.99,P<0.01
组别有效无效合计
中药组286088
西药组61622
合计3476110
X2=0.17,P>0.05
两两比较结果表明,中西药结合组均比单纯中药和单纯西药组疗效好,P<0.01,而中药与西药组差异无显著性(P>0.05)。
临床试验中常对两组资料的某项分布特征或两组疗效不同等级构成进行比较,对于两组某项特征的不同分布(或构成比)进行比较时可用R×C表X2检验,对于两组疗效不同等级的比较不能采用X2检验,因此类资料为单项有序行列表,在比较两组不同等级疗效的差异时应采用Ridit分析或秩和检验。现就两组构成比X2检验举例说明。见表11-15。
表11-15 两组病人病情程度构成比较
组别轻度中度重度合计
甲组504872170
乙组25304095
合计7578112265
X2=0.44,P>0.05,差异无显著性,可以认为两组病人的轻、中、重度构成是相同的。
在R×C表中,当T<5的格子数超过基本格子的1/5时,不能直接用R×C表公式。见表11-16。
表11-16 两组病人某项指标分级构成比较
组别ⅠⅡⅢⅣ合计
甲组722852(1.46)107
乙组743261(1.54)113
合计14660113220
该资料为2×4表(2×C表),有8个基本格子,其中有2个基本格子的理论数1<T<5,占所有基本格子的1/4(>1/5),应对此表进行处理:
1、增加观察单位数目。
2、合并相邻的两列(或两行)并注意合并的合理性。
3、去掉某行或某列(此法尽量少用或不用)。
本资料拟作列的合并,将Ⅲ级和Ⅳ级合并见下表,合并后各格理论数均大于5,自由度相应减少为v=(2-1)(3-1)=2。见表11-17。
表11-17 两组病人某项指标分级(合并后)构成比的比较
组别ⅠⅡ≥Ⅲ合计
甲组 7228 7107
乙组 7432 7113
合计1466014220
X2=0.13,P>0.05,差异无显著性,可认为两组病人病情分级构成的分布相同。
三、等级资料常用的检验方法
(一)非参数统计(nonparametrie statistics)简介
在临床实际工作中,对于某些资料的总体分布类型往往是不知道的,资料的数据形式往往是按等级分组,处理这类资料就需要借助于另一种不依赖总体分布的具体形式的统计方法,这类方法不需要对总体的参数进行估计,也不需要对总体的参数进行检验,这类方法称非参数统计法,非参数统计方法的主要优点是:不拘于总体分布(总体分布未知或已知);计算简便;对于不能精确测量的资料,如等级资料,或分布极端偏态,预分析等均可采用。非参数统计方法的主要缺点:若资料适宜用参数方法的,采用了非参数方法处理,常常会损失资料的部分信息,降低检验效率,特别是当用参数法而统计量接近临界值时要慎用。非参数统计适用于假设检验中不涉及总体参数,资料不具备参数统计方法的条件,分布不明或极端偏态,两端无界或等级分组资料。
(二)Ridit分析(Ridit analysis)
Ridit分析是一种关于等级资料进行试验组与标准组比较的假设检验方法,其基本思想是先确定一个标准组,通常为以往积累的资料或样本含量相当大的资料作为特定的总体,标准组R值的均数R.标为0.5,由试验组计算出的可信区间若包括0.5,则接受假设,可以认为试验组来自标准组总体,差异无显著性,若可信区间不包括0.5,则拒绝假设,可以认为试验组来自标准组的可能性很小,试验组与标准组间的差异有统计学意义。见表11-18。
表11-18 归芍合剂治疗原发性痛经的疗效比较
组 别例数近期临床痊愈(%)显效(%)有效(%)无效(%)
治疗组305167(54.8)62(20.3)58(19.0)18(5.9)
对照组13857(41.3)28(20.3)37(26.8)16(11.6)
表11-19 参照组(对照组)各等级R值的计算
疗效等级
(1)例数 例数*1/2 该等级前的 (3)+(4) R值=(5)/例数
累积例数
(2) (3) (4) (5) (6)
近期痊愈
显效
有效
无效
合计57 8.5 0 28.5 0.2065
28 14.0 57 71.0 0.5145
37 18.5 85 103.5 0.7500
16 8 122 130 0.9420
138 ---- --- --- ----
这里标准组的 = 0.5(可验证),计算试验组的 值, 治疗 =∑fR/n ,这里R为标准组各等级之R(见表16第(6)栏),f为标准组各等级频数。 治疗组的 治疗=(167(0.2065)+62(0.5145)+58(0.75)+18(0.9420))/305=0.4159。 值的95%可信区间为 治疗±1/ :0.383-0.449 ,试验组 值的95%可信区间为0.383-0.449,不包括0.5,差异有显著性,可以认为试验组(归芍合剂)疗效优于对照组。Ridit分析要求标准组例数要多,有时在临床试验中很难办到,为了比较两组疗效的差别,可用两组合并的频数作为标准组频数,计算各等级的Ridit值,再求u值,公式为:
表11-20 两组总疗效比较
组别 痊愈 显效有效无效合计
甲组 45 129 11418306
乙组 6 14 7050140
见表11-20,本例经Ridit 分析,u=8.93,P<0.01,差异有显著性,可以认为甲、乙两组的疗效差异有统计学意义,甲组优于乙组。有时临床试验中需进行多组间疗效的比较,可将各组病例数按等级合并作为标准组 R值,用公式 = ∑fiR/ni,求得各组的 i,再作X2检验:
X2K-1=12Σni( i-0.5)2 ,查k=1的X2值表,得出概率P的大小,并作出统计推断。
(三)秩和检验(rank sum test)
1、两组等级资料比较的秩和检验
临床试验中当进行组间比较时,由于资料的分布不明、方差不齐性,有的又因受检验公式条件所限,有的资料是按等级分组的,此时可采用秩和检验。对于等级大样本资料用Ridit分析和用秩和检验在多数情况下检验结果是一致的,如表11-18,经秩和检验u=3.074,P<0.02。差异有显著性,结论同Ridit分析。
表11-21 甲乙组疗效比较
组别痊愈显效有效无效合计
甲组262414 1 65
乙组182216 6 62
合计444630 7127
表11-21的资料不能作X2检验,因为是两组单向有序等级资料,可采用两组等级资料的秩和检验,计算出秩和检验统计量T,然后查表判断得到概率P。本例样本量较大,超出查表的范围,可计算u值,将T=4322代入公式,得u=1.80,P>0.05,差异无显著性,可以认为甲、乙两组疗效相同。在检验中如果相同的秩较多时,计算u值时需进行校正u c 。
2、配对资料的符号检验(Wilcoxon’s test)
先将治疗前后差值的绝对值从小到大排秩(差值为0去掉),并编秩,差值的绝对值相等时取平均秩并分别给予正负号,分别计算正、负秩和,以绝对值小者作为统计量T,查表(有关统计书)判断,当对子数n>25时,可计算u值。由于相同的秩较多,需进行校正uc,本例u c=2.35,P<0.05,差异有显著性,可以认为治疗前后辅助性T细胞的变化差异有统计学意义,受试者经治疗后辅助性T细胞普遍升高。见表11-22。
表11-22 受试病例治疗前后辅助性T细胞(CD4)变化的比较
病人编号治疗前治疗后前后差排秩病
人
编
号治
疗
前治
疗
后前
后
差排秩
13641-5-27.5163538-3-14
23538-3-14173639-3-14
34043-3-14183639-3-14
43539-4-22193336-3-14
52824422203641-5-27.5
6282625.5213540-5-27.5
73531422223742-5-27.5
83834422234041-1-1
9383625.5243339-6-30
10393631425403825.5
11323025.5264042-2-5.5
123236-4-22273841-3-14
13383625.5283235-3-14
143640-4-22294144-4-22
15383625.530353325.5
四、临床研究结论与统计推断的关系
(一)显著水平α的确定
临床试验要求试验组与对照组除了研究因素(受试因素)不同外,其他可能影响研究结果的非试验因素,两组都应相等或相近,以保证两组的均衡性,两组进行试验前的比较,α可取大一点,一般可取0.1(或0.05);进行两组或多组疗效差异的比较时,为了平衡两类误差,一般统计上α取0.05(或0.01)。
(二)P值与样本和α的关系
P值是根据统计量与显著性水平α相对应的临界值比较得到的概率范围,当α确定时,临界值可由统计表查到,若统计量<临界值,则P>α;如α=0.05,P>0.05,则接受H0,表示两组差异无统计学意义,可以认为两组疗效相同(对判定两组疗效是否相同应进行等效性检验)。P值的大小也与α的大小和样本含量的大小有关,当样本含量偏小,α也偏小时,P值往往会偏大;当α增大,或增加样本含量,可能会出现P<α,差异有显著性的结果,这时下结论要慎重,研究者应结合临床实际作出客观的判断。严格讲,α和样本含量的大小均在试验方案设计时就要确定好,不得在统计分析时由人为来选定。
五.等效检验(equivalence test)
在临床试验研究中,当要判断两种药物或两种疗法的效果是否接近或相等?这时可采用等效性检验。
等效检验必须规定一个有临床意义且比较合理的等效差值Λ,且同一资料,选择Λ不同等价检验的结果也不同。Λ一般由本专业专家结合成本效应来估计,如两率比较一般Λ值不应超过对照组样本率的20%,如对照组样本率为75%,则Λ<0.15(0.75*0.2=0.15);对计量资料,当Λ难以确定时,Λ可用标准差的1/2 - 1/5,Λ也可用标准均数的1/10。
等效检验条件:1.必须Λ>δ(δ为两样本率差值);2.应先作一般u检验,当P>α时,再进行等效检验。
(一)两样本率比较
两样本率比较的等效性检验可用u检验,要求两样本含量相对要大,且np或n(1-p)均要大于5。 公式为:u=(Λ-|P1-P2|)/Sp 式中Λ为等效差值,P1、P2 为两样本率,Sp为两样本率合并标准误。
Sp=
P为两样本合并的率。式中当P接近α时应考虑校正。
校正公式为:u=(Λ-|P1-P2|-(1/n1-1/n2)/2)/Sp
表11-23复方妇康I号治疗滴虫性、霉菌性及非特异性阴道炎总疗效比较
组 别 总有效数 无效数合计数 总有效率%
治疗组 88 18
对照组 48 11106 83.02
59 81.36
合 计 136 29165 82.42
先作一般的u检验,u=0.29,P>0.05,两组率差异无显著性,是否认为两种药物疗效相等?应进行等效性检验后才能作出判断。
Λ=0.1,α=0.05
u=(0.1-|0.83-0.81|)/ = 1.28
本例进行校正:u=(0.1-|0.83-0.81|-(1/106+1/59)/2)/
=1.07
因u=1.07<1.96,P>0.05,差异无显著性,不能认为复方妇康I号治疗滴虫性、霉菌性及非特异性阴 道炎的疗效等价于对照组,建议必要时增加样本含量,继续观察。
(二)两样本均数比较
公式为:t=(Λ-| 1 - 2 |)/Sx1-x2
式中Λ为等效差值, 1 、 2 分别为试验组与对照组的均数,Sx1-x2为两样本的差异标准误。例:
表11-24 不同计量复方硫酸亚铁治疗小儿缺铁性贫血情况
计 量 例数治疗前后血红蛋白差值g/l
S
每日10mg 112
每日20mg 10737.022.9
40.0 16.7
资料来源于:临床流行病学研究结果的衡量与分析:234-237 先作一般的t检验,t=1.103,P>0.05,差异无显著性,可作等效性检验
Λ=20.1/2=10.05,Sx1-x2=2.719,
t=(10.05-|37.00-40.0|)/2.719=2.593,
t=2.593,P<0.01,
可以认为每日10mg计量可以代替每日20mg计量治疗小儿缺铁性贫血。
|