临床执业医师（110）->预防医学综合->《医学统计学方法》出题点

【考点】集中趋势指标

【年份】2013,2017

集中趋势指标：描述数值变量资料集中趋势（或平均水平）的指标→平均数。

常用的平均数包括：算术平均数、几何平均数与中位数。

（1）算术平均数：简称均数，总体均数用μ表示，样本均数用χ表示。

适用于对称分布，特别是正态或近似正态分布的计量资料。

计算方法有：

①直接法─观察单位较少

②频表法—观察单位较多时

（2）几何均数：几何均数用G表示，是将n个观察值x的乘积再开n次方的方根（或各观察值x对数值均值的反对数）。

适用条件：观察值呈倍数关系或对数正态分布，多用于描述抗体的平均滴度等。

计算方法有：

①直接法—观察单位较少

②加权法—频数表资料

（3）中位数：中位数（M）是把一组观察值，按大小顺序排列，位置居中的变量值（n为奇数）或位置居中的两个变量值的均值（n为偶数）。中位数是平均指标，以中位数为界，将观察值分左右两半。

适用条件有：

①变量值中出现个别特小或特大的数值；

②资料呈明显的偏态分布；

③资料一端或两端无确定数值，只有小于或大于某个数值（〈90）；

④资料的分布情况不清。

计算方法：

①样本含量为奇数时，

②样本含量为偶数时，

（4）百分位数（percentile，Px）:也是一种位置指标，观察值按由小到大的顺序排列后，一个百分位数px将全部变量值分为两部分，其中有x%的变量值比它小，（100-x）%变量值比它大。P50=M

适用条件同中位数

计算方法：频数表法

【考点】离散程度指标

【年份】2014,2017,2018

离散趋势的指标：

（一）极差（全距）

1.定义：极差（R）=最大值-最小值→极差越大离散程度越大。

2.应用范围：适用于任何分布类型的资料，描述偏态分布资料。

3.优缺点：

（1）优点：计算简单、概念清晰。

（2）缺点：①只考虑了最大值与最小值，易受极端值影响，不能反应其他变量值的变异情况；②受样本含量影响，不稳定（一般样本含量越大越有机会观察偏小或偏大的数据）。

（二）四分位数间距Q

1.定义：

2.应用范围：适用于任何分布类型的资料，主要和中位数一起描述偏态分布资料。

3.优缺点：

（1）优点：比极差稳定.

（2）缺点：仍未考虑全部观察值的变异程度。

（三）方差

公式的由来：

（四）标准差：由于方差单位是原单位的平方，为了应用方便，对方差进行开方得到，就是样本的标准差。

方差和标准差主要应用于正态分布

（五）变异系数

应用条件：反映资料相对变异程度。常用于比较度量衡单位不同或均数相差悬殊的两组（或多组）资料的变异度。

【考点】正态分布的特点与面积分布规律

【年份】2012,2018

正态分布是最重要的一种连续性分布，以均数为中心，左右两侧基本对称，如正常人的身高，体重，红细胞数，血红蛋白等。可从频数表和频数图对正态分布进行研究。

（一）正态分布的概念和特征

1.概念：如果随机变量分布服从概率密度函数，称x服从正态分布，记，μ为χ的总体均数，σ为总体标准差。

2.正态分布的特征

（1）正态曲线在横轴上方呈钟形，且均数所在处最高；

（2）以均数为中心，左右完全对称；

（3）正态分布有两个参数：均数μ，标准差σ，标准正态分布的均数和标准差分别为0和1；

（4）正态曲线在±1.96σ，标准正态分布在±1处各有一个拐点；

（5）正态分布曲线下的面积分布有一定规律性。

（二）面积分布规律

—μ-σ～μ+σ）→68.27%

—μ-1.96σ～μ+1.96σ）→95%—（μ-2.58σ～μ+2.58σ）→99%

【考点】均数的抽样误差

【年份】2013,2017,2018

均数的抽样误差→标准误是描述均数的抽样误差大小的统计指标。

为了反映观察值离散程度标准差σ相区别，统计学中把样本均数的标准差称样本均数的标准误。

证明均数标准误的计算公式：

估计值计算公式：

标准误与标准差成正比，与样本含量ｎ的平方根成反比。

均数标准误的用途：

①可用来衡量样本均数的可靠性；

②与样本均数结合，用于估计总体均数的置信区间；

③用于进行均数的假设检验。

【考点】假设检验的两类错误及注意事项

【年份】2016,2018

（一）两类错误

假设检验→小概率事件原理→推断结论并不是百分之百正确，可能发生两类错误：

1.I型错误：

①概念：拒绝实际上成立的H0，这类“弃真”的错误称I型错误。

②I型错误概率：α，若α=0.05，犯I型错误概率为0.05，理论上平均每100次抽样有5次发生这样错误。

2.Ⅱ型错误：

①概念：不拒绝实际上不成立的H0，这类“存伪”的错误称为Ⅱ型错误。

②Ⅱ型错误概率：β，通常当n固定时，α越小β越大；反之α越大β越小。

注：二类错误重点知识总结:

1.一型错误-“弃真”；二型错误-“存伪”。

2.两类错误变化方向相反，通过一型错误控制二型错误。

3.检验效能：1─β

4.增大样本含量，同时减少两种类型错误

（二）假设检验的注意事项

1.应注意比较组间是否具有可比性：

组间有可比性，即组间应均衡，就是除对比的主要因素外，其他可能影响结果的因素在对比组间应相同或相近。保证均衡性的方法是要有严密的设计，比如从同质总体中随机抽取样本或随机分配样本（随机化原则）等。

2.根据研究目的、设计类型和资料类型选用适当的检验方法

研究目的设计类型资料类型适用条件假设检验方法

同一受试对象处理前后及不同处理因素间等配对设计计量资料数值变量小样本、正态性配对t检验

两个总体均数间完全随机设计或成组设计计量资料数值变量小样本、正态性、方差齐两样本均数比较的t检验

两个总体均数间完全随机设计或成组设计计量资料数值变量资料大样本两样本均数比较的u检验

两个总体均数间完全随机设计或成组设计计量资料数值变量资料小样本、正态性、方差不齐

3.正确理解差别有无显著性的统计学意义

统计结论只说明有统计学意义而不能说明专业上的大小。只有将统计结论和专业知识有机地结合，才能得出恰如其分的专业结论。

4.结论不能绝对化

因为统计结论具概率性，故在下结论时不要使用“肯定”、“一定”、“必定”等词。比如，拒绝H0可能犯I型错误，不拒绝H0可能犯Ⅱ型错误。

【考点】率的抽样误差､总体率的可信区间及其估计方法

【年份】2014

（一）率的抽样误差、总体率的可信区间及其估计方法

1.率的抽样误差

从同一总体中随机抽取n个观察单位的一组样本，计算得到各样本率，不一定都与总体率π完全相同，这种由于抽样引起的样本率与总体率间的差别，称为率的抽样误差。计算公式如下：

率的标准误越小，率的抽样误差越小，用样本推论总体时可信程度越高。

2.总体率的可信区间及其估计方法

（1）正态近似法：当样本含量n足够大，样本率p或（1-p）不太小时，样本率的分布似正态分布，总体率可信区间的估计由下列公式估计：

①总体率（π）95%的可信区间：p±1.96Sp

②总体率（π）99%的可信区间：p±2.58Sp

（2）查表法：当n较小（如n≤50），特别是P接近0或1时，根据样本含量n和阳性数X查阅统计学专著附表。

【考点】Z检验和χ2检验

【年份】2012,2015

（一）Z检验:样本含量n足够大、样本率P和1－P均不接近零的前提下，样本率分布近似正态分布，样本率和总体率之间、两个样本率之间差异来源的判断可用Z检验。

1.样本率与总体率的比较

公式为：

式中：样本率为P，π为总体率，σρ为根据总体率计算的标准误。Z服从标准正态分布，Z与界值比较做出统计结论。

2.两个样本率的比较

公式为：

Pc＝（X1＋X2）／（n1+n2）

式中Pc为合并样本率，P1和P2为两个样本率，X1和X2为两个样本的阳性例数。

（二）x2检验（卡方检验）：是用途非常广泛的假设检验（分类变量资料）方法。

1.主要用途：①应用在分类变量资料中，推断两总体率（π）（t检验是比较两总体均数间有无差别）或构成比之间有无差别；②应用在分类变量资料中，推断多个总体率或构成比之间有无差别。

2.x2检验的基本思想：

从公式中看出x2值反映的是实际频数与理论频数吻合度。如果无效假设成立，则实际频数与理论频数之差一般不会很大，也就是说x2值不会太大；x2值还取决于的个数（自由度）。

3.四格表资料的专用公式：为省去求理论频数过程可用专用公式计算x2值。

4.四格表x2检验的校正

（1）当1≤T〈5而n≥40时，用连续性校正公式：

或

（2）T〈1或n〈40时，用确切概率法进行校正

（3）T≥5且n≥40不用校正

【考点】方差分析

年份】2015

方差分析（F检验）：是通过对数据变异的分解来判断不同样本代表的总体均数是否相同，用于两个或以上样本均数的比较、回归方程的假设检验等。

方差分析使用条件是（正态、独立、方差齐）：各样本来自正态分布的总体，且为相互独立的随机样本，各个样本所来自的总体方差相等。

【考点】Z检验和t检验

【年份】2013,2014,2016

1.Z检验：用于已知总体标准差情况下的样本均数与总体均数的比较，大样本资料的两均数比较，资料要求服从对称或正态分布。

2.t检验的应用条件：样本含量较小（比如n〈50），总体标准差未知时样本与总体均数的比较，配对设计资料比较及两个小样本均数的比较。在做两个小样本均数的比较时，还要求相应总体方差相等。

【考点】两样本比较秩和检验

【年份】2013,2017

对于计量资料，如果两独立样本分别来自方差相等的正态总体的假设成立，就可用t检验比较两样本均数的差别是否有统计学意义；如果假设不成立或不确定是否成立，则采用非参数检验-─-秩和检验来检验两样本是否来自同一总体。

1.两组连续性变量资料的秩和检验

（1）查表法：秩和检验适用于两组完全随机设计的计量资料的分析。其检验假设H0为两总体的分布位置相同。

将两样本的数据混合后统一编制，依顺序号作为秩次，遇到相同数据时如果在同一组可顺次编秩，不在同一组必须取平均秩次。计算统计量T，T为样本量较小组的秩和（当样本量相同可任选一秩和），结合所选秩和组的样本量n，查表判断。

（2）正态近似法：当样本量较大，可用近似正态法进行检验。统计量Z的计算公式为：

当相持出现多时（超过25%）则需要进行校正。

2.两组有序分类变量资料（等级资料）的秩和检验：这种类型的资料在临床医学试验中比较多见，如"疗效"为有序变量，治疗分组是定性变量。在比较各组疗效时，用秩和检验较合适。

【考点】直线回归分析的作用，回归系数及其意义

【年份】2014

直线回归分析的作用、回归系数及其意义

1.直线回归是用于研究两连续性变量X和Y间的数量依存关系。主要任务是找出最适合的直线回归方程，确定一条最接近于各实测点的直线，描述两变量间的回归关系。方程表达式为：，

（1）式中α为回归直线在Y轴上的截距：

①α〉0→表示直线与Y轴交点在原中上方；

②α〈0→表示直线与Y轴交点在原点下方；

③α=0→表示回归线通过原点；

（2）b为回归系数，即直线斜率，表示变量X每增加（或减少）一个单位Y平均改变b个单位；

2.截距α和斜率b的估计常用最小二乘原则，保证各实测点至回归直线的纵向距离平方和最小。根据最小二乘原则导出b和α的计算公式为：

【考点】多样本比较秩和检验

【年份】2016

多样本比较秩和检验：多组独立样本比较的秩和检验（Kruskal-WallisH检验），用于推断定量变量或有序分类变量的多个总体分布位置有无差别。

1.多组连续变量资料的秩和检验：将各组统一编秩，求各组的秩和，计算检验统计量H值，查H界值表判断。，当相持出现多时则需要进行校正。

2.多组有序变量资料的秩和检验：同上述正态近似法，计算检验统计量H值，如例数、组数超过H界值表范围，可查X2界值表。

【考点】统计图的类型､选择及制图通则

【年份】2015,2016

1.统计图:用点、线、面等各种几何图形来形象化表达统计数据。

医学文献与报告中常用的统计图主要有直条图、百分条图、圆图、线图、半对数线图、直方图、散点图、箱式图、统计地图等。使用计算机与相应软件（如Excel）可方便地绘制各种统计图。

2.制图基本要求：

⑴选图形：按照资料性质与分析目的。

⑵标题：扼要说明统计图内容，位于图正下方。

⑶图例：位于图形与标题间或右上角空隙，对图中不同事物应通过不同图案或颜色区别。

⑷坐标统计图（如直条图、线图等），横轴方向应自左至右，纵轴方向应自下而上。横轴与纵轴应有标目。表示量的数轴应标注合适的原点、尺度、单位；统计图的轮廓以高:宽=5：7或7：5为宜。

（5）直条图:用等宽直条的长度来表达相互独立的统计指标值大小。常用于组间差异比较。

（6）百分条图:以矩形总长度作100%，将其分割成不同长度的段表示各构成的比例。常用于描述计数资料的构成比或比较多个计数资料的构成比。

（7）圆图:用同一圆形中的扇形弧度表示全体中各部分所占比重（构成比）。其用途与百分条图相同。（多组数据对比，圆图效果不如百分条图）

（8）线图:在直角坐标系中用线段升降表达一个变量随另一个变量变化的趋势。普通线图的纵横坐标均为算术尺度。

（9）半对数线图:纵轴取对数尺度，横轴取算术尺度。适用于表达事物间相对变化速度的比较。

（10）直方图:用于表示连续性计量资料的频数分布或频率分布。通常用横轴表示变量，纵轴表示频数与组距比例。取相等组距的时候，各组段上矩形的高与该组段的频数成正比。

（11）箱式图:用于多组数据直观比较分析。一般选六个描述统计量（最小值、P25、中位数、P75、最大值、均数）来绘制。

（12）散点图:用点的密集程度和趋势来描述两变量间的相关关系。

用途：当双变量计量资料的一对观察值不是一一严格对应时，应当用散点图来描述这两个变量间的关系。