1.集中位置的描述
描述定量资料集中位置的指标统称为平均数,常用的平均数有算术平均数、几何均数及中位数。
(1)算术平均数简称均数,均数适用于描述单峰对称分布资料,特别是正态分布或近似正态分布资料的集中位置。
(2)几何均数适用于原始观察值呈偏态分布,但经过对数变换后呈正态分布或近似正态分布的资料,如血清抗体滴度等。
(3)中位数是将一组观察值按大小顺序排列后位次居中的数值。中位数适用于各种分布的资料,实际工作中常用来描述不对称分布的资料、两端无确切值或分布不明确资料的集中位置。
2.离散程度的描述
(1)极差:也称全距,是描述定量资料变异程度最简单的指标,用符号R表示,R=最大值-最小值,由于极差只涉及两个极端值,不能反映组内其他观察值的变异,故一般用来粗估资料的变异程度。
(2)四分位数间距:是第75百分位数与第25百分位数之差,用符号Q表示,即Q=P75-P25.它反映了一组观察值按从小到大的顺序排列后,中间一半观察值的波动范围。四分位数间距常用于描述偏态分布资料,一端或两端无确切值或分布不明确资料的变异程度。
(3)标准差:方差的单位是观察值原始单位的平方,在实际工作中使用不便,故将方差开算术平方根得到标准差。标准差是描述对称分布,特别是正态分布或近似正态分布资料变异程度的指标。
(4)方差:描述对称分布,特别是正态分布或近似正态分布资料变异程度的指标。在实际工作中总体方差往往是未知的,常用样本方差来估计。
(5)变异系数:亦称离散系数,简记为CV,为标准差与均数之比。极差、四分位数间距和标准差都有单位,且与观察值的原始单位相同;而变异系数为相对数,没有单位,便于计量单位不同或均数相差悬殊的多组资料间变异程度的比较。
3.正态分布的特征
(1)正态分布有以下五个特征:
①正态曲线在横轴上方,且均数所在处最高;
②正态分布以均数为中心,左右对称;
③正态分布有两个参数,即均数与标准差(μ与σ),标准正态分布的均数和标准差分别为0和1;
④正态曲线在±1.96σ,标准正态分布在±1处各有一个拐点;
⑤正态分布的面积分布有一定的规律性。
4.正态分布曲线下面积分布规律
正态曲线下一定区间的面积可以通过对式(18.16)和式(18.17)积分求得。为了省去计算的麻烦,有人按式(18.17)编成了附表18-1“标准正态分布曲线下的面积”通过查表可求出正态曲线下某区间的面积,进而估计该区间的观察例数占总例数的百分数或变量值落在该区间的概率。查表时应注意:
①表中曲线下面积为自-∞到u的面积;
②当μ,σ已知时,先根据u变换(即u=(X-μ)/σ)求得u值,再查表;
③当μ,σ未知且样本含量n足够大时,常用样本均数x和样本标准差s分别代替μ和σ进行u变换[即u=(X-μ)/S],求得u的估计值,再查表;
④曲线下对称于0的区间面积相等,如区间(-∞,-1.96)与区间(1.96,+∞)的面积相等;
⑤曲线下横轴上的总面积为100%或1.
5.统计学与公共卫生互动推动
统计学是公共卫生专业人员的得力工具
公共卫生是群体科学,应用统计探索群体规律。
统计抽样技术;设计群体调查,掌握人群的卫生状况和需求;
统计描述:反映疾病和卫生资源的分布特征;
统计推断:偶然性的背景中识别危险因素、评价卫生措施、进行科学决策。
6.总体是根据研究目的确定的同质研究对象的全体,按研究对象来源又有目标总体和研究总体。样本是指从研究总体中抽取的一部分有代表性的个体。抽样研究的目的是用样本推断总体。
7.同质与变异
同质是指同一总体中个体的性质、影响条件或背景相同或非常相近。 变异是指同质的个体之间存在的差异。
统计学的任务是在变异的背景上描述同一总体的同质性,揭示不同总体的异质性。
7.定量变量可分为离散型变量和连续型变量。
变量类型可以转化:定量→有序→分类→二值。注意转化方向只能由信息量多向信息量少。
8.参数是指反映总体特征的统计指标。
9.统计设计是医药卫生设计科研不可或缺的部分。统计设计包括抽样方法、统计学原则、统计方法数据如何收集、样本量多大等统计学内容。设计决定了统计分析的方法。统计设计和统计分析是不可分割的两项内容。
10.因果与联系探究因果关系首先考虑是否存在联系。但存在联系未必有因果联系,因为存在大量的混杂因素。单靠统计学分析大多只能考虑变量之间的联系,难于证明因果联系。
11.频率分布表与频率分布图
(1)离散型定量变量的频率分布
对离散型定量变量,变量值的取值是不连续的。直接清点各变量值出现的频数,即为频率分布表。离散型定量变量的频率分布图可用直方图表达,以各等宽矩形直条的高度表示各频率的多少。
(2)连续型定量变量的频率分布
对连续型定量变量,变量值的取值是连续的,将数据适当分组,清点各组的频数,即为频率分布表。连续型定量变量的频率分布图可用直方图表达。即纵坐标为频率密度,即频率/组距,直方图的面积之和等于1.
(3)频率分布表的用途
频率分布表可以揭示资料的分布类型,如对称分布或偏峰分布;也可以描述资料的分布特征,即集中趋势和离散趋势;便于发现某些特大和特小的可疑值;便于进一步计算指标和统计分析。
12.描述集中趋势的统计指标
对于连续型定量变量,平均数是应用最广泛、最重要的一个指标体系,它常用于描述一组同质观察值的集中趋势,反映一组观察值的平均水平。常用的平均数有3种:算数均数、几何均数和中位数。
13.算术均数
(1)意义:算术均数简称均数,常用μ表示总体均数,表示样本均数。反映全部数量观察值的平均数量水平。
(2)适用条件:适用于对称分布资料,尤其正态或近似正态分布资料。
14.几何均数
(1)意义:几何均数以符号G表示,常用来反映一组含多个数量级数据的集中位置。
(2)适用条件:适用于原始观察值分布不对称,但经对数转换后呈对称分布的资料,如对数正态分布资料。观察值间常呈倍数关系,或变化范围跨越多个数量级。
15.中位数
(1)意义:中位数常用符号M表示,是指将原始观察值从小到大排序后,位次居中的那个数,即理论上有一半的观察值低于中位数,一般都观察值高于中位数。
(2)适用条件:中位数适用于各种分布的资料,特别是偏峰分布资料、分布末端无确定值的资料等。
(3)计算:1.直接法(基于原始数据)
将n例观察值从小到大排列。
n为奇数时,则选择第(n+1)/2个为中位数
n为偶数时,则中位数是第(n/2)个数和第[(n/2)+1]个数的平均值

