1、正态分布有什么基本特征?有哪几个参数?如何判断一组数据是否服从正态分布?
基本特征:①正态分布只有一个高峰,高峰位置在X=μ; ②正态分布以均数为中心,左右对称的钟型曲线,中间高,两头低 ③正态分布的2个参数μ和σ决定了分布的位置和形状 ④正态分布的标准化变换
参数:均数、标准差(μ是随机变量X的总体均数,σ为标准差) ①X轴与正态曲线所夹面积恒等于1或100% ②区间μ±σ的面积为68.27% ③区间μ±1.96σ的面积为95.00% ④区间μ±2.58σ的面积为99.00%
判断:频数分布图,前人经验,偏度系数和峰度系数的检验。 2、如何把正态分布数据转换成标准正态分布数据?
对任何服从正态分布N(μ,σ2)的随机变量X作线性变换 都变换成均数为0,方差为1的正态分布,称为标准正态分布,简记为μ~N(0,1) 3、什么叫标准正态分布?正态分布、标准正态分布和t分布有什么联系和区别? 均数为0,方差为1的正态分布都称为标准正态分布,简记为μ~N(0,1) 联系:都是对称的连续型分布;正态分布可以通过线性转换转化成标准正态分布;t分布在自由度较大时趋向标准正态分布。
区别:曲线图形不同;功能不同(正态分布和标准正态分布可用于u检验、参考值范围制定,质量控制等,而t分布主要用于t检验或总体均数的可信区间。) 4、什么是正常值范围?制定正常范围的基本步骤是什么?正态分布法与百分位数法制定正常值范围各有什么特点?
正常值范围:又称参考值范围,指绝大多数正常人的某指标范围 基本步骤:①抽取足够例数的正常人样本
②对选定的正常人进行准确而统一的测定 ③决定取单侧范围值还是双侧范围值 ④选定适当的百分范围 ⑤估计界值
特点:①正态分布法:应用本法的条件是资料服从正态分布,样本均数和标准差趋于稳定,样本含量不少于50例为宜,亦可用于经变量变换后服从正态分布的资料,如对数正态分布
②百分位数法:应用本法的条件是样本含量较多,分布趋于稳定,样本含量不少于150例,适用于偏态分布资料
4、总体均数的可信区间中的可信度和区间的宽度各说明什么?
总体均数的可信区间中的可信度说明可信区间的准确度,可信区间的宽度则说明了精密度。
可信度越高,准确度越高;区间越短,精密度越高。 5、两样本均数比较时为什么要作统计检验?
样本均数之间的差异是客观存在的,这种表面的差异不能直接判断总体均数间一定有差别,为了判断总体间均数是否有差别,我们必须对现有的样本均数作统计上的假设检验。
我们班级全体男女同学的平均血压作比较,要不要作统计检验?
班级全体男女同学的平均血压已经是两个总体均数(这两个总体不是太大所以全面调查可行),总体均数已经知道的话,比较就不用分别抽样作假设检验了。 6、两样本均数的差别作统计检验,P>0.05,你对此结果如何解释?若P<0.05,又有哪些具体解释?
P>0.05,P>α(α=0.05),不拒绝H0(检验假设),总体均数相同 P<0.05,P<α(α=0.05),拒接H0,接受H1(备择假设),总体均数不全相同
7、两样本均数差别的t检验中,什么情况下作单侧检验?什么情况下作双侧检验?
单侧检验时(专业角度能排除另外一侧可能性) H1:μ>μ0或μ<μ0 双侧检验时 H1:μ≠μ0
8、对样本均数与总体均数或对两样本均数的差别作统计检验,怎样使用可信区间做判断?
对样本均数与总体均数μ0比较(单样本t检验)对未知的总体均数μ求出可信区间,这个可信区间若包含μ0,者可以认为μ=μ0;未知的总体均数μ求出的可信区间若不包含μ0,则认为μ≠μ0。
两样本均数比较的统计检验分成配对样本和独立样本
配对样本的话,可以求出配对数据的一组差值d,然后求出这组差值的总体均数μd的可以信区间,这个可信区间若包含0,则认为总体均数相等;反之,不等。
两独立样本的话,可以通过两个样本分别求出两总体均数的可信区间,如果两个可信区间有交叉重叠部分,则可认为两总体均数相等,反之,不等。 9、t检验要求什么条件?
①正态性:即样本来自正态总体,特别是n较小时
②方差齐性:即样本代表的总体方差相等,特别是对于两样本均数比较的t检验(一般情况下,满足方差齐性,会认为同时满足正态性的要求) ③样本例数较小(n<50) 10、t检验基本步骤是什么? ①建立检验假设
②确定检验水准和单、双侧 ③选定检验方法和计算统计量 ④确定P值 ⑤推断结论
11、实验设计的要素与原则? 要素:处理因素、受试对象、实验效应
原则:①对照原则:设立对照组,除给予处理因素不同外,其他非处理因素尽量均衡一致
②随机化原则:指总体中每个个体都有相等的机会被研究者抽取为样本 ③重复原则:要求有一定的样本含量 12、线性回归和线性相关分析的目的是什么?
线性回归的目的是要建立回归方程,了解自变量X与应变量Y之间的数量关系,以便于通过X去推算或预测Y.
线性相关是通过相关系数刻画两个变量之间的相互紧密程度和变化方向。 13、线性回归和线性相关分析对数据有什么要求?
线性回归(又叫直线回归):要求自变量可精确测量和严格控制误差。 线性相关(直线相关):要求两个变量服从双变量正态分布。 14、建立回归方程用的是什么原则?
最小二乘法:各散点距离回归直线纵向距离平方和为最小而得到直线 15、为什么要对样本回归系数及样本相关系数作统计检验?
样本统计量都存在抽样误差,样本回归系数及样本相关系数都是用数学公式计算的,但是如果他们的对应总体参数本身为0的话,那么总体就没有线性相关或没有线性回归关系,所以必须对他们的总体参数作假设检验。如果假设检验结果总体系数不为0, 样本回归系数及样本相关系数就有统计学意义,可以证明他们的回归或相关关系;如果总体系数为0,那么样本回归系数及样本相关系数就没有统计学意义。
16、同一批样品用两种方法测定结果的相关系数是0.95,能否说两方法测定结果相同?
不能,相关系数本身还需要假设检验,另外就算两个变量高度相关,也不能说明测量结果一致。测定一致的两种结果一定高度相关,但是高度相关的两个结果未必相同。
17、行×列表资料作χ2检验的目的是什么? 推断两个或多个总体率或构成比是否相同
18、四格表的χ2检验对数据有什么要求? 哪些情况下要用四格表确切概率法检验? ⑴要求:
①T>5,而且N>40:直接用X2检验 ②1 £ T<5,而且N>40:校正X2检验
③T<1或N < 40:不能用X2检验,可用四格表概率法 ⑵四格表确切概率法:当T< 1 或N < 40时
20、表达中心位置(集中趋势)的指标有几个,各适用于什么情况,有什么优缺点?
①均数(μ):又称算术均数,反映一组观察值在数量上的平均水平 应用:单峰对称分布的资料,特别是正态分布或者近似正态分布 优点:直观,容易理解,计算简单
缺点:对等比级数资料、近似倍数关系的资料等集中趋势的代表性较差 ②几何均数(G):变量对数值的算术均数的反对值
应用:等比级数资料、近似倍数关系的资料或者对数正态分布资料 优点:回避了极大极小值的影响
缺点:对呈明显偏态的资料,分布的一端或者两端无确定数值的资料(开口资料),分布不清的资料不能很好地反映平均水平
③中位数(M):将一组观察值从小到大顺序排列,居于中间位置的数值 应用:呈明显偏态的资料;分布的一端或者两端无确定数值的资料(开口资料);分布不清的资料 优点:对极值不敏感 缺点:并非考虑了每个观察值
④百分位数(PX):一种位置指标(其余同中位数) ⑤众数:是一群数据中出现次数(频数)最多的值 应用:适用于大样本 优点:无
缺点:较粗糙,对于进一步的统计学计算与分析不具备应用价值 21、表示离散度的指标有哪几个,各适用于什么情况,有什么优缺点? ①极差(R):又称全距、极距,是一组定量资料中最大值与最小值之差 应用:疾病潜伏期等 优点:应用简便
缺点:只能反映最大值和最小值;样本含量越大,极差可能越大;抽样误差较大 ②四分位数间距:一组定量资料中,某两个百分位数之差(P75-P25) 应用:偏态分布
优点:比极差的稳定性好
缺点:未考虑全部观察值的变异程度
③方差与标准差:反映一组数据的平均离散水平 应用:对称分布、正态分布
优点:反映了全部观察值的离散情况;反映了均数的代表性 缺点:无
④变异系数(标准差与均数之比)
应用:常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度 优点:可用于不同单位资料间的比较
缺点:无
23、在作假设检验中,P值含义是什么?α的意义是什么?怎么利用P与α下统计结论。
⑴P值:在无效假设成立的条件下,获得现有统计量以及更不利于H0的数值的概率
⑵α:检验水准,由检验统计量的分布曲线与横轴中处于拒绝域的这些值上面的那部分面积 ⑶下结论:
①P>0.05,P>α(α=0.05),不拒绝H0(检验假设),多个比较相同 ②P<0.05,P<α(α=0.05),拒绝H0接受H1(备择假设),多个比较不全相同
24、常用的相对数指标有哪些?使用时要注意哪些问题? ⑴相对数:指两个有联系的指标之比,常用指标有 ①率:又称频率指标,它说明某现象发生的频率或强度 ②构成比:说明一事物内部各组成部分所占的比重或分布 ③比(相对比):是两个有关指标之比 ⑵使用相对数时的注意事项: ①计算相对数的分母不宜过小 ②分析时不能以构成比代率 ③不能直接相加求其平均率 ④资料的对比应注意可比性
25、可信区间的含义是什么?可信区间的准确度和精密度指的是什么?医学正常值范围与可信区间有何区别?
①可信度1-α(准确度)愈接近1愈好,如99%的可信度比95%的可信度要好 ②区间的宽度(精密度),区间愈窄愈好。
当样本含量为定值时,上述两者互相矛盾,在可信度确定的情况下,增加样本含量可减小区间宽度。
区别点 含 义 用途 总体均数可信区间 参考值范围 按预先给定的概率,确定未知参数m的可能范围。实际上,一次抽样算得的可信区间要么包含了总体均数,要么不包含。但可以说:当“正常人”的解剖,生理,生a=0.05时,95%CI估计正确的概率为0.95,估化某项指标的波动范围。 计错误的概率小于或等于0.05,即有95%的可能性包含了总体均数。 总体均数的波动范围 总体均数的区间估计 个体值的波动范围 绝大多数(如95%)观察对象某项指标的分布范围 26、假设检验的基本思想是什么?采用单侧或双侧检验的依据是什么? ⑴假设检验,也称显著性检验,是统计推断的重要内容统计学上利用反证法的思想,首先针对研究的总体建立一个假设,如果在该假设成立的条件下,得出的结论与该假设一致,则原假设成立,否则,原假设不成立: ①这个假设称为无效假设或者检验假设,记为H0 ②和其相对应的假设称为备择假设,记为H1 判断时利用小概率原理 ⑵依据:见问题7 27、在样本均数与某个已知总体均数比较的假设检验中,在什么情况下用t检验,又在什么情况下可以有u检验(又叫Z检验)? ⑴t检验的应用条件: ①数值变量 ②近似正态分布 ③两个样本成组设计要求方差要齐性 ⑵u检验的应用条件: ①n较大.(n>100) ②n虽小而总体标准差已知 28、何谓假设检验中的第一类错误?何谓第二类错误?如何控制两类错误概率的大小? ⑴
客观实际 H0成立 H0不成立 拒绝H0 第一类错误(α) 推断正确(1-β) 不拒绝H0 推断正确(1-α) 第二类错误(β) ①第一类错误(I型错误):拒绝了实际上是成立的H0,这类“弃真”的错误称为第一类错误(假阳性) ②第二类错误(II型错误):不拒绝实际上是不成立的H0,这类“存伪”的错误称为第二类错误(假阴性) ⑵控制:样本含量一定的话可以设置较小的检验水平控制一类错误,适当放大检验水准则可以控制2类错误;如果要同时减小1类2类错误必须增大样本含量。 30、直线回归和直线相关分析的联系与区别是什么?应用时应注意哪些问题? ⑴区别: ①在资料要求上不同 回归: 要求Y服从正态分布,X是可以精确测量或严格控制的,此类回归一般称 I 型回归 相关:要求X、Y均服从正态分布(双变量正态分布),此类资料进行回归分析,称II 型回归 ②在应用上不同。 回归:反映两变量间依存变化的数量关系; 相关:反映两变量间相关的密切程度和方向。 ③数值与单位:相关系数取值范围介于-1和1之间,没有单位;回归系数取值范围介于正无穷和负无穷之间,有单位是Y的单位除以X的单位 ⑵联系 ①符号:同一组资料,r 与 b符号(正负好)一致(注意:两者大小有一定关系,但不绝对) ②假设检验:同一组资料, r 与 b的假设检验是等价的,即tb = tr ③换算关系:r与b可相互转换 ④可用回归解释相关:相关系数r的平方称为决定系数,其意义为回归变异占总变异的比值。r2越接近于1说明相关分析的意义越大,即贡献越大 (3)注意事项 ①相关与回归分析要有实际意义
②对相关分析的作用要正确理解 ③绘制散点图
④结果的解释 5)不能外推
1、医学统计学:是以医学理论为指导,借助统计学的原理和方法研究医学现象中的数据搜集、整理、分析和推断的一门综合性学科。
2、变量:是指观察个体的某个指标或特征,表现了观察单位的变异性,统计上习惯用大写拉丁字母表示。
3、数值变量/定量变量/计量资料/定量资料:是以定量的方式来表示观察单位某项观察指标的大小,所得 的资料称之为~,有度量单位。
4、分类变量/定性变量/计数资料/定性资料:是以定性的方式来表示观察单位某项观察指标,所得的资料 称之为~,无固有度量单位。
5、有序分类/等级资料:是以等级的方式来表示观察单位某项观察指标,所得的资料称之为~,为半定量的观察结果,有大小顺序。 6、同质:是指事物的性质、影响条件或背景相同或相近。 7、变异:是指同质的个体之间的差异。
8、总体:是根据研究目的所确定的同质观察单位的全体或集合,分为有限总体和无限总体。
9、样本:是从总体中随机抽取的一部分观察单位所组成的集合。 10、随机变量:是指取值不能事先确定的观察结果。
11、统计量:是样本的统计指标,采用拉丁字母表示,是参数附近波动的随机变量。
12、参数:是总体的统计指标,采用小写的希腊字母,为固定的常数。 13、随机抽样:为了保证样本的可靠性和代表性,需要采用随机的抽样方法,使总体中每个个体均有相同的机会被抽到。
14、抽样误差:是由于个体差异导致在抽样研究中产生的样本统计量与相应的总体参数之间的差异以及统 计量间的差异。
15、确定性现象:在一定条件下,一定会发生或一定不会发生的现象。 16、随机现象:在同样条件下可能会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。其表现结果称为随机事件。 17、频率:样本的实际发生率称为~,0≦f≦1。 18、概率:随机事件发生的可能性大小,0≦P≦1。
19、小概率事件:概率小于等于0.05或0.01的事件称为小概率事件,习惯上以0.05为标准,统计学上认为小概率事件在一次实验中是不大可能发生的。 20、平均数:是反应一组观察值的集中趋势、中心位置或平均水平的指标体系,常用的指标有均数、几何均数、中位数。
21、中位数:是将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数,适用于任何分布、开口资料、偏态分布。
22、百分位数:是指一种位置指标,用Px表示,一个百分位数将按大小顺序排列的变量值分为100份,旦论上有x%的变量值比它小,有(100-x)%的变量值比它大,对应x%位次的数值。
23、标准差:方差是指样本观察值的离均差平方和的均值,方差的正平方根为标准差,表示一组数据的平均偏离程度。
24、变异系数:是指标准差与均数之比,常用百分数表示,没有单位,主要用于度量衡单位不同或均数相差悬殊的几组资料间的比较。
25、相对比:是指A、B两个有联系的指标之比,用于说明A为B的若干倍或百分之几,是对比的最简单形式。
26、构成比:是指一事物内部某一组成部分的观察单位数与该事物各组成部分的观察单位总数之比,用以说明某一事物内部各组成部分所占的比重或分布。 27、率:是指某种现象在一定条件下,实际发生的观察单位数与可能发生该现象的总观察单位数之比,用以说明某种现象发生的频率大小或强度。
28、率的标准化/标化率:即采用统一的标准对内部构成不同的各组频率进行调整和对比的方法,调整后的率为标准化率/标化率/调整率。
29、统计表:是以表格的形式列出统计分析的事物及其指标,它可避免长篇文字叙述,并具体列出数据。便于阅读、比较、计算
30、统计图:是用点的位置、线段的升降、直条的长短或面积的大小等形式表达统计资料,它可直观醒目地反映出事物间的数量关系。
31、正态分布:靠近均数分布的频数最多,两边频数逐渐减少并且近似对称,这种两头低中间高、略呈钟形、左右近似对称的连续性分布称为~。
32、参考值范围:是绝大多数正常人的某指标范围。所谓正常人,是指排除了影响所研究指标的疾病和有关因素的人;所谓绝大多数,是指范围,习惯上指正常人的95%。
33、标准误:是指样本统计量的标准差,反映来自同一总体的样本统计量的离散程度以及样本统计量与总体参数的差异程度,即抽样误差的大小。
34、均数标准误:是指样本均数的标准差,反映来自同一总体的样本均数的离散程度以及样本均数与总体均数的差异程度,即抽样误差的大小。均数标准误大小与标准差呈正比,与样本例数的平方根呈反比,故欲降低抽样误差,可增加样本例数。
35、区间估计:以一定概率估计总体参数在哪个范围内的估计方法。 36、95%可信区间:是指从理论而言,在100次随机抽样所得的100个可信区间中,平均有95个可信区间包括总体均数。
37、P值:是指在H0成立的前提下,获得现有检验统计量值以及比该统计量值更极端情况下的概率。
38、第一类错误α:检验假设H0实际上成立的,但拒绝了H0,误判为有差别,也就是犯了假阳性错误,称为~。其发生的概率用 a 表示。在假设检验中作为检验水准。一般取0.05或0.01。按实验要求,重点要控制第一类错误,应采用Duncan法。
39、第二类错误β:假设检验H0实际上不成立,但却不拒绝H0,误判为无差别,也就是犯了假阴性错误,称~。其发生的概率用 b 表示。由于其取值取决于H1,因此在假设检验中无法确定。按实验要求,重点要求控制第二类错误,应采用LSD-t法。
40、检验效能/把握度:统计学上将1-β称为~,即当两总体确有差别,按规定的检验水准a 所能发现该差异的能力。
41、相关分析:研究变量间相互关系的密切程度、变化趋势,并用适当的统计指标显示出来的分析方法。
42、回归分析:将变量间数量上的依存关系用函数形式表示出来,用一个或多个变量来推测另一个变量的估计值及波动范围的分析方法。
43、相关系数:用以说明在两个变量之间存在线性相关关系以及相关关系的密切程度与方向的统计指标。
44、回归系数:即直线的斜率,在直线回归方程中用b 表示,b 的统计意义为X每增(减)一个单位时,Y平均改变b 个单位。
45、决定系数:相关系数r的平方称为~,表示Y的变异中可由X解释的部分占总变异的比例。
46、参数检验:假设样本所来自的总体分布具有某个已知的函数形式,而其中有的参数是未知的,统计分析的目的就是对这些未知参数进行估计或检验。这类方法称为参数统计,所用的检验称为
47、非参数检验:不依赖总体分布的具体形式,也不对参数进行估计或检验的统计方法称为非参数统计,所用的检验方法称为~。其目的是检验所比较的分布或分布位置是否相同。
因篇幅问题不能全部显示,请点此查看更多更全内容