匿名
未登录
登录
医学百科
搜索
查看“列联表”的源代码
来自医学百科
名字空间
页面
讨论
更多
更多
语言
页面选项
Read
查看源代码
历史
←
列联表
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看和复制此页面的源代码。
列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数表{{百科小图片|bkdxx.jpg|列联表分析}}一般,若总体中的个体可按两个属性A与B分类,A有r个等级A1,A2,…,Ar,B有c个等级B1,B2,…,Bc,从总体中抽取大小为n的样本,设其中有nij个个体的属性属于等级Ai和Bj,nij称为 频数,将r×c个nij排列为一个r行c列的二维列联表,简称r×c表。若所考虑的属性多于两个,也可按类似的方式作出列联表,称为多维列联表。 ==分析== 列联表又称交互分类表,所谓交互分类,是指同时一句两个变量的值,将所研究的个案分类。交互分{{百科小图片|bkdxy.jpg|列联表分析图}}类的目的是将两变量分组,然后比较各组的分布状况,以徐找变量间的关系。 观测数据按两个或更多属性(定性变量)分类时所列出的频数表。例如,对随机抽取的1000人按性别(男或女)及色觉(正常或[[色盲]])两个属性分类,得到二行二列的列联表(表1),又称2×2表或四格表。 一般,若总体中的个体可按两个属性<b><i>A</i></b>与<b><i>B</i></b>分类,<b><i>A</i></b>有<i>r</i>个等级<b><i>A</i></b>1,<b><i>A</i></b>2,…,<b><i>A</i></b>r;<b><i>B</i></b>有с个等级<b><i>B</i></b>1,<b><i>B</i></b>2,…,<b><i>B</i></b>c,从总体中抽取大小为<i>n</i>的样本设其中有<i>n</i>ij个属于等级<b><i>A</i></b>i和<b><i>B</i></b><i>j</i>,<i>n</i>ij称为频数,将<i>r</i>×с个<i>n</i>ij(<i>i</i>=1,2,…,<i>r</i>;<i>j</i>=1,2,…,с)排列为一个<i>r</i>行с列的二维列联表(表2),简称<i>r</i>×с表。若所考虑的属性多于两个,也可按类似的方式作出列联表,称为多维列联表。由于属性或定性变量的取值是离散的,因此多维列联表分析属于离散[[多元分析]]的范畴,列联表分析在应用统计,特别在医学、[[生物学]]及[[社会科学]]中,有重要的应用。 {{百科小图片|bkdxz.jpg|列联表}}列联表分析的基本问题是,判明所考察的各属性之间有无关联,即是否独立。如在前例中,问题是:一个人是否色盲与其性别是否有关?在 <i>r</i>×с表中,若以<i>p</i>i.、<i>p</i>.<i>j</i> 和<i>p</i>ij分别表示总体中的个体属于等级<b><i>A</i></b>i,属于等级<b><i>B</i></b><i>j</i>和同时属于<b><i>A</i></b>i、<b><i>B</i></b>j的概率(<i>p</i>i., <i>p</i>.<i>j</i>称边缘概率,<i>p</i>ij称格概率),“<b><i>A</i></b>、<b><i>B</i></b>两属性无关联”的假设可以表述为<i><b>H</b></i>0:<i>p</i>ij=<i>p</i>i.<i>p</i>.<i>j</i>,(<i>i</i>=1,2,…,<i>r</i>;<i>j</i>=1,2,…,с),未知参数 <i>p</i>ij、<i>p</i>i.、<i>p</i>.<i>j</i>的最大似然估计(见点估计)分别为分别为行和及列和(统称边缘和); 为[[样本大小]]。根据K.皮尔森(1904)的[[拟合优度检验]]或[[似然比]]检验(见[[假设检验]]),当<i>h</i>0成立,且一切 <i>p</i>i.>0和<i>p</i>.<i>j</i>>0时,统计量 的渐近分布是自由度为 (<i>r</i>-1)(с-1) 的ⅹ分布,式中<i>E</i>ij=<i>n</i>i.<i>n</i>.<i>j</i>/<i>n</i> 称为期望频数。当<i>n</i>足够大,且表中各格的<i>E</i>ij都不太小时,可以据此对<i>h</i>0作检验:若ⅹ值足够大,就拒绝假设<i>h</i>0,即认为<b><i>A</i></b>与<b><i>B</i></b>有关联。在前面的色觉问题中,曾按此检验,判定出性别与色觉之间存在某种关联。 若样本大小<i>n</i>不很大,则上述基于渐近分布的方法就不适用。对此,在四格表情形,R.A.费希尔(1935)提出了一种适用于所有 <i>n</i>的精确检验法。其思想是在固定各边缘和的条件下,根据超几何分布(见概率分布),可以计算观测频数出现任意一种特定排列的[[条件概率]]。把实际出现的观测频数排列,以及比它呈现更多关联迹象的所有可能排列的条件概率都算出来并相加,若所得结果小于给定的[[显著性水平]],则判定所{{百科小图片|bkdy0.jpg|列联表}}考虑的两个属性存在关联,从而拒绝<i>h</i>0。 在判定变量之间存在关联性后,可用多种定量指标来刻画其关联程度。例如,对一般的<i>r</i>×с表,可用列联系数表示之。 对一般的<i>r</i>×с表,特别是在多维表分析中,若无关联性(即独立性)的假设被拒绝,则通常还需要检验进一步的假设。例如对三维表,可能需要考虑一个变量是否与另外两个变量独立。对这类局部独立性的检验仍可用大样本的ⅹ检验法。但是在多维情形,变量之间的关联性可能相当复杂。许多假设,直接用格概率表示是不方便的。一种处理方法是仿照线性统计模型,将格概率(或期望频数)的对数表示成各变量的[[主效应]]及各阶交互效应等未知参数的线性形式。这种模型称为对数线性模型,在此模型下,变量独立性的假设等价于交互效应等于零的假设。此外,还可以利用对数线性模型,根据实际观测频数,对各种具体模型进行拟合,并对各未知参数进行估计。估计的方法一般采用最大似然方法。由于这一类似然方程的解常无显式表示,通常需用迭代法求解,计算工作量很大。因此,多维列联表分析只在近代高速电子计算机的使用日益普及的情况下,才得到较为充分的发展,逐渐达到可以实际应用的程度。
该页面使用的模板:
模板:百科小图片
(
查看源代码
)
返回至
列联表
。
导航
导航
最近更改
随机页面
Wiki工具
Wiki工具
特殊页面
页面工具
页面工具
用户页面工具
更多
链入页面
相关更改
页面信息
页面日志