變量值分布的集中趨勢和離散趨勢這2個特征,可用相應(yīng)的統(tǒng)計指標(biāo)描述,成為數(shù)量特征或特征量。知道了變量值分布的各種特征量,對變量值分布就有了總的概括性的了解,而不必羅列所有變量值,這就是計算統(tǒng)計指標(biāo)的意義。 描述變量值分布的集中趨勢用平均指標(biāo),常稱平均數(shù)(average)。平均數(shù)反映一群變量值的平均水平或集中位置,是統(tǒng)計中最重要和應(yīng)用最廣泛的統(tǒng)計指標(biāo)。對規(guī)定的同質(zhì)個體構(gòu)成的群體計算平均數(shù)才有意義,如分性別和分年齡計算兒童的平均身高有意義,而不分性別和不分年齡計算兒童的平均身高無意義。 常用的平均數(shù)有均數(shù)(mean)、幾何均數(shù)(geometric mean)和中位數(shù)(median),據(jù)變量值的不同分布類型選用不同的平均數(shù)。一般來說,對稱分布資料選用均數(shù);偏態(tài)分布資料選用幾何均數(shù)和中位數(shù)。實際研究某個醫(yī)學(xué)定量指標(biāo)時,通常是先憑理論或經(jīng)驗(包括查文獻)來判斷該指標(biāo)符合什么總體分布,至于用頻數(shù)表和頻數(shù)分布圖來判斷一個指標(biāo)符合什么總體分布,需要大樣本。 1.均數(shù)均數(shù)是算術(shù)平均數(shù)的簡稱,是最重要的平均數(shù)。均數(shù)最適用于對稱分布資料,特別是正態(tài)分布資料。總體均數(shù)用μ表示,樣本均數(shù)作 表示。 (1)直接法:由樣本n個變量值X1,X2…,Xn求均數(shù) 的公式為
式中Σ是求和的符號,n是樣本含量。本書在不會引起誤解的情況下簡寫成
例7·2某地抽樣得10名7歲男孩體重(kg)為17.3,18.0,19.4,20.6,21.2,21.8,22.5,23.2,24.0,25.5。求均數(shù)。
該地10名7歲男孩的體重均數(shù)(或平均體重)為21.4kg。 (2)加權(quán)法:當(dāng)相同變量值的個數(shù)較多時,可用加權(quán)法計算均數(shù)。如n個變量值已編制成頻數(shù)表,則可用加權(quán)法計算均數(shù)。設(shè)分為k組,每組的頻數(shù)為fi,fi個變量值的均數(shù)用其組中值Xi=(本組段下限+下組段下限)/2代替,則頻數(shù)fi為Xi的權(quán)(weight),加權(quán)法計算均數(shù)的公式為
例 7·3求例7·1的130名正常成年男子紅細胞數(shù)的均數(shù)。 據(jù)表7-2得表7-3,表中第(5)欄是為后面計算標(biāo)準(zhǔn)差用。
該地區(qū)130名正常成年男子紅細胞數(shù)的均數(shù)為4.794×1012/L。 要說明的是,對于偏態(tài)分布資料,均數(shù)雖不能較好地反映變量值的平均水平或集中位置,但據(jù)(7·1)式有n =ΣX,均數(shù)可間接反映n個變量值的總體數(shù)量水平(∑x)。 2.幾何均數(shù)幾何均數(shù)用于下述情況的偏態(tài)分布資料:變量值的變化呈倍數(shù)關(guān)系,特別是當(dāng)變量值取對數(shù)后服從正態(tài)分布,即對數(shù)正態(tài)分布資料。幾何均數(shù)用G表示。 (1)直接法:由樣本n個變量值X1,X2,…,Xn求幾何均數(shù)G的公式為
或用對數(shù)計算
例7·4設(shè)有5人的血清抗體效價為1:10,1:100,1:1000,1:10000,1:100000。求平均血清抗體效價。 以血清抗體效價的倒數(shù)作變量值,本例若求均數(shù),則得 =22222,5個變量值比 小的有4個,比 大的只有1個,因此 不能表示這5個變量值的平均水平或集中位置。本例應(yīng)求幾何均數(shù)。 5人的平均血清抗體效價為1:1000。 (2)加權(quán)法:當(dāng)相同變量值的個數(shù)較多時,如對于頻數(shù)表資料,則用加權(quán)法計算幾何均數(shù),例7·5 某地23名兒童接種麻疹疫苗后血清血凝抑制抗體滴度的頻數(shù)分布如表7-4的第(1)、(2)欄,求平均抗體滴度。
該地23名兒童血清血凝抑制的平均抗體滴度為1∶12.35。 3.中位數(shù)和百分位數(shù)把n個變量值從小到大排列,位于中間位置的變量值稱為中位數(shù),用M表示。中位數(shù)只是一個特定的百分位數(shù)(percentile)。把n個變量值從小到大排列,和第x百分位次對應(yīng)的變量值稱為第x百分位數(shù),用Px表示。全部變量值比Px小有x%的變量值,比Px大有(100-x)%的變量值。顯然中位數(shù)M即第50百分位數(shù)P50。關(guān)于中位數(shù)以外其他百分位數(shù)的用途見后述內(nèi)容。 中位數(shù)一般用于不宜或不能用幾何均數(shù)的偏態(tài)分布資料:如變量值分布規(guī)律不清payment-defi.com/rencai/楚、有少數(shù)的特小或特大值;又如變量值分布一端或兩端無確定數(shù)值,只是小于或大于某個數(shù)值(求不出均數(shù)或幾何均數(shù))。另外當(dāng)資料分布不明時,即判斷不出資料是否服從正態(tài)分布或?qū)?shù)正態(tài)分布時,也只好用中位數(shù)。 中位數(shù)一定在變量值分布的中心位置。對于正態(tài)分布總體,均數(shù)等于中位數(shù);對于對數(shù)正態(tài)分布總體,幾何均數(shù)等于中位數(shù)。但對于正態(tài)分布資料和對數(shù)正態(tài)分布資料,若用樣本中位數(shù)比用樣本均數(shù)和樣本幾何均數(shù)會降低推斷總體均數(shù)和總體幾何均數(shù)的靈敏度。 (1)用原始變量值直接計算中位數(shù):把n個變量值從小到大排列后記為Xi,即有X1≤X2≤…≤Xn,則中位數(shù)為
例7·6 某病患者5人的潛伏期(天)從小到大排列為2,3,6,8,20。求中位數(shù)。
5人的平均潛伏期為6天。 例7·7 某病患者8人的潛伏期(天)從小到大排列為5,6,8,9,11,11,13,>16。求平均潛伏期。
8人的平均潛伏期為10天。 (2)用頻數(shù)表計算中位數(shù)和百分位數(shù):條件是樣本含量(n)大。按所分組段,由小到大計算累計頻數(shù)和累計頻率。先從累計頻率找出Px所在組段,然后按下述公式計算中位數(shù)M(P50)和其他百分位數(shù)Px:
式中fx為Px所在組段的頻數(shù),i為該組段的組距,L為其下限,∑fL為小于L的各組段累計頻數(shù)。 例7·8 238名正常人的發(fā)汞值如表7-5的第(1)、(2)欄,求中位數(shù)和百分位數(shù)P25、P75。 由表7-5的第(4)、(1)欄可見,M(P50)在1.1~組段,F(xiàn)L=1.1,i=0.4,fx=60,∑fL=86,代入(7·8)式得
同樣可得
238名正常人發(fā)汞值的中位數(shù)為1.32μg/g,P25和P75為0.94μg/g和1.77μg/g。 |