衛(wèi)生學(xué)電子教材-第七章計量資料的統(tǒng)計方法:第一節(jié) 計量資料的統(tǒng)計描述

來源：南華大學(xué)資源網(wǎng) 精品課程網(wǎng)

衛(wèi)生學(xué)電子教材第七章計量資料的統(tǒng)計方法:第一節(jié) 計量資料的統(tǒng)計描述:◎<一、計量資料的頻數(shù)表>◎<二、平均指標(biāo)>◎<三、變異指標(biāo)>一、計量資料的頻數(shù)表設(shè)X為觀察單位的變量（定量指標(biāo))，n個觀察單位的變量值為：X1，X2，…，Xn。如果n較大，可通過資料整理，編制頻數(shù)分布（frequency distribution)表，簡稱頻數(shù)表，用以描述變量值的分布情況，觀察分布規(guī)律。為了使變量值的分布規(guī)律形象直觀，還可繪制頻數(shù)分布圖。例7·1某地區(qū)130名www.med12

◎<一、計量資料的頻數(shù)表>	◎<二、平均指標(biāo)>	◎<三、變異指標(biāo)>

一、計量資料的頻數(shù)表

設(shè)X為觀察單位的變量（定量指標(biāo))，n個觀察單位的變量值為：X₁，X₂，…，X_n。如果n較大，可通過資料整理，編制頻數(shù)分布（frequency distribution)表，簡稱頻數(shù)表，用以描述變量值的分布情況，觀察分布規(guī)律。為了使變量值的分布規(guī)律形象直觀，還可繪制頻數(shù)分布圖。

例7·1某地區(qū)130名payment-defi.com/yishi/正常成年男子的紅細胞數(shù)如表7－1，編制頻數(shù)表和繪制頻數(shù)分布圖。

1.找全距一群變量值的最大值和最小值之差稱為全距（range)，亦稱極差。本例從表7－1找出最大值為5.88，最小值為3.79，故全距為5.88-3.79=2.09（10¹²/L)。

2.定組距一般把n個變量值分為10～15組。若n較小，組數(shù)可相應(yīng)少些；n較大，組數(shù)可酌情多些，以能揭示變量值的分布規(guī)律為宜。各組段的組距可相等，也可不等，根據(jù)該群變量值的實際情況而定，一般用等距。本例擬分10組左右，等組距。將全距除以擬分的組數(shù)2.09/10=0.209，得組距的約數(shù)，再將約數(shù)酌情調(diào)整到較方便的數(shù)作為組距，本例取0.20為組距。

3.寫組段每個組段的起點稱組下限，終點稱組上限。第1組段應(yīng)包括變量最小值，故其下限取小于最小值的方便數(shù)，本例取小于3.79的3.70作為第1組段的下限。本例變量為連續(xù)變量，組段應(yīng)寫為上限開口型：3.70～，3.90～，4.10～，……。第2組段的下限3.90為第1組段的上限，第3組段的下限4.10為第2組段的上限，余此類推。最后1個組段應(yīng)包括變量最大值，一般寫為上限閉口型，本例最大值為5.88，最后1個組段寫為5.70～5.90。如表7－2第(1)欄，本例共分11組，寫成11個組段。

對于離散變量，如年齡（歲)取值為0，1，2，……，則既可上限開口型，如0～，5～，10～，……；也可寫成上限閉口型0～4，5～9，10～14，……。

4.劃記如表7－2第(2)欄，將表7－1的130個變量值劃記歸入相應(yīng)的組段。表7－2第(3)欄為每個組段的合計變量值個數(shù)，稱頻數(shù)。表7－2的第(1)欄和第(3)欄即構(gòu)成頻數(shù)表。

以變量為橫軸，頻數(shù)為縱軸，本例據(jù)表7－2的頻數(shù)分布表繪制出圖7－1的頻數(shù)分布圖。繪制頻數(shù)分布圖必須以相等組距的頻數(shù)值作縱坐標(biāo)值。如果絕大多數(shù)組距相等（記為i)，以該組距的頻數(shù)值作縱坐標(biāo)值，若有某個組距（記為X·i)和該組距（i)不相等，則其頻數(shù)值除以X作縱坐標(biāo)值。

頻數(shù)表和頻數(shù)分布圖用以描述變量值的分布特征和揭示變量值的分布規(guī)律。變量值的分布有2個重要特征：集中趨勢（central tendency)和離散趨勢（tendency ofdispersion)。集中趨勢是指變量值的集中位置所在；離散趨勢是指變量值圍繞集中位置的

分布情況。根據(jù)變量值的分布規(guī)律，可把變量值分布分為對稱分布和不對稱分布。對稱分布指集中位置在正中，左右兩側(cè)的頻數(shù)分布大體對稱（指樣本變量值分布，理論上的總體變量值分布為完全對稱)，最常見的對稱分布為正態(tài)分布（見本章第二節(jié))。不對稱分布則是一種偏態(tài)分布，是指集中位置偏向一側(cè)，左右兩側(cè)頻數(shù)分布不對稱。偏態(tài)分布又可分為正偏態(tài)分布和負偏態(tài)分布。如果集中位置偏向變量值小的一側(cè)，稱為正偏態(tài)分布；如果集中位置偏向變量值大的一側(cè)，稱為負偏態(tài)分布。醫(yī)學(xué)指標(biāo)的偏態(tài)分布多為正偏態(tài)分布。本例觀察表7－2和圖7－1，可見正常成年男子的紅細胞數(shù)的分布為對稱分布。對稱分布是正態(tài)分布的必要條件。

用頻數(shù)表還便于發(fā)現(xiàn)特大或特小的可疑變量值。有時在頻數(shù)表的兩端出現(xiàn)連續(xù)幾個組段的頻數(shù)為0后，又出現(xiàn)1個或幾個特大值或特小值，使人懷疑這1個或幾個變量值是否正確。如果檢查出可疑值是錯誤的，能改正則改正，否則剔除。

對于計量資料，不同類型的分布所采用的描述統(tǒng)計指標(biāo)和統(tǒng)計分析方法有所不同。

返回頂部

二、平均指標(biāo)

變量值分布的集中趨勢和離散趨勢這2個特征，可用相應(yīng)的統(tǒng)計指標(biāo)描述，成為數(shù)量特征或特征量。知道了變量值分布的各種特征量，對變量值分布就有了總的概括性的了解，而不必羅列所有變量值，這就是計算統(tǒng)計指標(biāo)的意義。

描述變量值分布的集中趨勢用平均指標(biāo)，常稱平均數(shù)（average)。平均數(shù)反映一群變量值的平均水平或集中位置，是統(tǒng)計中最重要和應(yīng)用最廣泛的統(tǒng)計指標(biāo)。對規(guī)定的同質(zhì)個體構(gòu)成的群體計算平均數(shù)才有意義，如分性別和分年齡計算兒童的平均身高有意義，而不分性別和不分年齡計算兒童的平均身高無意義。

常用的平均數(shù)有均數(shù)（mean)、幾何均數(shù)（geometric mean)和中位數(shù)（median)，據(jù)變量值的不同分布類型選用不同的平均數(shù)。一般來說，對稱分布資料選用均數(shù)；偏態(tài)分布資料選用幾何均數(shù)和中位數(shù)。實際研究某個醫(yī)學(xué)定量指標(biāo)時，通常是先憑理論或經(jīng)驗（包括查文獻)來判斷該指標(biāo)符合什么總體分布，至于用頻數(shù)表和頻數(shù)分布圖來判斷一個指標(biāo)符合什么總體分布，需要大樣本。

1.均數(shù)均數(shù)是算術(shù)平均數(shù)的簡稱，是最重要的平均數(shù)。均數(shù)最適用于對稱分布資料，特別是正態(tài)分布資料。總體均數(shù)用μ表示，樣本均數(shù)作表示。

(1)直接法：由樣本n個變量值X₁，X₂…，X_n求均數(shù) 的公式為

式中Σ是求和的符號，n是樣本含量。本書在不會引起誤解的情況下簡寫成

例7·2某地抽樣得10名7歲男孩體重（kg)為17.3，18.0，19.4，20.6，21.2，21.8，22.5，23.2，24.0，25.5。求均數(shù)。

該地10名7歲男孩的體重均數(shù)（或平均體重)為21.4kg。

(2)加權(quán)法：當(dāng)相同變量值的個數(shù)較多時，可用加權(quán)法計算均數(shù)。如n個變量值已編制成頻數(shù)表，則可用加權(quán)法計算均數(shù)。設(shè)分為k組，每組的頻數(shù)為f_i，f_i個變量值的均數(shù)用其組中值X_i＝（本組段下限+下組段下限)/2代替，則頻數(shù)f_i為X_i的權(quán)（weight)，加權(quán)法計算均數(shù)的公式為

例 7·3求例7·1的130名正常成年男子紅細胞數(shù)的均數(shù)。

據(jù)表7－2得表7－3，表中第(5)欄是為后面計算標(biāo)準(zhǔn)差用。

該地區(qū)130名正常成年男子紅細胞數(shù)的均數(shù)為4.794×10¹²/L。

要說明的是，對于偏態(tài)分布資料，均數(shù)雖不能較好地反映變量值的平均水平或集中位置，但據(jù)（7·1)式有n =ΣX，均數(shù)可間接反映n個變量值的總體數(shù)量水平（∑x)。

2.幾何均數(shù)幾何均數(shù)用于下述情況的偏態(tài)分布資料：變量值的變化呈倍數(shù)關(guān)系，特別是當(dāng)變量值取對數(shù)后服從正態(tài)分布，即對數(shù)正態(tài)分布資料。幾何均數(shù)用G表示。

(1)直接法：由樣本n個變量值X₁，X₂，…，X_n求幾何均數(shù)G的公式為

或用對數(shù)計算

例7·4設(shè)有5人的血清抗體效價為1：10，1：100，1：1000，1：10000，1：100000。求平均血清抗體效價。

以血清抗體效價的倒數(shù)作變量值，本例若求均數(shù)，則得 =22222，5個變量值比小的有4個，比大的只有1個，因此不能表示這5個變量值的平均水平或集中位置。本例應(yīng)求幾何均數(shù)。

5人的平均血清抗體效價為1：1000。

(2)加權(quán)法：當(dāng)相同變量值的個數(shù)較多時，如對于頻數(shù)表資料，則用加權(quán)法計算幾何均數(shù)，例7·5 某地23名兒童接種麻疹疫苗后血清血凝抑制抗體滴度的頻數(shù)分布如表7-4的第(1)、(2)欄，求平均抗體滴度。

該地23名兒童血清血凝抑制的平均抗體滴度為1∶12.35。

3.中位數(shù)和百分位數(shù)把n個變量值從小到大排列，位于中間位置的變量值稱為中位數(shù)，用M表示。中位數(shù)只是一個特定的百分位數(shù)（percentile)。把n個變量值從小到大排列，和第x百分位次對應(yīng)的變量值稱為第x百分位數(shù)，用Px表示。全部變量值比Px小有x%的變量值，比Px大有（100-x)%的變量值。顯然中位數(shù)M即第50百分位數(shù)P₅₀。關(guān)于中位數(shù)以外其他百分位數(shù)的用途見后述內(nèi)容。

中位數(shù)一般用于不宜或不能用幾何均數(shù)的偏態(tài)分布資料：如變量值分布規(guī)律不清payment-defi.com/rencai/楚、有少數(shù)的特小或特大值；又如變量值分布一端或兩端無確定數(shù)值，只是小于或大于某個數(shù)值（求不出均數(shù)或幾何均數(shù))。另外當(dāng)資料分布不明時，即判斷不出資料是否服從正態(tài)分布或?qū)?shù)正態(tài)分布時，也只好用中位數(shù)。

中位數(shù)一定在變量值分布的中心位置。對于正態(tài)分布總體，均數(shù)等于中位數(shù)；對于對數(shù)正態(tài)分布總體，幾何均數(shù)等于中位數(shù)。但對于正態(tài)分布資料和對數(shù)正態(tài)分布資料，若用樣本中位數(shù)比用樣本均數(shù)和樣本幾何均數(shù)會降低推斷總體均數(shù)和總體幾何均數(shù)的靈敏度。

(1)用原始變量值直接計算中位數(shù)：把n個變量值從小到大排列后記為X_i，即有X₁≤X₂≤…≤X_n，則中位數(shù)為

例7·6 某病患者5人的潛伏期（天)從小到大排列為2，3，6，8，20。求中位數(shù)。

5人的平均潛伏期為6天。

例7·7 某病患者8人的潛伏期（天)從小到大排列為5，6，8，9，11，11，13，＞16。求平均潛伏期。

8人的平均潛伏期為10天。

(2)用頻數(shù)表計算中位數(shù)和百分位數(shù)：條件是樣本含量（n)大。按所分組段，由小到大計算累計頻數(shù)和累計頻率。先從累計頻率找出P_x所在組段，然后按下述公式計算中位數(shù)M（P₅₀)和其他百分位數(shù)P_x：

式中f_x為P_x所在組段的頻數(shù)，i為該組段的組距，L為其下限，∑f_L為小于L的各組段累計頻數(shù)。

例7·8 238名正常人的發(fā)汞值如表7-5的第(1)、(2)欄，求中位數(shù)和百分位數(shù)P₂₅、P₇₅。

由表7-5的第(4)、(1)欄可見，M（P₅₀)在1.1～組段�，F(xiàn)L=1.1，i=0.4，fx=60，∑f_L=86，代入（7·8)式得

同樣可得

238名正常人發(fā)汞值的中位數(shù)為1.32μg/g，P₂₅和P₇₅為0.94μg/g和1.77μg/g。

返回頂部

三、變異指標(biāo)

描述變量值分布的離散趨勢用變異指標(biāo)。變異指標(biāo)反映一群變量值的變異程度或離散程度。常用的變異指標(biāo)有全距、標(biāo)準(zhǔn)差（standard deviation)、四分位數(shù)間距（interquar-tile)和變異系數(shù)（coefficient of variation)，其中最常用的變異指標(biāo)是標(biāo)準(zhǔn)差。不同變異指標(biāo)的用途不同。全距對變量值的各種分布類型資料都適用；標(biāo)準(zhǔn)差和均數(shù)配套，變異系數(shù)作為輔助變異指標(biāo)，適用于對稱分布資料，特別是正態(tài)分布資料；四分位數(shù)間距和中位數(shù)配套，一般用于不對稱的偏態(tài)分布資料。

變異指標(biāo)和平均指標(biāo)是彼此獨立的。一群變量值的變異指標(biāo)值越大，說明該群變量值的變異程度或離散程度越大，這是和平均指標(biāo)值的大小無關(guān)的。平均指標(biāo)和變異指標(biāo)相結(jié)合，就可對一群變量值，特別是正態(tài)分布資料的一群變量值，作很好的描述。

1.全距全距表示一群變量值的最大值與最小值之差，用R表示。全距反映樣本變量值的變異范圍，簡單明了，各種分布類型的資料都可采用。但不足之處是全距只考慮了最大值與最小值的差別，而未考慮其他變量值的差別。例如設(shè)甲組變量值為16，19，20，21，24；乙組變量值為16，17，20，23，24。甲組和乙組的全距都為24-16=8。但甲組其他3個變量值19，20，21比乙組其他3個變量值17，20，23的差別小，也就是說全距不能準(zhǔn)確反映樣本所有變量值的變異程度。另外，最大值和最小值是樣本的2個極端值，隨樣本不同而變化大。故全距只能作為參考變異指標(biāo)，不能作為主要變異指標(biāo)。由于全距的意義明顯，可只表示為極小值～極大值，如表7-1資料的全距表示為3.79～5.88。

2.標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差考慮了一群變量值中所有變量值的差別，用于對稱分布資料，特別是正態(tài)分布資料，是最為恰當(dāng)?shù)�。總體標(biāo)準(zhǔn)差用σ表示，樣本標(biāo)準(zhǔn)差用s表示。

設(shè)為有限總體，變量值的個數(shù)為N，總體均數(shù)為μ，則總體標(biāo)準(zhǔn)差的定義公式為

總體均數(shù)μ一般是未知的，若用變量值個數(shù)為n的樣本均數(shù) 估計，則樣本標(biāo)準(zhǔn)差的定義公式為

為什么（7·10)式的分母用n-1而不用n？這是因為據(jù)數(shù)理統(tǒng)計理論，若用n，則樣本標(biāo)準(zhǔn)差s平均說來是總體標(biāo)準(zhǔn)差σ的偏低估計；而用n-1，則s能很好的估計σ。據(jù)此引入了統(tǒng)計中的常用術(shù)語——自由度（degree of freedom)，用γ表示�，F(xiàn)γ=n-1，可以這樣理解：∑（X- )²是n個變量值的離均差平方和，由于又是通過n個X值求出來的，于是受了1個條件限制，只有n—1個離均差平方是獨立的。一般說來，變量值若求離均差平方和，則自由度等于離均差平方的個數(shù)減去限制條件個數(shù)。

標(biāo)準(zhǔn)差的單位是原變量的單位。標(biāo)準(zhǔn)差的平方σ²和s²叫做方差（variance)，其單位是原變量單位的平方。也可用方差代替標(biāo)準(zhǔn)差作變異指標(biāo)。

(1)直接法：由樣本n個變量值X₁，X₂，……，X_n求標(biāo)準(zhǔn)差s的公式為

（7·11)式和（7·10)式是等價的。

例7·9 求例7·2中10名7歲男孩體重的標(biāo)準(zhǔn)差。

17.3+18.0+…+25.5=213.5

17.3²+18.0²+…+25.5²=4619.43

該地10名7歲男孩體重的標(biāo)準(zhǔn)差為2.6kg。

(2)加權(quán)法：當(dāng)相同變量值的個數(shù)較多時，和加權(quán)法計算均數(shù)的（7·2)式配套，加權(quán)法計算標(biāo)準(zhǔn)差的公式為

例7·10 求例7·1中的130名正常成年男子紅細胞數(shù)的標(biāo)準(zhǔn)差。在例7·3中的表7-3已算得∑fX=623.20，∑fX²=3009.12，故

該地區(qū)130名正常成年男子的紅細胞數(shù)的標(biāo)準(zhǔn)差為0.409×10¹²/L。

3.四分位數(shù)間距四分位數(shù)為特定的百分位數(shù)，用Q表示。下四分位數(shù)Q_L=P₂₅，上四分位數(shù)Q_U=P₇₅，四分位數(shù)間距即Q_U-Q_L。全部變量值比Q_L小有1/4的變量值，比Q_U大有1/4的變量值。四分位數(shù)間距內(nèi)包含全部變量值的1/2，可看作中間1/2變量值的全距。四分位數(shù)間距越大，變量值的變異程度或離散程度越大。也可用其他百分位數(shù)間距和中位數(shù)配套作變異指標(biāo)，如P₈₀-P₂₀，P₉₀-P₁₀，P₉₅-P₅等。但四分位數(shù)間距較為常用，因為越靠近兩端的百分位數(shù)越不穩(wěn)定。

例7·11 求例7·8中238名正常人發(fā)汞值的四分位數(shù)間距。

在例7·8中已算得P₂₅=0.94μg/g，P₇₅=1.77μg/g，故

Q_U-Q_L=1.77-0.94=0.83（μg/g)

238名正常人發(fā)汞值的四分位數(shù)間距為0.83μg/g。

現(xiàn)說明求幾何均數(shù)的一群變量值，如何描述其變異程度或離散程度。若X服從對數(shù)正態(tài)分布，則Y=lgX服從正態(tài)分布，把樣本的n個X值轉(zhuǎn)換成n

描述變異程度或離散程度。

4.變異系數(shù)對于對稱分布資料，特別是正態(tài)分布資料，標(biāo)準(zhǔn)差反映變量值的絕對變異程度。當(dāng)兩組或多組變量值的單位不同或均數(shù)相差較大時，不能或不宜用兩個或多個標(biāo)準(zhǔn)差的大小來比較其變異程度的大小，為此引入反映變量值的相對變異程度的變異系數(shù)，樣本變異系數(shù)CV的公式為

例7·12 某地20歲男子160人，身高均數(shù)為166.06cm，標(biāo)準(zhǔn)差為4.95cm；體重均數(shù)為53.72kg，標(biāo)準(zhǔn)差為4.96kg。比較身高與體重的變異程度。

20歲男子體重的變異程度比身高的變異程度大。

例7·13 某地不同年齡女童的身高資料如表7-6的第(1)、(2)、(3)、(4)欄，比較不同年齡身高的變異程度。

由表7-6第(5)欄算得的變異系數(shù)可見，1月至5.5歲女童隨年齡增加身高的變異程度減小。

返回頂部

...

南華大學(xué)醫(yī)學(xué)考試網(wǎng)

左氧氟沙星

骨髓來源的間質(zhì)干細胞用于制備治療肝纖維化

治療心腦血管疾病的藥物以及制備方法

注射用甲硫氨酸維B1

鹽酸米諾環(huán)素軟膏