醫(yī)學(xué)全在線
搜索更多精品課程:
熱 門:外科內(nèi)科學(xué)婦產(chǎn)科兒科眼科耳鼻咽喉皮膚性病學(xué)骨科學(xué)全科醫(yī)學(xué)醫(yī)學(xué)免疫學(xué)生理學(xué)病理學(xué)診斷學(xué)急診醫(yī)學(xué)傳染病學(xué)醫(yī)學(xué)影像藥 學(xué):藥理學(xué)藥物化學(xué)藥物分析藥物毒理學(xué)生物技術(shù)制藥生藥學(xué)中藥學(xué)藥用植物學(xué)方劑學(xué)衛(wèi)生毒理學(xué)檢 驗:理化檢驗 臨床檢驗基礎(chǔ)護 理:外科護理婦產(chǎn)科護理兒科護理 社區(qū)護理五官護理護理學(xué)內(nèi)科護理護理管理學(xué)中 醫(yī):中醫(yī)基礎(chǔ)理論中醫(yī)學(xué)針灸學(xué)刺法灸法學(xué)口 腔:口腔內(nèi)科口腔外科口腔正畸口腔修復(fù)口腔組織病理生物化學(xué):生物化學(xué)細胞生物學(xué)病原生物學(xué)醫(yī)學(xué)生物學(xué)分析化學(xué)醫(yī)用化學(xué)其 它:人體解剖學(xué)衛(wèi)生統(tǒng)計學(xué)人體寄生蟲學(xué)儀器分析健康評估流行病學(xué)臨床麻醉學(xué)社會心理學(xué)康復(fù)醫(yī)學(xué)法醫(yī)學(xué)核醫(yī)學(xué)危重病學(xué)中國醫(yī)史學(xué)
您現(xiàn)在的位置: 醫(yī)學(xué)全在線 > 精品課程 > 衛(wèi)生學(xué) > 南華大學(xué) > 正文:衛(wèi)生學(xué)電子教材:第一節(jié)  計量資料的統(tǒng)計描述
    

衛(wèi)生學(xué)電子教材-第七章 計量資料的統(tǒng)計方法:第一節(jié) 計量資料的統(tǒng)計描述

衛(wèi)生學(xué)電子教材第七章 計量資料的統(tǒng)計方法:第一節(jié) 計量資料的統(tǒng)計描述:◎<一、計量資料的頻數(shù)表>◎<二、平均指標(biāo)>◎<三、變異指標(biāo)>一、計量資料的頻數(shù)表 設(shè)X為觀察單位的變量(定量指標(biāo)),n個觀察單位的變量值為:X1,X2,…,Xn。如果n較大,可通過資料整理,編制頻數(shù)分布(frequency distribution)表,簡稱頻數(shù)表,用以描述變量值的分布情況,觀察分布規(guī)律。為了使變量值的分布規(guī)律形象直觀,還可繪制頻數(shù)分布圖。例7·1某地區(qū)130名www.med12
<一、計量資料的頻數(shù)表><二、平均指標(biāo)><三、變異指標(biāo)>
一、計量資料的頻數(shù)表

 

設(shè)X為觀察單位的變量(定量指標(biāo)),n個觀察單位的變量值為:X1,X2,…,Xn。如果n較大,可通過資料整理,編制頻數(shù)分布(frequency distribution)表,簡稱頻數(shù)表,用以描述變量值的分布情況,觀察分布規(guī)律。為了使變量值的分布規(guī)律形象直觀,還可繪制頻數(shù)分布圖。

例7·1某地區(qū)130名payment-defi.com/yishi/正常成年男子的紅細胞數(shù)如表7-1,編制頻數(shù)表和繪制頻數(shù)分布圖。

1.找全距一群變量值的最大值和最小值之差稱為全距(range),亦稱極差。本例從表7-1找出最大值為5.88,最小值為3.79,故全距為5.88-3.79=2.09(1012/L)。

2.定組距一般把n個變量值分為10~15組。若n較小,組數(shù)可相應(yīng)少些;n較大,組數(shù)可酌情多些,以能揭示變量值的分布規(guī)律為宜。各組段的組距可相等,也可不等,根據(jù)該群變量值的實際情況而定,一般用等距。本例擬分10組左右,等組距。將全距除以擬分的組數(shù)2.09/10=0.209,得組距的約數(shù),再將約數(shù)酌情調(diào)整到較方便的數(shù)作為組距,本例取0.20為組距。

3.寫組段每個組段的起點稱組下限,終點稱組上限。第1組段應(yīng)包括變量最小值,故其下限取小于最小值的方便數(shù),本例取小于3.79的3.70作為第1組段的下限。本例變量為連續(xù)變量,組段應(yīng)寫為上限開口型:3.70~,3.90~,4.10~,……。第2組段的下限3.90為第1組段的上限,第3組段的下限4.10為第2組段的上限,余此類推。最后1個組段應(yīng)包括變量最大值,一般寫為上限閉口型,本例最大值為5.88,最后1個組段寫為5.70~5.90。如表7-2第(1)欄,本例共分11組,寫成11個組段。

對于離散變量,如年齡(歲)取值為0,1,2,……,則既可上限開口型,如0~,5~,10~,……;也可寫成上限閉口型0~4,5~9,10~14,……。

4.劃記如表7-2第(2)欄,將表7-1的130個變量值劃記歸入相應(yīng)的組段。表7-2第(3)欄為每個組段的合計變量值個數(shù),稱頻數(shù)。表7-2的第(1)欄和第(3)欄即構(gòu)成頻數(shù)表。

以變量為橫軸,頻數(shù)為縱軸,本例據(jù)表7-2的頻數(shù)分布表繪制出圖7-1的頻數(shù)分布圖。繪制頻數(shù)分布圖必須以相等組距的頻數(shù)值作縱坐標(biāo)值。如果絕大多數(shù)組距相等(記為i),以該組距的頻數(shù)值作縱坐標(biāo)值,若有某個組距(記為X·i)和該組距(i)不相等,則其頻數(shù)值除以X作縱坐標(biāo)值。

頻數(shù)表和頻數(shù)分布圖用以描述變量值的分布特征和揭示變量值的分布規(guī)律。變量值的分布有2個重要特征:集中趨勢(central tendency)和離散趨勢(tendency ofdispersion)。集中趨勢是指變量值的集中位置所在;離散趨勢是指變量值圍繞集中位置的 

分布情況。根據(jù)變量值的分布規(guī)律,可把變量值分布分為對稱分布和不對稱分布。對稱分布指集中位置在正中,左右兩側(cè)的頻數(shù)分布大體對稱(指樣本變量值分布,理論上的總體變量值分布為完全對稱),最常見的對稱分布為正態(tài)分布(見本章第二節(jié))。不對稱分布則是一種偏態(tài)分布,是指集中位置偏向一側(cè),左右兩側(cè)頻數(shù)分布不對稱。偏態(tài)分布又可分為正偏態(tài)分布和負偏態(tài)分布。如果集中位置偏向變量值小的一側(cè),稱為正偏態(tài)分布;如果集中位置偏向變量值大的一側(cè),稱為負偏態(tài)分布。醫(yī)學(xué)指標(biāo)的偏態(tài)分布多為正偏態(tài)分布。本例觀察表7-2和圖7-1,可見正常成年男子的紅細胞數(shù)的分布為對稱分布。對稱分布是正態(tài)分布的必要條件。

用頻數(shù)表還便于發(fā)現(xiàn)特大或特小的可疑變量值。有時在頻數(shù)表的兩端出現(xiàn)連續(xù)幾個組段的頻數(shù)為0后,又出現(xiàn)1個或幾個特大值或特小值,使人懷疑這1個或幾個變量值是否正確。如果檢查出可疑值是錯誤的,能改正則改正,否則剔除。

對于計量資料,不同類型的分布所采用的描述統(tǒng)計指標(biāo)和統(tǒng)計分析方法有所不同。

 

返回頂部

二、平均指標(biāo)

  

變量值分布的集中趨勢和離散趨勢這2個特征,可用相應(yīng)的統(tǒng)計指標(biāo)描述,成為數(shù)量特征或特征量。知道了變量值分布的各種特征量,對變量值分布就有了總的概括性的了解,而不必羅列所有變量值,這就是計算統(tǒng)計指標(biāo)的意義。

描述變量值分布的集中趨勢用平均指標(biāo),常稱平均數(shù)(average)。平均數(shù)反映一群變量值的平均水平或集中位置,是統(tǒng)計中最重要和應(yīng)用最廣泛的統(tǒng)計指標(biāo)。對規(guī)定的同質(zhì)個體構(gòu)成的群體計算平均數(shù)才有意義,如分性別和分年齡計算兒童的平均身高有意義,而不分性別和不分年齡計算兒童的平均身高無意義。

常用的平均數(shù)有均數(shù)(mean)、幾何均數(shù)(geometric mean)和中位數(shù)(median),據(jù)變量值的不同分布類型選用不同的平均數(shù)。一般來說,對稱分布資料選用均數(shù);偏態(tài)分布資料選用幾何均數(shù)和中位數(shù)。實際研究某個醫(yī)學(xué)定量指標(biāo)時,通常是先憑理論或經(jīng)驗(包括查文獻)來判斷該指標(biāo)符合什么總體分布,至于用頻數(shù)表和頻數(shù)分布圖來判斷一個指標(biāo)符合什么總體分布,需要大樣本。

1.均數(shù)均數(shù)是算術(shù)平均數(shù)的簡稱,是最重要的平均數(shù)。均數(shù)最適用于對稱分布資料,特別是正態(tài)分布資料。總體均數(shù)用μ表示,樣本均數(shù)作 表示。

(1)直接法:由樣本n個變量值X1,X2…,Xn求均數(shù) 的公式為

式中Σ是求和的符號,n是樣本含量。本書在不會引起誤解的情況下簡寫成

例7·2某地抽樣得10名7歲男孩體重(kg)為17.3,18.0,19.4,20.6,21.2,21.8,22.5,23.2,24.0,25.5。求均數(shù)。

該地10名7歲男孩的體重均數(shù)(或平均體重)為21.4kg。

(2)加權(quán)法:當(dāng)相同變量值的個數(shù)較多時,可用加權(quán)法計算均數(shù)。如n個變量值已編制成頻數(shù)表,則可用加權(quán)法計算均數(shù)。設(shè)分為k組,每組的頻數(shù)為fi,fi個變量值的均數(shù)用其組中值Xi=(本組段下限+下組段下限)/2代替,則頻數(shù)fi為Xi的權(quán)(weight),加權(quán)法計算均數(shù)的公式為

例 7·3求例7·1的130名正常成年男子紅細胞數(shù)的均數(shù)。

據(jù)表7-2得表7-3,表中第(5)欄是為后面計算標(biāo)準(zhǔn)差用。

 

該地區(qū)130名正常成年男子紅細胞數(shù)的均數(shù)為4.794×1012/L。

要說明的是,對于偏態(tài)分布資料,均數(shù)雖不能較好地反映變量值的平均水平或集中位置,但據(jù)(7·1)式有n =ΣX,均數(shù)可間接反映n個變量值的總體數(shù)量水平(∑x)。

2.幾何均數(shù)幾何均數(shù)用于下述情況的偏態(tài)分布資料:變量值的變化呈倍數(shù)關(guān)系,特別是當(dāng)變量值取對數(shù)后服從正態(tài)分布,即對數(shù)正態(tài)分布資料。幾何均數(shù)用G表示。

(1)直接法:由樣本n個變量值X1,X2,…,Xn求幾何均數(shù)G的公式為

或用對數(shù)計算

例7·4設(shè)有5人的血清抗體效價為1:10,1:100,1:1000,1:10000,1:100000。求平均血清抗體效價。

以血清抗體效價的倒數(shù)作變量值,本例若求均數(shù),則得 =22222,5個變量值比 小的有4個,比 大的只有1個,因此 不能表示這5個變量值的平均水平或集中位置。本例應(yīng)求幾何均數(shù)。

5人的平均血清抗體效價為1:1000。

(2)加權(quán)法:當(dāng)相同變量值的個數(shù)較多時,如對于頻數(shù)表資料,則用加權(quán)法計算幾何均數(shù),例7·5 某地23名兒童接種麻疹疫苗后血清血凝抑制抗體滴度的頻數(shù)分布如表7-4的第(1)、(2)欄,求平均抗體滴度。

該地23名兒童血清血凝抑制的平均抗體滴度為1∶12.35。

3.中位數(shù)和百分位數(shù)把n個變量值從小到大排列,位于中間位置的變量值稱為中位數(shù),用M表示。中位數(shù)只是一個特定的百分位數(shù)(percentile)。把n個變量值從小到大排列,和第x百分位次對應(yīng)的變量值稱為第x百分位數(shù),用Px表示。全部變量值比Px小有x%的變量值,比Px大有(100-x)%的變量值。顯然中位數(shù)M即第50百分位數(shù)P50。關(guān)于中位數(shù)以外其他百分位數(shù)的用途見后述內(nèi)容。

中位數(shù)一般用于不宜或不能用幾何均數(shù)的偏態(tài)分布資料:如變量值分布規(guī)律不清payment-defi.com/rencai/楚、有少數(shù)的特小或特大值;又如變量值分布一端或兩端無確定數(shù)值,只是小于或大于某個數(shù)值(求不出均數(shù)或幾何均數(shù))。另外當(dāng)資料分布不明時,即判斷不出資料是否服從正態(tài)分布或?qū)?shù)正態(tài)分布時,也只好用中位數(shù)。

中位數(shù)一定在變量值分布的中心位置。對于正態(tài)分布總體,均數(shù)等于中位數(shù);對于對數(shù)正態(tài)分布總體,幾何均數(shù)等于中位數(shù)。但對于正態(tài)分布資料和對數(shù)正態(tài)分布資料,若用樣本中位數(shù)比用樣本均數(shù)和樣本幾何均數(shù)會降低推斷總體均數(shù)和總體幾何均數(shù)的靈敏度。

(1)用原始變量值直接計算中位數(shù):把n個變量值從小到大排列后記為Xi,即有X1≤X2≤…≤Xn,則中位數(shù)為

例7·6 某病患者5人的潛伏期(天)從小到大排列為2,3,6,8,20。求中位數(shù)。

5人的平均潛伏期為6天。

例7·7 某病患者8人的潛伏期(天)從小到大排列為5,6,8,9,11,11,13,>16。求平均潛伏期。

8人的平均潛伏期為10天。

(2)用頻數(shù)表計算中位數(shù)和百分位數(shù):條件是樣本含量(n)大。按所分組段,由小到大計算累計頻數(shù)和累計頻率。先從累計頻率找出Px所在組段,然后按下述公式計算中位數(shù)M(P50)和其他百分位數(shù)Px

式中fx為Px所在組段的頻數(shù),i為該組段的組距,L為其下限,∑fL為小于L的各組段累計頻數(shù)。

例7·8 238名正常人的發(fā)汞值如表7-5的第(1)、(2)欄,求中位數(shù)和百分位數(shù)P25、P75

 

 由表7-5的第(4)、(1)欄可見,M(P50)在1.1~組段,F(xiàn)L=1.1,i=0.4,fx=60,∑fL=86,代入(7·8)式得

同樣可得

238名正常人發(fā)汞值的中位數(shù)為1.32μg/g,P25和P75為0.94μg/g和1.77μg/g。

 

返回頂部

三、變異指標(biāo) 

描述變量值分布的離散趨勢用變異指標(biāo)。變異指標(biāo)反映一群變量值的變異程度或離散程度。常用的變異指標(biāo)有全距、標(biāo)準(zhǔn)差(standard deviation)、四分位數(shù)間距(interquar-tile)和變異系數(shù)(coefficient of variation),其中最常用的變異指標(biāo)是標(biāo)準(zhǔn)差。不同變異指標(biāo)的用途不同。全距對變量值的各種分布類型資料都適用;標(biāo)準(zhǔn)差和均數(shù)配套,變異系數(shù)作為輔助變異指標(biāo),適用于對稱分布資料,特別是正態(tài)分布資料;四分位數(shù)間距和中位數(shù)配套,一般用于不對稱的偏態(tài)分布資料。

變異指標(biāo)和平均指標(biāo)是彼此獨立的。一群變量值的變異指標(biāo)值越大,說明該群變量值的變異程度或離散程度越大,這是和平均指標(biāo)值的大小無關(guān)的。平均指標(biāo)和變異指標(biāo)相結(jié)合,就可對一群變量值,特別是正態(tài)分布資料的一群變量值,作很好的描述。

1.全距全距表示一群變量值的最大值與最小值之差,用R表示。全距反映樣本變量值的變異范圍,簡單明了,各種分布類型的資料都可采用。但不足之處是全距只考慮了最大值與最小值的差別,而未考慮其他變量值的差別。例如設(shè)甲組變量值為16,19,20,21,24;乙組變量值為16,17,20,23,24。甲組和乙組的全距都為24-16=8。但甲組其他3個變量值19,20,21比乙組其他3個變量值17,20,23的差別小,也就是說全距不能準(zhǔn)確反映樣本所有變量值的變異程度。另外,最大值和最小值是樣本的2個極端值,隨樣本不同而變化大。故全距只能作為參考變異指標(biāo),不能作為主要變異指標(biāo)。由于全距的意義明顯,可只表示為極小值~極大值,如表7-1資料的全距表示為3.79~5.88。

2.標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差考慮了一群變量值中所有變量值的差別,用于對稱分布資料,特別是正態(tài)分布資料,是最為恰當(dāng)?shù)。總體標(biāo)準(zhǔn)差用σ表示,樣本標(biāo)準(zhǔn)差用s表示。

設(shè)為有限總體,變量值的個數(shù)為N,總體均數(shù)為μ,則總體標(biāo)準(zhǔn)差的定義公式為

總體均數(shù)μ一般是未知的,若用變量值個數(shù)為n的樣本均數(shù) 估計,則樣本標(biāo)準(zhǔn)差的定義公式為

為什么(7·10)式的分母用n-1而不用n?這是因為據(jù)數(shù)理統(tǒng)計理論,若用n,則樣本標(biāo)準(zhǔn)差s平均說來是總體標(biāo)準(zhǔn)差σ的偏低估計;而用n-1,則s能很好的估計σ。據(jù)此引入了統(tǒng)計中的常用術(shù)語——自由度(degree of freedom),用γ表示,F(xiàn)γ=n-1,可以這樣理解:∑(X- )2是n個變量值的離均差平方和,由于 又是通過n個X值求出來的,于是受了1個條件限制,只有n—1個離均差平方是獨立的。一般說來,變量值若求離均差平方和,則自由度等于離均差平方的個數(shù)減去限制條件個數(shù)。

標(biāo)準(zhǔn)差的單位是原變量的單位。標(biāo)準(zhǔn)差的平方σ2和s2叫做方差(variance),其單位是原變量單位的平方。也可用方差代替標(biāo)準(zhǔn)差作變異指標(biāo)。

(1)直接法:由樣本n個變量值X1,X2,……,Xn求標(biāo)準(zhǔn)差s的公式為

(7·11)式和(7·10)式是等價的。

例7·9 求例7·2中10名7歲男孩體重的標(biāo)準(zhǔn)差。

17.3+18.0+…+25.5=213.5

17.32+18.02+…+25.52=4619.43

該地10名7歲男孩體重的標(biāo)準(zhǔn)差為2.6kg。

(2)加權(quán)法:當(dāng)相同變量值的個數(shù)較多時,和加權(quán)法計算均數(shù)的(7·2)式配套,加權(quán)法計算標(biāo)準(zhǔn)差的公式為

例7·10 求例7·1中的130名正常成年男子紅細胞數(shù)的標(biāo)準(zhǔn)差。在例7·3中的表7-3已算得∑fX=623.20,∑fX2=3009.12,故

該地區(qū)130名正常成年男子的紅細胞數(shù)的標(biāo)準(zhǔn)差為0.409×1012/L。

3.四分位數(shù)間距四分位數(shù)為特定的百分位數(shù),用Q表示。下四分位數(shù)QL=P25,上四分位數(shù)QU=P75,四分位數(shù)間距即QU-QL。全部變量值比QL小有1/4的變量值,比QU大有1/4的變量值。四分位數(shù)間距內(nèi)包含全部變量值的1/2,可看作中間1/2變量值的全距。四分位數(shù)間距越大,變量值的變異程度或離散程度越大。也可用其他百分位數(shù)間距和中位數(shù)配套作變異指標(biāo),如P80-P20,P90-P10,P95-P5等。但四分位數(shù)間距較為常用,因為越靠近兩端的百分位數(shù)越不穩(wěn)定。

例7·11 求例7·8中238名正常人發(fā)汞值的四分位數(shù)間距。

在例7·8中已算得P25=0.94μg/g,P75=1.77μg/g,故

QU-QL=1.77-0.94=0.83(μg/g)

238名正常人發(fā)汞值的四分位數(shù)間距為0.83μg/g。

現(xiàn)說明求幾何均數(shù)的一群變量值,如何描述其變異程度或離散程度。若X服從對數(shù)正態(tài)分布,則Y=lgX服從正態(tài)分布,把樣本的n個X值轉(zhuǎn)換成n

描述變異程度或離散程度。

4.變異系數(shù)對于對稱分布資料,特別是正態(tài)分布資料,標(biāo)準(zhǔn)差反映變量值的絕對變異程度。當(dāng)兩組或多組變量值的單位不同或均數(shù)相差較大時,不能或不宜用兩個或多個標(biāo)準(zhǔn)差的大小來比較其變異程度的大小,為此引入反映變量值的相對變異程度的變異系數(shù),樣本變異系數(shù)CV的公式為

例7·12 某地20歲男子160人,身高均數(shù)為166.06cm,標(biāo)準(zhǔn)差為4.95cm;體重均數(shù)為53.72kg,標(biāo)準(zhǔn)差為4.96kg。比較身高與體重的變異程度。

20歲男子體重的變異程度比身高的變異程度大。

例7·13 某地不同年齡女童的身高資料如表7-6的第(1)、(2)、(3)、(4)欄,比較不同年齡身高的變異程度。

由表7-6第(5)欄算得的變異系數(shù)可見,1月至5.5歲女童隨年齡增加身高的變異程度減小。

返回頂部

 


...
醫(yī)學(xué)全在線 版權(quán)所有© CopyRight 2006-2046, MED126.COM, All Rights Reserved
皖I(lǐng)CP備06007007號
百度大聯(lián)盟認(rèn)證綠色會員可信網(wǎng)站 中網(wǎng)驗證