一、抽樣誤差的意義
在第一章第二節(jié)曾提到過(guò)樣本與總體以及抽樣誤差的概念,那里談到,由于存在人與人之間的個(gè)體差異,即使從同一總體用同樣方法隨機(jī)抽取例數(shù)相同的一些樣本,各樣本算得的某種指標(biāo),如平均數(shù)(或率),通常也參差不齊存在一定的差異。樣本指標(biāo)與相應(yīng)的總體指標(biāo)之間有或多或少的相差,這一點(diǎn)是不難理解的。如某醫(yī)生從某地抽了120名12歲男孩,測(cè)量其身高,計(jì)算出均數(shù)為143.10cm,若再?gòu)脑摰爻?20名12歲男孩,其平均身高未必仍等于143.10cm,也不一定恰好等于某市12歲男孩身高的總體均數(shù),這種差異,即由于抽樣而帶來(lái)的樣本與總體間的誤差,統(tǒng)計(jì)上叫抽樣波動(dòng)或抽樣誤差。
抽樣誤差和系統(tǒng)誤差不一樣,關(guān)系系統(tǒng)誤差,當(dāng)人們一旦發(fā)現(xiàn)它之后,是可能找到產(chǎn)生原因而采取一定措施加以糾正的,抽樣誤差則無(wú)法避免。因?yàn)榭陀^上既然存在個(gè)體差異,那么剛巧這一樣本中多抽到幾例數(shù)值大些的,所求樣本均數(shù)就會(huì)稍大,另一樣本多抽到幾例數(shù)值小些,該樣本均數(shù)就會(huì)稍小,這是不言而喻的。
抽樣誤差既是樣本指標(biāo)與總體指標(biāo)之間的誤差,那么抽樣誤差小就表示從樣本算得的平均數(shù)或率與總體的較接近,有樣本代表總體說(shuō)明其特征的可靠性亦大。但是,通常總體均數(shù)或總體率我們并不知道,所以抽樣誤差的數(shù)量大小,不能直觀地加以說(shuō)明,只能通過(guò)抽樣實(shí)驗(yàn)來(lái)了解抽樣誤差的規(guī)律性。
二、標(biāo)準(zhǔn)誤及其計(jì)算
為了表示個(gè)體差異的大小,或者說(shuō)表示某一變量變異程度的大小,可計(jì)算標(biāo)準(zhǔn)差等變異指標(biāo)來(lái)說(shuō)明,現(xiàn)在我們要表示抽樣誤差的大小,如要問(wèn),從同一總體抽取類(lèi)似的許多樣本,各樣本均數(shù)(或各率)之間的變異程度如何?也可用變異指標(biāo)來(lái)說(shuō)明。這種指標(biāo)是:
。ㄒ)均數(shù)的標(biāo)準(zhǔn)誤 為了表示均數(shù)的抽樣誤差大小如何,用的一種指標(biāo)稱(chēng)為均數(shù)的標(biāo)準(zhǔn)誤。我們以樣本均數(shù)為變量,求出它們的標(biāo)準(zhǔn)差即可表示其變異程度,所以將樣本均數(shù)這“標(biāo)準(zhǔn)差”定名為均數(shù)的標(biāo)準(zhǔn)誤,簡(jiǎn)稱(chēng)標(biāo)準(zhǔn)誤,以區(qū)別于通常所說(shuō)的標(biāo)準(zhǔn)差。標(biāo)準(zhǔn)差表示個(gè)體值的散布情形,而標(biāo)準(zhǔn)誤則說(shuō)明樣本均數(shù)的參差情況,兩者不能混淆。下面用抽樣實(shí)驗(yàn)進(jìn)一步說(shuō)明之。
將100名正常人的紅細(xì)胞數(shù)(萬(wàn)/mm3)寫(xiě)在100顆大小均勻的豌豆上。這些紅細(xì)胞數(shù)見(jiàn)表6.1,其均數(shù)為500,標(biāo)準(zhǔn)差為43。把這些豌豆放在一個(gè)口袋里,徹底混勻后取出一顆,記下紅細(xì)胞數(shù),放回袋內(nèi),混勻后再取出一顆,記下數(shù)字后再放回去,如此繼續(xù)下去,這是一個(gè)取不完的總體,這樣每取10個(gè)數(shù)字作為一個(gè)樣本,共抽取了一百個(gè)樣本,并計(jì)算每一樣本的均數(shù)與標(biāo)準(zhǔn)差,例見(jiàn)表6.2。
表6.1 紅細(xì)胞數(shù)抽樣實(shí)驗(yàn)用的正態(tài)總體
μ=500 σ=43(單位:萬(wàn)/立方厘米)
383 | 410 | 422 | 429 | 430 | 431 | 435 | 442 | 442 | 444 |
445 | 449 | 450 | 452 | 455 | 456 | 459 | 461 | 462 | 463 |
465 | 466 | 468 | 469 | 470 | 471 | 472 | 473 | 476 | 477 |
478 | 479 | 480 | 481 | 482 | 484 | 485 | 486 | 487 | 488 |
489 | 491 | 492 | 493 | 494 | 495 | 496 | 497 | 498 | 499 |
500 | 501 | 502 | 503 | 504 | 505 | 506 | 507 | 508 | 509 |
511 | 512 | 513 | 514 | 515 | 516 | 518 | 519 | 520 | 521 |
522 | 523 | 524 | 527 | 528 | 529 | 530 | 531 | 532 | 534 |
535 | 537 | 538 | 539 | 541 | 544 | 545 | 548 | 550 | 551 |
555 | 556 | 558 | 565 | 569 | 578 | 590 | 599 | 600 | 617 |
表6.2 紅細(xì)胞數(shù)抽樣實(shí)驗(yàn)中的樣本舉例
樣本號(hào) | 紅細(xì)胞數(shù)(萬(wàn)/立方毫米),X | X | S | |||||||||
1 | 383 | 599 | 534 | 442 | 435 | 486 | 478 | 476 | 509 | 544 | 488.6 | 61.65 |
2 | 503 | 506 | 520 | 503 | 489 | 410 | 528 | 488 | 509 | 527 | 498.3 | 33.97 |
3 | 478 | 463 | 617 | 544 | 498 | 485 | 496 | 462 | 482 | 569 | 509.4 | 50.96 |
4 | 529 | 465 | 535 | 473 | 531 | 532 | 556 | 521 | 459 | 383 | 498.4 | 52.63 |
5 | 442 | 493 | 462 | 527 | 520 | 519 | 521 | 512 | 482 | 471 | 494.9 | 29.51 |
┇ | ┇ | ┇ | ┇ | ┇ | ┇ | ┇ | ┇ | ┇ | ┇ | ┇ | ┇ | ┇ |
第一號(hào)樣本均數(shù)與標(biāo)準(zhǔn)差的計(jì)算:
X=4.886/10=488.6
將一百個(gè)樣本均數(shù)加總,得到的數(shù)值為50,096.7,又這一百個(gè)樣本均數(shù)平方之和為25,114,830.91,于是代入標(biāo)準(zhǔn)差的計(jì)算公式,求得一百個(gè)樣本均數(shù)的標(biāo)準(zhǔn)差又稱(chēng)標(biāo)準(zhǔn)誤為
當(dāng)總體標(biāo)準(zhǔn)差已知時(shí),可計(jì)算理論的標(biāo)準(zhǔn)誤σχ,公式是
(6.1)
表6.1抽樣實(shí)驗(yàn)用的總體標(biāo)準(zhǔn)差是43,每個(gè)樣本的例數(shù)是10,代入公式得
可見(jiàn)由一百個(gè)樣本均數(shù)求得的標(biāo)準(zhǔn)誤13.50與理論的標(biāo)準(zhǔn)誤13.60比較接近。
在實(shí)際工作中,總體標(biāo)準(zhǔn)差往往并不知道,也不象抽樣實(shí)驗(yàn)?zāi)菢訌耐豢傮w隨機(jī)抽取n相等的許多樣本,而是只有手頭一個(gè)樣本。在此情況下,只能以樣本標(biāo)準(zhǔn)差S作為總體標(biāo)準(zhǔn)差σ的估計(jì)值。這樣,公式6.1中的σ就要用S代替,σχ改為Sχ,以資區(qū)別。
(6.2)
將第1號(hào)樣本的標(biāo)準(zhǔn)差及例數(shù)代入式6.2,得
再若將第2號(hào)樣本的數(shù)字代入,Sχ將成為10.74,余類(lèi)推。由于不同樣本的標(biāo)準(zhǔn)差并不相等,可見(jiàn)Sχ也有抽樣波動(dòng),這一點(diǎn)是值得注意的,但它仍不失為σχ的較好估計(jì)值。
以上介紹了求標(biāo)準(zhǔn)誤的三種方法,其實(shí)我們平常用的只是式6.2,而通過(guò)前兩種方法的對(duì)比則可使我們明瞭標(biāo)準(zhǔn)誤的含義。標(biāo)準(zhǔn)誤是描述樣本均數(shù)變異情況的一個(gè)指標(biāo),它的大小與總體標(biāo)準(zhǔn)差σ(一般只能用S估計(jì))成正比,而與樣本含量n的平方根成反比,因此若標(biāo)準(zhǔn)差小或樣本含量大時(shí),求出的標(biāo)準(zhǔn)誤就。(biāo)準(zhǔn)誤小表示樣本均數(shù)與總體均數(shù)較接近),X代表μ較可靠,所以假若手頭資料中觀察值的變異程度較大(S大)時(shí),為了保
證樣本代表總體比較可靠,就得適當(dāng)增大樣本含量(n)。
。ǘ)率的標(biāo)準(zhǔn)誤 若總體包括某事件的發(fā)生數(shù)與未發(fā)生數(shù)兩類(lèi),所化成的比例或成數(shù)即為總體發(fā)生率(符號(hào)π)與未發(fā)生率(1-π)。從總體中隨機(jī)抽取許多樣本(n相等),算出各個(gè)樣本率(用P表示),會(huì)是或大或小有波動(dòng)的。為了表示樣本率之間或樣本率與總體率之間的差異程度,當(dāng)總體率π已知時(shí),可計(jì)算理論的標(biāo)誤σp,其公式是
(6.3)
實(shí)際工作中往往不知道總體率π這時(shí)只能以樣本率P作為總體率π的估計(jì)值,求得率的標(biāo)準(zhǔn)誤,并用SP表示,計(jì)算公式為
(6.4)
現(xiàn)舉例說(shuō)明其求法。
例6.1 某醫(yī)生檢測(cè)了110名成年健康人的尿紫質(zhì),發(fā)現(xiàn)陽(yáng)性者11人,陰性者99人,于是算得陽(yáng)性率P及率的標(biāo)準(zhǔn)誤SP如下:
P=11/110×100%=10% (用小數(shù)表示為0.10)
若要進(jìn)一步增強(qiáng)樣本率估計(jì)總體率的可靠性,可加大樣本含量。
三、樣本均數(shù)的分布
從同一總體里隨機(jī)抽取n相同的許多樣本,這些樣本均數(shù)吳正態(tài)分布。如前面所述正常人紅細(xì)胞數(shù)的抽樣實(shí)驗(yàn)中已求得100個(gè)樣本均數(shù),其中多數(shù)與總體均數(shù)μ比較接近而集中分布在其周?chē),且左右基本?duì)稱(chēng),見(jiàn)表6.3(此表由表6.4中的100個(gè)均數(shù)劃記歸組而得)。
表6.3 紅細(xì)胞抽樣實(shí)驗(yàn)中100個(gè)樣本均數(shù)的分布
組 段 | 460- | 470- | 480- | 490- | 500- | 510- | 520- | 530- | 540- | 合計(jì) |
樣本數(shù) | 1 | 3 | 18 | 28 | 28 | 13 | 7 | 1 | 1 | 100 |
表6.4 一百個(gè)樣本的均數(shù)、標(biāo)準(zhǔn)差、95%可信區(qū)間
樣本號(hào) | 均數(shù) | 標(biāo)準(zhǔn)差 | 95%可信區(qū)間 | 樣本號(hào) | 均數(shù) | 標(biāo)準(zhǔn)差 | 95%可信區(qū)間 |
1 | 488.6 | 61.65 | 444.49~532.71 | 2 | 498.3 | 33.97 | 474.01~522.59 |
3 | 509.4 | 50.96 | 472.96~545.84 | 4 | 498.4 | 52.63 | 460.76~536.04 |
5 | 494.9 | 29.51 | 473.80~516.00 | 6 | °546.7 | 43.23 | 515.78~577.62* |
7 | 524.5 | 33.60 | 500.45~548.55* | 8 | 488.3 | 41.04 | 458.94~517.66 |
9 | 485.3 | 55.14 | 445.85~524.75 | 10 | 502.6 | 48.55 | 467.88~537.32 |
11 | 495.1 | 40.63 | 466.03~524.17 | 12 | 524.7 | 37.81 | 497.65~551.75 |
13 | 512.7 | 53.18 | 474.65~550.75 | 14 | 494.8 | 37.24 | 468.15~521.45 |
15 | 493.6 | 39.94 | 465.03~522.17 | 16 | 495.3 | 29.47 | 474.22~516.38 |
17 | 491.0 | 19.32 | 477.18~504.82 | 18 | 506.5 | 53.83 | 468.00~545.00 |
19 | 487.5 | 39.39 | 461.32~517.68 | 20 | 495.9 | 32.70 | 472.51~519.29 |
21 | 504.8 | 34.76 | 479.94~529.66 | 22 | 512.2 | 44.76 | 483.17~547.23 |
23 | 496.5 | 40.65 | 467.41~525.59 | 24 | 499.8 | 37.04 | 473.31~526.29 |
25 | 505.7 | 37.21 | 479.08~532.32 | 26 | 487.7 | 34.50 | 463.02~512.38 |
27 | 501.5 | 37.35 | 474.79~528.21 | 28 | 476.1 | 29.64 | 454.91~497.29* |
29 | 523.2 | 51.57 | 486.31~560.09 | 30 | 509.5 | 33.61 | 485.45~533.55 |
31 | 494.2 | 28.60 | 473.75~514.65 | 32 | 506.2 | 25.29 | 483.10~524.30 |
33 | 501.1 | 27.88 | 481.15~521.05 | 34 | 520.6 | 30.23 | 498.98~542.22 |
35 | 492.0 | 42.18 | 461.82~522.18 | 36 | 509.6 | 19.17 | 495.89~523.31 |
37 | 488.6 | 42.29 | 458.36~518.84 | 38 | 510.9 | 47.55 | 476.88~544.92 |
39 | 516.4 | 39.96 | 487.81~544.99 | 40 | 518.8 | 46.43 | 485.59~552.01 |
41 | 495.9 | 36.89 | 469.53~522.27 | 42 | °526.4 | 42.78 | 495.80~557.00 |
43 | 505.8 | 53.84 | 467.30~544.30 | 44 | 503.0 | 47.33 | 469.14~536.86 |
45 | 504.8 | 47.77 | 470.62~538.98 | 46 | 492.4 | 29.20 | 471.52~513.28 |
47 | 505.5 | 38.32 | 478.08~532.92 | 48 | 486.5 | 52.98 | 448.59~524.41 |
49 | 515.2 | 38.69 | 487.51~542.89 | 50 | 487.0 | 53.75 | 448.55~525.45 |
51 | 503.3 | 51.54 | 466.43~540.17 | 52 | 491.0 | 58.47 | 449.18~532.82 |
53 | 522.3 | 65.01 | 475.79~568.81 | 54 | 490.3 | 49.92 | 454.58~526.02 |
55 | 516.7 | 37.26 | 490.05~543.35 | 56 | 489.6 | 31.41 | 467.14~512.06 |
57 | 490.0 | 62.90 | 445.01~534.99 | 58 | 489.2 | 30.91 | 467.09~511.31 |
59 | 509.1 | 40.51 | 480.12~538.08 | 60 | 513.5 | 29.18 | 492.62~534.38 |
61 | 476.4 | 42.06 | 446.32~506.48 | 62 | 511.5 | 28.46 | 491.14~531.86 |
63 | 480.7 | 44.83 | 448.62~512.78 | 64 | 501.4 | 29.00 | 480.66~522.14 |
65 | 481.1 | 50.65 | 444.86~517.34 | 66 | 496.0 | 36.53 | 469.87~522.13 |
67 | 489.2 | 44.20 | 457.58~520.82 | 68 | 494.8 | 29.73 | 473.54~516.06 |
69 | 497.2 | 68.49 | 448.21~546.19 | 70 | 504.1 | 35.13 | 478.95~529.25 |
71 | 507.9 | 34.35 | 483.33~532.47 | 72 | °465.3 | 25.56 | 447.02~483.58* |
73 | 502.6 | 45.54 | 470.03~535.17 | 74 | 486.4 | 48.51 | 451.70~521.10 |
75 | °526.6 | 32.68 | 503.10~550.10* | 76 | 503.2 | 47.18 | 469.45~536.95 |
77 | 496.7 | 33.45 | 472.77~520.63 | 78 | 504.8 | 43.52 | 473.67~535.93 |
79 | 490.2 | 58.07 | 448.67~531.73 | 80 | 486.6 | 26.60 | 467.57~505.63 |
81 | 506.1 | 28.48 | 485.72~526.48 | 82 | 513.7 | 29.28 | 492.75~534.65 |
83 | 481.5 | 29.78 | 460.19~502.81 | 84 | 491.2 | 44.73 | 459.22~523.18 |
85 | 515.7 | 25.78 | 497.26~534.14 | 86 | 513.9 | 64.62 | 467.69~560.11 |
87 | 496.4 | 23.82 | 479.37~513.43 | 88 | 507.4 | 45.14 | 475.10~539.70 |
89 | 479.1 | 44.15 | 465.52~528.68 | 90 | 498.9 | 30.16 | 477.32~520.48 |
91 | 503.7 | 53.90 | 465.16~542.24 | 92 | 495.9 | 30.86 | 473.78~518.02 |
93 | 494.6 | 58.48 | 452.78~536.42 | 94 | 507.1 | 42.44 | 476.74~537.46 |
95 | 488.5 | 36.15 | 462.65~514.35 | 96 | 489.1 | 68.01 | 440.44~537.76 |
97 | °530.1 | 58.72 | 488.09~572.11 | 98 | 518.7 | 45.10 | 486.44~550.96 |
99 | 507.8 | 41.87 | 477.85~537.73 | 100 | 540.6 | 55.17 | 465.13~544.07 |
已知按正態(tài)分布,理論上有95%的變量值分布在均數(shù)加、減1.96倍標(biāo)準(zhǔn)差(樣本均數(shù)的標(biāo)準(zhǔn)差稱(chēng)標(biāo)準(zhǔn)誤)的范圍內(nèi),這里也即100個(gè)樣本均數(shù)中有95個(gè)分布在500-1.96(13.60)=473.34至500+1.96(13.60)=526.66的范圍內(nèi)。現(xiàn)看表6.4,在100個(gè)樣本均數(shù)中,第6號(hào)(546.7)、第72號(hào)(465.3)、第97號(hào)(530.1)在上述范圍之外,第42號(hào)(526.4)及第75號(hào)(526.6)就在臨界值附近,其余95個(gè)(若將第42及75號(hào)計(jì)算在內(nèi)則為97個(gè))樣本均數(shù)在此范圍之內(nèi),將實(shí)際分布與理論分布相對(duì)照見(jiàn)下表6.5。100個(gè)樣本均數(shù)的實(shí)際分布與正態(tài)分布的理論基本符合。