前面學習的直線回歸是研究一個應(yīng)變量和一個字變量之間的線性依從關(guān)系的一種統(tǒng)計方法,但實際工作中,常會出現(xiàn)一個應(yīng)變量受到多個自變量的影響,如:人的肺活量與身高、體重、胸圍等因素有關(guān);糖尿病病人的血糖變化會受到胰島素、糖化血紅蛋白、血清總膽固醇、甘油三酯等多種生化指標的影響。對這樣的情況,僅用簡單的直線回歸分析是不夠的,所以需要使用多元統(tǒng)計分析方法。
第十三章 多重線性回歸與相關(guān)
第一節(jié) 多重線性回歸的概念及其統(tǒng)計描述
一、概念
1.定義
研究一個因變量Y與多個自變量X1、X2、…、Xm之間的線性依從關(guān)系的一種統(tǒng)計方法。
2.表達形式
研究的這種依從關(guān)系主要是通過方程來反映,如果能寫出一個方程,則表示它們之間有線性依從關(guān)系,方程中有哪幾個自變量,Y就與哪幾個X有關(guān)。
多元線性回歸方程的一般形式為:
其中Y——因變量
X1(X1~Xm)——自變量,j=1,2, …,m
m——自變量的個數(shù)
β0——常數(shù)項,又稱截距
βj——Xj的偏回歸系數(shù)
ε——去除m個自變量對Y的影響后的隨機誤差,即殘差
上面的多元線性回歸方程是由總體數(shù)據(jù)而得出的,但在實際工作中往往得到的是樣本數(shù)據(jù),此時,求得的方程表達式為:
其中——因變量
Xj(X1~Xm)——自變量,j=1,2, …,m
m——自變量的個數(shù)
b0——常數(shù)項,是β0的估計值
bj——Xj的偏回歸系數(shù),是βj的估計值
3.偏回歸系數(shù)的統(tǒng)計意義
通過一個簡單的多元線性回歸方程來講解
為研究b1的意義,將X2固定在一個常數(shù)上,為計算方便取一個特殊的值,令X2=0
當X1=0時,Y=1
X1=1時,Y=3
X1=2時,Y=5
可以看出,X1每增加一個單位,對應(yīng)的Y平均增加b1個單位,所以bj的統(tǒng)計意義為:當固定X1、X2、…、X-j-1、X-j+1、…、Xm后Xj每改變一個單位,因變量Y平均改變的單位數(shù)。
4.多元線性回歸模型的應(yīng)用條件
應(yīng)滿足下列3個條件:①Y與X1、X2、…、Xm之間存在線性關(guān)系;②各觀察值Yi相互獨立;③殘差ε服從均數(shù)為0,標準差為σ2的正態(tài)分布(對任意一組自變量X1、X2、…、Xm和因變量Y具有相同方差,并且服從正態(tài)分布)
5.多元線性回歸分析的一般步驟
1)根據(jù)樣本數(shù)據(jù)建立模型,即求b0、b1、b2、…、bm,
2)對回歸方程及各偏回歸系數(shù)進行假設(shè)檢驗
二、多元線性回歸方程的建立
學習多元線性回歸分析的關(guān)鍵就是要找到對應(yīng)的方程,即求b0、b1、b2、…、bm。求偏回歸系數(shù)bj和常數(shù)項b0也是根據(jù)最小二乘原則。
1.建立方程的方法
1)根據(jù)最小二乘原則,可以首先建立一個正規(guī)方程組,
正規(guī)方程組為:
該方程組有以下幾個特點:
①方程組中有m個方程,每個方程中有m個未知數(shù),每個未知數(shù)的系數(shù)為lij(離均差積和或離均差平方和)
當i=j時,為離均差平方和,
當i≠j時,為離均差積和,
另外,在方程的右側(cè)ljy也是離均差積和,
②方程組中的離均差平方和及離均差積和構(gòu)成了一離差矩陣,表示為
2)求解這個方程組即可得到b0、b1、b2、…、bm
3)根據(jù)公式求b0:
2.例題
P242 例15-1
1)準備計算
①求各自變量和因變量的均數(shù)、觀察值之和合觀察值的平方和
②求離均差積和及離均差平方和
2)寫出正規(guī)方程組
3)求解方程組,可以用代入法、消元法,也可以使用統(tǒng)計軟件
4)求b0
5)寫出多元線性回歸方程
第二節(jié) 多重線性回歸方程的假設(shè)檢驗
建立的方程是根據(jù)樣本算出的,不可避免的會存在抽樣誤差,所以需進行假設(shè)檢驗。假設(shè)檢驗的內(nèi)容有兩方面
一、對回歸方程假設(shè)檢驗及評價
1.假設(shè)檢驗——方差分析
H0:文字敘述:所建方程無統(tǒng)計意義(即因變量Y與一組自變量Xj間無線性依從關(guān)系)
符號表示:β1=β2=…=βm=0(所有偏回歸系數(shù)均為0)
H1:文字敘述:所建方程有統(tǒng)計意義(即因變量Y與一組自變量Xj間有線性依從關(guān)系)
符號表示:βj不為零或不全為零
α=0.05
其中 ν=m
SS殘=SS總-SS回 ν=n-m-1
SS總=lyy ν=n-1
2.決定系數(shù)R2
多元線性回歸方程的決定系數(shù)
決定系數(shù)R2的取值范圍0≤R2≤1,說明自變量X1、X2、…、Xm能夠解釋Y變化的百分比,R2越接近1,說明回歸模型對數(shù)據(jù)的擬合程度越好。
3)復(fù)相關(guān)系數(shù)R
用來衡量因變量Y與多個自變量間的線性相關(guān)程度,即觀察值Y與之間的相關(guān)程度。
二、各偏回歸系數(shù)的假設(shè)檢驗與評價
若H0成立,所建回歸方程無統(tǒng)計意義,則多元線性回歸分析結(jié)束;但若如本例H0不成立,說明Y與一組X間有線性依從關(guān)系,但不能說明Y與每個X均有關(guān)系,故應(yīng)進一步對每個偏回歸系數(shù)進行檢驗。
1.偏F檢驗
計算統(tǒng)計量:Xj的偏F值
SS回(Xj)——Xj的偏回歸平方和,表示模型中含有其他m-1個自變量的條件下,該自變量對Y的回歸貢獻payment-defi.com/jianyan/,相當于從回歸方程中剔除Xj后所引起的回歸平方和減少醫(yī)學全.在線量,或在m-1個自變量的基礎(chǔ)上新增加Xj后所引起的回歸平方和增加。偏回歸平方和越大,說明相應(yīng)的自變量Xj越重要,對方程的貢獻越大。
SS回(Xj)的計算方法:原始數(shù)據(jù)中將Xj去除后,重新建立另一個方程,求出新建的方程的SS回,表示為SS回(-j),此時用含m個自變量的回歸方程的SS回減去含m-1個字變量的回歸方程的SS回即為SS回(Xj),即:SS回(Xj)=SS回- SS回(-j)
2.t檢驗法
,Sbj為bj的標準誤,其計算方法復(fù)雜需使用矩陣獲得。偏F檢驗等價,
tj服從自由度為n-m-1的t分布,查界值表,確定P,從而得出結(jié)論。
對于統(tǒng)一資料,t值和偏回歸平方和一樣,能說明自變量對方程的貢獻大小,t越大說明該自變量對方程的作用越大。
3.標準化偏回歸系數(shù)
前面講到了使用偏回歸平方和、tj可以衡量各自變量對Y貢獻大小,但我們更希望通過方程中回歸系數(shù)的大小來描述。偏回歸系數(shù)的統(tǒng)計意義為:固定X1、X2、…、X-j-1、X-j+1、…、Xm后Xj每改變一個單位,因變量Y平均改變的單位數(shù)。雖然bj決定了Y平均改變的單位數(shù),但由于各自變量的單位不同,但從各個偏回歸系數(shù)的絕對值大小不能判斷該自變量對Y的貢獻大小。所以我們對數(shù)據(jù)進行標準化,,利用標準化后的數(shù)據(jù)建立回歸方程,稱為標準化回歸方程,,相應(yīng)的各偏回歸系數(shù)稱為標準化偏回歸系數(shù)。標準化后回歸方程的截距為0,且
用標準化偏回歸系數(shù)可以比較各自變量Xj對Y的貢獻大小,通常在偏回歸系數(shù)有統(tǒng)計意義的前提下,標準化偏回歸系數(shù)的絕對值越大,說明相應(yīng)自變量對Y的作用越大。