資源簡介 8.2.2 一元線性回歸模型參數的最小二乘估計導學案學習目標1.進一步掌握一元線性回歸模型參數的統計意義,會用相關統計軟件.2.了解非線性回歸模型.3.會通過分析殘差和利用R2判斷回歸模型的擬合效果.重點難點1.重點:一元線性回歸模型的基本思想,經驗回歸方程,最小二乘法.2.難點:求最小二乘估計,殘差分析.課前預習 自主梳理1.殘差的概念對于響應變量Y,通過觀測得到的數據稱為觀測值,通過經驗回歸方程得到的稱為預測值,觀測值減去預測值稱為殘差.殘差是隨機誤差的估計結果,通過殘差的分析可以判斷模型刻畫數據的效果,以及判斷原始數據中是否存在可疑數據等,這方面工作稱為殘差分析.2.刻畫回歸效果的方式(1)殘差圖法作圖時縱坐標為殘差,橫坐標可以選為樣本編號,或身高數據,或體重估計值等,這樣作出的圖形稱為殘差圖.若殘差點比較均勻地落在水平的帶狀區域內,帶狀區域越窄,則說明擬合效果越好.(2)殘差平方和法殘差平方和(yi-i)2,殘差平方和越小,模型擬合效果越好,殘差平方和越大,模型擬合效果越差.(3)利用R2刻畫回歸效果決定系數R2是度量模型擬合效果的一種指標,在線性模型中,它代表解釋變量客戶預報變量的能力.R2=1-,R2越大,即擬合效果越好,R2越小,模型擬合效果越差.自主檢測1.判斷正誤,正確的寫“正確”,錯誤的寫“錯誤”.(1)兩個變量之間產生隨機誤差的原因僅僅是因為測量工具產生的誤差.( )(2)線性回歸方程最能代表觀測值x,y之間的線性關系,且回歸直線過樣本點的中心.( )2.某地為響應“扶貧必扶智,扶智就扶知識、扶技術、扶方法”的號召,建立了農業科技圖書館,供農民免費借閱.現收集了該圖書館五年的借閱數據如下表:年份 2016 2017 2018 2019 2020年份代碼x 1 2 3 4 5年借閱量y(萬冊) 4.9 5.1 5.5 5.7 5.8根據上表,可得y關于x的線性回歸方程為,則下列說法中錯誤的是( ).A.B.借閱量4.9,5.1,5.5,5.7,5.8的第75百分位數為5.7C.y與x的線性相關系數D.2021年的借閱量一定少于6.12萬冊3.某單位為了解用電量度與氣溫之間的關系,隨機統計了某4天的用電量與當天氣溫,并制作了對照表,如下表,由表中數據得回歸直線方程中,預測當氣溫為時,用電量的度數是( )氣溫() 20 16 12 4用電量(度) 14 28 44 62A.70 B.6.8 C.64 D.624.具有線性相關關系的變量有一組觀測數據,其回歸直線方程是,若,則實數的值為( )A. B. C. D.5.已知與之間的一組數據:1 2 3 40.5 3.2 4.8 7.5若關于的線性回歸方程為,則的值為( )A.1.25 B.-1.25 C.1.65 D.-1.65新課導學學習探究環節一 創設情境,引入課題在一元線性回歸模型中,表達式刻畫的是變量Y與變量x之間的線性相關關系,其中參數a和b未知,需要根據成對樣本數據進行估計.由模型的建立過程可知,參數a和b刻畫了變量Y與變量x的線性關系,因此通過成對樣本數據估計這兩個參數,相當于尋找一條適當的直線,使表示成對樣本數據的這些散點在整體上與這條直線最接近.問題1:從成對樣本數據出發,如何用數學的方法刻畫“從整體上看,各散點與直線最接近”?思路1:先畫出一條直線,測量出各點到直線的距離,然后移動直線,到達一個使距離的和最小的位置,測量出此時的斜率和截距,就得到一條直線.問題2.我們怎樣尋找一條“最好”的直線,使得表示成對樣本數據的這些散點在整體上與這條直線最“接近”?探究:利用散點圖8.2-1找出一條直線,使各散點在整體上與此直線盡可能接近.有的同學可能會想,可以采用測量的方法,先畫出一條直線,測量出各點與它的距離,然后移動直線,到達一個使距離的和最小的位置,測量出此時的斜率和截距,就可得到一條直線,如圖8.2-2所示.思路2:可以在散點圖中選兩點畫一條直線,使得直線兩側點的個數基本相同,把這條直線作為所求直線.有的同學可能會想,可以在圖中選擇這樣的兩點畫直線,使得直線兩側的點的個數基本相同,把這條直線作為所求直線,如圖8.2-3所示.思路3:在散點圖中多取幾對點,確定出幾條直線,再分別求出這些直線的斜率、截距的平均數作為所求直線的斜率和截距.還有的同學會想,在散點圖中多取幾對點,確定出幾條直線的方程,再分別求出這些直線的斜率、截距的平均數,將這兩個平均數作為所求直線的斜率和截距如圖8.2-4所示.同學們不妨去實踐一下,看看這些方法是不是真的可行.環節二 觀察分析,感知概念上面這些方法雖然有一定的道理,但比較難操作,我們需要另辟蹊徑先進一步明確我們面臨的任務:從成對樣本數據出發,用數學的方法刻畫“從整體上看,各散點與直線最接近”.通常,我們會想到利用點到直線的“距離”來刻畫散點與該直線的接近程度,然后用所有“距離”之和刻畫所有樣本觀測數據與該直線的接近程度我們設滿足一元線性回歸模型的兩個變量的對樣本數據為,,…,,由,得.顯然越小,表示點與點的“距離”越小,即樣本數據點離直線的豎直距離越小,如圖8.2-5所示.特別地,時,表示點在這條直線上.因此,可以用這n個豎直距離之和來刻畫各樣本觀測數據與直線的“整體接近程度”.問題3.你能結合具體實例解釋產生模型①中隨機誤差項的原因嗎?在實際應用中,因為絕對值使得計算不方便,所以人們通常用各散點到直線的豎直距離的平方之和來刻畫“整體接近程度”.在上式中,是已知的成對樣本數據,所以Q由a和b所決定,即它是a和b的函數.因為Q還可以表示為,即它是隨機誤差的平方和,這個和當然越小越好,所以我們取使Q達到最小的a和b的值,作為截距和斜率的估計值.環節三 抽象概括,形成概念問題4:如何求a,b的值,使 最小?下面利用成對樣本數據求使Q取最小值的a,b.記,.因為,注意到所以.上式右邊各項均為非負數,且前n項與a無關.所以,要使Q取到最小值,后一項的值應為0,即此時.上式是關于b的二次函數,因此要使Q取得最小值,當且僅當b的取值為.綜上,當a,b的取值為(2)時,Q達到最小.我們將稱為Y關于x的經驗回歸方程,也稱經驗回歸函數或經驗回歸公式,其圖形稱為經驗回歸直線.這種求經驗回歸方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估計(least squares estimate).問題5:利用下表的數據,依據用最小二乘估計一元線性回歸模型參數的公式,求出兒子身高Y關于父親身高x的經驗回歸方程。對于表8.2-1中的數據,利用公式(2)可以計算出,,得到兒子身高Y關于父親身高x的經驗回歸方程為,相應的經驗回歸直線如圖8.2-6所示.問題6:當時,.如果一位父親的身高為176 cm,他兒子長大成人后的身高一定是177 cm嗎 為什么 顯然不一定,因為還有其他影響兒子身高的因素,父親身高不能完全決定兒子身高.不過,我們可以作出推測,當父親身高為176 cm時,兒子身高一般在177 cm左右.實際上,如果把這所學校父親身高為176 cm的所有兒子身高作為一個子總體,那么177 cm是這個子總體的均值的估計值.這里的經驗回歸方程,其斜率可以解釋為父親身高每增加1 cm,其兒子身高平均增加0.839 cm.分析模型還可以發現,高個子父親有生高個子兒子的趨勢,但一群高個子父親的兒子們的平均身高要低于父親們的平均身高,例如,則;矮個子父親有生矮個子兒子的趨勢,但一群矮個子父親的兒子們的平均身高要高于父親們的平均身高,例如,則;英國著名統計學家高爾頓 (F. Galton, 1822—1911)把這種后代的身高向中間值靠近的趨勢稱為 “回歸現象”.后來,人們把由一個變量的變化去推測另一個變量的變化的方法稱為回歸分析.根據模型,父親身高為多少時,長大成人的兒子的平均身高與父親的一樣 你怎么看這個判斷 在方程,令,解得.表明成年男性的平均身高約為179.857 cm.環節四 辨析理解 深化概念對于響應變量Y,通過觀測得到的數據稱為觀測值,通過經驗回歸方程得到的y稱為預測值,觀測值減去預測值稱為殘差.殘差是隨機誤差的估計結果,通過對殘差的分析可以判斷模型刻畫數據的效果,以及判斷原始數據中是否存在可疑數據等,這方面工作稱為殘差分析.例如,對于表8.2-1中的第6個觀測,父親身高為172 cm,其兒子身高的觀測值為,預測值為,殘差為.類似地,可以得到其他的殘差,如表8.2-2所示.表8.2-2編號 父親身高/cm 兒子身高/cm 兒子身高預測值/cm 殘差1 174 176 174.943 1.0572 170 176 171.587 4.4133 173 170 174.104 -4.1044 169 170 170.748 -0.7485 182 185 181.655 3.3456 172 176 173.265 2.7357 180 178 179.977 -1.9778 172 174 173.265 0.7359 168 170 169.909 0.09110 166 168 168.231 -0.23111 182 178 181.655 -3.65512 173 172 174.104 -2.10413 164 165 166.553 -1.55314 180 182 179.977 2.023環節五 概念應用,鞏固內化問題4:如何判斷模型刻畫數據的效果?為了使數據更加直觀,用父親身高作為橫坐標,殘差作為縱坐標,可以畫出殘差圖,如圖8.2-7所示觀察表8.2-2可以看到,殘差有正有負,殘差的絕對值最大是4.413.觀察殘差的散點圖可以發現,殘差比較均勻地分布在橫軸的兩邊.說明殘差比較符合一元線性回歸模型的假定,是均值為0、方差為的隨機變量的觀測值.可見,通過觀察殘差圖可以直觀判斷模型是否滿足一元線性回歸模型的假設.一般地,建立經驗回歸方程后,通常需要對模型刻畫數據的效果進行分析.借助殘差分析還可以對模型進行改進,使我們能根據改進模型作出更符合實際的預測與決策.問題5:觀察以下四幅殘差圖,你認為哪一個殘差滿足一元線性回歸模型中對隨機誤差的假定?根據一元線性回歸模型中對隨機誤差的假定,殘差應是均值為0、方差為的隨機變量的觀測值.在圖8.2-8中,圖(1)顯示殘差與觀測時間有線性關系,應將時間變量納入模型;圖(2)顯示殘差與觀測時間有非線性關系,應在模型中加入時間的非線性函數部分;圖(3)說明殘差的方差不是一個常數,隨觀測時間變大而變大圖(4)的殘差比較均勻地分布在以取值為0的橫軸為對稱軸的水平帶狀區域內.可見,在圖8.2-8中,只有圖(4)滿足一元線性回歸模型對隨機誤差的假設.環節六 歸納總結,反思提升1.本節課學習的概念有哪些?(1)一元線性回歸模型.(2)最小二乘法.(3)殘差.2.在解決問題時,用到了哪些數學思想?思想方法數形結合.環節七 目標檢測,作業布置完成教材:教科書第113頁練習第2、3題.備用練習6.已知變量x與y且觀測數據如下表(其中,),則由該觀測的數據算得的線性回歸方程可能是( )1 2 3 4 56.5 a 4 b 1A. B. C. D.7.已知,取值如下表:從所得的散點圖分析可知:與線性相關,且,則等于A. B. C. D.8.2020年全球經濟都受到了新冠疫情的影響,但我國在中國共產黨的正確領導下防控及時,措施得當,很多企業的生產所受影響甚微.我國某電子公司于2020年6月底推出了一款領先于世界的5G電子產品.現調查得到該5G產品上市時間和市場占有率(單位:%)的幾組相關對應數據.如圖所示的折線圖中,橫軸1代表2020年8月,2代表2020年9月,…,5代表2020年12月,根據數據得出關于的線性回歸方程為.若用此方程分析并預測該產品市場占有率的變化趨勢,則該產品市場占有率最早何時能超過0.5%(精確到月)( )A.2021年5月 B.2021年6月 C.2021年8月 D.2021年9月9.陜西關中的秦腔表演樸實,粗獷,細膩,深刻,再有電子布景的獨有特效,深得觀眾喜愛.戲曲相關部門特意進行了“喜愛看秦腔”調查,發現年齡段與愛看秦腔的人數比存在較好的線性相關關系,年齡在,,,的愛看人數比分別是0.10,0.18,0.20,0.30.現用各年齡段的中間值代表年齡段,如42代表.由此求得愛看人數比關于年齡段的線性回歸方程為.那么,年齡在的愛看人數比為( )A.0.42 B.0.39 C.0.37 D.0.3510.已知與及與的對應數據如下表,且關于的線性回歸方程為,則關于的線性回歸方程為( )10 20 30 40 5020 30 40 50 70x 1 2 3 4 5y 2 3 4 5 7A. B.C. D.試卷第1頁,共3頁試卷第1頁,共3頁參考答案:1. 錯誤 正確【分析】根據隨機誤差的概念及線性回歸方程可判斷結果.【詳解】(1)產生隨機誤差的原因有多種,測量工具僅僅是其中的一個方面,故(1)錯誤;(2)根據線性回歸方程概念可知(2)正確.故答案為:①錯誤,②正確.2.D【分析】對于A:根據線性回歸方程必過樣本中心點運算求解;對于B:根據百分位的定義運算求解;對于C:根據相關系數的定義分析判斷;對于D:根據回歸方程的進行預測.【詳解】對于選項A:年份代碼x的平均數,年借閱量y的平均數(萬冊),則,解得,故A正確;對于選項B:因為,所以借閱量的第75百分位數為5.7,故B正確;對于選項C: 因為,所以y與x的線性相關系數,故C正確;對于選項D:由選項A可得:,令,可得,預計2021年的借閱量為6.12萬冊,但并不能確定具體結果,故D錯誤;故選:D.3.A【分析】求出的值,進而求得,將代入可得答案.【詳解】由圖表可得,故,則,將代入可得,即預測當氣溫為時,用電量的度數是70度,故選:A4.C【分析】先求出樣本中心點,再代入回歸直線方程,即可求解.【詳解】因為,所以,.因為回歸直線方程是,所以,即,解得:=.故選:C5.D【分析】根據最小二乘法計算即可求出答案.【詳解】解:由表中數據得,,,,所以,,故選:D.6.C【分析】求出樣本中心點,結合樣本中心點過回歸直線方程求解即可.【詳解】解:由題知,,由于樣本中心點在回歸直線上,將依次代入各選項檢驗只有滿足.所以,該觀測的數據算得的線性回歸方程可能是.故選:C7.B【分析】計算平均數,可得樣本中心點,代入線性回歸方程,即可求得a的值.【詳解】依題意,得(0+1+4+5+6+8)=4,(1.3+1.8+5.6+6.1++7.4+9.3)=5.25.又直線y=0.95x+a必過中心點(),即點(4,5.25),于是5.25=0.95×4+a,解得a=1.45.故選B.【點睛】本題考查線性回歸方程,利用線性回歸方程恒過樣本中心點是關鍵.8.C【分析】由回歸直線必過點求得,再求出使的即可.【詳解】由已知,,,∴,∴關于的線性回歸方程為,由,且解得,且,∴該產品市場占有率最早在即2021年8月時能超過0.5%.故選:C.9.D【分析】根據題意,可列出關于的表格,求出,代入,求出,即可求解【詳解】由題,對數據進行處理,得出如下表格:年齡段 42 47 52 57愛看人數比 0.10 0.18 0.20 0.30求得,,因樣本中心過線性回歸方程,將代入,得,即,年齡在對應的為,將代入得:,對應的愛看人數比為:0.35故選:D【點睛】本題考查線性回歸方程的應用,樣本中心過線性回歸方程是一個重要特征,屬于中檔題10.D【分析】由已知可得,,根據表格數據求出,,由公式求出,,進而可得關于的線性回歸方程.【詳解】由題表知,,,因為關于的線性回歸方程為,所以,可得,所以,則,所以關于的線性回歸方程為,故選項D正確;故選:D.答案第1頁,共2頁答案第1頁,共2頁 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫