資源簡介 第9章 統計9.1 線性回歸分析9.1.1 變量的相關性 9.1.2 一元線性回歸模型基礎過關練 題組一 變量間的相關關系1.下列變量之間的關系不是相關關系的是( )A.光照時間與大棚內蔬菜的產量B.舉重運動員所能舉起的杠鈴的最大質量與他的體重C.某正方形的邊長與此正方形的面積D.人的身高與體重2.根據變量x,y的不同成對數據,繪制了以下四個散點圖,由這四個散點圖可以判斷變量x與y呈負相關關系的是( )3.已知變量x和y滿足關系y=-x+1,變量y與z正相關,則( )A.x與y負相關,x與z負相關B.x與y正相關,x與z正相關C.x與y正相關,x與z負相關D.x與y負相關,x與z正相關題組二 樣本相關系數4.開始吸煙的年齡X與其得肺癌的相對危險度Y的一組對應數據為(16,15.10),(18,12.81),(20,9.72),(22,3.21);每天吸煙的支數U與其得肺癌的相對危險度V的一組對應數據為(10,7.5),(20,9.5),(30,16.6).用r1表示變量X與Y之間的樣本相關系數,r2表示變量U與V之間的樣本相關系數,則下列說法正確的是( )A.r1=r2 B.r1>r2>0C.05.對四組數據進行統計,獲得以下散點圖,關于其樣本相關系數的比較正確的是( ) A.r2C.r26.已知四組不同數據對應的兩變量的樣本相關系數如下:①組數據對應變量的樣本相關系數r1=0;②組數據對應變量的樣本相關系數r2=-0.95;③組數據對應變量的樣本相關系數的絕對值|r3|=0.89;④組數據對應變量的樣本相關系數r4=0.75.則下列說法正確的是( )A.①組數據對應的樣本點都在同一直線上B.②組數據對應的兩變量線性相關性最強C.③組數據對應的兩變量線性相關性最強D.④組數據對應的兩變量線性相關性最弱7.現有某種機械設備,隨著使用年限的增加,它的使用功能逐漸減退,使用價值逐年減少,通常把它使用價值逐年減少的“量”換算成費用,稱之為“失效費”.此種機械設備的使用年限x(單位:年)與失效費y(單位:萬元)的統計數據如下表所示,則y與x的樣本相關系數r= . 使用年限x/年 2 4 5 6 8失效費y/萬元 3 4 5 6 7附:r=≈1.4.題組三 經驗回歸方程及其應用8.根據變量x,y的一組樣本數據(xi,yi)(i=1,2,3,…,10)得到其經驗回歸方程為=2x-0.4,且=2.去除兩個樣本數據(-3,-1)和(3,-3)后,得到新的經驗回歸直線的斜率為3,則樣本數據(4,8)對應的殘差為( )A.1.5 B.-1C.-1.5 D.19.(多選題)某課外興趣小組在探究學習活動中,測得變量x,y的10組成對數據如下表所示:x 165 168 170 172 173 174 175 177 179 182y 55 89 61 65 67 70 75 75 78 80由最小二乘法計算得到y關于x的經驗回歸方程為x,樣本相關系數為r1,經過觀察散點圖,分析殘差,把數據(168,89)去掉后,用剩下的9組數據計算得到的經驗回歸方程為x,樣本相關系數為r2.則( )A. B.C. D.>010.(多選題)某小賣部5天內賣出熱茶的杯數y與當天氣溫x(單位:℃)的散點圖如圖所示,若去掉B(7,35),則下列說法正確的有( )A.決定系數R2變大B.變量x與y的相關性變弱C.樣本相關系數r的絕對值變大D.當氣溫為11 ℃時,估計賣出熱茶的杯數為3511.為實施鄉村振興,科技興農,某村建起了田園綜合體,并從省城請來專家進行技術指導.根據統計,該田園綜合體中的西紅柿畝產量的增加量y(千克)與某種液體肥料每畝使用量x(千克)之間的對應數據如表所示.x/千克 2 4 5 6 8y/千克 300 400 400 400 500(1)通過計算樣本相關系數r來判斷是否可用一元線性回歸模型擬合y與x的關系(若|r|>0.75,則線性相關程度很高,可以用一元線性回歸模型擬合);(2)求y關于x的經驗回歸方程,并估計當液體肥料每畝使用量為15千克時,西紅柿畝產量的增加量.參考公式:樣本相關系數r=;在中,.參考數據:≈3.16.題組四 非線性回歸分析12.以模型y=cekx去擬合一組數據時,為了求出回歸方程,設z=ln y,將其變換后得到經驗回歸方程=0.2x+3,則估計c,k的值分別是( )A.e2,0.6 B.e2,0.3 C.e3,0.2 D.e4,0.613.當兩個變量呈非線性相關時,有些可以通過適當的轉換進行線性相關化,比如反比例關系y=,可以設一個新的變量u=,這樣y與u之間就是線性關系.下列表格中的數據可以用非線性方程=0.14x2+進行擬合,用線性回歸的相關知識,可求得的值約為( )x 1 2 3 4 5 6y 2.5 3.6 4.4 5.4 6.6 7.5A.2.98 B.2.88 C.2.78 D.2.6814.某鄉政府為提高當地農民的收入,指導農民種植藥材,并取得了較好的效果.以下是某農戶2018—2022年種植藥材的平均收入的統計數據:年份 2018 2019 2020 2021 2022年份代碼x 1 2 3 4 5平均收入y/千元 59 61 64 68 73(1)根據表中數據,現有y=a+bx與y=c+dx2兩種模型可以擬合y與x之間的關系,請分別求出兩種模型的回歸方程;(結果保留一位小數)(2)統計學中常通過比較殘差的平方和來比較兩個模型的擬合效果,請根據殘差平方和說明上述兩個模型哪一個的擬合效果更好,并據此預測2030年該農戶種植藥材的平均收入.參考數據:)2=374,其中ti=.參考公式:經驗回歸方程中,.能力提升練 題組一 經驗回歸方程及其應用1.已知某種商品的廣告費投入x(單位:萬元)與銷售額y(單位:萬元)之間有如下對應數據: x/萬元 2 4 5 6 8y/萬元 30 40 50 60 70根據上表可得y關于x的經驗回歸方程為,計算得=7,則當投入10萬元廣告費時,銷售額的估計值為( )A.75萬元 B.85萬元 C.99萬元 D.105萬元2.某學習小組對一組數據(xi,yi)(i=1,2,3,…,7)進行回歸分析,甲同學首先求出經驗回歸方程為=3x+2,樣本點的中心為(2,m).乙同學對甲的計算過程進行檢查,發現甲將數據(4,6)誤輸入成(6,4),將這兩個數據修正后得到經驗回歸方程為x+4,則=( )A.3.某學校校醫研究溫差x(℃)與本校當天新增感冒人數y的關系,該醫生記錄了5天的數據,由于保管不善,其中有兩個數據看不清楚,現分別用m,n代替,已知18≤m≤24,26≤n≤34,且樣本點的中心為(8,25),則下列結論正確的是( )x 5 6 8 9 12y 17 m 25 n 35A.在m,n確定的條件下,去掉樣本點(8,25),則樣本相關系數r增大B.在m,n確定的條件下,經過擬合,發現數據基本符合經驗回歸方程,則=4C.在m,n確定的條件下,經過擬合,發現數據基本符合經驗回歸方程,則當x=12時,殘差為0.4D.事件“m=20,n=28”發生的概率為4.垃圾是人類日常生活和生產中產生的廢棄物,由于排出量大,成分復雜多樣,且具有污染性,所以需要無害化、減量化處理.某市為調查產生的垃圾數量,采用簡單隨機抽樣的方法抽取20個縣城進行了分析,得到樣本數據(xi,yi)(i=1,2,…,20),其中xi和yi分別表示第i個縣城的人口數(單位:萬)和該縣年產生垃圾總量(單位:噸),并計算得yi=4 000,)2=8 000,)=700.(1)請用樣本相關系數說明該組數據中y與x之間的關系可用一元線性回歸模型進行擬合;(2)求y關于x的經驗回歸方程;(3)某科研機構研發了兩款垃圾處理機器,其中甲款機器每臺售價為100萬元,乙款機器每臺售價為80萬元,下表是以往兩款垃圾處理機器的使用年限(整年)統計表:臺數 使用年限 總計1年 2年 3年 4年款式 甲款 5 20 15 10 50乙款 15 20 10 5 50根據以往經驗可知,某縣城環保機構每年可獲得政府支持的垃圾處理費用為50萬元,且僅考慮購買機器的成本和每臺機器的使用年限(使用年限均為整年).該縣城環保機構若考慮購買其中一款垃圾處理機器,以使用年限的頻率估計概率,該機構選擇購買哪一款垃圾處理機器更劃算 參考公式:樣本相關系數r=;對于一組具有線性相關關系的數據(xi,yi)(i=1,2,…,n),其經驗回歸直線.5.消費者信心指數是反映消費者信心強弱的指標,它是預測經濟走勢和消費趨向的一個先行指標,是監測經濟周期變化的重要依據.消費者信心指數值在0和200之間.指數超過100,表明消費者信心處于強信心區;指數等于100,表示消費者信心處于強弱臨界點;指數小于100,表示消費者信心處于弱信心區.我國某城市2016年至2019年各季度的消費者信心指數如下表1:表12016年 2017年 2018年 2019年第一季度 104.50 111.70 118.50 119.30第二季度 104.00 110.20 114.60 118.20第三季度 105.50 114.20 110.20 118.10第四季度 106.80 113.20 113.20 119.30將2016年至2019年該城市各季度的消費者信心指數整理得到如下頻數分布表2:表2分組 [100,105) [105,110) [110,115) [115,120]頻數 2 2 7 5記2016年至2019年的年份序號為xi(i=1,2,3,4),該城市各年消費者信心指數的年平均值(四舍五入取整)為yi(i=1,2,3,4),xi與yi的關系如下表3:表3年份序號xi 1 2 3 4消費者信心指 數的年平均值yi 105 112 114 119(1)從2016年至2019年該城市各季度的消費者信心指數中任取2個,求其中至少有一個不小于115的概率;(2)用表2中各區間的中點值代替該區間的消費者信心指數,從2016年至2019年各季度的消費者信心指數中任取一個將其記為隨機變量X,求X的概率分布和數學期望(保留2位小數);(3)根據表3的數據建立y關于x的經驗回歸方程,并根據建立的經驗回歸方程估計2020年該城市消費者信心指數的年平均值.參考數據和公式:=112.5;在中,.題組二 非線性回歸分析及其應用6.用模型y=aekx擬合一組數據(xi,yi)(i=1,2,…,10),若x1+x2+…+x10=10,y1y2…y10=e70,設z=ln y,得變換后的經驗回歸方程為x+4,則估計ak= . 7.某企業新研發了一種產品,產品的成本由原料成本及非原料成本組成.每批產品的非原料總成本y(元)與生產該產品的數量x(千件)有關,經統計得到如下數據:x/千件 1 2 3 4 5 6 7y/元 6 11 21 34 66 101 196根據以上數據,繪制散點圖,如圖所示.觀察散點圖,兩個變量不具有線性相關關系,現考慮用對數函數模型y=a+bln x和指數函數模型y=c·dx分別對兩個變量的關系進行擬合.(1)根據散點圖判斷,y=a+bln x與y=c·dx(c,d均為大于零的常數)哪一個適宜作為非原料總成本y關于生產該產品的數量x的回歸方程類型;(給出判斷即可,不必說明理由)(2)根據(1)的判斷結果及表中的數據,建立y關于x的回歸方程;(3)已知每件產品的原料成本為10元,若該產品的總成本不得高于123 470元,請估計最多能生產多少千件該產品.參考數據:xiyi xivi 100.544 62.14 1.54 140 2 535 50.12 3.47其中vi=lg yi,vi.參考公式:對于一組數據(u1,v1),(u2,v2),…,(un,vn),其經驗回歸直線u的斜率和截距的最小二乘估計分別為.答案與分層梯度式解析第9章 統計9.1 線性回歸分析9.1.1 變量的相關性9.1.2 一元線性回歸模型基礎過關練1.C 2.B 3.A 4.D 5.A 6.B 8.C 9.BCD10.AC 12.C 13.B1.C 選項C中的兩個變量之間是函數關系,故不是相關關系;選項A、B、D中的兩個變量之間的關系均是相關關系.故選C.2.B A中,各點的分布沒有明顯相關性,不符合題意;B中,各點分布在一條直線附近,且變量之間呈負相關關系,符合題意;C中,各點分布在一條拋物線附近,表明兩變量之間不是線性相關關系,不符合題意;D中,各點分布在一條直線附近,且變量之間呈正相關關系,不符合題意.故選B.3.A 由正相關、負相關的定義可知x與y負相關,x與z負相關.故選A.4.D 由X與Y的對應數據可得,Y隨X的增大而減小,故X與Y呈負相關關系,故r1<0;由U與V的對應數據可得,V隨U的增大而增大,故U與V呈正相關關系,故r2>0,故r1<0故選D.5.A 由題中的散點圖可以看出,圖1和圖3對應的兩變量正相關,則樣本相關系數大于0,即r1>0,r3>0;圖2和圖4對應的兩變量負相關,則樣本相關系數小于0,即r2<0,r4<0.又圖1和圖2中的點相對于圖3和圖4中的點更加集中,所以r1更接近1,r2更接近-1,所以r2解題模板 由散點圖判斷樣本相關系數的大小關系時,一般先由散點圖的分布(左下到右上、左上到右下)確定樣本相關系數的符號,再由散點圖是否集中在某條直線附近確定樣本相關系數絕對值的大小.6.B 樣本相關系數r的絕對值越接近1,兩變量的相關性越強;樣本相關系數r的絕對值越接近0,兩變量的相關性越弱.破題關鍵對于A,①組數據對應變量的樣本相關系數r1=0,故①組數據對應的兩變量無線性關系,樣本點不在同一直線上,故A錯誤;對于B、C,②組數據對應變量的樣本相關系數的絕對值|r2|=0.95,為四組樣本相關系數中絕對值的最大值,故②組數據對應的兩變量線性相關性最強,故B正確,C錯誤;對于D,①組數據對應變量的樣本相關系數r1=0,為四組樣本相關系數中絕對值的最小值,故①組數據對應的兩變量線性相關性最弱,故D錯誤.故選B.7.答案 0.98解析 由題表知,×(2+4+5+6+8)=5,×(3+4+5+6+7)=5,所以)=(2-5)×(3-5)+(4-5)×(4-5)+(5-5)×(5-5)+(6-5)×(6-5)+(8-5)×(7-5)=14,)2=(2-5)2+(4-5)2+(5-5)2+(6-5)2+(8-5)2=20,)2=(3-5)2+(4-5)2+(5-5)2+(6-5)2+(7-5)2=10,所以樣本相關系數r==0.98.8.C 思路分析 由經驗回歸方程求出,再求出新樣本數據的平均數,從而求出新的經驗回歸方程,然后求出預測值,進而得到殘差.解析 將=2代入=2x-0.4,得=2×2-0.4=3.6,去除兩個樣本數據(-3,-1)和(3,-3)后,=5,又新的經驗回歸直線的斜率為3,故其截距,故新的經驗回歸方程為,當x=4時,,則樣本數據(4,8)對應的殘差為8-=-1.5.故選C.9.BCD 對于10組數據,×(165+168+170+172+173+174+175+177+179+182)=173.5,因為離群點(168,89)的橫坐標168小于平均值173.5,縱坐標89相對較大,所以去掉離群點后經驗回歸直線的截距變小而斜率變大,所以,故A錯誤,B正確;去掉離群點后,成對樣本數據的線性相關程度更強,擬合效果會更好,所以|r1|<|r2|,由題中表格可知,x與y正相關,所以00,所以,故C,D正確.故選BCD.10.AC 由題中散點圖可知,去掉B(7,35)后,變量x與y的相關性變強,故決定系數R2變大,故A正確,B錯誤;因為x與y是負相關,所以樣本相關系數r的絕對值變大,故C正確;設y關于x的經驗回歸方程為,去掉B(7,35)后,=36,xi'yi'=4×50+10×37+13×33+17×24=1 407,x'2i =42+102+132+172=574,所以≈-1.97,'=36+1.97×11=57.67,所以y關于x的經驗回歸方程為=-1.97x+57.67,當x=11時,=-1.97×11+57.67=36,故當氣溫為11 ℃時,估計賣出熱茶的杯數為36,故D錯誤.故選AC.11.解析 (1)由題表可得=5,=400,所以)=(-3)×(-100)+(-1)×0+0×0+1×0+3×100=600,)2=(-3)2+(-1)2+02+12+32=20,)2=(-100)2+02+02+02+1002=20 000,所以r=≈0.95.因為|r|>0.75,所以可以用一元線性回歸模型擬合y與x的關系.(2)結合(1)知,=30,所以=400-5×30=250,所以=30x+250.當x=15時,=30×15+250=700,故估計當液體肥料每畝使用量為15千克時,西紅柿畝產量的增加量為700千克.12.C 對y=cekx兩邊同時取以e為底的對數,得ln y=ln(cekx)=ln c+ln ekx=kx+ln c.因為z=ln y,所以z=kx+ln c,又=0.2x+3,所以=0.2,ln =3,所以=e3.13.B 設z=x2,則,則z 1 4 9 16 25 36y 2.5 3.6 4.4 5.4 6.6 7.5則,=5,則≈2.88.故選B.14.解析 (1)由題表得×(59+61+64+68+73)=65,所以)2=10,所以=3.5,=65-3.5×3=54.5.由題知,t=x2,則y=c+dx2=c+dt,易得×(12+22+32+42+52)=11,≈0.6,則=65-0.6×11=58.4.所以兩種模型的回歸方程分別為=0.6x2+58.4.(2)對于模型=3.5x+54.5,其殘差平方和為(59-58)2+(61-61.5)2+(64-65)2+(68-68.5)2+(73-72)2=3.5.對于模型=0.6x2+58.4,其殘差平方和為(59-59)2+(61-60.8)2+(64-63.8)2+(68-68)2+(73-73.4)2=0.24.因為0.24<3.5,所以模型=0.6x2+58.4的擬合效果更好.當x=13時,=0.6×132+58.4=159.8,故預測2030年該農戶種植藥材的平均收入為159.8千元,即15.98萬元.能力提升練1.B 2.D 3.D1.B 由題意得×(30+40+50+60+70)=50,∵經驗回歸直線過樣本點的中心(5,50),∴50=7×5+,解得=15,∴經驗回歸方程為=7x+15.當x=10時,=7×10+15=85,故當投入10萬元廣告費時,銷售額的估計值為85萬元.故選B.2.D 由題意可得m=3×2+2=8,假設甲輸入的(x1,y1)為(6,4),則6+x2+x3+…+x7=2×7=14,則x2+x3+…+x7=8,同理,4+y2+y3+…+y7=7×8=56,則y2+y3+…+y7=52,將(6,4)改為(4,6)后,有4+x2+x3+…+x7=12,即,同理,有6+y2+y3+…+y7=58,即,所以修正后的樣本點的中心為,將x+4,得+4,解得.故選D.3.D 對于A,因為經驗回歸直線必過樣本點的中心(8,25),所以在m,n確定的條件下,去掉樣本點(8,25),樣本相關系數r不變,所以A錯誤;對于B,將(8,25)代入,可得25=2.6×8+,解得=4.2,所以B錯誤;對于C,由B中分析知=2.6x+4.2,當x=12時,=35.4,則對應殘差為35-35.4=-0.4,所以C錯誤;對于D,由題得17+m+25+n+35=25×5,解得m+n=48,又18≤m≤24,26≤n≤34,故m可取18,19,20,21,22,對應的n可取30,29,28,27,26,即(m,n)的取值為(18,30),(19,29),(20,28),(21,27),(22,26),所以事件“m=20,n=28”發生的概率為,所以D正確.故選D.4.解析 (1)由題意知樣本相關系數r==0.875.因為y與x的樣本相關系數接近于1,所以y與x之間具有較強的線性相關關系,可用一元線性回歸模型進行擬合.(2)設y關于x的經驗回歸方程為,則=8.75,=200-8.75×4=165,所以=8.75x+165.(3)以頻率估計概率,設購買一臺甲款垃圾處理機器減去政府支持費用后的垃圾處理費用為X萬元,其概率分布為X -50 0 50 100P 0.1 0.4 0.3 0.2則E(X)=-50×0.1+0×0.4+50×0.3+100×0.2=30,設購買一臺乙款垃圾處理機器減去政府支持費用后的垃圾處理費用為Y萬元,其概率分布為Y -30 20 70 120P 0.3 0.4 0.2 0.1則E(Y)=-30×0.3+20×0.4+70×0.2+120×0.1=25.因為E(X)>E(Y),所以該機構選擇購買一臺甲款垃圾處理機器更劃算.5.解析 (1)由題表2,可得共統計了2+2+7+5=16個消費者信心指數,其中不小于115的共有5個,所以從2016年至2019年該城市各季度的消費者信心指數中任取2個,其中至少有一個不小于115的概率為.(2)由題意可知X的可能取值為102.5,107.5,112.5,117.5,其中P(X=102.5)=,P(X=112.5)=,所以隨機變量X的概率分布為X 102.5 107.5 112.5 117.5P數學期望E(X)=102.5×≈112.19.(3)由題知=112.5,則)=(1-2.5)×(105-112.5)+(2-2.5)×(112-112.5)+(3-2.5)×(114-112.5)+(4-2.5)×(119-112.5)=22,)2=(1-2.5)2+(2-2.5)2+(3-2.5)2+(4-2.5)2=5,所以=4.4,=112.5-4.4×2.5=101.5,所以變量y關于x的經驗回歸方程為=4.4x+101.5,2020年對應的年份序號為5,當x=5時,=4.4×5+101.5=123.5,故估計2020年該城市消費者信心指數的年平均值為123.5.6.答案 3e4解析 由題意得=7,因為()在經驗回歸直線x+4上,所以7=+4,解得=3,由y=aekx得z=ln y=ln a+kx,又=3x+4,所以ln =3,故=e4,所以估計ak=3e4.7.解析 (1)根據題中的散點圖判斷,y=c·dx(c,d均為大于零的常數)適宜作為非原料總成本y關于生產該產品的數量x的回歸方程類型.(2)對y=c·dx兩邊同時取常用對數,得lg y=lg(c·dx)=lg c+xlg d.由題知,v=lg y,∴v=lg c+xlg d,∵xivi=50.12,∴lg =0.25,lg lg =1.54-4×0.25=0.54,∴=0.54+0.25x,∴lg =0.54+0.25x,∴=100.54+0.25x=3.47×100.25x,即y關于x的回歸方程為=3.47×100.25x.(3)設生產了x千件該產品,生產總成本為g(x)元,則g(x)=3.47×100.25x+x×10×1 000=3.47×100.25x+10 000x,又g(x)=3.47×100.25x+10 000x在其定義域內單調遞增,且g(12)=3.47×103+120 000=123 470,所以估計最多能生產12千件該產品.方法總結 當兩個變量不具有線性相關關系時,不能直接利用經驗回歸方程建立兩個變量的關系,可以通過變換將其轉化為一元線性回歸模型,如y=c1,我們可以通過對數變換把指數關系變為線性關系,令z=ln y,則變換后樣本點應該分布在直線z=bx+a(a=ln c1,b=c2)的附近.4(共30張PPT)9.1 線性回歸分析必備知識 清單破1.兩個變量的關系知識點 1 變量間的相關關系分類 函數關系 相關關系特征 兩個變量具有確定性關系 兩個變量沒有確定性關系知識點 2 樣本相關系數1.一元線性回歸模型的概念 散點圖上的點在一條直線附近,但并不都在這條直線上.也就是說,這條直線并不能精確 地反映x與y之間的關系,y的值不能由x確定,在此,我們將兩者之間的關系表示為y=a+bx+ε,其 中a+bx是確定性函數,ε稱為隨機誤差.我們將y=a+bx+ε稱為一元線性回歸模型.其中,y稱為因變量或響應變量,x稱為自變量或解釋 變量.2.經驗回歸直線 設有n對觀測數據(xi,yi)(i=1,2,3,…,n),根據一元線性回歸模型,對于每一個xi,對應的隨機 誤差項εi=yi-(a+bxi),當 + +…+ 取得最小值時得到的直線 = + x稱為這n對數據的經驗回歸直線,此直線方程稱為y關于x的經驗回歸方程,其中 稱為回歸截距, 稱為回歸系數, 稱知識點3 一元線性回歸模型為回歸值.把上述方法稱為“最小二乘法”,由此求得的 , 分別叫作b,a的最小二乘估計.3.經驗回歸方程的計算公式及其性質(1)經驗回歸方程的計算公式 = + x中,回歸系數 的計算公式: = = ,回歸截距 的計算公式: = - . 其中a,b上方加“^”表示由觀察值按最小二乘法求得的估計值. 表示實際值y的估計值.(2)性質①經驗回歸直線一定過點( , ).②y與x正相關的充要條件是 >0,y與x負相關的充要條件是 <0.③ 的實際意義:當x增大一個單位時, 增大 個單位. 對于變量y與x的關系,不是線性相關關系,稱為非線性相關關系,其方程稱為非線性回歸 方程.一般地,非線性回歸方程的曲線類型可以通過作出散點圖進行猜測,而非線性回歸方程 有時可以通過變量替換后,借助求經驗回歸方程的過程確定.知識點 4 非線性回歸方程 1.概念:一般地,我們將觀測值與對應的估計值之差稱為殘差.殘差是隨機誤差ε的估計結果.2.統計學中也用決定系數R2的統計量來比較兩個模型的擬合效果,R2的計算公式是R2=1- ,其中R2越大,表示殘差平方和越小,即模型擬合效果越好;R2越小,表示殘差平方和越大,即模型的擬合效果越差.知識點 5 殘差知識辨析1.相關關系是函數關系嗎 2.若兩個變量的樣本相關系數r=0,則這兩個變量間是不是沒有任何關系 3.經驗回歸直線一定過成對樣本數據(x1,y1),(x2,y2),…,(xn,yn)中的某一點嗎 4.y的實際值與估計值之間的誤差記為e,稱之為隨機誤差,它是由計算產生的誤差嗎 5.已知x與y之間的一組數據(0,1),(1,3),(2,5),(3,7),y與x線性相關,則經驗回歸直線 = x+ 是否必過點(1.5,4) 6.若所有樣本點(xi,yi)(i=1,2,…,n)都在直線y= x+1上,則這組數據的樣本相關系數是不是 一語破的1.不是.相關關系是一種非確定性關系,是指兩個變量有關系,但又沒有確切到可由其中的一 個去精確地決定另一個的程度.2.不是.兩個變量的樣本相關系數r=0只表明這兩個變量間沒有線性相關關系,但不排除它們 之間有其他相關關系.3.不一定.經驗回歸直線一定過成對樣本數據(xi,yi)(i=1,2,…,n)的中心點( , ).4.不一定.隨機誤差產生的主要原因有所選用的確定性函數不恰當引起的誤差,忽略了某些因 素的影響,存在觀測誤差等.5.是.因為 = =1.5, = =4,所以經驗回歸直線必過點(1.5,4).6.不是.這組數據的樣本相關系數為1.關鍵能力 定點破 1.利用散點圖判斷兩個變量的相關性(1)如果變量x和y正相關,那么散點圖表現為點散布的位置是從左下到右上的區域;如果變量x 和y負相關,那么散點圖表現為點散布的位置是從左上到右下的區域.(2)如果散點落在一條直線附近,則認為這兩個變量線性相關.2.利用樣本相關系數判斷兩個變量相關性強弱 樣本相關系數r是從數值上來判斷變量間的線性相關程度的量,是定量分析.|r|刻畫了樣 本點集中于某條直線的程度.|r|越接近1,散點圖中的點分布越接近一條直線,兩個變量的線性相關程度越強.定點 1 變量間相關關系的判斷典例1 在下列各圖中,每個圖的兩個變量具有相關關系的是 ( ) (1) (2) (3) (4)A.(1)(2) B.(1)(3)C.(2)(4) D.(2)(3)D解析 對于題圖(1),所有的散點都在曲線上,故具有函數關系;對于題圖(2),所有的散點分布在一條直線附近,具有相關關系;對于題圖(3),所有的散點分布在一條曲線附近,具有相關關系;對于題圖(4),所有的散點雜亂無章,不具有相關關系.故選D.典例2 某農科所對冬季晝夜溫差(最高溫度與最低溫度的差)大小與某反季節大豆新品種一 天內發芽數之間的關系進行了分析研究,他們分別記錄了4月1日至4月6日每天晝夜最高、最 低的溫度(如圖甲),以及實驗室每天每100顆種子中的發芽數情況(如圖乙). 圖甲 圖乙(1)請畫出發芽數y與溫差x的散點圖;(2)判斷兩個變量是否線性相關,計算樣本相關系數,并刻畫它們的相關程度.參考數據: xiyi=2 051, ≈6.5.參考公式:樣本相關系數r= .(當|r|>0.75時,認為成對樣本數據的線性相關程度較強)解析 (1)散點圖如圖所示. (2)r= ≈ ≈0.952.由樣本相關系數r≈0.952>0.75,可以推斷發芽數與溫差這兩個變量正相關,且線性相關程度 較強.規律總結 判斷兩個變量之間的線性相關關系一般用散點圖,但在作圖時,由于存在誤差,有 時很難判斷這些點是否分布在一條直線附近,此時可以利用樣本相關系數r來判斷.樣本相關 系數是從數值上來判斷的,是定量分析,比散點圖(定性分析)要精細得多. 利用公式 = , = - 求經驗回歸方程的一般步驟:(1)列出xi,yi,xiyi;(2)計算 , , , xiyi;(3)代入公式計算 , 的值;(4)寫出經驗回歸方程.知識點 2 求經驗回歸方程典例 流行性感冒(簡稱流感)是由流感病毒引起的一種急性呼吸道感染疾病,具有傳染性強、 傳播速度快的特點.其主要通過空氣中的飛沫、人與人之間的接觸或與被污染物品的接觸傳 播.流感每年在世界各地均有傳播,在我國北方通常呈冬春季流行,南方有冬春季和夏季兩個 流行高峰.兒童相對免疫力低,在幼兒園、小學等人員密集的地方更容易被傳染.某幼兒園將 去年春季該園患流感的小朋友按照年齡與人數統計,得到如下數據:年齡x 2 3 4 5 6患病人數y 22 22 17 14 10(1)求y關于x的經驗回歸方程;(2)計算變量x,y的樣本相關系數r(計算結果精確到0.01),并判斷是否可以認為該幼兒園去年 春季患流感人數與年齡負相關程度很強.(若|r|∈[0.75,1],則x,y相關程度很強;若|r|∈(0.25,0.7 5),則x,y相關程度一般;若|r|∈[0,0.25],則x,y相關程度較弱)參考數據: ≈5.477.參考公式:樣本相關系數r= ,經驗回歸方程 = x+ 中, = , = - .解析 (1)由題表中的數據,得 = =4, = =17, =(-2)2+(-1)2+02+12+22=10, =52+52+02+(-3)2+(-7)2=108, (xi- )(yi- )=(-2)×5+(-1)×5+0×0+1×(-3)+2×(-7)=-32,所以 = = =-3.2, = - =17-(-3.2)×4=29.8,所以y關于x的經驗回歸方程是 =-3.2x+29.8.(2)由(1)及已知,得r= = ≈ ≈-0.97.因為|r|≈0.97∈[0.75,1],所以認為該幼兒園去年春季患流感人數與年齡負相關程度很強. 1.研究兩個變量的關系時,依據樣本數據畫出散點圖,從整體上看,如果散點沒有分布在一條 直線附近,就稱這兩個變量之間不具有線性相關關系.當兩個變量不具有線性相關關系時,依 據散點的分布選擇合適的曲線方程來擬合數據,可通過變量代換,利用線性回歸模型建立兩 個變量間的非線性回歸方程.常見的非線性回歸方程的轉換方式如下:定點 3 非線性回歸分析曲線方程 曲線(曲線的一部分) 變換公式 變換后的線性函數y=axb c=ln a,v=ln x,u=ln y u=c+bvy=aebx c=ln a,u=ln y u=c+bxy=a c=ln a,v= ,u=ln y u=c+bvy=a+bln x v=ln x y=a+bv2.建立非線性回歸模型的基本步驟(1)確定研究對象,明確涉及的變量;(2)畫出確定好的變量間的散點圖,觀察它們之間的關系(是否存在非線性關系);(3)由經驗確定非線性回歸方程的類型(如我們觀察到數據呈非線性關系,一般選用反比例函 數模型、指數函數模型、對數函數模型等);(4)通過換元,將非線性回歸模型轉化為線性回歸模型;(5)按照公式計算經驗回歸方程中的參數,得到經驗回歸方程;(6)消去新元,得到非線性回歸方程.典例 混凝土具有原材料豐富、抗壓強度高、耐久性好等特點,是目前使用量最大的土木建 筑材料.抗壓強度是混凝土質量控制的重要技術參數,也是實際工程對混凝土要求的基本指 標.為了解某型號某批次混凝土的抗壓強度(單位:MPa)隨齡期(單位:天)的發展規律,質檢部門 在標準試驗條件下記錄了10組混凝土試件在齡期xi(i=1,2,…,10)分別為2,3,4,5,7,9,12,14,17,21 時的抗壓強度yi的值,并對數據進行了初步處理,得到散點圖及一些統計量的值. (xi- )2 (wi- )29.4 29.7 2 370.4 5.5 (xi- )(yi- ) (wi- )(yi- )439.2 55表中wi=ln xi, = wi.(1)根據散點圖判斷y=a+bx與y=c+dln x哪一個適宜作為抗壓強度y關于齡期x的回歸方程類型, 根據判斷結果和表中數據,建立y關于x的回歸方程;(2)工程中常把齡期為28天的混凝土試件的抗壓強度f28視作混凝土抗壓強度標準值.已知該型 號混凝土設置的最低抗壓強度標準值為40 MPa.①試預測該批次混凝土是否達標;②由于抗壓強度標準值需要較長時間才能評定,因此早期預測在工程質量控制中具有重要的 意義.經驗表明,該型號混凝土第7天的抗壓強度f7與第28天的抗壓強度f28具有線性相關關系f28 =1.2f7+7,試估計在早期質量控制中,齡期為7天的混凝土試件需達到的抗壓強度.參考數據:ln 2≈0.69,ln 7≈1.95.解析 (1)由題中的散點圖可以判斷出,y=c+dln x適宜作為抗壓強度y關于齡期x的回歸方程類 型.由題知,w=ln x,先建立y關于w的經驗回歸方程.由于 = = =10, = - =29.7-10×2=9.7,所以y關于w的經驗回歸方程為 =9.7+10w,因此y關于x的回歸方程為 =9.7+10ln x.(2)①由(1)知,當齡期為28天,即x=28時,抗壓強度y的估計值 =9.7+10ln 28=9.7+10×(2ln 2+ln7)≈9.7+10×(2×0.69+1.95)=43.因為43>40,所以預測該批次混凝土達標.②令f28=1.2f7+7≥40,得f7≥27.5,所以估計齡期為7天的混凝土試件需達到的抗壓強度為27.5 MPa. 展開更多...... 收起↑ 資源列表 9.1 線性回歸分析.docx 9_1 線性回歸分析.ppt 縮略圖、資源來源于二一教育資源庫