資源簡介 (共60張PPT)7.2成對數據的線性相關性1、所求直線方程叫做回歸直線方程;相應的直線叫做回歸直線。2、對兩個變量進行的線性分析叫做線性回歸分析。回歸直線方程溫故知新最小二乘法:稱為樣本點的中心。www.溫故知新2、求回歸直線方程的步驟:(3)代入公式(4)寫出直線方程為y=bx+a,即為所求的回歸直線方程。^溫故知新我們知道,如果變量 y 是變量 x 的函數,那么由 x 就可以唯一確定 y. 然而,現實世界中還存在這樣的情況:兩個變量之間有關系,但密切程度又達不到函數關系的程度. 例如,人的體重與身高存在關系,但由一個人的身高并不能確定他的體重值. 那么,該如何刻畫這兩個變量之間的關系呢?下面我們就來研究這個問題.引入新課我們知道,一個人的體重與他的身高有關系. 一般而言,個子高的人往往體重值較大,個子矮的人往往體重值較小. 但身高并不是決定體重的唯一因素,例如生活中的飲食習慣、體育鍛煉、睡眠時間以及遺傳因素等也是影響體重的重要因素. 像這樣,兩個變量有關系,但又沒有確切到可由其中一個去精確地決定另一個的程度,這種關系稱為相關關系.變量的相關關系兩個變量具有相關關系的事例在現實中大量存在. 例如:1.子女身高 y 與父親身高 x 之間的關系;2.商品銷售收入 y 與廣告支出 x 之間的關系;3.空氣污染指數 y 與汽車保有量 x 之間的關系;4.糧食畝產量 y 與施肥量 x 之間的關系.對上述各例中兩個變量之間的相關關系,我們往往會根據自己以往積累的經驗作出推斷. “經驗之中有規律”,經驗的確可以為我們的決策提供一定的依據,但僅憑經驗推斷又有不足.因為在相關關系中,變量 y 的值不能隨變量 x 的值的確定而唯一確定,所以我們無法直接用函數去描述變量之間的這種關系. 因此,在研究兩個變量之間的相關關系時,我們需要借助數據說話,即通過樣本數據分析,從數據中提取信息,并構建適當的模型,再利用模型進行估計或判斷.思考1:在對人體的脂肪含量和年齡之間關系的研究中,科研人員獲得了一些年齡和脂肪含量的簡單隨機樣本數據,如表所示. 表中每個編號下的年齡和脂肪含量數據都是對同一個體的觀測結果,它們構成了成對數據.編號 1 2 3 4 5 6 7年齡/歲 23 27 39 41 45 49 50脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2編號 8 9 10 11 12 13 14年齡/歲 53 54 56 57 58 60 61脂肪含量/% 29.6 30.2 31.4 30.8 33.5 35.2 34.6根據以上數據,你能推斷人體的脂肪含量與年齡之間存在怎樣的關系嗎?為了更加直觀地描述上述成對樣本數據中脂肪含量與年齡之間的關系,類似于用直方圖描述單個變量樣本數據的分布特征,我們用圖形展示成對樣本數據的變化特征. 用橫軸表示年齡,縱軸表示脂肪含量,則上表中每個編號下的成對樣本數據都可用直角坐標系中的點表示出來,由這些點組成了下面的統計圖,我們把這樣的統計圖叫散點圖.觀察圖象可以發現,這些散點大致落在一條從左下角到右上角的直線附近,表明隨年齡的增加,相應的脂肪含量值呈現增加的趨勢. 這樣,由成對樣本數據的分布規律,我們可以推斷脂肪含量變量和年齡變量之間存在著相關關系.從整體上看,當一個變量的值增加時,另一個變量的相應值也呈現增加的趨勢,我們就稱這兩個變量正相關;當一個變量的值增加時,另一個變量的相應值呈現減少的趨勢,則稱這兩個變量負相關.根據圖象,能夠推斷脂肪含量與年齡這兩個變量正相關.散點圖是描述成對數據之間關系的一種直觀方法. 觀察圖象,從中我們不僅可以大致看出脂肪含量和年齡呈現正相關,而且從整體上可以看出散點落在一條直線附近.一般地,如果兩個變量的取值呈現正相關或負相關,而且散點落在一條直線附近,我們就稱這兩個變量線性相關.觀察下面的散點圖,我們發現:圖(1)中的散點落在某條曲線附近,而不是落在一條直線附近,說明這兩個變量具有相關性,但不是線性相關;圖(1)圖(2)圖(3)類似地,圖(2)中的散點落在一條折線附近,這兩個變量也具有相關性,但它們既不是正相關,也不是負相關;圖(3)中的散點雜亂無章,無規律可言,看不出這兩個變量有什么相關性.一般地,如果兩個變量具有相關性,但不是線性相關,那么我們就稱這兩個變量非線性相關或曲線相關.例1.(多選)下列關系中,屬于相關關系的是( )A.正方形的邊長與面積之間的關系B.農作物的產量與施肥量之間的關系C.出租車費與行駛的里程D.降雪量與交通事故的發生率之間的關系BD變式:1.已知相關關系:①正相關,②負相關,③不相關.則圖(1)(2)(3)分別反映的兩變量間的相關關系是( )A.①②③ B.②③① C.②①③ D.①③②D問題提出2.1相關系數如圖7-7,易知這7組成對數據均位于單位圓上,所以X和Y不具備線性關系.因此,為了使建立的線性回歸方程有意義,在利用最小二乘法求線性回歸方程之前,我們需要先對變量之間的線性關系作一個判斷,如果數據不多,可以根據給定的數據畫出散點圖,再從直觀上進行觀測.但是對一般的情形又如何判斷呢?分析理解 抽象概括顯然,樣本(線性)相關系數r的取值范圍為[―1,1].| r |值越接近1,隨機變量之間的線性相關程度越強;| r |值越接近0,隨機變量之間的線性相關程度越弱.當r>0時,兩個隨機變量的值總體上變化趨勢相同,此時稱兩個隨機變量正相關;當r<0時,兩個隨機變量的值總體上變化趨勢相反,此時稱兩個隨機變量負相關;當r=0時,此時稱兩個隨機變量線性不相關.相關系數r>0正相關;r<0負相關.通常,r>0.75,認為兩個變量有很強的相關性.本例中,由上面公式r=0.798>0.75.**如何描述兩個變量之間線性相關關系的強弱?我們學習了用相關系數r來衡量兩個變量之間線性相關關系的方法。相關系數r**相關關系的測度(相關系數取值及其意義)-1.0+1.00-0.5+0.5完全負相關無線性相關完全正相關負相關程度增加r正相關程度增加**1.思考辨析(正確的畫“√”,錯誤的畫“×”)(1)散點圖是判斷兩個變量是否相關的一種重要方法和手段.( )(2)兩個變量的相關系數越大,它們的相關程度越強.( )(3)當一個變量的值增加時,另一個變量的值隨之減少,則稱這兩個變量負相關.( )(4)一般地,樣本容量越大,用樣本相關系數估計兩個變量的相關系數的效果越好.( )√××√鞏固提升2.對變量 x,y,由觀測數據得散點圖(1);對變量 y,z,由觀測數據得散點圖(2).由這兩個散點圖可以判斷( )A.變量 x 與 y 正相關, x 與 z 正相關B.變量 x 與 y 正相關, x 與 z 負相關C.變量 x 與 y 負相關, x 與 z 正相關D.變量 x 與 y 負相關, x 與 z 負相關D3.已知兩個變量負相關,且相關程度很強,則它們的相關系數的大小可能是( )A.-0.95 B.-0.13C.0.15 D.0.96解析:相關系數r<0時,成對數據負相關,且|r|越大,兩個變量之間的線性相關程度越強.答案:A4.用線性回歸模型求得甲、乙、丙3組不同的數據的線性相關系數分別為0.81,-0.98,0.63,其中________(填甲、乙、丙中的一個)組數據的線性相關性最強.解析:|r|越接近1,兩個變量的線性相關性越強,而|-0.98|>|0.81|>|0.63|,所以乙組數據的線性相關性最強.答案:乙例1 計算表7-1中隨機變量之間的樣本相關系數度(結果保留到小數點后的第9位),并談談通過計算發現了什么.解(1)根據表7-1,得到表7-4.例2 計算表7-5中兩個隨機變量之間的樣本相關系數二并談談通過計算發現了什么.解(1)根據表7-5中的數據,得到表7-6.表7-6.變式1: 為了對2020年某校期末成績進行分析,在60分以上的全體同學中隨機抽取8位,他們的數學、物理成績對應如下表:學生編號 1 2 3 4 5 6 7 8數學成績x 68 72 78 81 85 88 91 93物理成績y 70 66 81 83 79 80 92 89 變式2:在一段時間內,某中商品的價格x元和需求量Y件之間的一組數據為:求出Y對的回歸直線方程,并說明擬合效果的好壞。價格x 14 16 18 20 22需求量Y 12 10 7 5 3解:變式2:在一段時間內,某中商品的價格x元和需求量Y件之間的一組數據為:求出Y對的回歸直線方程,并說明擬合效果的好壞。價格x 14 16 18 20 22需求量Y 12 10 7 5 3列出殘差表為0.994因而,擬合效果較好。00.3-0.4-0.10.24.62.6-0.4-2.4-4.4我們知道,一名學生學習中的不同學科成績有著密不可分的關系,但它們之間的相關性如何呢?與我們的普遍認識之間是否存在差異呢?下面以化學成績和物理成績為例加以說明.例3 表7-7中是在某校高二年級中抽取了246名學生的化學成績(單位:分)和物理成績(單位:分),求這組成對數據中化學成績和物理成績的樣本相關系數.解 鑒于學生人數較多,手動計算樣本相關系數工作量較大,這里借助Excel軟件進行 分析(注意:分析時,需要將數據進行整理,排成3列,246行).(1)畫出它們的散點圖,如圖7-10.(2)求出樣本相關系數r=0.397.這個結果說明該校高二年級學生的化學成績和物理成績之間的線性相關性比較弱.案例 一只紅鈴蟲的產卵數y和溫度x有關?,F收集了7組觀測數據列于表中:(1)試建立產卵數y與溫度x之間的回歸方程;并預測溫度為28oC時產卵數目。(2)你所建立的模型中溫度在多大程度上解釋了產卵數的變化?溫度xoC21232527293235產卵數y/個711212466115325非線性回歸問題補充提升選 模 型由計算器得:線性回歸方程為y=19.87x-463.73相關指數R2=r2≈0.8642=0.7464估計參數解:選取氣溫為解釋變量x,產卵數為預報變量y。選變量所以,一次函數模型中溫度解釋了74.64%的產卵數變化。探索新知畫散點圖050100150200250300350036912151821242730333639方案1分析和預測當x=28時,y =19.87×28-463.73≈ 93一元線性模型假設線性回歸方程為 :奇怪?93>66 模型不好?y=bx2+a 變換 y=bt+a非線性關系 線性關系方案2問題1選用y=bx2+a ,還是y=bx2+cx+a ?問題3產卵數氣溫問題2如何求a、b ?合作探究t=x2二次函數模型方案2解答平方變換:令t=x2,產卵數y和溫度x之間二次函數模型y=bx2+a就轉化為產卵數y和溫度的平方t之間線性回歸模型y=bt+a溫度21232527293235溫度的平方t44152962572984110241225產卵數y/個711212466115325作散點圖,并由計算器得:y和t之間的線性回歸方程為y=0.367t-202.543,相關指數R2=0.802將t=x2代入線性回歸方程得:y=0.367x2 -202.543當x=28時,y=0.367×282-202.54≈85,且R2=0.802,所以,二次函數模型中溫度解釋了80.2%的產卵數變化。t問題2變換 y=bx+a非線性關系 線性關系問題1如何選取指數函數的底 產卵數氣溫指數函數模型方案3合作探究對數方案3解答溫度xoC21232527293235z=lny1.9462.3983.0453.1784.1904.7455.784產卵數y/個711212466115325xz當x=28oC 時,y ≈44 ,指數回歸模型中溫度解釋了98.5%的產卵數的變化由計算器得:z關于x的線性回歸方程為對數變換:在 中兩邊取常用對數得令 ,則就轉換為z=bx+a.相關指數R2=0.98最好的模型是哪個 產卵數氣溫產卵數氣溫線性模型二次函數模型指數函數模型比一比函數模型 相關指數R2線性回歸模型 0.7464二次函數模型 0.80指數函數模型 0.98最好的模型是哪個 回歸分析(二)則回歸方程的殘差計算公式分別為:由計算可得:x 21 23 25 27 29 32 35y 7 11 21 24 66 115 3250.557 -0.101 1.875 -8.950 9.230 -13.381 34.67547.696 19.400 -5.832 -41.00 -40.104 -58.265 77.968因此模型(1)的擬合效果遠遠優于模型(2)。變式. 某出版社單冊圖書的成本費y(元)與印刷冊數x(千冊)有關,經統計得到數據如下:x 1 2 3 5 7 10 11 20 25 30y 9.02 5.27 4.06 3.03 2.59 2.28 2.21 1.89 1.80 1.75例4. 某出版社單冊圖書的成本費y(元)與印刷冊數x(千冊)有關,經統計得到數據如下:x 1 2 3 5 7 10 11 20 25 30y 9.02 5.27 4.06 3.03 2.59 2.28 2.21 1.89 1.80 1.75x 1 2 3 5 7 10 11 20 25 30t 1 0.5 0.333 0.2 0.143 0.1 0.091 0.05 0.04 0.033y 9.02 5.27 4.06 3.03 2.59 2.28 2.21 1.89 1.80 1.751.(多選)在下列各圖中,兩個變量具有相關關系的是( )BC課堂練習ACAX 5 10 15 20 25Y 103 105 110 111 1144.如圖所示,給出了樣本量均為7的 A,B 兩組樣本數據的散點圖,已知 A組樣本數據的相關系數為 r1,B 組數據的相關系數為 r2,則有r1________r2(填“>”或“<”號).>D21 23 25 27 29 32 357 11 21 24 66 115 325 1.成對數據的相關關系2.散點圖3.相關關系的分類正相關和負相關線性相關和非線性相關小結4. 樣本相關系數r(1)當r >0時,稱成對數據正相關;當r <0時,稱成對數據負相關.(2)r 的取值范圍為[-1,1](3)當|r|越接近1時,成對樣本數據的線性相關程度越強;當|r|越接近0時,成對樣本數據的線性相關程度越弱. 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫