資源簡介 中小學教育資源及組卷應用平臺第三節 成對數據的統計分析第1課時 變量間的相關關系及回歸模型課標解讀 考向預測1.結合具體實例,了解一元線性回歸模型的含義,了解模型中參數的統計意義,了解最小二乘原理,掌握一元線性回歸模型中參數的最小二乘估計方法,會使用相關的統計軟件. 2.針對實際問題,會用一元線性回歸模型進行預測. 預計2025年高考,變量間的相關關系、回歸模型主要以應用題的方式出現,需要在復雜的題目描述中找出數量關系,建立數學模型,并且運用數學模型解決實際問題,考查分析問題和處理數據的能力.【知識梳理】1.變量的相關關系(1)相關關系兩個變量有關系,但又沒有確切到可由其中的一個去精確地決定另一個的程度,這種關系稱為相關關系.(2)散點圖將各數據在平面直角坐標系中的對應點畫出來,得到表示兩個變量的一組數據的圖形,這樣的圖形叫做散點圖.利用散點圖,可以判斷兩個變量是否相關,相關時是正相關還是負相關.(3)正相關和負相關①當一個變量的值增加時,另一個變量的相應值也呈現增加的趨勢,我們就稱這兩個變量正相關.②負相關:當一個變量的值增加時,另一個變量的相應值呈現減小的趨勢,則稱這兩個變量負相關.(4)線性相關①一般地,如果兩個變量的取值呈現正相關或負相關,而且散點落在一條直線附近,我們就稱這兩個變量線性相關.②一般地,如果兩個變量具有相關性,但不是線性相關,那么我們就稱這兩個變量非線性相關或曲線相關.2.樣本相關系數(1)相關系數r的計算變量x和變量y的樣本相關系數r的計算公式如下:r==.(2)相關系數r的性質①當r>0時,稱成對樣本數據正相關;當r<0時,稱成對樣本數據負相關;當r=0時,成對樣本數據間沒有線性相關關系.②樣本相關系數r的取值范圍為[-1,1].當|r|越接近1時,成對樣本數據的線性相關程度越強;當|r|越接近0時,成對樣本數據的線性相關程度越弱.3.一元線性回歸模型經驗回歸方程與最小二乘法我們將=x+稱為Y關于x的經驗回歸方程,也稱經驗回歸函數或經驗回歸公式,其圖形稱為經驗回歸直線.這種求經驗回歸方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估計,其中4.殘差與殘差分析(1)殘差:對于響應變量Y,通過觀測得到的數據稱為觀測值,通過經驗回歸方程得到的稱為預測值,觀測值減去預測值稱為殘差.(2)殘差分析:殘差是隨機誤差的估計結果,通過對殘差的分析可以判斷模型刻畫數據的效果,以及判斷原始數據中是否存在可疑數據等,這方面工作稱為殘差分析.(3)刻畫回歸效果的方式①殘差圖法作圖時縱坐標為殘差,橫坐標為自變量x,這樣作出的圖形稱為殘差圖.在殘差圖中,殘差點比較均勻地分布在以取值為0的橫軸為對稱軸的水平的帶狀區域內,說明選用的模型比較合適,這樣的帶狀區域的寬度越窄,說明模型擬合精度越高.②殘差平方和法殘差平方和為 (yi-i)2,殘差平方和越小,模型擬合效果越好.③利用決定系數R2刻畫回歸效果R2=1-,R2越大,模型擬合效果越好;R2越小,模型擬合效果越差.【常用結論】1.求解經驗回歸方程的關鍵是確定回歸系數,,應充分利用回歸直線過點(,).2.根據經驗回歸方程計算的值,僅是一個預測值,不是真實發生的值.【診斷自測】1.概念辨析(正確的打“√”,錯誤的打“×”)(1)經驗回歸方程=x+中,若<0,則變量x和y負相關.( )(2)經驗回歸直線=x+至少經過點(x1,y1),(x2,y2),…,(xn,yn)中的一個點.( )(3)樣本相關系數的絕對值越接近1,成對樣本數據的線性相關程度越強.( )(4)殘差平方和越大,線性回歸模型的擬合效果越好.( )答案 (1)× (2)× (3)√ (4)×2.小題熱身(1)甲、乙、丙、丁四位同學在建立變量x,y的回歸模型時,分別選擇了4種不同模型,計算可得它們的R2分別如下表:甲 乙 丙 丁R2 0.98 0.78 0.50 0.85建立的回歸模型擬合效果最好的是( )A.甲 B.乙C.丙 D.丁答案 A解析 R2越大,表示回歸模型的擬合效果越好.(2)某校一個課外學習小組為研究某作物種子的發芽率y和溫度x(單位:℃)的關系,在20個不同的溫度條件下進行種子發芽實驗,由實驗數據(xi,yi)(i=1,2,…,20)得到下面的散點圖:由此散點圖,在10 ℃至40 ℃之間,下面四個回歸方程類型中,最適宜作為發芽率y和溫度x的回歸方程類型的是( )A.y=a+bx B.y=a+bx2C.y=a+bex D.y=a+bln x答案 D解析 由散點圖分布可知,散點圖分布在一個對數型函數圖象的附近,因此最適宜作為發芽率y和溫度x的回歸方程類型的是y=a+bln x.故選D.(3)(人教A選擇性必修第三冊復習參考題8 T2改編)在一元線性回歸模型Y=bx+a+e中,下列說法正確的是( )A.Y=bx+a+e是一次函數B.響應變量Y是由解釋變量x唯一確定的C.響應變量Y除了受解釋變量x的影響外,可能還受到其他因素的影響,這些因素會導致隨機誤差e的產生D.隨機誤差e是由于計算不準確造成的,可通過精確計算避免隨機誤差e的產生答案 C解析 對于A,一元線性回歸模型Y=bx+a+e中,方程表示的不是確定性關系,因此不是一次函數,所以A錯誤;對于B,響應變量Y不是由解釋變量x唯一確定的,所以B錯誤;對于C,響應變量Y除了受解釋變量x的影響外,可能還受到其他因素的影響,這些因素會導致隨機誤差e的產生,所以C正確;對于D,隨機誤差是不能避免的,只能將誤差縮小,所以D錯誤.(4)若某商品的廣告費支出x(單位:萬元)與銷售額y(單位:萬元)之間有如下表所示的對應數據:x 2 4 5 6 8y 20 40 60 70 80根據表中數據,利用最小二乘法求得y關于x的經驗回歸方程為=x+1.5,當廣告費支出為10萬元時,銷售額的估計值為________萬元.答案 106.5解析 =×(2+4+5+6+8)=5,=×(20+40+60+70+80)=54,所以樣本中心為(5,54),將其代入經驗回歸方程=x+1.5中,有54=5+1.5,解得=10.5,所以經驗回歸方程為=10.5x+1.5,當x=10時,=10.5×10+1.5=106.5.【考點探究】考點一 變量間相關關系的判斷例1 (1)對四組數據進行統計,獲得如圖所示的散點圖,關于其樣本相關系數的比較,正確的是( )A.r2C.r4答案 A解析 由散點圖知圖①與圖③是正相關,故r1>0,r3>0,圖②與圖④是負相關,故r2<0,r4<0,且圖①與圖②的樣本點集中在一條直線附近,因此r2(2)(2023·河北邢臺階段考試)已知r1表示變量X與Y之間的線性相關系數,r2表示變量U與V之間的線性相關系數,且r1=0.837,r2=-0.957,則( )A.變量X與Y之間呈正相關關系,且X與Y之間的相關性強于U與V之間的相關性B.變量X與Y之間呈負相關關系,且X與Y之間的相關性強于U與V之間的相關性C.變量U與V之間呈負相關關系,且X與Y之間的相關性弱于U與V之間的相關性D.變量U與V之間呈正相關關系,且X與Y之間的相關性弱于U與V之間的相關性答案 C解析 因為線性相關系數r1=0.837,r2=-0.957,所以變量X與Y之間呈正相關關系,變量U與V之間呈負相關關系,且X與Y之間的相關性弱于U與V之間的相關性.故選C.【通性通法】判斷相關關系的方法(1)散點圖法:如果樣本點的分布從整體上看大致在某一曲線附近,變量之間就有相關關系;如果樣本點的分布從整體上看大致在某一直線附近,變量之間就有線性相關關系.(2)樣本相關系數:當r>0時,正相關;當r<0時,負相關;|r|越接近于1,相關性越強.(3)經驗回歸方程:當>0時,正相關;當<0時,負相關.【鞏固遷移】1.在一組樣本數據(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散點圖中,若所有樣本點(xi,yi)(i=1,2,…,n)都在直線y=-x+1上,則這組樣本數據的樣本相關系數為( )A.-1 B.0C.- D.1答案 A解析 因為所有樣本點都在直線y=-x+1上,呈現完全負相關,所以樣本相關系數為-1.2.(2023·天津高考)調查某種群花萼長度和花瓣長度,所得數據如圖所示.其中相關系數r=0.8245,下列說法正確的是( )A.花瓣長度和花萼長度沒有相關性B.花瓣長度和花萼長度呈負相關C.花瓣長度和花萼長度呈正相關D.若從樣本中抽取一部分,則這部分的相關系數一定是0.8245答案 C解析 因為相關系數r=0.8245>0.75,所以花瓣長度和花萼長度的相關性較強,并且呈正相關,所以A,B錯誤,C正確;因為相關系數與樣本的數據有關,所以當樣本發生變化時,相關系數也可能會發生變化,所以D錯誤.故選C.考點二 樣本相關系數、決定系數的應用例2 (2022·全國乙卷)某地經過多年的環境治理,已將荒山改造成了綠水青山,為估計一林區某種樹木的總材積量,隨機選取了10棵這種樹木,測量每棵樹的根部橫截面積(單位:m2)和材積量(單位:m3),得到如下數據:樣本號i 1 2 3 4 5 6 7 8 9 10 總和根部 橫截 面積xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6材積量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9并計算得x=0.038,y=1.6158,xiyi=0.2474.(1)估計該林區這種樹木平均一棵的根部橫截面積與平均一棵的材積量;(2)求該林區這種樹木的根部橫截面積與材積量的樣本相關系數(精確到0.01);(3)現測量了該林區所有這種樹木的根部橫截面積,并得到所有這種樹木的根部橫截面積總和為186 m2.已知樹木的材積量與其根部橫截面積近似成正比.利用以上數據給出該林區這種樹木的總材積量的估計值.附:相關系數r=,≈1.377.解 (1)設這種樹木平均一棵的根部橫截面積為,平均一棵的材積量為,則==0.06,==0.39.(2)r====≈≈0.97.(3)設所有這種樹木的根部橫截面積總和為X,總材積量為Y,則=,故Y=×186=1209(m3).【通性通法】經驗回歸方程的擬合效果,可以利用相關系數r判斷,當|r|越趨近于1時,兩變量的線性相關性越強.或利用決定系數R2判斷,R2越大,擬合效果越好.【鞏固遷移】3.我國機床行業核心零部件對外依存度較高,我國整機配套的中高檔功能部件大量依賴進口,根據中國機床工具工業協會的數據,國內高檔系統自給率不到10%,約90%依賴進口.因此,迅速提高國產數控機床功能部件制造水平,加快國產數控機床功能部件產業化進程至關重要.通過對某機械上市公司近幾年的年報公布的研發費用x(單位:億元)與產品的直接收益y(單位:億元)的數據進行統計,得到下表:年份 2016 2017 2018 2019 2020 2021 2022x 2 3 4 6 8 10 13y 15 22 27 40 48 54 60根據數據,可建立y關于x的兩個回歸模型:模型①:=4.1x+10.9;模型②:=21.3-14.4.(1)根據表格中的數據,分別求出模型①,②的決定系數R2的大小(結果保留三位有效數字);(2)(ⅰ)根據(1)選擇擬合精度更高、更可靠的模型;(ⅱ)若2023年該公司計劃投入研發費用17億元,使用(ⅰ)中的模型預測可為該公司帶來多少直接收益?回歸模型 模型① 模型②(yi-i)2 79.13 18.86附:R2=1-, ≈4.1.解 (1)因為==38,所以 (yi-)2=232+162+112+22+102+162+222=1750,則模型①的決定系數R=1-=1-≈0.955,模型②的決定系數R=1-=1-≈0.989.(2)(ⅰ)由(1)知,R(ⅱ)由經驗回歸方程=21.3-14.4,可得當x=17時,=21.3-14.4≈72.93,所以若2023年該公司計劃投入研發費用17億元,大約可為該公司帶來72.93億元的直接收益.考點三 回歸分析(多考向探究)考向1 一元線性回歸模型例3 已知某綠豆新品種發芽的適宜溫度在6~22 ℃之間,一農學實驗室研究人員為研究溫度x(單位:℃)與綠豆新品種發芽數y(單位:顆)之間的關系,每組選取了成熟種子50顆,分別在對應的8~14 ℃的溫度環境下進行實驗,得到如下散點圖:其中=24, (xi-)(yi-)=70,(yi-)2=176.(1)運用相關系數進行分析說明,是否可以用線性回歸模型擬合y與x的關系?(2)求出y關于x的經驗回歸方程=x+,并預測在19 ℃的溫度下,種子的發芽顆數.參考公式:相關系數r=,經驗回歸方程=x+,其中=,=-.參考數據: ≈8.77.解 (1)根據題意,得=×(8+9+10+11+12+13+14)=11.(xi-)2=(8-11)2+(9-11)2+(10-11)2+(11-11)2+(12-11)2+(13-11)2+(14-11)2=28,==8≈70.16.因而相關系數r=≈≈0.998.由于|r|≈0.998很接近1,∴可以用線性回歸模型擬合y與x的關系.(2)===,=24-×11=-,∴y關于x的經驗回歸方程為=x-.若x=19,則=×19-=44顆,∴在19 ℃的溫度下,預測種子的發芽顆數為44.【通性通法】求經驗回歸方程的步驟【鞏固遷移】4.(2023·安徽馬鞍山第三次教學質量監測)為了研究某果園的一種果樹的產量與種植密度的關系,某中學的數學興趣小組在該果園選取了一塊種植區域進行了統計調查,他們將每株果樹與其直線距離不超過1米的果樹株數x記為其密度,在記錄了該種植區域內每株果樹的密度后,從中選取密度為0,1,2,3,4的果樹,統計其產量的平均值y(單位:kg),得到如下統計表:x 0 1 2 3 4y 15 12 11 9 8(1)小組成員甲認為y與x有很強的線性相關關系,請你幫他利用最小二乘法求出y關于x的經驗回歸方程=x+;(2)小組成員乙提出:若利用經驗回歸方程計算的平均產量的估計值i與實際的平均產量yi(1≤i≤n,n∈N*)滿足|yi-i|>0.5,則應該修正模型,尋找更合適的函數擬合x與y的關系.統計知種植密度分別為5,6的果樹的平均產量為5.5 kg、4.4 kg,請你以這七組數據為依據判斷(1)中得到的經驗回歸方程是否需要修正?參考公式:=,=-.解 (1)=2,=11,xiyi=93,x-52=10,故==-1.7,=-=14.4,所以經驗回歸方程為=-1.7x+14.4.(2)令x=0,1,2,3,4,5,6,代入=-1.7x+14.4,分別得|-y|=0.6,0.7,0,0.3,0.4,0.4,0.2,從而|yi-i|=<0.5,故不需要修正.考向2 非線性回歸模型例4 某工廠生產一種產品,從該種產品中隨機抽取6件合格產品,測得數據如下:尺寸x/mm 38 48 58 68 78 88質量y/g 16.8 18.8 20.7 22.4 24 25.5(1)若按照檢測標準,合格產品的質量y與尺寸x之間近似滿足關系式y=c·xd(c,d為大于0的常數),求y關于x的經驗回歸方程;(2)已知合格產品的收益z(單位:千元)與合格產品尺寸和質量的關系為z=2y-0.32x,根據(1)中經驗回歸方程分析,當合格產品的尺寸x約為何值時(結果用整數表示),收益z的預報值最大?附:①參考數據: (ln xi·ln yi)=75.3, (ln xi)=24.6, (ln yi)=18.3, (ln xi)2=101.4.②參考公式:對于樣本(vi,ui)(i=1,2,…,n),其經驗回歸直線=v+的斜率和截距的最小二乘估計公式分別為==,=-,e≈2.7182.解 (1)對y=c·xd(c,d>0)兩邊取自然對數得ln y=ln c+dln x.令vi=ln xi,ui=ln yi,則=v+,其中=ln .根據所給統計量及最小二乘估計公式得=====,=-=-×=-×=1,又=ln =1,所以=e,所以y關于x的經驗回歸方程為=e·x.(2)由(1)得=e·x,所以=2e-0.32x=-0.32()2+2e.令t=,則當t=時,取得最大值,此時x=t2≈72,所以當合格產品的尺寸x約為72時,收益z的預報值最大.【通性通法】非線性回歸分析的步驟【鞏固遷移】5.(2024·淄博診斷)小葉紫檀是珍稀樹種,因其木質好備受玩家喜愛.其幼苗從觀察之日起,第x天的高度為y cm,測得數據如下:x 1 4 9 16 25 36 49y 0 4 7 9 11 12 13數據的散點圖如圖所示:為近似描述y與x的關系,除了一次函數y=bx+a,還有y=b+a和y=bx2+a兩個函數可選.(1)從三個函數中選出“最好”的曲線擬合y與x的關系,并求出其回歸方程(保留到小數點后1位);(2)判斷說法“高度從1000 cm長到1001 cm所需時間超過一年”是否成立,并給出理由.參考公式:==,=-.參考數據(其中ui=,ti=x):=20,=4,=668,=8,x=4676,u=140,t=7907396,xiyi=1567,uiyi=283,tiyi=56575.解 (1)從散點圖可以看出,曲線的形狀與函數y=相似,故選擇函數y=b+a擬合y與x的關系.==≈2.1,≈8-2.1×4=-0.4,其經驗回歸方程為=2.1-0.4.(2)將y=1000,1001分別代入經驗回歸方程,得2.1-0.4=1000和2.1-0.4=1001,故x2-x1=-≈454,顯然454>365,所以,說法“高度從1000 cm長到1001 cm所需時間超過一年”成立.21世紀教育網 www.21cnjy.com 精品試卷·第 2 頁 (共 2 頁)21世紀教育網(www.21cnjy.com)中小學教育資源及組卷應用平臺第三節 成對數據的統計分析第1課時 變量間的相關關系及回歸模型課標解讀 考向預測1.結合具體實例,了解一元線性回歸模型的含義,了解模型中參數的統計意義,了解最小二乘原理,掌握一元線性回歸模型中參數的最小二乘估計方法,會使用相關的統計軟件. 2.針對實際問題,會用一元線性回歸模型進行預測. 預計2025年高考,變量間的相關關系、回歸模型主要以應用題的方式出現,需要在復雜的題目描述中找出數量關系,建立數學模型,并且運用數學模型解決實際問題,考查分析問題和處理數據的能力.【知識梳理】1.變量的相關關系(1)相關關系兩個變量有關系,但又沒有確切到可由其中的一個去精確地決定另一個的程度,這種關系稱為相關關系.(2)散點圖將各數據在平面直角坐標系中的對應點畫出來,得到表示兩個變量的一組數據的圖形,這樣的圖形叫做散點圖.利用散點圖,可以判斷兩個變量是否相關,相關時是正相關還是負相關.(3)正相關和負相關①當一個變量的值增加時,另一個變量的相應值也呈現增加的趨勢,我們就稱這兩個變量正相關.②負相關:當一個變量的值增加時,另一個變量的相應值呈現減小的趨勢,則稱這兩個變量負相關.(4)線性相關①一般地,如果兩個變量的取值呈現正相關或負相關,而且散點落在一條直線附近,我們就稱這兩個變量線性相關.②一般地,如果兩個變量具有相關性,但不是線性相關,那么我們就稱這兩個變量非線性相關或曲線相關.2.樣本相關系數(1)相關系數r的計算變量x和變量y的樣本相關系數r的計算公式如下:r==.(2)相關系數r的性質①當r>0時,稱成對樣本數據正相關;當r<0時,稱成對樣本數據負相關;當r=0時,成對樣本數據間沒有線性相關關系.②樣本相關系數r的取值范圍為[-1,1].當|r|越接近1時,成對樣本數據的線性相關程度越強;當|r|越接近0時,成對樣本數據的線性相關程度越弱.3.一元線性回歸模型經驗回歸方程與最小二乘法我們將=x+稱為Y關于x的經驗回歸方程,也稱經驗回歸函數或經驗回歸公式,其圖形稱為經驗回歸直線.這種求經驗回歸方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估計,其中4.殘差與殘差分析(1)殘差:對于響應變量Y,通過觀測得到的數據稱為觀測值,通過經驗回歸方程得到的稱為預測值,觀測值減去預測值稱為殘差.(2)殘差分析:殘差是隨機誤差的估計結果,通過對殘差的分析可以判斷模型刻畫數據的效果,以及判斷原始數據中是否存在可疑數據等,這方面工作稱為殘差分析.(3)刻畫回歸效果的方式①殘差圖法作圖時縱坐標為殘差,橫坐標為自變量x,這樣作出的圖形稱為殘差圖.在殘差圖中,殘差點比較均勻地分布在以取值為0的橫軸為對稱軸的水平的帶狀區域內,說明選用的模型比較合適,這樣的帶狀區域的寬度越窄,說明模型擬合精度越高.②殘差平方和法殘差平方和為 (yi-i)2,殘差平方和越小,模型擬合效果越好.③利用決定系數R2刻畫回歸效果R2=1-,R2越大,模型擬合效果越好;R2越小,模型擬合效果越差.【常用結論】1.求解經驗回歸方程的關鍵是確定回歸系數,,應充分利用回歸直線過點(,).2.根據經驗回歸方程計算的值,僅是一個預測值,不是真實發生的值.【診斷自測】1.概念辨析(正確的打“√”,錯誤的打“×”)(1)經驗回歸方程=x+中,若<0,則變量x和y負相關.( )(2)經驗回歸直線=x+至少經過點(x1,y1),(x2,y2),…,(xn,yn)中的一個點.( )(3)樣本相關系數的絕對值越接近1,成對樣本數據的線性相關程度越強.( )(4)殘差平方和越大,線性回歸模型的擬合效果越好.( )2.小題熱身(1)甲、乙、丙、丁四位同學在建立變量x,y的回歸模型時,分別選擇了4種不同模型,計算可得它們的R2分別如下表:甲 乙 丙 丁R2 0.98 0.78 0.50 0.85建立的回歸模型擬合效果最好的是( )A.甲 B.乙C.丙 D.丁(2)某校一個課外學習小組為研究某作物種子的發芽率y和溫度x(單位:℃)的關系,在20個不同的溫度條件下進行種子發芽實驗,由實驗數據(xi,yi)(i=1,2,…,20)得到下面的散點圖:由此散點圖,在10 ℃至40 ℃之間,下面四個回歸方程類型中,最適宜作為發芽率y和溫度x的回歸方程類型的是( )A.y=a+bx B.y=a+bx2C.y=a+bex D.y=a+bln x(3)(人教A選擇性必修第三冊復習參考題8 T2改編)在一元線性回歸模型Y=bx+a+e中,下列說法正確的是( )A.Y=bx+a+e是一次函數B.響應變量Y是由解釋變量x唯一確定的C.響應變量Y除了受解釋變量x的影響外,可能還受到其他因素的影響,這些因素會導致隨機誤差e的產生D.隨機誤差e是由于計算不準確造成的,可通過精確計算避免隨機誤差e的產生(4)若某商品的廣告費支出x(單位:萬元)與銷售額y(單位:萬元)之間有如下表所示的對應數據:x 2 4 5 6 8y 20 40 60 70 80根據表中數據,利用最小二乘法求得y關于x的經驗回歸方程為=x+1.5,當廣告費支出為10萬元時,銷售額的估計值為________萬元.【考點探究】考點一 變量間相關關系的判斷例1 (1)對四組數據進行統計,獲得如圖所示的散點圖,關于其樣本相關系數的比較,正確的是( )A.r2C.r4(2)(2023·河北邢臺階段考試)已知r1表示變量X與Y之間的線性相關系數,r2表示變量U與V之間的線性相關系數,且r1=0.837,r2=-0.957,則( )A.變量X與Y之間呈正相關關系,且X與Y之間的相關性強于U與V之間的相關性B.變量X與Y之間呈負相關關系,且X與Y之間的相關性強于U與V之間的相關性C.變量U與V之間呈負相關關系,且X與Y之間的相關性弱于U與V之間的相關性D.變量U與V之間呈正相關關系,且X與Y之間的相關性弱于U與V之間的相關性【通性通法】判斷相關關系的方法(1)散點圖法:如果樣本點的分布從整體上看大致在某一曲線附近,變量之間就有相關關系;如果樣本點的分布從整體上看大致在某一直線附近,變量之間就有線性相關關系.(2)樣本相關系數:當r>0時,正相關;當r<0時,負相關;|r|越接近于1,相關性越強.(3)經驗回歸方程:當>0時,正相關;當<0時,負相關.【鞏固遷移】1.在一組樣本數據(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散點圖中,若所有樣本點(xi,yi)(i=1,2,…,n)都在直線y=-x+1上,則這組樣本數據的樣本相關系數為( )A.-1 B.0C.- D.12.(2023·天津高考)調查某種群花萼長度和花瓣長度,所得數據如圖所示.其中相關系數r=0.8245,下列說法正確的是( )A.花瓣長度和花萼長度沒有相關性B.花瓣長度和花萼長度呈負相關C.花瓣長度和花萼長度呈正相關D.若從樣本中抽取一部分,則這部分的相關系數一定是0.8245考點二 樣本相關系數、決定系數的應用例2 (2022·全國乙卷)某地經過多年的環境治理,已將荒山改造成了綠水青山,為估計一林區某種樹木的總材積量,隨機選取了10棵這種樹木,測量每棵樹的根部橫截面積(單位:m2)和材積量(單位:m3),得到如下數據:樣本號i 1 2 3 4 5 6 7 8 9 10 總和根部 橫截 面積xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6材積量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9并計算得x=0.038,y=1.6158,xiyi=0.2474.(1)估計該林區這種樹木平均一棵的根部橫截面積與平均一棵的材積量;(2)求該林區這種樹木的根部橫截面積與材積量的樣本相關系數(精確到0.01);(3)現測量了該林區所有這種樹木的根部橫截面積,并得到所有這種樹木的根部橫截面積總和為186 m2.已知樹木的材積量與其根部橫截面積近似成正比.利用以上數據給出該林區這種樹木的總材積量的估計值.附:相關系數r=,≈1.377.【通性通法】經驗回歸方程的擬合效果,可以利用相關系數r判斷,當|r|越趨近于1時,兩變量的線性相關性越強.或利用決定系數R2判斷,R2越大,擬合效果越好.【鞏固遷移】3.我國機床行業核心零部件對外依存度較高,我國整機配套的中高檔功能部件大量依賴進口,根據中國機床工具工業協會的數據,國內高檔系統自給率不到10%,約90%依賴進口.因此,迅速提高國產數控機床功能部件制造水平,加快國產數控機床功能部件產業化進程至關重要.通過對某機械上市公司近幾年的年報公布的研發費用x(單位:億元)與產品的直接收益y(單位:億元)的數據進行統計,得到下表:年份 2016 2017 2018 2019 2020 2021 2022x 2 3 4 6 8 10 13y 15 22 27 40 48 54 60根據數據,可建立y關于x的兩個回歸模型:模型①:=4.1x+10.9;模型②:=21.3-14.4.(1)根據表格中的數據,分別求出模型①,②的決定系數R2的大小(結果保留三位有效數字);(2)(ⅰ)根據(1)選擇擬合精度更高、更可靠的模型;(ⅱ)若2023年該公司計劃投入研發費用17億元,使用(ⅰ)中的模型預測可為該公司帶來多少直接收益?回歸模型 模型① 模型②(yi-i)2 79.13 18.86附:R2=1-, ≈4.1.考點三 回歸分析(多考向探究)考向1 一元線性回歸模型例3 已知某綠豆新品種發芽的適宜溫度在6~22 ℃之間,一農學實驗室研究人員為研究溫度x(單位:℃)與綠豆新品種發芽數y(單位:顆)之間的關系,每組選取了成熟種子50顆,分別在對應的8~14 ℃的溫度環境下進行實驗,得到如下散點圖:其中=24, (xi-)(yi-)=70,(yi-)2=176.(1)運用相關系數進行分析說明,是否可以用線性回歸模型擬合y與x的關系?(2)求出y關于x的經驗回歸方程=x+,并預測在19 ℃的溫度下,種子的發芽顆數.參考公式:相關系數r=,經驗回歸方程=x+,其中=,=-.參考數據: ≈8.77.【通性通法】求經驗回歸方程的步驟【鞏固遷移】4.(2023·安徽馬鞍山第三次教學質量監測)為了研究某果園的一種果樹的產量與種植密度的關系,某中學的數學興趣小組在該果園選取了一塊種植區域進行了統計調查,他們將每株果樹與其直線距離不超過1米的果樹株數x記為其密度,在記錄了該種植區域內每株果樹的密度后,從中選取密度為0,1,2,3,4的果樹,統計其產量的平均值y(單位:kg),得到如下統計表:x 0 1 2 3 4y 15 12 11 9 8(1)小組成員甲認為y與x有很強的線性相關關系,請你幫他利用最小二乘法求出y關于x的經驗回歸方程=x+;(2)小組成員乙提出:若利用經驗回歸方程計算的平均產量的估計值i與實際的平均產量yi(1≤i≤n,n∈N*)滿足|yi-i|>0.5,則應該修正模型,尋找更合適的函數擬合x與y的關系.統計知種植密度分別為5,6的果樹的平均產量為5.5 kg、4.4 kg,請你以這七組數據為依據判斷(1)中得到的經驗回歸方程是否需要修正?參考公式:=,=-.考向2 非線性回歸模型例4 某工廠生產一種產品,從該種產品中隨機抽取6件合格產品,測得數據如下:尺寸x/mm 38 48 58 68 78 88質量y/g 16.8 18.8 20.7 22.4 24 25.5(1)若按照檢測標準,合格產品的質量y與尺寸x之間近似滿足關系式y=c·xd(c,d為大于0的常數),求y關于x的經驗回歸方程;(2)已知合格產品的收益z(單位:千元)與合格產品尺寸和質量的關系為z=2y-0.32x,根據(1)中經驗回歸方程分析,當合格產品的尺寸x約為何值時(結果用整數表示),收益z的預報值最大?附:①參考數據: (ln xi·ln yi)=75.3, (ln xi)=24.6, (ln yi)=18.3, (ln xi)2=101.4.②參考公式:對于樣本(vi,ui)(i=1,2,…,n),其經驗回歸直線=v+的斜率和截距的最小二乘估計公式分別為==,=-,e≈2.7182.【通性通法】非線性回歸分析的步驟【鞏固遷移】5.(2024·淄博診斷)小葉紫檀是珍稀樹種,因其木質好備受玩家喜愛.其幼苗從觀察之日起,第x天的高度為y cm,測得數據如下:x 1 4 9 16 25 36 49y 0 4 7 9 11 12 13數據的散點圖如圖所示:為近似描述y與x的關系,除了一次函數y=bx+a,還有y=b+a和y=bx2+a兩個函數可選.(1)從三個函數中選出“最好”的曲線擬合y與x的關系,并求出其回歸方程(保留到小數點后1位);(2)判斷說法“高度從1000 cm長到1001 cm所需時間超過一年”是否成立,并給出理由.參考公式:==,=-.參考數據(其中ui=,ti=x):=20,=4,=668,=8,x=4676,u=140,t=7907396,xiyi=1567,uiyi=283,tiyi=56575.21世紀教育網 www.21cnjy.com 精品試卷·第 2 頁 (共 2 頁)21世紀教育網(www.21cnjy.com) 展開更多...... 收起↑ 資源列表 第3節 第1課時 成對數據的統計分析(原卷版).docx 第3節 第1課時 成對數據的統計分析(解析版).doc 縮略圖、資源來源于二一教育資源庫