資源簡介 (共15張PPT)1. 相關系數 一般地,設隨機變量X,Y的n組觀測值分別為(x1,y1),(x2,y2),…,(xn,yn),記r= = ,稱r為隨機變量X和Y的樣本(線性)相關系數.2.相關系數r的特征(1)樣本(線性)相關系數r的取值范圍為[-1,1].(2)|r|值越接近1,隨機變量之間的線性相關程度越強;|r|值越接近0,隨機變量之間的線性相關程度越弱.§2 成對數據的線性相關性知識 清單破知識點 相關系數(3)當r>0時,兩個隨機變量的值總體上變化趨勢相同,此時稱兩個隨機變量正相關;當r<0時,兩個隨機變量的值總體上變化趨勢相反,此時稱兩個隨機變量負相關;當r=0時,此時稱兩個隨機變量線性不相關.知識辨析判斷正誤,正確的畫“√”,錯誤的畫“ ”.1.相關關系是一種非確定性關系. ( )2.當r=0時,兩個隨機變量沒有任何關系. ( )3.若r1=-0.95,r2=0.85,則體現兩個隨機變量線性相關程度較強的是r2. ( )4.當變量x的取值為3,4,5,6,7時,變量y對應的值依次為4.0,2.5,-0.5,-1,-2,則可知變量x和y負相關. ( )√√ 提示提示當r=0時,只表明兩個隨機變量沒有線性關系,但不排除它們之間有其他關系.|r|值越接近1,隨機變量之間的線性相關程度越強,所以體現兩個隨機變量線性相關程度較強的是r1.1.利用散點圖判斷兩個隨機變量的相關性(1)一般地,如果變量x和y正相關,那么關于均值平移后的大多數散點將分布在第一、第三象限內,對應的成對數據同號的居多;如果變量x和y負相關,那么關于均值平移后的大多數散點將分布在第二、第四象限內,對應的成對數據異號的居多.(2)如果散點落在一條直線附近,則認為這兩個變量線性相關.2.利用相關系數判斷兩個隨機變量的相關程度 相關系數r是從數值上來判斷變量間的線性相關程度的,是定量分析.|r|刻畫了樣本點集中于某條直線的程度.|r|值越接近1,散點圖中的樣本點分布越接近一條直線,兩個變量的線性相關程度越強.講解分析疑難 情境破疑難 1 兩個隨機變量相關性的判斷典例 某農科所對冬季晝夜溫差(最高溫度與最低溫度的差)大小與某反季節大豆新品種一天內發芽數之間的關系進行了分析研究,他們分別記錄了12月1日至12月6日每天晝夜的最高、最低溫度(如圖甲),以及實驗室每天每100顆種子中的發芽數情況(如圖乙). 圖甲 圖乙(1)請畫出發芽數y與溫差x的散點圖;(2)判斷兩個變量是否線性相關,計算相關系數,并刻畫它們的相關程度.參考數據: 參考公式:相關系數r= (當|r|>0.75時,認為兩個變量的線性相關程度較強).解析 (1)散點圖如圖所示. (2)r= ≈ ≈0.952.由相關系數r≈0.952>0.75,可以推斷發芽數與溫差這兩個變量正相關,且線性相關程度較強.規律總結 判斷兩個變量之間的線性相關程度一般用散點圖,但在作圖中,由于存在誤差,有時很難判斷這些點是否分布在一條直線附近,此時可以利用相關系數r來判斷.相關系數是從數值上來判斷變量間的相關程度的,是定量分析,比用散點圖(定性分析)要精細得多.有時根據所測量的數據作出兩個隨機變量的散點圖后,發現這些散點并非分布在某一條直線附近,而是在某一條曲線附近,此時,我們需要根據曲線的形狀,選擇適當的函數模型來擬合,再通過變量代換,利用線性回歸模型得到兩個變量間的非線性回歸方程.常見的非線性回歸模型如下:講解分析疑難 2 非線性相關問題函數模型 函數圖象 變換公式 變換后的線性函數Y=aXb (冪函數曲線) c=ln a, v=ln X, u=ln Y u=c+bvY=aebX (指數曲線) c=ln a, u=ln Y u=c+bXY=a (倒指數曲線) c=ln a, v= , u=ln Y u=c+bvY=a+bln X (對數曲線) v=ln X Y=a+bv典例 某公司為確定下一年度投入某種產品的宣傳費,需了解年宣傳費X(單位:萬元)對年銷售量Y(單位:t)和年利潤z(單位:萬元)的影響,對近8年的年宣傳費Xi和年銷售量Yi(i=1,2,…,8)數據作了初步處理,得到下面的散點圖及一些統計量的值. 46.6 563 6.8 289.8 1.6 1.469 108.8 表中wi= , = wi.(1)根據散點圖判斷,Y=a+bX與Y=c+d 哪一個適宜作為年銷售量Y關于年宣傳費X的回歸方程類型;(給出判斷即可,不必說明理由)(2)根據(1)的判斷結果及表中數據,建立Y關于X的回歸方程;(3)已知這種產品的年利潤z與X,Y的關系為z=0.2Y-X,根據(2)的結果回答下列問題:①年宣傳費X=49時,年銷售量及年利潤的預測值是多少 ②年宣傳費X為何值時,年利潤的預測值最大 附:對于一組數據(u1,v1),(u2,v2),…,(un,vn),其回歸直線v=α+βu的斜率和截距的最小二乘估計分別為 = , = - .解析 (1)由散點圖可以判斷,Y=c+d 適宜作為年銷售量Y關于年宣傳費X的回歸方程類型.(2)令w= ,由(1)可設Y關于w的線性回歸方程為Y= + w.由于 = = =68, = - =563-68×6.8=100.6,因此Y關于w的線性回歸方程為Y=100.6+68w,故Y關于X的回歸方程為Y=100.6+68 .(3)①由(2)知,當X=49時,年銷售量Y的預測值為100.6+68× =576.6,年利潤z的預測值為576.6×0.2-49=66.32.②根據(2)的結果知,年利潤z的預測值 =0.2×(100.6+68 )-X=-X+13.6 +20.12.所以當 = =6.8,即X=46.24時, 取得最大值.故年宣傳費為46.24萬元時,年利潤的預測值最大.§2 成對數據的線性相關性2.1 相關系數 2.2 成對數據的線性相關性分析基礎過關練 題組一 變量的相關關系1.觀察下列散點圖,則①正相關,②負相關,③不相關與圖中的甲、乙、丙三個散點圖相對應的是( )A.①②③ B.②①③C.①③② D.③①②2.已知兩組數據a1,a2,…,a10和b1,b2,…,b10,當1≤i≤10且i∈Z時,ai=i;當1≤i≤9且i∈Z時,bi=ai,b10=a,我們研究這兩組數據的相關性,在集合{8,11,12,13}中取一個元素作為a的值,使得相關性最強,則a=( )A.8 B.11C.12 D.13題組二 相關系數的簡單應用3.對四組變量的數據進行統計,獲得以下散點圖,關于其相關系數的比較,正確的是( )A.r2C.r44.設兩個變量x和y之間具有線性相關關系,它們的相關系數是r,y關于x的回歸直線的斜率是b,在y軸上的截距是a,那么必有( )A.b與r的符號相同 B.a與r的符號相同C.b與r的符號相反 D.a與r的符號相反5.(多選題)某同學將收集到的六組數據制成散點圖如圖所示,并得到其回歸直線l1的方程為,其相關系數為r1.經過分析確定點F為“離群點”,把它去掉后,再利用剩下的5組數據計算得到回歸直線l2的方程為x+0.68,其相關系數為r2,以下結論中,正確的是( )A.r1>0,r2>0 B.r1>r2C.=0.12 D.0<<0.686.為了比較甲、乙、丙、丁四組數據的線性相關性強弱,某同學分別計算了甲、乙、丙、丁四組數據的線性相關系數,求得的數值依次為-0.98,-0.27,0.36,0.93,則這四組數據中線性相關性最強的是 組數據. 7.人口結構的變化,能明顯影響住房需求.當一個地區青壯年人口占比高時,住房需求就會增加,而當一個地區老齡化嚴重時,住房需求就會下降.某機構隨機選取了某個地區的10個城市,統計了每個城市的老齡化率x和空置率y,如下表所示:城市 1 2 3 4 5 6 7 8 9 10老齡 化率x 0.17 0.2 0.18 0.05 0.21 0.09 0.19 0.3 0.17 0.24 1.8空置 率y 0.06 0.13 0.09 0.05 0.09 0.08 0.11 0.15 0.16 0.28 1.2(1)若老齡化率不低于20%,則該城市為超級老齡化城市,根據表中數據,估計該地區城市為超級老齡化城市的概率;(2)估計該地區城市的老齡化率x和空置率y的樣本相關系數.(結果精確到0.01)參考公式:樣本相關系數r=.參考數據:≈0.04,≈0.04,xiyi=0.241 3.題組三 非線性回歸分析8.用模型y=cekx擬合一組數據時,為了求出回歸方程,設z=ln y,將其變換后得到線性回歸方程z=0.5x+2,則c= ( )A.0.5 B.e0.5 C.2 D.e29.某工廠每日生產某種產品x(x≥1)噸,每日生產的該產品當日銷售完畢,日銷售額為y萬元,產品價格隨著產量的變化而有所變化,經過一段時間的產銷,得到了x,y的一組統計數據,如下表:日產量x/噸 1 2 3 4 5日銷售額y/萬元 5 12 16 19 21(1)請判斷y=bx+a與y=dln x+c(d為大于零的常數)中哪個模型更適合刻畫x,y之間的關系,并從函數增長趨勢方面給出簡單的理由;(2)根據你的判斷及下面的公式和數據,求出y關于x的回歸方程,并估計當日產量為6噸時,日銷售額是多少.(結果保留整數)參考公式:線性回歸方程中,.參考數據:≈0.96,5ln 1+12ln 2+16ln 3+19ln 4+21ln 5≈86,ln 6≈1.8,(ln 1)2+(ln 2)2+(ln 3)2+(ln 4)2+(ln 5)2≈6.2.能力提升練題組一 相關系數的綜合應用1.移動物聯網廣泛應用于生產制造、公共服務、個人消費等領域.截至2022年底,我國移動物聯網連接數達18.45億戶,成為全球主要經濟體中首個實現“物超人”的國家.2018~2022年移動物聯網連接數w與年份代碼t的散點圖如圖所示,其中2018~2022年對應的t分別為1~5.(1)根據參考數據計算樣本相關系數r(精確到0.01);(2)令變量x=t-,利用(1)中結論求y關于x的線性回歸方程,并預測2024年移動物聯網連接數.參考公式:回歸直線y=a+bt中,斜率和截距的最小二乘估計公式分別為,樣本相關系數r=;參考數據:≈27.7.2.焦慮癥是一種常見的神經癥,多發于中青年群體,某機構為調查焦慮癥與年齡之間的關聯,隨機抽取10人進行焦慮值(滿分100分)的測試,根據調查得到如下數據表:人員 A B C D E F G H I J年齡x(歲) 26 34 25 24 20 20 19 19 18 17焦慮值y(分) 80 89 89 78 75 71 65 62 55 50(1)我們約定:焦慮值y關于年齡x的線性相關系數的絕對值在0.75以上(含0.75)為線性相關性較強,否則視為線性相關性較弱,如果沒有較強的線性相關性,那么不考慮用直線擬合.試根據調查數據判斷能否用直線擬合焦慮值y與年齡x的相關關系.若能,請求出焦慮值y關于年齡x的線性回歸方程;若不能,請說明理由;(2)現從所調查的焦慮值小于或等于75的6人中隨機抽取2人,求這2人中至少有1人是20歲的概率.參考數據及公式:≈22,≈71,≈15,≈40,≈525.對于一組數據(x1,y1),(x2,y2),…,(xn,yn),其線性回歸方程中,.樣本相關系數r=.二 非線性回歸分析3.某種新產品投放市場一段時間后,公司經過調研獲得了時間x(天)與銷售單價y(元)的一組數據,且進行了一定的數據處理(如表),并作出了散點圖(如圖).)2 )2 )· (yi-) )· (yi-)1.63 37.8 0.89 5.15 0.92 -20.6 18.40表中wi=wi.(1)根據散點圖判斷,y=a+bx與y=c+哪一個更適宜作為銷售單價y關于時間x的回歸方程類型;(不必說明理由)(2)根據判斷結果和表中數據,建立y關于x的回歸方程;(3)若該產品的日銷售量g(x)(件)與時間x的函數關系為g(x)=+120(x∈N*),則該產品投放市場第幾天的銷售額最高 最高為多少元 附:對于一組數據(u1,v1),(u2,v2),(u3,v3),…,(un,vn),其回歸直線v=α+βu的斜率和截距的最小二乘估計分別為.4.放行準點率是衡量機場運行效率和服務質量的重要指標之一.某機場自2012年起采取相關策略優化各個服務環節,運行效率不斷提升.以下是根據2013~2022年年份數xi(i=1,2,…,10)與該機場飛往A地航班放行準點率yi(單位:百分比)的統計數據所作的散點圖及經初步處理后得到的一些統計量的值.xiyi tiyi2 017.5 80.4 1.5 40 703 145.0 1 621 254.2 27.7 1 226.8其中ti=ln(xi-2 012),ti.(1)根據散點圖判斷y=bx+a與y=cln(x-2 012)+d中哪一個適宜作為該機場飛往A地航班放行準點率y關于年份數x的回歸方程類型(給出判斷即可,不必說明理由),并根據表中數據建立回歸方程,預測2023年該機場飛往A地的航班放行準點率;(2)已知2023年該機場飛往A地、B地和其他地區的航班比例分別為0.2,0.2和0.6,若以(1)中的預測值作為2023年該機場飛往A地航班放行準點率的估計值,且2023年該機場飛往B地及其他地區航班放行準點率的估計值分別為80%和75%,現從2023年在該機場起飛的航班中隨機抽取一個,求該航班準點放行的概率.參考公式:對于一組數據(u1,v1),(u2,v2),…,(un,vn),其線性回歸方程u中,.參考數據:ln 11≈2.40.答案與分層梯度式解析§2 成對數據的線性相關性2.1 相關系數2.2 成對數據的線性相關性分析基礎過關練1.C 2.B 設點的坐標為(ai,bi),1≤i≤10且i∈Z,由題意得前9個點位于直線y=x上,a10=10,則要使相關性最強,b10應更接近10,四個選項中11更接近10.故選B.3.A 由題中的散點圖可以看出,圖1和圖3中兩變量正相關,相關系數大于0,即r1>0,r3>0,圖2和圖4中兩變量負相關,相關系數小于0,即r2<0,r4<0,圖1和圖2的點相對于圖3和圖4的點更加集中,所以相關性較強,所以r1更接近1,r2更接近-1,由此可得r24.A 當b>0時,兩變量正相關,r>0;當b<0時,兩變量負相關,r<0.故選A.5.ACD 由題圖可知兩變量呈現正相關,故r1>0,r2>0,且r16.答案 甲解析 因為|r|值越接近1,隨機變量之間的線性相關程度越強,且|-0.98|>0.93>0.36>|-0.27|,所以甲組數據的線性相關性最強.7.解析 (1)由題表中的數據可知,調查的10個城市中,老齡化率不低于20%的有4個,所以估計該地區城市為超級老齡化城市的概率為=0.4.(2)由題表中的數據得,=0.12,則r=≈=≈0.63.故該地區城市的老齡化率x和空置率y的樣本相關系數約為0.63.8.D 由y=cekx兩邊取對數,可得ln y=ln(cekx)=ln c+ln ekx=ln c+kx,故z=ln c+kx,∵z=0.5x+2,∴ln c=2,解得c=e2.故選D.9.解析 (1)y=dln x+c更適合刻畫x,y之間的關系.理由:由題表中的數據可知,x的值每增加1,函數值y的增加量分別為7,4,3,2,增加得越來越緩慢,符合對數函數模型的增長規律,與線性回歸模型的均勻增長存在較大差異,故y=dln x+c更適合刻畫x,y之間的關系.(2)令z=ln x,由題意得=14.6,所以≈14.6-10×0.96=5,所以y關于x的回歸方程為=10ln x+5.當x=6時,=10×ln 6+5≈23.所以當日產量為6噸時,估計日銷售額為23萬元.能力提升練1.解析 (1)由已知得,×(1+2+3+4+5)=3,則)2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,所以r=≈0.98.(2)由(1)知=2.72,所以y關于x的線性回歸方程為=2.72x,又=12.16,所以當t=7時,x=7-3=4,w==2.72×4+12.16=23.04,所以預測2024年移動物聯網連接數為23.04億戶.2.解析 (1)由題意可得焦慮值y關于年齡x的線性相關系數的絕對值|r|==0.875>0.75,故線性相關性較強,可以用直線擬合焦慮值y與年齡x的相關關系.設焦慮值y關于年齡x的線性回歸方程為,則≈71- ,所以焦慮值y關于年齡x的線性回歸方程為.(2)由題表可得焦慮值小于或等于75的6人中,有2個人是20歲,所以從所調查的焦慮值小于或等于75的6人中隨機抽取2人,至少有1人是20歲的概率P=1-P(抽取的兩個人全不是20歲)=1- .3.解析 (1)由題中散點圖可以判斷y=c+更適宜作為銷售單價y關于時間x的回歸方程類型.(2)令w=,由(1)可設y關于w的線性回歸方程為 =37.8-20×0.89=20,∴y關于w的線性回歸方程為=20+20w.∴y關于x的回歸方程為.(3)設日銷售額為h(x)元,則h(x)=g(x)=-2 000,當x=10時,h(x)有最大值,為2 420,即該產品投放市場第10天的銷售額最高,最高為2 420元.4.解析 (1)由題圖可以看出,y=cln(x-2 012)+d適宜作為該機場飛往A地航班放行準點率y關于年份數x的回歸方程類型.令t=ln(x-2 012),則y=ct+d,易得=4,=80.4-4×1.5=74.4,所以=4t+74.4,因此該機場飛往A地航班放行準點率y關于年份數x的回歸方程為=4ln(x-2 012)+74.4.當x=2 023時,=4×ln(2 023-2 012)+74.4=4×ln 11+74.4≈4×2.40+74.4=84.所以預測2023年該機場飛往A地的航班放行準點率為84%.(2)設A1=“該航班飛往A地”,A2=“該航班飛往B地”,A3=“該航班飛往其他地區”,C=“該航班準點放行”,則P(A1)=0.2,P(A2)=0.2,P(A3)=0.6,P(C|A1)=0.84,P(C|A2)=0.8,P(C|A3)=0.75.所以P(C)=P(A1)P(C|A1)+P(A2)P(C|A2)+P(A3)·P(C|A3)=0.2×0.84+0.2×0.8+0.6×0.75=0.778.1 展開更多...... 收起↑ 資源列表 §2 成對數據的線性相關性.docx §2 成對數據的線性相關性.pptx 縮略圖、資源來源于二一教育資源庫