資源簡介 第84講 成對數據的統計分析知識梳理知識點一、變量間的相關關系1、變量之間的相關關系當自變量取值一定時,因變量的取值帶有一定的隨機性,則這兩個變量之間的關系叫相關關系.由于相關關系的不確定性,在尋找變量之間相關關系的過程中,統計發揮著非常重要的作用.我們可以通過收集大量的數據,在對數據進行統計分析的基礎上,發現其中的規律,對它們的關系作出判斷.注意:相關關系與函數關系是不同的,相關關系是一種非確定的關系,函數關系是一種確定的關系,而且函數關系是一種因果關系,但相關關系不一定是因果關系,也可能是伴隨關系.2、散點圖將樣本中的個數據點描在平面直角坐標系中,所得圖形叫做散點圖.根據散點圖中點的分布可以直觀地判斷兩個變量之間的關系.(1)如果散點圖中的點散布在從左下角到右上角的區域內,對于兩個變量的這種相關關系,我們將它稱為正相關,如圖(1)所示;(2)如果散點圖中的點散布在從左上角到右下角的區域內,對于兩個變量的這種相關關系,我們將它稱為負相關,如圖(2)所示.3、相關系數若相應于變量的取值,變量的觀測值為,則變量與的相關系數,通常用來衡量與之間的線性關系的強弱,的范圍為.(1)當時,表示兩個變量正相關;當時,表示兩個變量負相關.(2)越接近,表示兩個變量的線性相關性越強;越接近,表示兩個變量間幾乎不存在線性相關關系.當時,所有數據點都在一條直線上.(3)通常當時,認為兩個變量具有很強的線性相關關系.知識點二、線性回歸1、線性回歸線性回歸是研究不具備確定的函數關系的兩個變量之間的關系(相關關系)的方法.對于一組具有線性相關關系的數據(x1,y1),(x2,y2),…,(xn,yn),其回歸方程的求法為其中,,,(,)稱為樣本點的中心.2、殘差分析對于預報變量,通過觀測得到的數據稱為觀測值,通過回歸方程得到的稱為預測值,觀測值減去預測值等于殘差,稱為相應于點的殘差,即有.殘差是隨機誤差的估計結果,通過對殘差的分析可以判斷模型刻畫數據的效果以及判斷原始數據中是否存在可疑數據等,這方面工作稱為殘差分析.(1)殘差圖通過殘差分析,殘差點比較均勻地落在水平的帶狀區域中,說明選用的模型比較合適,其中這樣的帶狀區域的寬度越窄,說明模型擬合精確度越高;反之,不合適.(2)通過殘差平方和分析,如果殘差平方和越小,則說明選用的模型的擬合效果越好;反之,不合適.(3)相關指數用相關指數來刻畫回歸的效果,其計算公式是:.越接近于,說明殘差的平方和越小,也表示回歸的效果越好.知識點三、非線性回歸解答非線性擬合問題,要先根據散點圖選擇合適的函數類型,設出回歸方程,通過換元將陌生的非線性回歸方程化歸轉化為我們熟悉的線性回歸方程.求出樣本數據換元后的值,然后根據線性回歸方程的計算方法計算變換后的線性回歸方程系數,還原后即可求出非線性回歸方程,再利用回歸方程進行預報預測,注意計算要細心,避免計算錯誤.1、建立非線性回歸模型的基本步驟:(1)確定研究對象,明確哪個是解釋變量,哪個是預報變量;(2)畫出確定好的解釋變量和預報變量的散點圖,觀察它們之間的關系(是否存在非線性關系);(3)由經驗確定非線性回歸方程的類型(如我們觀察到數據呈非線性關系,一般選用反比例函數、二次函數、指數函數、對數函數、冪函數模型等);(4)通過換元,將非線性回歸方程模型轉化為線性回歸方程模型;(5)按照公式計算線性回歸方程中的參數(如最小二乘法),得到線性回歸方程;(6)消去新元,得到非線性回歸方程;(7)得出結果后分析殘差圖是否有異常.若存在異常,則檢查數據是否有誤,或模型是否合適等.知識點四、獨立性檢驗1、分類變量和列聯表(1)分類變量:變量的不同“值”表示個體所屬的不同類別,像這樣的變量稱為分類變量.(2)列聯表:①定義:列出的兩個分類變量的頻數表稱為列聯表.②2×2列聯表.一般地,假設有兩個分類變量X和Y,它們的取值分別為{,}和{,},其樣本頻數列聯表(稱為2×2列聯表)為總計總計從列表中,依據與的值可直觀得出結論:兩個變量是否有關系.2、等高條形圖(1)等高條形圖和表格相比,更能直觀地反映出兩個分類變量間是否相互影響,常用等高條形圖表示列聯表數據的頻率特征.(2)觀察等高條形圖發現與相差很大,就判斷兩個分類變量之間有關系.3、獨立性檢驗計算隨機變量利用的取值推斷分類變量X和Y是否獨立的方法稱為χ2獨立性檢驗.0.10 0.05 0.010 0.005 0.0012.706 3.841 6.635 7.879 10.828【解題方法總結】常見的非線性回歸模型(1)指數函數型(且,)兩邊取自然對數,,即,令,原方程變為,然后按線性回歸模型求出,.(2)對數函數型令,原方程變為,然后按線性回歸模型求出,.(3)冪函數型兩邊取常用對數,,即,令,原方程變為,然后按線性回歸模型求出,.(4)二次函數型令,原方程變為,然后按線性回歸模型求出,.(5)反比例函數型型令,原方程變為,然后按線性回歸模型求出,.必考題型全歸納題型一:變量間的相關關系例1.(2024·河北·高三校聯考期末)下列四幅殘差分析圖中,與一元線性回歸模型擬合精度最高的是( )A. B. C. D. 例2.(2024·天津薊州·高三校考開學考試)對兩個變量,進行線性相關檢驗,得線性相關系數,對兩個變量,進行線性相關檢驗,得線性相關系數,則下列判斷正確的是( )A.變量與正相關,變量與負相關,變量與的線性相關性較強B.變量與負相關,變量與正相關,變量與的線性相關性較強C.變量與正相關,變量與負相關,變量與的線性相關性較強D.變量與負相關,變量與正相關,變量與的線性相關性較強例3.(2024·寧夏吳忠·高三鹽池高級中學校考階段練習)在如圖所示的散點圖中,若去掉點,則下列說法正確的是( ) A.樣本相關系數變大B.變量與變量的相關程度變弱C.變量與變量呈正相關D.變量與變量的相關程度變強變式1.(2024·四川成都·高三統考階段練習)已知建筑地基沉降預測對于保證施工安全,實現信息化監控有著重要意義.某工程師建立了四個函數模型來模擬建筑地基沉降隨時間的變化趨勢,并用相關指數、誤差平方和、均方根值三個指標來衡量擬合效果.相關指數越接近1表明模型的擬合效果越好,誤差平方和越小表明誤差越小,均方根值越小越好.依此判斷下面指標對應的模型擬合效果最好的是( )A.相關指數 誤差平方和 均方根值0.949 8.491 0.499B.相關指數 誤差平方和 均方根值0.933 4.179 0.436C.相關指數 誤差平方和 均方根值0.997 1.701 0.141D.相關指數 誤差平方和 均方根值0.997 2.899 0.326變式2.(2024·高三課時練習)甲、乙、丙、丁四位同學各自對,A,B兩變量的線性相關性做試驗,并用回歸分析方法分別求得相關系數r與殘差平方和m如下表:甲 乙 丙 丁r 0.82 0.78 0.69 0.85m 106 115 124 103則能體現A,B兩變量有更強的線性相關性的是( )A.甲 B.乙 C.丙 D.丁變式3.(2024·河北石家莊·統考三模)觀察下列四幅殘差圖,滿足一元線性回歸模型中對隨機誤差的假定的是( )A. B.C. D.變式4.(2024·全國·高三專題練習)甲、乙、丙、丁四位同學分別對一組變量進行線性相關試驗,并分別計算出相關系數,則線性相關程度最高的是( )甲 乙 丙 丁0.87 0.91 0.58 0.83A.甲 B.乙 C.丙 D.丁變式5.(2024·全國·高三專題練習)給出下列有關線性回歸分析的四個命題:①線性回歸直線未必過樣本數據點的中心;②回歸直線就是散點圖中經過樣本數據點最多的那條直線;③當相關系數時,兩個變量正相關;④如果兩個變量的相關性越強,則相關系數就越接近于.其中真命題的個數為( )A. B. C. D.【解題方法總結】判定兩個變量相關性的方法(1)畫散點圖:點的分布從左下角到右上角,兩個變量正相關;點的分布從左上角到右下角,兩個變量負相關.(2)樣本相關系數:當r>0時,正相關;當r<0時,負相關;|r|越接近于1,相關性越強.(3)經驗回歸方程:當時,正相關;當時,負相關.題型二:一元線性回歸模型例4.(2024·天津薊州·高三校考開學考試)為研究某種細菌在特定環境下,隨時間變化的繁殖情況,得到如下實驗數據:天數天 繁殖個數千個 由最小二乘法得與的線性回歸方程為,則當時,繁殖個數的預測值為( )A. B. C. D.例5.(2024·湖南長沙·高三長郡中學校聯考階段練習)某社區為了豐富退休人員的業余文化生活,自2018年以來,始終堅持開展“悅讀小屋讀書活動”.下表是對2018年以來近5年該社區退休人員的年人均借閱量的數據統計:年份 2018 2019 2020 2021 2022年份代碼 1 2 3 4 5年人均借閱量(冊) 16 22 28(參考數據:)通過分析散點圖的特征后,年人均借閱量關于年份代碼的回歸分析模型為,則2024年的年人均借閱量約為( )A.31 B.32 C.33 D.34例6.(2024·遼寧·遼寧實驗中學校考模擬預測)已知x,y的對應值如下表所示:x 0 2 4 6 8y 1 11若y與x線性相關,且回歸直線方程為,則( )A.2 B.3 C.4 D.5變式6.(2024·廣西南寧·南寧二中校聯考模擬預測)某單位在當地定點幫扶某村種植一種草莓,并把這種原本露天種植的草莓搬到了大棚里,獲得了很好的經濟效益.根據資料顯示,產出的草莓的箱數x(單位:箱)與成本y(單位:千元)的關系如下:x 10 20 30 40 60 80y(1)根據散點圖可以認為x與y之間存在線性相關關系,請用最小二乘法求出線性回歸方程(,用分數表示)(2)某農戶種植的草莓主要以300元/箱的價格給當地大型商超供貨,多余的草莓全部以200元/箱的價格銷售給當地小商販.據統計,往年1月份當地大型商超草莓的需求量為50箱、100箱、150箱、200箱的概率分別為,,,,根據回歸方程以及往年商超草莓的需求情況進行預測,求今年1月份農戶草莓的種植量為200箱時所獲得的利潤情況.(最后結果精確到個位)附:,,在線性回歸直線方程中,.變式7.(2024·江西·高三統考開學考試)某新能源汽車銷售部對今年1月至7月的銷售量進行統計與分析,因不慎丟失一些數據,現整理出如下統計表與一些分析數據:月份 1月 2月 3月 4月 5月 6月 7月月份代號 1 2 3 4 5 6 7銷售量(單位:萬輛) 15.6 37.7 39.6 44.5其中.(1)若,,成遞增的等差數列,求從7個月的銷售量中任取1個,月銷售量不高于27萬輛的概率;(2)若,與的樣本相關系數,求關于的線性回歸方程,并預測今年8月份的銷售量(精確到0.1).附:相關系數,線性回歸方程中斜率和截距的最小二乘估計公式分別為,.參考數據:,.變式8.(2024·四川成都·高三石室中學校考開學考試)已知某綠豆新品種發芽的適宜溫度在之間,一農學實驗室研究人員為研究溫度x()與綠豆新品種發芽數y(顆)之間的關系,每組選取了成熟種子50顆,分別在對應的的溫度環境下進行實驗,得到如下散點圖: 其中,,.(1)運用相關系數進行分析說明,是否可以用線性回歸模型擬合與的關系?(2)求出關于的線性回歸方程,并預測在的溫度下,種子的發芽的顆數.參考公式:相關系數,回歸直線方程,其中,.參考數據:.變式9.(2024·安徽亳州·蒙城第一中學校聯考模擬預測)為調查某地區植被覆蓋面積x(單位:公頃)和野生動物數量y的關系,某研究小組將該地區等面積花分為400個區塊,從中隨機抽取40個區塊,得到樣本數據(),部分數據如下:x … 2.7 3.6 3.2 3.9 …y … 50.6 63.7 52.1 54.3 …經計算得:,,,.(1)利用最小二乘估計建立y關于x的線性回歸方程;(2)該小組又利用這組數據建立了x關于y的線性回歸方程,并把這兩條擬合直線畫在同一坐標系下,橫坐標x,縱坐標y的意義與植被覆蓋面積x和野生動物數量y一致.設前者與后者的斜率分別為,,比較,的大小關系,并證明.附:y關于x的回歸方程中,斜率和截距的最小二乘估計公式分別為: ,, 【解題方法總結】求經驗回歸方程的步驟題型三:非線性回歸例7.(2024·湖南·校聯考模擬預測)若需要刻畫預報變量和解釋變量的相關關系,且從已知數據中知道預報變量隨著解釋變量的增大而減小,并且隨著解釋變量的增大,預報變量大致趨于一個確定的值,為擬合和之間的關系,應使用以下回歸方程中的(,為自然對數的底數)( )A. B. C. D.例8.(2024·全國·高三專題練習)云計算是信息技術發展的集中體現,近年來,我國云計算市場規模持續增長.已知某科技公司2018年至2022年云計算市場規模數據,且市場規模y與年份代碼x的關系可以用模型(其中e為自然對數的底數)擬合,設,得到數據統計表如下:年份 2018年 2019年 2020年 2021年 2022年年份代碼x 1 2 3 4 5云計算市場規模y/千萬元 7.4 11 20 36.6 66.72 2.4 3 3.6 4由上表可得經驗回歸方程,則2025年該科技公司云計算市場規模y的估計值為( )A. B. C. D.例9.(多選題)(2024·福建廈門·廈門一中校考三模)在對具有相關關系的兩個變量進行回歸分析時,若兩個變量不呈線性相關關系,可以建立含兩個待定參數的非線性模型,并引入中間變量將其轉化為線性關系,再利用最小二乘法進行線性回歸分析.下列選項為四個同學根據自己所得數據的散點圖建立的非線性模型,且散點圖的樣本點均位于第一象限,則其中可以根據上述方法進行回歸分析的模型有( )A. B.C. D.變式10.(2024·全國·高三專題練習)已知變量的關系可以用模型擬合,設,其變換后得到一組數據如下.由上表可得線性回歸方程,則( )x 1 2 3 4 5z 2 4 5 10 14A. B. C. D.變式11.(2024·全國·高三專題練習)某校課外學習小組研究某作物種子的發芽率和溫度(單位:)的關系,由實驗數據得到如圖所示的散點圖.由此散點圖判斷,最適宜作為發芽率和溫度的回歸方程類型的是( )A. B.C. D.變式12.(2024·全國·高二專題練習)蘭溪楊梅從5月15日起開始陸續上市,據調查統計,得到楊梅銷售價格(單位:Q元/千克)與上市時間t(單位:天)的數據如下表所示:時間t/(單位:天) 10 20 70銷售價格Q(單位:元/千克) 100 50 100根據上表數據,從下列函數模型中選取一個描述楊梅銷售價格Q與上市時間t的變化關系:.利用你選取的函數模型,在以下四個日期中,楊梅銷售價格最低的日期為( )A.6月5日 B.6月15日 C.6月25日 D.7月5日變式13.(2024·四川瀘州·高三四川省瀘縣第四中學校考開學考試)抗體藥物的研發是生物技術制藥領域的一個重要組成部分,抗體藥物的攝入量與體內抗體數量的關系成為研究抗體藥物的一個重要方面.某研究團隊收集了10組抗體藥物的攝入量與體內抗體數量的數據,并對這些數據作了初步處理,得到了如圖所示的散點圖及一些統計量的值,抗體藥物攝入量為x(單位:),體內抗體數量為y(單位:).29.2 12 16 34.4 (1)根據經驗,我們選擇作為體內抗體數量y關于抗體藥物攝入量x的回歸方程,將兩邊取對數,得,可以看出與具有線性相關關系,試根據參考數據建立關于的回歸方程,并預測抗體藥物攝入量為時,體內抗體數量的值;(2)經技術改造后,該抗體藥物的有效率z大幅提高,經試驗統計得z服從正態分布,那這種抗體藥物的有效率超過0.54的概率約為多少?附:①對于一組數據,其回歸直線的斜率和截距的最小二乘估計分別為,;②若隨機變量,則有,,;③取.變式14.(2024·江西贛州·高三校考階段練習)為了研究某種細菌隨天數變化的繁殖個數,收集數據如下:天數 1 2 3 4 5 6繁殖個數 6 12 25 49 95 190 (1)在圖中作出繁殖個數關于天數變化的散點圖,并由散點圖判斷(為常數)與(為常數,且)哪一個適宜作為繁殖個數關于天數變化的回歸方程類型?(給出判斷即可,不必說明理由)(2)對于非線性回歸方程(為常數,且),令,可以得到繁殖個數的對數z關于天數x具有線性關系及一些統計量的值.3.50 62.83 3.53 17.50 596.57 12.09(ⅰ)證明:“對于非線性回歸方程,令,可以得到繁殖個數的對數關于天數具有線性關系(即為常數)”;(ⅱ)根據(ⅰ)的判斷結果及表中數據,建立關于的回歸方程(系數保留2位小數).附:對于一組數據,其回歸直線方程的斜率和截距的最小二乘估計分別為.變式15.(2024·重慶沙坪壩·高三重慶八中校考階段練習)在正常生產條件下,根據經驗,可以認為化肥的有效利用率近似服從正態分布,而化肥施肥量因農作物的種類不同每畝也存在差異.(1)假設生產條件正常,記表示化肥的有效利用率,求;(2)課題組為研究每畝化肥施用量與某農作物畝產量之間的關系,收集了10組數據,并對這些數據作了初步處理,得到了如圖所示的散點圖及一些統計量的值.其中每畝化肥施用量為(單位:公斤),糧食畝產量為(單位:百公斤) 參考數據:650 91.5 52.5 1478.6 30.5 15 15 46.5,,2,,.(i)根據散點圖判斷,與,哪一個適宜作為該農作物畝產量關于每畝化肥施用量的回歸方程(給出判斷即可,不必說明理由);(ii)根據(i)的判斷結果及表中數據,建立關于的回歸方程;并預測每畝化肥施用量為27公斤時,糧食畝產量的值.附:①對于一組數據,2,3,,,其回歸直線的斜率和截距的最小二乘估計分別為,;②若隨機變量,則,.變式16.(2024·重慶·高三校聯考開學考試)某公司為了解年研發資金投入量x(單位:億元)對年銷售額y(單位:億元)的影響.對公司近12年的年研發資金投入量xi和年銷售額yi的數據,進行了對比分析,建立了兩個模型:①,②,其中α,β,λ,t均為常數,e為自然對數的底數,并得到一些統計量的值.令,經計算得如下數據:20 66 77 2 460 4.2031250 215 3.08 14(1)請從相關系數的角度,分析哪一個模型擬合程度更好 (2)(ⅰ)根據分析及表中數據,建立y關于x的回歸方程;(ⅱ)若下一年銷售額y需達到90億元,預測下一年的研發資金投入量x是多少億元 附:①相關系數,回歸直中公式分別為;②參考數據:.變式17.(2024·江蘇鎮江·江蘇省鎮江中學校考三模)經觀測,長江中某魚類的產卵數與溫度有關,現將收集到的溫度和產卵數的10組觀測數據作了初步處理,得到如圖的散點圖及一些統計量表.360表中 (1)根據散點圖判斷,與哪一個適宜作為與之間的回歸方程模型并求出關于回歸方程;(給出判斷即可,不必說明理由)(2)某興趣小組抽取兩批魚卵,已知第一批中共有6個魚卵,其中“死卵”有2個;第二批中共有8個魚卵,其中“死卵”有3個.現隨機挑選一批,然后從該批次中隨機取出2個魚卵,求取出“死卵”個數的分布列及數學期望.附:對于一組數據,其回歸直線的斜率和截距的最小二乘估計分別為.變式18.(2024·廣西南寧·南寧三中校考一模)數據顯示中國車載音樂已步入快速發展期,隨著車載音樂的商業化模式進一步完善,市場將持續擴大,下表為2018-2022年中國車載音樂市場規模(單位:十億元),其中年份2018—2022對應的代碼分別為1-5.年份代碼 1 2 3 4 5車載音樂市場規模 2.8 3.9 7.3 12.0 17.0(1)由上表數據知,可用指數函數模型擬合與的關系,請建立關于的回歸方程;(2)根據上述數據求得關于的回歸方程后,預測2024年的中國車載音樂市場規模.參考數據:1.94 33.82 1.7 1.6 26.84其中,.參考公式:對于一組數據,,,其回歸直線的斜率和截距的最小二乘法估計公式分別為,.變式19.(2024·安徽合肥·合肥市第八中學校考模擬預測)當前移動網絡已融入社會生活的方方面面,深刻改變了人們的溝通 交流乃至整個生活方式.4G網絡雖然解決了人與人隨時隨地通信的問題,但隨著移動互聯網快速發展,其已難以滿足未來移動數據流量暴漲的需求,而5G作為一種新型移動通信網絡,不但可以解決人與人的通信問題,而且還可以為用戶提供增強現實 虛擬現實 超高清(3D)視頻等更加身臨其境的極致業務體驗,更重要的是還可以解決人與物 物與物的通信問題,從而滿足移動醫療 車聯網 智能家居 工業控制 環境監測等物聯網應用需求,為更好的滿足消費者對5G網絡的需求,中國電信在某地區推出了六款不同價位的流量套餐,每款套餐的月資費x(單位:元)與購買人數y(單位:萬人)的數據如下表:套餐 A B C D E F月資費x(元) 38 48 58 68 78 88購買人數y(萬人) 16.8 18.8 20.7 22.4 24.0 25.5對數據作初步的處理,相關統計量的值如下表:75.3 24.6 18.3 101.4其中,且繪圖發現,散點集中在一條直線附近.(1)根據所給數據,求出關于的回歸方程;(2)已知流量套餐受關注度通過指標來測定,當時相應的流量套餐受大眾的歡迎程度更高,被指定為“主打套餐”.現有一家四口從這六款套餐中,購買不同的四款各自使用.記四人中使用“主打套督”的人數為,求隨機變量的分布列和期望.附:對于一組數據,其回歸方程的斜率和截距的最小二乘估計值分別為.【解題方法總結】換元法變成一元線性回歸模型題型四:列聯表與獨立性檢驗例10.(2024·廣東佛山·華南師大附中南海實驗高中校考模擬預測)四川省將從2022年秋季入學的高一年級學生開始實行高考綜合改革,高考采用“3+1+2”模式,其中“1”為首選科目,即物理與歷史二選一.某校為了解學生的首選意愿,對部分高一學生進行了抽樣調查,制作出如下兩個等高條形圖,根據條形圖信息,下列結論正確的是( )A.樣本中選擇物理意愿的男生人數少于選擇歷史意愿的女生人數B.樣本中女生選擇歷史意愿的人數多于男生選擇歷史意愿的人數C.樣本中選擇物理學科的人數較多D.樣本中男生人數少于女生人數例11.(2024·全國·高三專題練習)在新高考改革中,浙江省新高考實行的是7選3的模式,即語數外三門為必考科目,然后從物理、化學、生物、政治、歷史、地理、技術(含信息技術和通用技術)7門課中選考3門.某校高二學生選課情況如下列聯表一和列聯表二(單位:人)選物理 不選物理 總計男生 340 110 450女生 140 210 350總計 480 320 800表一選生物 不選生物 總計男生 150 300 450女生 150 200 350總計 300 500 800表二試根據小概率值的獨立性檢驗,分析物理和生物選課與性別是否有關( )附:A.選物理與性別有關,選生物與性別有關B.選物理與性別無關,選生物與性別有關C.選物理與性別有關,選生物與性別無關D.選物理與性別無關,選生物與性別無關例12.(2024·全國·高三專題練習)通過隨機詢問相同數量的不同性別大學生在購買食物時是否看營養說明,得知有的男大學生“不看”,有的女大學生“不看”,若有99%的把握認為性別與是否看營養說明之間有關,則調查的總人數可能為( )A.150 B.170 C.240 D.175變式20.(2024·全國·高三專題練習)針對時下的“短視頻熱”,某高校團委對學生性別和喜歡短視頻是否有關聯進行了一次調查,其中被調查的男生 女生人數均為人,男生中喜歡短視頻的人數占男生人數的,女生中喜歡短視頻的人數占女生人數的.零假設為:喜歡短視頻和性別相互獨立.若依據的獨立性檢驗認為喜歡短視頻和性別不獨立,則的最小值為( )附:,附表:0.05 0.013.841 6.635A.7 B.8 C.9 D.10變式21.(2024·全國·高三專題練習)在一次聯考后,某校對甲、乙兩個文科班的數學考試成績進行分析,規定:大于或等于120分為優秀,120分以下為非優秀,統計成績后,得到如下2×2列聯表:優秀 非優秀 合計甲班人數 50乙班人數 20合計 30 110附:,其中.根據獨立性檢驗,可以認為數學考試成績與班級有關系的把握為( )A. B. C. D.變式22.(2024·全國·高三專題練習)2020年2月,全國掀起了“停課不停學”的熱潮,各地教師通過網絡直播 微課推送等多種方式來指導學生線上學習.為了調查學生對網絡課程的熱愛程度,研究人員隨機調查了相同數量的男 女學生,發現有80%的男生喜歡網絡課程,有40%的女生不喜歡網絡課程,且有99%的把握但沒有99.9%的把握認為是否喜歡網絡課程與性別有關,則被調查的男 女學生總數量可能為( )附:,其中.0.1 0.05 0.01 0.0012.706 3.841 6.635 10.828A.130 B.190 C.240 D.250變式23.(2024·全國·高三專題練習)觀察下列各圖,其中兩個分類變量x,y之間關系最強的是( )A. B.C. D.變式24.(2024·重慶沙坪壩·高三重慶八中校考開學考試)2022年卡塔爾世界杯決賽圈共有32支球隊參加,歐洲球隊有13支:其中有5支歐洲球隊闖入8強.比賽進入淘汰賽階段后,必須要分出勝負.淘汰賽規則如下:在比賽常規時間90分鐘內分出勝負;比賽結束,若比分相同.則進入30分鐘的加時賽.在加時賽分出勝負,比賽結束,若加時賽比分依然相同,就要通過點球大戰來分出最后的勝負.點球大戰分為2個階段,第一階段:共5輪,雙方每輪各派1名球員,依次踢點球,以5輪的總進球數作為標準,5輪合計踢進點球數更多的球隊獲得比賽的勝利.如果第一階段的5輪還是平局,則進入第二階段:在該階段雙方每輪各派1名球員,依次踢點球,如果在一輪里,雙方都進球或者雙方都不進球,則繼續下一輪,直到某一輪里,一方罰進點球,另一方沒罰進,比賽結束,罰進點球的一方獲得最終的勝利.(1)根據題意填寫下面的列聯表,并根據小概率值的獨立性檢驗,判斷32支決賽圈球隊“闖入8強”與“是歐洲球隊”是否有關.歐洲球隊 其他球隊 合計闖入強未闖入強合計(2)甲、乙兩隊在淘汰賽相遇,經過120分鐘比賽未分出勝負,雙方進入點球大戰.已知甲隊球員每輪踢進點球的概率為,乙隊球員每輪踢進點球的概率為,每輪每隊是否進球相互獨立,在點球大戰中,兩隊前3輪比分為,試求出甲隊在第二階段第一輪結束后獲得最終勝利的概率.參考公式:.變式25.(2024·廣東東莞·高三校聯考階段練習)在“雙減”政策背景之下,某校就推進學校、家庭、社會體育教育的“一體化”,實現“教會、勤練、常賽”的核心任務.學校組織人員對在校學生“是否喜愛運動”做了一次隨機調查.共隨機調查了18名男生和12名女生,調查發現,男、女生中分別有12人和6人喜愛運動,其余不喜愛.喜歡運動 不喜歡運動 總計男女總計(1)根據以上數據完成以下列聯表:0.40 0.25 0.10 0.0100.708 1.323 2.706 6.635根據小概率值的獨立性檢驗,能否據此推斷性別與喜愛運動有關?(2)從被調查的女生中抽取3人,若其中喜愛運動的人數為,求的分布列及數學期望.附參考公式及參考數據:,其中.變式26.(2024·遼寧·高三校聯考開學考試)第31屆世界大學生夏季運動會,是中國西部第一次舉辦世界性綜合運動會,共設籃球、排球、田徑、游泳等18個大項、269個小項.該屆賽事約有來自170個國家和地區的1萬余名運動員及官員赴蓉參加,該屆賽事于2024年7月28日至8月8日在中國四川省成都市舉行.為了了解關注該賽事是否與性別有關,某體育臺隨機抽取2000名觀眾進行統計,得到如下2×2列聯表.男 女 合計關注該賽事 600 300 900不關注該賽事 400 700 1100合計 1000 1000 2000(1)在所有女觀眾中,試估計她們關注該賽事的概率(結果用百分數表示);(2)根據小概率值的獨立性檢驗,能否認為是否關注該賽事與性別有關聯 附:,其中.0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828變式27.(2024·安徽滁州·校考二模)為了研究學生每天整理數學錯題情況,某課題組在某市中學生中隨機抽取了100名學生調查了他們期中考試的數學成績和平時整理數學錯題情況,并繪制了下列兩個統計圖表,圖1為學生期中考試數學成績的頻率分布直方圖,圖2為學生一個星期內整理數學錯題天數的扇形圖.若本次數學成績在110分及以上視為優秀,將一個星期有4天及以上整理數學錯題視為“經常整理”,少于4天視為“不經常整理”.已知數學成績優秀的學生中,經常整理錯題的學生占.數學成績優秀 數學成績不優秀 合計經常整理不經常整理合計(1)求圖1中的值以及學生期中考試數學成績的上四分位數;(2)根據圖1、圖2中的數據,補全上方列聯表,并根據小概率值的獨立性檢驗,分析數學成績優秀與經常整理數學錯題是否有關 (3)用頻率估計概率,在全市中學生中按“經常整理錯題”與“不經常整理錯題”進行分層抽樣,隨機抽取5名學生,再從這5名學生中隨機抽取2人進行座談.求這2名同學中經常整理錯題且數學成績優秀的人數X的分布列和數學期望.附:變式28.(2024·全國·高三專題練習)2022年11月20日,卡塔爾足球世界杯正式開幕,世界杯上的中國元素隨處可見.從體育場建設到電力保障,從賽場內的裁判到賽場外的吉祥物都是中國制造,為卡塔爾世界杯提供了強有力的支持.國內也再次掀起足球熱潮.某地足球協會組建球隊參加業余比賽,該足球隊教練組為了考查球員甲對球隊的貢獻,作出如下數據統計(甲參加過的比賽均分出了輸贏):球隊輸球 球隊贏球 總計甲參加 2 30 32甲未參加 8 10 18總計 10 40 50(1)根據小概率值的獨立性檢驗,能否認為該球隊贏球與甲球員參賽有關聯;(2)從該球隊中任選一人,A表示事件“選中的球員參賽”,B表示事件“球隊輸球”.與的比值是選中的球員參賽對球隊貢獻程度的一項度量指標,記該指標為R.①證明:;②利用球員甲數據統計,給出,的估計值,并求出R的估計值.附:.參考數據:a 0.05 0.01 0.005 0.0013.841 6.635 7.879 10.828【解題方法總結】獨立性檢驗的一般步驟(1)根據樣本數據制成2×2列聯表.(2)根據公式計算.(3)比較與臨界值的大小關系,作統計推斷.題型五:誤差分析例13.(2024·河北衡水·河北衡水中學校考一模)某新能源汽車生產公司,為了研究某生產環節中兩個變量之間的相關關系,統計樣本數據得到如下表格:由表格中的數據可以得到與的經驗回歸方程為,據此計算,下列選項中殘差的絕對值最小的樣本數據是( )A. B.C. D.例14.(2024·云南保山·高三統考期末)新冠肺炎疫情發生以來,中醫藥全面參與疫情防控救治,做出了重要貢獻.某中醫藥企業根據市場調研與模擬,得到研發投入(億元)與產品收益(億元)的數據統計如下表:研發投入(億元) 1 2 3 4 5產品收益(億元) 3 7 9 10 11用最小二乘法求得關于的經驗回歸直線方程是,相關系數(若,則線性相關程度一般,若,則線性相關程度較高),下列說法不正確的有( )A.變量與正相關且相關性較強B.C.當時,的估計值為40.3D.相應于點的殘差為0.8例15.(2024·山東青島·高三山東省青島第五十八中學校考開學考試)已知一組樣本數據,,,,根據這組數據的散點圖分析與之間的線性相關關系,若求得其線性回歸方程為,則在樣本點處的殘差為( )A.38.1 B.22.6 C. D.91.1變式29.(2024·陜西咸陽·統考模擬預測)年初,新型冠狀病毒()引起的肺炎疫情爆發以來,各地醫療機構采取了各種針對性的治療方法,取得了不錯的成效,某醫療機構開始使用中西醫結合方法后,每周治愈的患者人數如下表所示:第周治愈人數(單位:十人)由上表可得關于的線性回歸方程為,若第6周實際治愈人數為18人,則此回歸模型第6周的殘差(實際值減去預報值)為( )A. B. C. D.變式30.(2024·云南昆明·高三昆明一中校考階段練習)小王經營了一家小型餐館,自去年疫情管控宣布結束后的第1天開始,經營狀況逐步有了好轉,該店第一周的營業收入數據(單位:百元)統計如下:天數序號x 1 2 3 4 5 6 7營業收入y 11 13 18 ※ 28 ※ 35其中第4天和第6天的數據由于某種原因造成模糊,但知道7天的營業收入平均值是23,已知營業收入y與天數序號x可以用經驗回歸直線方程擬合,且第7天的殘差是,則的值是( )A.10.4 B.6.2 C.4.2 D.2變式31.(2024·全國·高三專題練習)已知建筑地基沉降預測對于保證施工安全,實現信息化監控有著重要意義.某工程師建立了四個函數模型來模擬建筑地基沉降隨時間的變化趨勢,并用相關指數、誤差平方和、均方根值三個指標來衡量擬合效果.相關指數越接近1表明模型的擬合效果越好,誤差平方和越小表明誤差越小,均方根值越小越好.依此判斷下面指標對應的模型擬合效果最好的是( ).A.相關指數 誤差平方和 均方根值0.949 5.491 0.499B.相關指數 誤差平方和 均方根值0.933 4.179 0.436C.相關指數 誤差平方和 均方根值0.997 1.701 0.141D.相關指數 誤差平方和 均方根值0.997 2.899 0.326變式32.(多選題)(2024·湖北·荊門市龍泉中學校聯考模擬預測)某學校一同學研究溫差與本校當天新增感冒人數(人)的關系,該同學記錄了5天的數據:x 5 6 8 9 12y 17 20 25 28 35經過擬合,發現基本符合經驗回歸方程,則( )A.樣本中心點為 B.C.,殘差為 D.若去掉樣本點,則樣本的相關系數r增大本資料陳飛老師主編,可聯系微信:renbenjiaoyu2 ,加入陳老師高中數學永久QQ資料群下載(群內99%以上資料為純word解析版),群內資料每周持續更新!高一資料群內容:1、高一上學期同步講義(word+PDF)2、高一下學期同步講義(word+PDF)3、寒暑假預習講義(word+PDF)4、專題分類匯編(純word解析版)5、全國名校期中期末考試卷(純word解析版)6、期中期末考試串講(word+PDF)…………………………………………更多內容不斷完善高二資料群內容:1、高二上學期同步講義(word+PDF)2、高二下學期同步講義(word+PDF)3、寒暑假預習講義(word+PDF)4、專題分類匯編(純word解析版)5、全國名校期中期末考試卷(純word解析版)6、期中期末考試串講(word+PDF)…………………………………………更多內容不斷完善高三資料群內容:1、高三大一輪復習講義(word+PDF)2、高三二輪沖刺講義(word+PDF)3、高三三輪押題(純word解析版)4、高考真題分類匯編(純word解析版)5、專題分類匯編(純word解析版)6、圓錐曲線專題(word+PDF)7、導數專題(word+PDF)8、全國名校期中期末一模二模(純word解析版)…………………………………………更多內容不斷完善21世紀教育網(www.21cnjy.com)第84講 成對數據的統計分析知識梳理知識點一、變量間的相關關系1、變量之間的相關關系當自變量取值一定時,因變量的取值帶有一定的隨機性,則這兩個變量之間的關系叫相關關系.由于相關關系的不確定性,在尋找變量之間相關關系的過程中,統計發揮著非常重要的作用.我們可以通過收集大量的數據,在對數據進行統計分析的基礎上,發現其中的規律,對它們的關系作出判斷.注意:相關關系與函數關系是不同的,相關關系是一種非確定的關系,函數關系是一種確定的關系,而且函數關系是一種因果關系,但相關關系不一定是因果關系,也可能是伴隨關系.2、散點圖將樣本中的個數據點描在平面直角坐標系中,所得圖形叫做散點圖.根據散點圖中點的分布可以直觀地判斷兩個變量之間的關系.(1)如果散點圖中的點散布在從左下角到右上角的區域內,對于兩個變量的這種相關關系,我們將它稱為正相關,如圖(1)所示;(2)如果散點圖中的點散布在從左上角到右下角的區域內,對于兩個變量的這種相關關系,我們將它稱為負相關,如圖(2)所示.3、相關系數若相應于變量的取值,變量的觀測值為,則變量與的相關系數,通常用來衡量與之間的線性關系的強弱,的范圍為.(1)當時,表示兩個變量正相關;當時,表示兩個變量負相關.(2)越接近,表示兩個變量的線性相關性越強;越接近,表示兩個變量間幾乎不存在線性相關關系.當時,所有數據點都在一條直線上.(3)通常當時,認為兩個變量具有很強的線性相關關系.知識點二、線性回歸1、線性回歸線性回歸是研究不具備確定的函數關系的兩個變量之間的關系(相關關系)的方法.對于一組具有線性相關關系的數據(x1,y1),(x2,y2),…,(xn,yn),其回歸方程的求法為其中,,,(,)稱為樣本點的中心.2、殘差分析對于預報變量,通過觀測得到的數據稱為觀測值,通過回歸方程得到的稱為預測值,觀測值減去預測值等于殘差,稱為相應于點的殘差,即有.殘差是隨機誤差的估計結果,通過對殘差的分析可以判斷模型刻畫數據的效果以及判斷原始數據中是否存在可疑數據等,這方面工作稱為殘差分析.(1)殘差圖通過殘差分析,殘差點比較均勻地落在水平的帶狀區域中,說明選用的模型比較合適,其中這樣的帶狀區域的寬度越窄,說明模型擬合精確度越高;反之,不合適.(2)通過殘差平方和分析,如果殘差平方和越小,則說明選用的模型的擬合效果越好;反之,不合適.(3)相關指數用相關指數來刻畫回歸的效果,其計算公式是:.越接近于,說明殘差的平方和越小,也表示回歸的效果越好.知識點三、非線性回歸解答非線性擬合問題,要先根據散點圖選擇合適的函數類型,設出回歸方程,通過換元將陌生的非線性回歸方程化歸轉化為我們熟悉的線性回歸方程.求出樣本數據換元后的值,然后根據線性回歸方程的計算方法計算變換后的線性回歸方程系數,還原后即可求出非線性回歸方程,再利用回歸方程進行預報預測,注意計算要細心,避免計算錯誤.1、建立非線性回歸模型的基本步驟:(1)確定研究對象,明確哪個是解釋變量,哪個是預報變量;(2)畫出確定好的解釋變量和預報變量的散點圖,觀察它們之間的關系(是否存在非線性關系);(3)由經驗確定非線性回歸方程的類型(如我們觀察到數據呈非線性關系,一般選用反比例函數、二次函數、指數函數、對數函數、冪函數模型等);(4)通過換元,將非線性回歸方程模型轉化為線性回歸方程模型;(5)按照公式計算線性回歸方程中的參數(如最小二乘法),得到線性回歸方程;(6)消去新元,得到非線性回歸方程;(7)得出結果后分析殘差圖是否有異常.若存在異常,則檢查數據是否有誤,或模型是否合適等.知識點四、獨立性檢驗1、分類變量和列聯表(1)分類變量:變量的不同“值”表示個體所屬的不同類別,像這樣的變量稱為分類變量.(2)列聯表:①定義:列出的兩個分類變量的頻數表稱為列聯表.②2×2列聯表.一般地,假設有兩個分類變量X和Y,它們的取值分別為{,}和{,},其樣本頻數列聯表(稱為2×2列聯表)為總計總計從列表中,依據與的值可直觀得出結論:兩個變量是否有關系.2、等高條形圖(1)等高條形圖和表格相比,更能直觀地反映出兩個分類變量間是否相互影響,常用等高條形圖表示列聯表數據的頻率特征.(2)觀察等高條形圖發現與相差很大,就判斷兩個分類變量之間有關系.3、獨立性檢驗計算隨機變量利用的取值推斷分類變量X和Y是否獨立的方法稱為χ2獨立性檢驗.0.10 0.05 0.010 0.005 0.0012.706 3.841 6.635 7.879 10.828【解題方法總結】常見的非線性回歸模型(1)指數函數型(且,)兩邊取自然對數,,即,令,原方程變為,然后按線性回歸模型求出,.(2)對數函數型令,原方程變為,然后按線性回歸模型求出,.(3)冪函數型兩邊取常用對數,,即,令,原方程變為,然后按線性回歸模型求出,.(4)二次函數型令,原方程變為,然后按線性回歸模型求出,.(5)反比例函數型型令,原方程變為,然后按線性回歸模型求出,.必考題型全歸納題型一:變量間的相關關系例1.(2024·河北·高三校聯考期末)下列四幅殘差分析圖中,與一元線性回歸模型擬合精度最高的是( )A. B. C. D. 【答案】D【解析】用殘差圖判斷模型的擬合效果,殘差點比較均勻地落在水平的帶狀區域中,說明這樣的模型比較合適,帶狀區域的寬度越窄,說明模型的擬合精度越高,顯然D選項的擬合精度最高.故選:D.例2.(2024·天津薊州·高三校考開學考試)對兩個變量,進行線性相關檢驗,得線性相關系數,對兩個變量,進行線性相關檢驗,得線性相關系數,則下列判斷正確的是( )A.變量與正相關,變量與負相關,變量與的線性相關性較強B.變量與負相關,變量與正相關,變量與的線性相關性較強C.變量與正相關,變量與負相關,變量與的線性相關性較強D.變量與負相關,變量與正相關,變量與的線性相關性較強【答案】C【解析】因為線性相關系數,所以,正相關,因為線性相關系數,所以,負相關,又因為,所以變量,的線性相關性比,的線性相關性強,故A、B、D錯誤,C正確.故選:C.例3.(2024·寧夏吳忠·高三鹽池高級中學校考階段練習)在如圖所示的散點圖中,若去掉點,則下列說法正確的是( ) A.樣本相關系數變大B.變量與變量的相關程度變弱C.變量與變量呈正相關D.變量與變量的相關程度變強【答案】D【解析】由散點圖知,自變量與因變量呈負相關,即,故C錯誤;去掉點后,進一步接近1,所以變小,故A錯誤;去掉點后,與的線性相關加強,即相關程度變強,故B錯誤,D正確.故選:D.變式1.(2024·四川成都·高三統考階段練習)已知建筑地基沉降預測對于保證施工安全,實現信息化監控有著重要意義.某工程師建立了四個函數模型來模擬建筑地基沉降隨時間的變化趨勢,并用相關指數、誤差平方和、均方根值三個指標來衡量擬合效果.相關指數越接近1表明模型的擬合效果越好,誤差平方和越小表明誤差越小,均方根值越小越好.依此判斷下面指標對應的模型擬合效果最好的是( )A.相關指數 誤差平方和 均方根值0.949 8.491 0.499B.相關指數 誤差平方和 均方根值0.933 4.179 0.436C.相關指數 誤差平方和 均方根值0.997 1.701 0.141D.相關指數 誤差平方和 均方根值0.997 2.899 0.326【答案】C【解析】相關指數越接近于1,擬合效果越好,比較相關指數知,可選C,D,誤差平方和及均方根值都越小,擬合效果越好,觀察誤差平方和和均方根值,知C的擬合效果最好.故選:C.變式2.(2024·高三課時練習)甲、乙、丙、丁四位同學各自對,A,B兩變量的線性相關性做試驗,并用回歸分析方法分別求得相關系數r與殘差平方和m如下表:甲 乙 丙 丁r 0.82 0.78 0.69 0.85m 106 115 124 103則能體現A,B兩變量有更強的線性相關性的是( )A.甲 B.乙 C.丙 D.丁【答案】D【解析】在驗證兩個變量之間的線性相關關系中,相關系數的絕對值越接近于1,相關性越強,在四個選項中只有丁的相關系數最大,殘差平方和越小,相關性越強,只有丁的殘差平方和最小,綜上可知丁的試驗結果體現、兩變量有更強的線性相關性,故選:D.變式3.(2024·河北石家莊·統考三模)觀察下列四幅殘差圖,滿足一元線性回歸模型中對隨機誤差的假定的是( )A. B.C. D.【答案】B【解析】根據一元線性回歸模型中對隨機誤差的假定,殘差應是均值為0、方差為的隨機變量的觀測值.對于A選項,殘差與觀測時間有線性關系,故A錯;對于B選項,殘差比較均勻地分布在以取值為0的橫軸為對稱軸的水平帶狀區域內;故B正確;對于C選項,殘差與觀測時間有非線性關系,故C錯;對于D選項,殘差的方差不是一個常數,隨著觀測時間變大而變大,故D錯.故選:B.變式4.(2024·全國·高三專題練習)甲、乙、丙、丁四位同學分別對一組變量進行線性相關試驗,并分別計算出相關系數,則線性相關程度最高的是( )甲 乙 丙 丁0.87 0.91 0.58 0.83A.甲 B.乙 C.丙 D.丁【答案】B【解析】因為相關系數越大,線性相關程度越強,所以線性相關程度最高的是乙.故選:B變式5.(2024·全國·高三專題練習)給出下列有關線性回歸分析的四個命題:①線性回歸直線未必過樣本數據點的中心;②回歸直線就是散點圖中經過樣本數據點最多的那條直線;③當相關系數時,兩個變量正相關;④如果兩個變量的相關性越強,則相關系數就越接近于.其中真命題的個數為( )A. B. C. D.【答案】A【解析】對于①,線性回歸直線一定過樣本數據點的中心,故①錯誤;對于②,回歸直線在散點圖中可能不經過任何一個樣本數據點,故②錯誤;對于③,當相關系數時,兩個變量正相關,故③正確;對于④,如果兩個變量的相關性越強,則相關性系數就越接近于或,故④錯誤.故真命題的個數為1,故選:A.【解題方法總結】判定兩個變量相關性的方法(1)畫散點圖:點的分布從左下角到右上角,兩個變量正相關;點的分布從左上角到右下角,兩個變量負相關.(2)樣本相關系數:當r>0時,正相關;當r<0時,負相關;|r|越接近于1,相關性越強.(3)經驗回歸方程:當時,正相關;當時,負相關.題型二:一元線性回歸模型例4.(2024·天津薊州·高三校考開學考試)為研究某種細菌在特定環境下,隨時間變化的繁殖情況,得到如下實驗數據:天數天 繁殖個數千個 由最小二乘法得與的線性回歸方程為,則當時,繁殖個數的預測值為( )A. B. C. D.【答案】B【解析】由題中數據可得:,,因為回歸直線必過樣本中心,所以,所以,所以當時,,故選:B例5.(2024·湖南長沙·高三長郡中學校聯考階段練習)某社區為了豐富退休人員的業余文化生活,自2018年以來,始終堅持開展“悅讀小屋讀書活動”.下表是對2018年以來近5年該社區退休人員的年人均借閱量的數據統計:年份 2018 2019 2020 2021 2022年份代碼 1 2 3 4 5年人均借閱量(冊) 16 22 28(參考數據:)通過分析散點圖的特征后,年人均借閱量關于年份代碼的回歸分析模型為,則2024年的年人均借閱量約為( )A.31 B.32 C.33 D.34【答案】C【解析】因為,,所以,即.所以回歸方程為,當時,.故選:C.例6.(2024·遼寧·遼寧實驗中學校考模擬預測)已知x,y的對應值如下表所示:x 0 2 4 6 8y 1 11若y與x線性相關,且回歸直線方程為,則( )A.2 B.3 C.4 D.5【答案】B【解析】,又回歸直線方程為,所以,解得.故選:B.變式6.(2024·廣西南寧·南寧二中校聯考模擬預測)某單位在當地定點幫扶某村種植一種草莓,并把這種原本露天種植的草莓搬到了大棚里,獲得了很好的經濟效益.根據資料顯示,產出的草莓的箱數x(單位:箱)與成本y(單位:千元)的關系如下:x 10 20 30 40 60 80y(1)根據散點圖可以認為x與y之間存在線性相關關系,請用最小二乘法求出線性回歸方程(,用分數表示)(2)某農戶種植的草莓主要以300元/箱的價格給當地大型商超供貨,多余的草莓全部以200元/箱的價格銷售給當地小商販.據統計,往年1月份當地大型商超草莓的需求量為50箱、100箱、150箱、200箱的概率分別為,,,,根據回歸方程以及往年商超草莓的需求情況進行預測,求今年1月份農戶草莓的種植量為200箱時所獲得的利潤情況.(最后結果精確到個位)附:,,在線性回歸直線方程中,.【解析】(1)因為,,所以,由題意可知,所以,又因為,所以回歸方程為.(2)由回歸方程知,若農戶草莓的種植量為200箱,則成本為(千元).設農戶草莓的種植量為200箱時的收入為元,200箱草莓供給大型商超和小商販分別箱和,顯然,由題意,因此以及Y的可能取值如下表:50 100 150 200150 100 50 045000 50000 55000 60000所以Y的分布列為:Y 45000 50000 55000 60000P所以,所以預測所獲利潤約為元.變式7.(2024·江西·高三統考開學考試)某新能源汽車銷售部對今年1月至7月的銷售量進行統計與分析,因不慎丟失一些數據,現整理出如下統計表與一些分析數據:月份 1月 2月 3月 4月 5月 6月 7月月份代號 1 2 3 4 5 6 7銷售量(單位:萬輛) 15.6 37.7 39.6 44.5其中.(1)若,,成遞增的等差數列,求從7個月的銷售量中任取1個,月銷售量不高于27萬輛的概率;(2)若,與的樣本相關系數,求關于的線性回歸方程,并預測今年8月份的銷售量(精確到0.1).附:相關系數,線性回歸方程中斜率和截距的最小二乘估計公式分別為,.參考數據:,.【解析】(1)因為.所以,所以,又,,成遞增的等差數列,所以且,所以,且,所以月銷售量不高于27萬輛的有15.6,,共3個,又基本事件總數為7,故所求概率為.(2)由表中數據可知,由和,得,所以,由,,得,故關于的線性回歸方程為.當時,,所以預測今年8月份的銷售量大約為50.4萬輛.變式8.(2024·四川成都·高三石室中學校考開學考試)已知某綠豆新品種發芽的適宜溫度在之間,一農學實驗室研究人員為研究溫度x()與綠豆新品種發芽數y(顆)之間的關系,每組選取了成熟種子50顆,分別在對應的的溫度環境下進行實驗,得到如下散點圖: 其中,,.(1)運用相關系數進行分析說明,是否可以用線性回歸模型擬合與的關系?(2)求出關于的線性回歸方程,并預測在的溫度下,種子的發芽的顆數.參考公式:相關系數,回歸直線方程,其中,.參考數據:.【解析】(1)根據題意,得.,.因而相關系數.由于很接近1,∴可以用線性回歸方程模型擬合y與x的關系.(2),,∴關于的回歸方程為.若,則顆.∴在的溫度下,預測種子的發芽顆數為44.變式9.(2024·安徽亳州·蒙城第一中學校聯考模擬預測)為調查某地區植被覆蓋面積x(單位:公頃)和野生動物數量y的關系,某研究小組將該地區等面積花分為400個區塊,從中隨機抽取40個區塊,得到樣本數據(),部分數據如下:x … 2.7 3.6 3.2 3.9 …y … 50.6 63.7 52.1 54.3 …經計算得:,,,.(1)利用最小二乘估計建立y關于x的線性回歸方程;(2)該小組又利用這組數據建立了x關于y的線性回歸方程,并把這兩條擬合直線畫在同一坐標系下,橫坐標x,縱坐標y的意義與植被覆蓋面積x和野生動物數量y一致.設前者與后者的斜率分別為,,比較,的大小關系,并證明.附:y關于x的回歸方程中,斜率和截距的最小二乘估計公式分別為: ,, 【解析】(1),,,,故回歸方程為;(2)x關于y的線性回歸方程為,, ,則 ,r為y與x的相關系數,又,,,故,即,下證:,若,則,即恒成立,代入表格中的一組數據得:,矛盾,故.綜上,y關于x的回歸方程為.【解題方法總結】求經驗回歸方程的步驟題型三:非線性回歸例7.(2024·湖南·校聯考模擬預測)若需要刻畫預報變量和解釋變量的相關關系,且從已知數據中知道預報變量隨著解釋變量的增大而減小,并且隨著解釋變量的增大,預報變量大致趨于一個確定的值,為擬合和之間的關系,應使用以下回歸方程中的(,為自然對數的底數)( )A. B. C. D.【答案】D【解析】對于A:因為在定義域內單調遞增且,所以隨著的增大而增大,不合題意,故A錯誤;對于B:因為在定義域內單調遞增且,所以隨著的增大而減小,當解釋變量,,不合題意,故B錯誤;對于C:因為在定義域內單調遞增且,所以隨著的增大而減小,當解釋變量,,不合題意,故C錯誤;對于D:因為在定義域內單調遞減且,所以隨著的增大而減小,當解釋變量,,故D錯誤;故選:D.例8.(2024·全國·高三專題練習)云計算是信息技術發展的集中體現,近年來,我國云計算市場規模持續增長.已知某科技公司2018年至2022年云計算市場規模數據,且市場規模y與年份代碼x的關系可以用模型(其中e為自然對數的底數)擬合,設,得到數據統計表如下:年份 2018年 2019年 2020年 2021年 2022年年份代碼x 1 2 3 4 5云計算市場規模y/千萬元 7.4 11 20 36.6 66.72 2.4 3 3.6 4由上表可得經驗回歸方程,則2025年該科技公司云計算市場規模y的估計值為( )A. B. C. D.【答案】B【解析】因為,所以,即經驗回歸方程,當時,,所以,即2025年該科技公司云計算市場規模y的估計值為,故選:B例9.(多選題)(2024·福建廈門·廈門一中校考三模)在對具有相關關系的兩個變量進行回歸分析時,若兩個變量不呈線性相關關系,可以建立含兩個待定參數的非線性模型,并引入中間變量將其轉化為線性關系,再利用最小二乘法進行線性回歸分析.下列選項為四個同學根據自己所得數據的散點圖建立的非線性模型,且散點圖的樣本點均位于第一象限,則其中可以根據上述方法進行回歸分析的模型有( )A. B.C. D.【答案】ABC【解析】對于選項A :,令 則;對于選項B:令;對于選項 C:即 令 則;對于選項D: 令則此時斜率為 ,與最小二乘法不符.故選:ABC變式10.(2024·全國·高三專題練習)已知變量的關系可以用模型擬合,設,其變換后得到一組數據如下.由上表可得線性回歸方程,則( )x 1 2 3 4 5z 2 4 5 10 14A. B. C. D.【答案】B【解析】由表格數據知,.即樣本中心點為,由,得,即,所以,即,可得,故選:B.變式11.(2024·全國·高三專題練習)某校課外學習小組研究某作物種子的發芽率和溫度(單位:)的關系,由實驗數據得到如圖所示的散點圖.由此散點圖判斷,最適宜作為發芽率和溫度的回歸方程類型的是( )A. B.C. D.【答案】D【解析】由散點圖可見,數據分布成遞增趨勢,但是呈現上凸效果,即增加緩慢.A中,是直線型,均勻增長,不符合要求;B中,是二次函數型,圖象呈現下凸,增長也較快,不符合要求;C中,是指數型,爆炸式增長,增長快,不符合要求;D中,是對數型,增長緩慢,符合要求.故對數型最適宜該回歸模型.故選:D.變式12.(2024·全國·高二專題練習)蘭溪楊梅從5月15日起開始陸續上市,據調查統計,得到楊梅銷售價格(單位:Q元/千克)與上市時間t(單位:天)的數據如下表所示:時間t/(單位:天) 10 20 70銷售價格Q(單位:元/千克) 100 50 100根據上表數據,從下列函數模型中選取一個描述楊梅銷售價格Q與上市時間t的變化關系:.利用你選取的函數模型,在以下四個日期中,楊梅銷售價格最低的日期為( )A.6月5日 B.6月15日 C.6月25日 D.7月5日【答案】C【解析】根據表中數據,描述楊梅銷售價格Q與上市時間Q的變化關系不可能是常數函數、也不可能是單調函數,函數在時均為單調函數,這與表格中的數據不吻合,所以應選取進行描述,將表中數據代入可得,解得,所以,,所以當時楊梅銷售價格最低,而6月5日時,6月15日時,6月25日時,7月5日時,所以時楊梅銷售價格最低.故選:C.變式13.(2024·四川瀘州·高三四川省瀘縣第四中學校考開學考試)抗體藥物的研發是生物技術制藥領域的一個重要組成部分,抗體藥物的攝入量與體內抗體數量的關系成為研究抗體藥物的一個重要方面.某研究團隊收集了10組抗體藥物的攝入量與體內抗體數量的數據,并對這些數據作了初步處理,得到了如圖所示的散點圖及一些統計量的值,抗體藥物攝入量為x(單位:),體內抗體數量為y(單位:).29.2 12 16 34.4 (1)根據經驗,我們選擇作為體內抗體數量y關于抗體藥物攝入量x的回歸方程,將兩邊取對數,得,可以看出與具有線性相關關系,試根據參考數據建立關于的回歸方程,并預測抗體藥物攝入量為時,體內抗體數量的值;(2)經技術改造后,該抗體藥物的有效率z大幅提高,經試驗統計得z服從正態分布,那這種抗體藥物的有效率超過0.54的概率約為多少?附:①對于一組數據,其回歸直線的斜率和截距的最小二乘估計分別為,;②若隨機變量,則有,,;③取.【解析】(1)將兩邊取對數,得,設,,則回歸方程變為,由表中數據可知,,,所以,,所以,即,故y關于x的回歸方程為,當時,.(2)因為z服從正態分布,其中,,所以,所以,故這種抗體藥物的有效率z超過0.54的概率約為.變式14.(2024·江西贛州·高三校考階段練習)為了研究某種細菌隨天數變化的繁殖個數,收集數據如下:天數 1 2 3 4 5 6繁殖個數 6 12 25 49 95 190 (1)在圖中作出繁殖個數關于天數變化的散點圖,并由散點圖判斷(為常數)與(為常數,且)哪一個適宜作為繁殖個數關于天數變化的回歸方程類型?(給出判斷即可,不必說明理由)(2)對于非線性回歸方程(為常數,且),令,可以得到繁殖個數的對數z關于天數x具有線性關系及一些統計量的值.3.50 62.83 3.53 17.50 596.57 12.09(ⅰ)證明:“對于非線性回歸方程,令,可以得到繁殖個數的對數關于天數具有線性關系(即為常數)”;(ⅱ)根據(ⅰ)的判斷結果及表中數據,建立關于的回歸方程(系數保留2位小數).附:對于一組數據,其回歸直線方程的斜率和截距的最小二乘估計分別為.【解析】(1)作出散點圖如圖所示.由散點圖看出樣本點分布在一條指數型曲線的周圍,故選擇為回歸方程較宜.(2)(i)由已知:令,則,則,,即.所以繁殖個數的對數關于天數具有線性關系.(ii)由(i)知繁殖個數的對數關于天數可以用線性回歸方程來擬合.由表中數據可得,,,得到關于的線性回歸方程為,又,因此細菌的繁殖個數關于天數的非線性回歸方程為.變式15.(2024·重慶沙坪壩·高三重慶八中校考階段練習)在正常生產條件下,根據經驗,可以認為化肥的有效利用率近似服從正態分布,而化肥施肥量因農作物的種類不同每畝也存在差異.(1)假設生產條件正常,記表示化肥的有效利用率,求;(2)課題組為研究每畝化肥施用量與某農作物畝產量之間的關系,收集了10組數據,并對這些數據作了初步處理,得到了如圖所示的散點圖及一些統計量的值.其中每畝化肥施用量為(單位:公斤),糧食畝產量為(單位:百公斤) 參考數據:650 91.5 52.5 1478.6 30.5 15 15 46.5,,2,,.(i)根據散點圖判斷,與,哪一個適宜作為該農作物畝產量關于每畝化肥施用量的回歸方程(給出判斷即可,不必說明理由);(ii)根據(i)的判斷結果及表中數據,建立關于的回歸方程;并預測每畝化肥施用量為27公斤時,糧食畝產量的值.附:①對于一組數據,2,3,,,其回歸直線的斜率和截距的最小二乘估計分別為,;②若隨機變量,則,.【解析】(1)由,根據正態分布曲線的對稱性,可得.(2)(i)由散點圖可知與的關系不是線性關系,所以適宜作為糧食畝產量關于每畝化肥施用量的回歸方程;(ii)因為,所以,令,則,由表可得,所以,所以,所以,所以,當時,(百公斤)變式16.(2024·重慶·高三校聯考開學考試)某公司為了解年研發資金投入量x(單位:億元)對年銷售額y(單位:億元)的影響.對公司近12年的年研發資金投入量xi和年銷售額yi的數據,進行了對比分析,建立了兩個模型:①,②,其中α,β,λ,t均為常數,e為自然對數的底數,并得到一些統計量的值.令,經計算得如下數據:20 66 77 2 460 4.2031250 215 3.08 14(1)請從相關系數的角度,分析哪一個模型擬合程度更好 (2)(ⅰ)根據分析及表中數據,建立y關于x的回歸方程;(ⅱ)若下一年銷售額y需達到90億元,預測下一年的研發資金投入量x是多少億元 附:①相關系數,回歸直中公式分別為;②參考數據:.【解析】(1)設模型①和②的相關系數分別為r1,r2.由題意可得:,,所以,由相關系數的相關性質可得,模型②的擬合程度更好.(2)(ⅰ)由(1)知,選擇模型②.先建立v關于x的線性回歸方程,因為,可得,即,可得,所以v關于x的線性回歸方程為,即;(ⅱ)下一年銷售額需達到90億元,即,代入,得,因為,則,所以,故預測下一年的研發資金投入量約是21.67億元.變式17.(2024·江蘇鎮江·江蘇省鎮江中學校考三模)經觀測,長江中某魚類的產卵數與溫度有關,現將收集到的溫度和產卵數的10組觀測數據作了初步處理,得到如圖的散點圖及一些統計量表.360表中 (1)根據散點圖判斷,與哪一個適宜作為與之間的回歸方程模型并求出關于回歸方程;(給出判斷即可,不必說明理由)(2)某興趣小組抽取兩批魚卵,已知第一批中共有6個魚卵,其中“死卵”有2個;第二批中共有8個魚卵,其中“死卵”有3個.現隨機挑選一批,然后從該批次中隨機取出2個魚卵,求取出“死卵”個數的分布列及數學期望.附:對于一組數據,其回歸直線的斜率和截距的最小二乘估計分別為.【解析】(1)根據散點圖判斷,看出樣本點分布在一條指數函數的周圍,所以適宜作為與之間的回歸方程模型;令,則,,關于的回歸方程為.(2)由題意,設隨機挑選一批,取出兩個魚卵,其中“死卵”個數為,則的取值為,設“所取兩個魚卵來自第批”,所以,設“所取兩個魚卵有個”“死卵”,由全概率公式,,,所以取出“死卵”個數的分布列為:0 1 2.所以取出“死卵”個數的數學期望.變式18.(2024·廣西南寧·南寧三中校考一模)數據顯示中國車載音樂已步入快速發展期,隨著車載音樂的商業化模式進一步完善,市場將持續擴大,下表為2018-2022年中國車載音樂市場規模(單位:十億元),其中年份2018—2022對應的代碼分別為1-5.年份代碼 1 2 3 4 5車載音樂市場規模 2.8 3.9 7.3 12.0 17.0(1)由上表數據知,可用指數函數模型擬合與的關系,請建立關于的回歸方程;(2)根據上述數據求得關于的回歸方程后,預測2024年的中國車載音樂市場規模.參考數據:1.94 33.82 1.7 1.6 26.84其中,.參考公式:對于一組數據,,,其回歸直線的斜率和截距的最小二乘法估計公式分別為,.【解析】(1)因為,所以兩邊同時取自然對數,得,設,所以,設,,則,因為,,所以,,所以,,所以,,所以(2)把2024年代碼代入方程,得(十億元)故預測2024年的中國車載音樂市場規模45.628(十億元)變式19.(2024·安徽合肥·合肥市第八中學校考模擬預測)當前移動網絡已融入社會生活的方方面面,深刻改變了人們的溝通 交流乃至整個生活方式.4G網絡雖然解決了人與人隨時隨地通信的問題,但隨著移動互聯網快速發展,其已難以滿足未來移動數據流量暴漲的需求,而5G作為一種新型移動通信網絡,不但可以解決人與人的通信問題,而且還可以為用戶提供增強現實 虛擬現實 超高清(3D)視頻等更加身臨其境的極致業務體驗,更重要的是還可以解決人與物 物與物的通信問題,從而滿足移動醫療 車聯網 智能家居 工業控制 環境監測等物聯網應用需求,為更好的滿足消費者對5G網絡的需求,中國電信在某地區推出了六款不同價位的流量套餐,每款套餐的月資費x(單位:元)與購買人數y(單位:萬人)的數據如下表:套餐 A B C D E F月資費x(元) 38 48 58 68 78 88購買人數y(萬人) 16.8 18.8 20.7 22.4 24.0 25.5對數據作初步的處理,相關統計量的值如下表:75.3 24.6 18.3 101.4其中,且繪圖發現,散點集中在一條直線附近.(1)根據所給數據,求出關于的回歸方程;(2)已知流量套餐受關注度通過指標來測定,當時相應的流量套餐受大眾的歡迎程度更高,被指定為“主打套餐”.現有一家四口從這六款套餐中,購買不同的四款各自使用.記四人中使用“主打套督”的人數為,求隨機變量的分布列和期望.附:對于一組數據,其回歸方程的斜率和截距的最小二乘估計值分別為.【解析】(1)因為散點集中在一條直線附近,設回歸方程為,由,則,,故變量關于的回歸方程為.又,故,綜上,關于的回歸方程為;(2)由,解得,而,所以即為“主打套餐”.則四人中使用“主打套餐”的人數服從超幾何分布,又:一共只有6種套餐,一家4口選擇不同的套餐,所以X的取值只能是,且,分布列為2 3 4期望.【解題方法總結】換元法變成一元線性回歸模型題型四:列聯表與獨立性檢驗例10.(2024·廣東佛山·華南師大附中南海實驗高中校考模擬預測)四川省將從2022年秋季入學的高一年級學生開始實行高考綜合改革,高考采用“3+1+2”模式,其中“1”為首選科目,即物理與歷史二選一.某校為了解學生的首選意愿,對部分高一學生進行了抽樣調查,制作出如下兩個等高條形圖,根據條形圖信息,下列結論正確的是( )A.樣本中選擇物理意愿的男生人數少于選擇歷史意愿的女生人數B.樣本中女生選擇歷史意愿的人數多于男生選擇歷史意愿的人數C.樣本中選擇物理學科的人數較多D.樣本中男生人數少于女生人數【答案】C【解析】根據等高條形圖圖1可知樣本中選擇物理學科的人數較多,故C正確;根據等高條形圖圖2可知樣本中男生人數多于女生人數,故D錯誤;樣本中選擇物理學科的人數多于選擇歷史意愿的人數,而選擇物理意愿的男生比例高,選擇歷史意愿的女生比例低,所以樣本中選擇物理意愿的男生人數多于選擇歷史意愿的女生人數,故A錯誤;樣本中女生選擇歷史意愿的人數不一定多于男生選擇歷史意愿的人數,故B錯誤.故選:C.例11.(2024·全國·高三專題練習)在新高考改革中,浙江省新高考實行的是7選3的模式,即語數外三門為必考科目,然后從物理、化學、生物、政治、歷史、地理、技術(含信息技術和通用技術)7門課中選考3門.某校高二學生選課情況如下列聯表一和列聯表二(單位:人)選物理 不選物理 總計男生 340 110 450女生 140 210 350總計 480 320 800表一選生物 不選生物 總計男生 150 300 450女生 150 200 350總計 300 500 800表二試根據小概率值的獨立性檢驗,分析物理和生物選課與性別是否有關( )附:A.選物理與性別有關,選生物與性別有關B.選物理與性別無關,選生物與性別有關C.選物理與性別有關,選生物與性別無關D.選物理與性別無關,選生物與性別無關【答案】C【解析】由題意,先分析物理課是否與性別有關:根據表格數據,結合題干表格數據,,因此,有充分證據推斷選擇物理學科與性別有關再分析生物課是否與性別有關:根據表格數據,結合題干表格數據,,因此,沒有充分證據推斷選擇生物學科與性別有關故選:C例12.(2024·全國·高三專題練習)通過隨機詢問相同數量的不同性別大學生在購買食物時是否看營養說明,得知有的男大學生“不看”,有的女大學生“不看”,若有99%的把握認為性別與是否看營養說明之間有關,則調查的總人數可能為( )A.150 B.170 C.240 D.175【答案】C【解析】設男女大學生各有m人,根據題意畫出2×2列聯表,如下圖:看 不看 合計男 m女 m合計 2m所以,因為有99%的把握認為性別與對產品是否滿意有關,所以,解得,所以總人數2m可能為240.故選:C.變式20.(2024·全國·高三專題練習)針對時下的“短視頻熱”,某高校團委對學生性別和喜歡短視頻是否有關聯進行了一次調查,其中被調查的男生 女生人數均為人,男生中喜歡短視頻的人數占男生人數的,女生中喜歡短視頻的人數占女生人數的.零假設為:喜歡短視頻和性別相互獨立.若依據的獨立性檢驗認為喜歡短視頻和性別不獨立,則的最小值為( )附:,附表:0.05 0.013.841 6.635A.7 B.8 C.9 D.10【答案】C【解析】根據題意,不妨設,于是,由于依據的獨立性檢驗認為喜歡短視頻和性別不獨立,根據表格可知,解得,于是最小值為.故選:C變式21.(2024·全國·高三專題練習)在一次聯考后,某校對甲、乙兩個文科班的數學考試成績進行分析,規定:大于或等于120分為優秀,120分以下為非優秀,統計成績后,得到如下2×2列聯表:優秀 非優秀 合計甲班人數 50乙班人數 20合計 30 110附:,其中.根據獨立性檢驗,可以認為數學考試成績與班級有關系的把握為( )A. B. C. D.【答案】D【解析】 優秀 非優秀 合計甲班人數 50乙班人數 20合計 30 110由題表中的數據可得: ,因為,所以可以認為數學考試成績與班級有失系的把握為.故選:D變式22.(2024·全國·高三專題練習)2020年2月,全國掀起了“停課不停學”的熱潮,各地教師通過網絡直播 微課推送等多種方式來指導學生線上學習.為了調查學生對網絡課程的熱愛程度,研究人員隨機調查了相同數量的男 女學生,發現有80%的男生喜歡網絡課程,有40%的女生不喜歡網絡課程,且有99%的把握但沒有99.9%的把握認為是否喜歡網絡課程與性別有關,則被調查的男 女學生總數量可能為( )附:,其中.0.1 0.05 0.01 0.0012.706 3.841 6.635 10.828A.130 B.190 C.240 D.250【答案】B【解析】依題意,設男、女學生的人數都為,則男、女學生的總人數為,建立列聯表如下,喜歡網絡課程 不喜歡網絡課程 總計男生女生總計故,由題意可得,所以,結合選項可知,只有B符合題意.故選:B.變式23.(2024·全國·高三專題練習)觀察下列各圖,其中兩個分類變量x,y之間關系最強的是( )A. B.C. D.【答案】D【解析】觀察等高條形圖發現與相差很大,就判斷兩個分類變量之量關系最強.故選:D變式24.(2024·重慶沙坪壩·高三重慶八中校考開學考試)2022年卡塔爾世界杯決賽圈共有32支球隊參加,歐洲球隊有13支:其中有5支歐洲球隊闖入8強.比賽進入淘汰賽階段后,必須要分出勝負.淘汰賽規則如下:在比賽常規時間90分鐘內分出勝負;比賽結束,若比分相同.則進入30分鐘的加時賽.在加時賽分出勝負,比賽結束,若加時賽比分依然相同,就要通過點球大戰來分出最后的勝負.點球大戰分為2個階段,第一階段:共5輪,雙方每輪各派1名球員,依次踢點球,以5輪的總進球數作為標準,5輪合計踢進點球數更多的球隊獲得比賽的勝利.如果第一階段的5輪還是平局,則進入第二階段:在該階段雙方每輪各派1名球員,依次踢點球,如果在一輪里,雙方都進球或者雙方都不進球,則繼續下一輪,直到某一輪里,一方罰進點球,另一方沒罰進,比賽結束,罰進點球的一方獲得最終的勝利.(1)根據題意填寫下面的列聯表,并根據小概率值的獨立性檢驗,判斷32支決賽圈球隊“闖入8強”與“是歐洲球隊”是否有關.歐洲球隊 其他球隊 合計闖入強未闖入強合計(2)甲、乙兩隊在淘汰賽相遇,經過120分鐘比賽未分出勝負,雙方進入點球大戰.已知甲隊球員每輪踢進點球的概率為,乙隊球員每輪踢進點球的概率為,每輪每隊是否進球相互獨立,在點球大戰中,兩隊前3輪比分為,試求出甲隊在第二階段第一輪結束后獲得最終勝利的概率.參考公式:.【解析】(1)下面為列聯表:歐洲球隊 其他球隊 合計進入強未進入強合計零假設支決賽圈球隊闖入8強與是否為歐洲球隊無關,,根據小概率值的獨立性檢驗,沒有充分證據推斷不成立,因此可以認為成立,即認為“闖入8強”與“是歐洲球隊”無關.(2)記“雙方進入第二階段比賽”為事件,“第二階段第一輪甲隊進球乙隊未進球”為事件,則“甲隊在第二階段第一輪結束后獲得最終勝利”為事件,有,要進入第二階段比賽,即第一階段五輪為平局,比分可能為,則,,故.變式25.(2024·廣東東莞·高三校聯考階段練習)在“雙減”政策背景之下,某校就推進學校、家庭、社會體育教育的“一體化”,實現“教會、勤練、常賽”的核心任務.學校組織人員對在校學生“是否喜愛運動”做了一次隨機調查.共隨機調查了18名男生和12名女生,調查發現,男、女生中分別有12人和6人喜愛運動,其余不喜愛.喜歡運動 不喜歡運動 總計男女總計(1)根據以上數據完成以下列聯表:0.40 0.25 0.10 0.0100.708 1.323 2.706 6.635根據小概率值的獨立性檢驗,能否據此推斷性別與喜愛運動有關?(2)從被調查的女生中抽取3人,若其中喜愛運動的人數為,求的分布列及數學期望.附參考公式及參考數據:,其中.【解析】(1)由已知數據完成列聯表如圖,喜愛運動 不喜愛運動 總計男 12 6 18女 6 6 12總計 18 12 30假設是否喜愛運動與性別無關,由已知數據可求得:, 因此,沒有充分的把握判斷喜愛運動與性別有關.(2)喜愛運動的人數為的取值分別為:0,1,2,3, 則有:;;;. 所以喜愛運動的人數為的分布列為:0 1 2 3故數學期望.變式26.(2024·遼寧·高三校聯考開學考試)第31屆世界大學生夏季運動會,是中國西部第一次舉辦世界性綜合運動會,共設籃球、排球、田徑、游泳等18個大項、269個小項.該屆賽事約有來自170個國家和地區的1萬余名運動員及官員赴蓉參加,該屆賽事于2024年7月28日至8月8日在中國四川省成都市舉行.為了了解關注該賽事是否與性別有關,某體育臺隨機抽取2000名觀眾進行統計,得到如下2×2列聯表.男 女 合計關注該賽事 600 300 900不關注該賽事 400 700 1100合計 1000 1000 2000(1)在所有女觀眾中,試估計她們關注該賽事的概率(結果用百分數表示);(2)根據小概率值的獨立性檢驗,能否認為是否關注該賽事與性別有關聯 附:,其中.0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828【解析】(1)女觀眾關注該賽事的概率約為:.(2)零假設為:是否關注該賽事與性別無關聯.根據列聯表中的數據,經計算得到,根據小概率值的獨立性檢驗,推斷不成立,即認為是否關注該賽事與性別有關聯.變式27.(2024·安徽滁州·校考二模)為了研究學生每天整理數學錯題情況,某課題組在某市中學生中隨機抽取了100名學生調查了他們期中考試的數學成績和平時整理數學錯題情況,并繪制了下列兩個統計圖表,圖1為學生期中考試數學成績的頻率分布直方圖,圖2為學生一個星期內整理數學錯題天數的扇形圖.若本次數學成績在110分及以上視為優秀,將一個星期有4天及以上整理數學錯題視為“經常整理”,少于4天視為“不經常整理”.已知數學成績優秀的學生中,經常整理錯題的學生占.數學成績優秀 數學成績不優秀 合計經常整理不經常整理合計(1)求圖1中的值以及學生期中考試數學成績的上四分位數;(2)根據圖1、圖2中的數據,補全上方列聯表,并根據小概率值的獨立性檢驗,分析數學成績優秀與經常整理數學錯題是否有關 (3)用頻率估計概率,在全市中學生中按“經常整理錯題”與“不經常整理錯題”進行分層抽樣,隨機抽取5名學生,再從這5名學生中隨機抽取2人進行座談.求這2名同學中經常整理錯題且數學成績優秀的人數X的分布列和數學期望.附:【解析】(1)由題意可得,解得,學生期中考試數學成績的上四分位數為:分;(2)數學成績優秀的有人,不優秀的人人,經常整理錯題的有人,不經常整理錯題的是人,經常整理錯題且成績優秀的有人,則數學成績優秀 數學成績不優秀 合計經常整理 35 25 60不經常整理 15 25 40合計 50 50 100零假設為:數學成績優秀與經常整理數學錯題無關,根據列聯表中的數據,經計算得到可得,根據小概率值的獨立性檢驗,我們推斷不成立,即認為數學成績優秀與經常整理數學錯題有關聯,此推斷犯錯誤的概率不大于;(3)由分層抽樣知,隨機抽取的5名學生中經常整理錯題的有3人,不經常整理錯題的有2人,則可能取為0,1,2,經常整理錯題的3名學生中,恰抽到k人記為事件,則參與座談的2名學生中經常整理錯題且數學成績優秀的恰好抽到人記為事件則,,,,,,,,,故X的分布列如下:X 0 1 2P則可得X的數學期望為變式28.(2024·全國·高三專題練習)2022年11月20日,卡塔爾足球世界杯正式開幕,世界杯上的中國元素隨處可見.從體育場建設到電力保障,從賽場內的裁判到賽場外的吉祥物都是中國制造,為卡塔爾世界杯提供了強有力的支持.國內也再次掀起足球熱潮.某地足球協會組建球隊參加業余比賽,該足球隊教練組為了考查球員甲對球隊的貢獻,作出如下數據統計(甲參加過的比賽均分出了輸贏):球隊輸球 球隊贏球 總計甲參加 2 30 32甲未參加 8 10 18總計 10 40 50(1)根據小概率值的獨立性檢驗,能否認為該球隊贏球與甲球員參賽有關聯;(2)從該球隊中任選一人,A表示事件“選中的球員參賽”,B表示事件“球隊輸球”.與的比值是選中的球員參賽對球隊貢獻程度的一項度量指標,記該指標為R.①證明:;②利用球員甲數據統計,給出,的估計值,并求出R的估計值.附:.參考數據:a 0.05 0.01 0.005 0.0013.841 6.635 7.879 10.828【解析】(1)零假設為:該球隊勝利與甲球員參賽無關.,因為,所以依據的獨立性檢驗,我們推斷不成立,所以認為該球隊勝利與甲球員參賽有關,此推斷犯錯誤的概率不大于0.005.(2)①證明:②,,.【解題方法總結】獨立性檢驗的一般步驟(1)根據樣本數據制成2×2列聯表.(2)根據公式計算.(3)比較與臨界值的大小關系,作統計推斷.題型五:誤差分析例13.(2024·河北衡水·河北衡水中學校考一模)某新能源汽車生產公司,為了研究某生產環節中兩個變量之間的相關關系,統計樣本數據得到如下表格:由表格中的數據可以得到與的經驗回歸方程為,據此計算,下列選項中殘差的絕對值最小的樣本數據是( )A. B.C. D.【答案】C【解析】由表格數據知:,,,經驗回歸方程為;對于A,殘差的絕對值為;對于B,殘差的絕對值為;對于C,殘差的絕對值為;對于D,殘差的絕對值為;殘差絕對值最小的樣本數據是.故選:C.例14.(2024·云南保山·高三統考期末)新冠肺炎疫情發生以來,中醫藥全面參與疫情防控救治,做出了重要貢獻.某中醫藥企業根據市場調研與模擬,得到研發投入(億元)與產品收益(億元)的數據統計如下表:研發投入(億元) 1 2 3 4 5產品收益(億元) 3 7 9 10 11用最小二乘法求得關于的經驗回歸直線方程是,相關系數(若,則線性相關程度一般,若,則線性相關程度較高),下列說法不正確的有( )A.變量與正相關且相關性較強B.C.當時,的估計值為40.3D.相應于點的殘差為0.8【答案】D【解析】對于A,由相關系數可知變量與正相關且相關性較強,故A正確;對于B,由表中數據可得,所以,解得,故B正確;對于C,關于的線性回歸方程為,將代入線性回歸方程可得,,故C正確;對于D,相應于點的殘差為,故錯誤.故選:D.例15.(2024·山東青島·高三山東省青島第五十八中學校考開學考試)已知一組樣本數據,,,,根據這組數據的散點圖分析與之間的線性相關關系,若求得其線性回歸方程為,則在樣本點處的殘差為( )A.38.1 B.22.6 C. D.91.1【答案】C【解析】因為觀測值減去預測值稱為殘差,所以當時,,所以殘差為.故選:C.變式29.(2024·陜西咸陽·統考模擬預測)年初,新型冠狀病毒()引起的肺炎疫情爆發以來,各地醫療機構采取了各種針對性的治療方法,取得了不錯的成效,某醫療機構開始使用中西醫結合方法后,每周治愈的患者人數如下表所示:第周治愈人數(單位:十人)由上表可得關于的線性回歸方程為,若第6周實際治愈人數為18人,則此回歸模型第6周的殘差(實際值減去預報值)為( )A. B. C. D.【答案】A【解析】由表可知,,,由于回歸直線過樣本的中心點,則,解得,所以回歸直線方程為,當代入回歸直線方程可得,所以第6周的殘差為,故選:A.變式30.(2024·云南昆明·高三昆明一中校考階段練習)小王經營了一家小型餐館,自去年疫情管控宣布結束后的第1天開始,經營狀況逐步有了好轉,該店第一周的營業收入數據(單位:百元)統計如下:天數序號x 1 2 3 4 5 6 7營業收入y 11 13 18 ※ 28 ※ 35其中第4天和第6天的數據由于某種原因造成模糊,但知道7天的營業收入平均值是23,已知營業收入y與天數序號x可以用經驗回歸直線方程擬合,且第7天的殘差是,則的值是( )A.10.4 B.6.2 C.4.2 D.2【答案】A【解析】由殘差得,即,所以①,又,,因為回歸直線經過中心點,所以②,聯立①②解得,,所以,故選:A.變式31.(2024·全國·高三專題練習)已知建筑地基沉降預測對于保證施工安全,實現信息化監控有著重要意義.某工程師建立了四個函數模型來模擬建筑地基沉降隨時間的變化趨勢,并用相關指數、誤差平方和、均方根值三個指標來衡量擬合效果.相關指數越接近1表明模型的擬合效果越好,誤差平方和越小表明誤差越小,均方根值越小越好.依此判斷下面指標對應的模型擬合效果最好的是( ).A.相關指數 誤差平方和 均方根值0.949 5.491 0.499B.相關指數 誤差平方和 均方根值0.933 4.179 0.436C.相關指數 誤差平方和 均方根值0.997 1.701 0.141D.相關指數 誤差平方和 均方根值0.997 2.899 0.326【答案】C【解析】相關指數越接近于1,擬合效果越好,比較相關指數知,可選C,D,誤差平方和及均方根值都越小,擬合效果越好,觀察誤差平方和和均方根值,知C的擬合效果最好.故選:C.變式32.(多選題)(2024·湖北·荊門市龍泉中學校聯考模擬預測)某學校一同學研究溫差與本校當天新增感冒人數(人)的關系,該同學記錄了5天的數據:x 5 6 8 9 12y 17 20 25 28 35經過擬合,發現基本符合經驗回歸方程,則( )A.樣本中心點為 B.C.,殘差為 D.若去掉樣本點,則樣本的相關系數r增大【答案】ABC【解析】對于A項,因為,,所以樣本中心點為,故A項正確;對于B項,由回歸直線必過樣本中心可得:解得:,故B項正確;對于C項,由B項知,,令,則,所以殘差為,故C項正確;對于D項,由相關系數公式可知,去掉樣本點后,x與y的樣本相關系數r不變,故D項錯誤.故選:ABC.本資料陳飛老師主編,可聯系微信:renbenjiaoyu2 ,加入陳老師高中數學永久QQ資料群下載(群內99%以上資料為純word解析版),群內資料每周持續更新!高一資料群內容:1、高一上學期同步講義(word+PDF)2、高一下學期同步講義(word+PDF)3、寒暑假預習講義(word+PDF)4、專題分類匯編(純word解析版)5、全國名校期中期末考試卷(純word解析版)6、期中期末考試串講(word+PDF)…………………………………………更多內容不斷完善高二資料群內容:1、高二上學期同步講義(word+PDF)2、高二下學期同步講義(word+PDF)3、寒暑假預習講義(word+PDF)4、專題分類匯編(純word解析版)5、全國名校期中期末考試卷(純word解析版)6、期中期末考試串講(word+PDF)…………………………………………更多內容不斷完善高三資料群內容:1、高三大一輪復習講義(word+PDF)2、高三二輪沖刺講義(word+PDF)3、高三三輪押題(純word解析版)4、高考真題分類匯編(純word解析版)5、專題分類匯編(純word解析版)6、圓錐曲線專題(word+PDF)7、導數專題(word+PDF)8、全國名校期中期末一模二模(純word解析版)…………………………………………更多內容不斷完善21世紀教育網(www.21cnjy.com) 展開更多...... 收起↑ 資源列表 2025年高考數學核心考點歸納第84講、成對數據的統計分析(學生版).docx 2025年高考數學核心考點歸納第84講、成對數據的統計分析(教師版).docx 縮略圖、資源來源于二一教育資源庫