資源簡介 專題57 成對數據的統計分析(新高考專用)【知識梳理】 2【真題自測】 4【考點突破】 9【考點1】成對數據的相關性 9【考點2】回歸分析 11【考點3】獨立性檢驗 14【分層檢測】 18【基礎篇】 18【能力篇】 22考試要求:1.了解樣本相關系數的統計含義.2.了解一元線性回歸模型和2×2列聯表,會運用這些方法解決簡單的實際問題.3.會利用統計軟件進行數據分析.1.變量的相關關系(1)相關關系兩個變量有關系,但又沒有確切到可由其中的一個去精確地決定另一個的程度,這種關系稱為相關關系.(2)相關關系的分類:正相關和負相關.(3)線性相關一般地,如果兩個變量的取值呈現正相關或負相關,而且散點落在一條直線附近,我們就稱這兩個變量線性相關.一般地,如果兩個變量具有相關性,但不是線性相關,那么我們就稱這兩個變量非線性相關或曲線相關.2.樣本相關系數(1)相關系數r的計算變量x和變量y的樣本相關系數r的計算公式如下:(2)相關系數r的性質①當r>0時,稱成對樣本數據正相關;當r<0時,成對樣本數據負相關;當r=0時,成對樣本數據間沒有線性相關關系.②樣本相關系數r的取值范圍為[-1,1].當|r|越接近1時,成對樣本數據的線性相關程度越強;當|r|越接近0時,成對樣本數據的線性相關程度越弱.3.一元線性回歸模型(1)經驗回歸方程與最小二乘法我們將=x+稱為Y關于x的經驗回歸方程,也稱經驗回歸函數或經驗回歸公式,其圖形稱為經驗回歸直線.這種求經驗回歸方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估計,其中(2)利用決定系數R2刻畫回歸效果,R2越大,即擬合效果越好,R2越小,模型擬合效果越差.4.列聯表與獨立性檢驗(1)2×2列聯表一般地,假設有兩個分類變量X和Y,它們的取值分別為{x1,x2}和{y1,y2},其2×2列聯表為x y 合計y=y1 y=y2x=x1 a b a+bx=x2 c d c+d合計 a+c b+d n=a+b+c+d(2)臨界值χ2=.忽略χ2的實際分布與該近似分布的誤差后,對于任何小概率值α,可以找到相應的正實數xα,使得P(χ2≥xα)=α成立.我們稱xα為α的臨界值,這個臨界值就可作為判斷χ2大小的標準.(3)獨立性檢驗基于小概率值α的檢驗規則是:當χ2≥xα時,我們就推斷H0不成立,即認為X和Y不獨立,該推斷犯錯誤的概率不超過α;當χ2<xα時,我們沒有充分證據推斷H0不成立 ,可以認為X和Y獨立.這種利用χ2的取值推斷分類變量X和Y是否獨立的方法稱為χ2獨立性檢驗,讀作“卡方獨立性檢驗”,簡稱獨立性檢驗.下表給出了χ2獨立性檢驗中幾個常用的小概率值和相應的臨界值α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.8281.求解經驗回歸方程的關鍵是確定回歸系數,,應充分利用回歸直線過樣本點的中心(,).2.根據經驗回歸方程計算的值,僅是一個預報值,不是真實發生的值.3.根據χ2的值可以判斷兩個分類變量有關的可信程度,若χ2越大,則兩分類變量有關的把握越大.一、單選題1.(2024·全國·高考真題)某農業研究部門在面積相等的100塊稻田上種植一種新型水稻,得到各塊稻田的畝產量(單位:kg)并整理如下表畝產量 [900,950) [950,1000) [1000,1050) [1050,1100) [1100,1150) [1150,1200)頻數 6 12 18 30 24 10根據表中數據,下列結論中正確的是( )A.100塊稻田畝產量的中位數小于1050kgB.100塊稻田中畝產量低于1100kg的稻田所占比例超過80%C.100塊稻田畝產量的極差介于200kg至300kg之間D.100塊稻田畝產量的平均值介于900kg至1000kg之間2.(2023·全國·高考真題)某學校為了解學生參加體育運動的情況,用比例分配的分層隨機抽樣方法作抽樣調查,擬從初中部和高中部兩層共抽取60名學生,已知該校初中部和高中部分別有400名和200名學生,則不同的抽樣結果共有( ).A.種 B.種C.種 D.種二、多選題3.(2023·全國·高考真題)有一組樣本數據,其中是最小值,是最大值,則( )A.的平均數等于的平均數B.的中位數等于的中位數C.的標準差不小于的標準差D.的極差不大于的極差三、解答題4.(2024·全國·高考真題)某工廠進行生產線智能化升級改造,升級改造后,從該工廠甲、乙兩個車間的產品中隨機抽取150件進行檢驗,數據如下:優級品 合格品 不合格品 總計甲車間 26 24 0 50乙車間 70 28 2 100總計 96 52 2 150(1)填寫如下列聯表:優級品 非優級品甲車間乙車間能否有的把握認為甲、乙兩車間產品的優級品率存在差異?能否有的把握認為甲,乙兩車間產品的優級品率存在差異?(2)已知升級改造前該工廠產品的優級品率,設為升級改造后抽取的n件產品的優級品率.如果,則認為該工廠產品的優級品率提高了,根據抽取的150件產品的數據,能否認為生產線智能化升級改造后,該工廠產品的優級品率提高了?()附:0.050 0.010 0.001k 3.841 6.635 10.8285.(2023·全國·高考真題)一項試驗旨在研究臭氧效應,試驗方案如下:選40只小白鼠,隨機地將其中20只分配到試驗組,另外20只分配到對照組,試驗組的小白鼠飼養在高濃度臭氧環境,對照組的小白鼠飼養在正常環境,一段時間后統計每只小白鼠體重的增加量(單位:g).試驗結果如下:對照組的小白鼠體重的增加量從小到大排序為15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.132.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2試驗組的小白鼠體重的增加量從小到大排序為7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.219.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5(1)計算試驗組的樣本平均數;(2)(ⅰ)求40只小白鼠體重的增加量的中位數m,再分別統計兩樣本中小于m與不小于m的數據的個數,完成如下列聯表對照組試驗組(ⅱ)根據(i)中的列聯表,能否有95%的把握認為小白鼠在高濃度臭氧環境中與在正常環境中體重的增加量有差異?附:,0.100 0.050 0.0102.706 3.841 6.6356.(2023·全國·高考真題)一項試驗旨在研究臭氧效應.實驗方案如下:選40只小白鼠,隨機地將其中20只分配到實驗組,另外20只分配到對照組,實驗組的小白鼠飼養在高濃度臭氧環境,對照組的小白鼠飼養在正常環境,一段時間后統計每只小白鼠體重的增加量(單位:g).(1)設表示指定的兩只小白鼠中分配到對照組的只數,求的分布列和數學期望;(2)實驗結果如下:對照組的小白鼠體重的增加量從小到大排序為:15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.132.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2實驗組的小白鼠體重的增加量從小到大排序為:7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.219.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5(i)求40只小鼠體重的增加量的中位數m,再分別統計兩樣本中小于m與不小于的數據的個數,完成如下列聯表:對照組實驗組(ii)根據(i)中的列聯表,能否有95%的把握認為小白鼠在高濃度臭氧環境中與正常環境中體重的增加量有差異.附:0.100 0.050 0.0102.706 3.841 6.6357.(2023·全國·高考真題)某廠為比較甲乙兩種工藝對橡膠產品伸縮率的處理效應,進行10次配對試驗,每次配對試驗選用材質相同的兩個橡膠產品,隨機地選其中一個用甲工藝處理,另一個用乙工藝處理,測量處理后的橡膠產品的伸縮率.甲、乙兩種工藝處理后的橡膠產品的伸縮率分別記為,.試驗結果如下:試驗序號 1 2 3 4 5 6 7 8 9 10伸縮率 545 533 551 522 575 544 541 568 596 548伸縮率 536 527 543 530 560 533 522 550 576 536記,記的樣本平均數為,樣本方差為.(1)求,;(2)判斷甲工藝處理后的橡膠產品的伸縮率較乙工藝處理后的橡膠產品的伸縮率是否有顯著提高(如果,則認為甲工藝處理后的橡膠產品的伸縮率較乙工藝處理后的橡膠產品的伸縮率有顯著提高,否則不認為有顯著提高)8.(2023·全國·高考真題)某研究小組經過研究發現某種疾病的患病者與未患病者的某項醫學指標有明顯差異,經過大量調查,得到如下的患病者和未患病者該指標的頻率分布直方圖: 利用該指標制定一個檢測標準,需要確定臨界值c,將該指標大于c的人判定為陽性,小于或等于c的人判定為陰性.此檢測標準的漏診率是將患病者判定為陰性的概率,記為;誤診率是將未患病者判定為陽性的概率,記為.假設數據在組內均勻分布,以事件發生的頻率作為相應事件發生的概率.(1)當漏診率%時,求臨界值c和誤診率;(2)設函數,當時,求的解析式,并求在區間的最小值.【考點1】成對數據的相關性一、單選題1.(2024·四川成都·二模)對變量有觀測數據,得散點圖1;對變量有觀測數據,得散點圖2.表示變量之間的線性相關系數,表示變量之間的線性相關系數,則下列說法正確的是( )A.變量與呈現正相關,且 B.變量與呈現負相關,且C.變量與呈現正相關,且 D.變量與呈現負相關,且2.(2024·四川涼山·三模)調查某校高三學生的身高和體重得到如圖所示散點圖,其中身高和體重相關系數,則下列說法正確的是( )A.學生身高和體重沒有相關性B.學生身高和體重呈正相關C.學生身高和體重呈負相關D.若從樣本中抽取一部分,則這部分的相關系數一定是二、多選題3.(22-23高三上·江蘇無錫·期末)已知由樣本數據組成的一個樣本,得到經驗回歸方程為,且,去除兩個樣本點和后,得到新的經驗回歸方程為.在余下的8個樣本數據和新的經驗回歸方程中( ).A.相關變量x,y具有正相關關系B.新的經驗回歸方程為C.隨著自變量x值增加,因變量y值增加速度變小D.樣本的殘差為4.(2024·湖南衡陽·模擬預測)為了研發某種流感疫苗,某研究團隊收集了10組抗體藥物的攝入量與體內抗體數量的數據,并對這些數據作了初步處理,得到了如圖所示的散點圖及一些統計量的值,抗體藥物攝入量為x(單位:mg),體內抗體數量為y(單位:AU/mL).根據散點圖,可以得到回歸直線方程為:.下列說法正確的是( )A.回歸直線方程表示體內抗體數量與抗體藥物攝入量之間的線性相關關系B.回歸直線方程表示體內抗體數量與抗體藥物攝入量之間的函數關系C.回歸直線方程可以精確反映體內抗體數量與抗體藥物攝入量的變化趨勢D.回歸直線方程可以用來預測攝入抗體藥物后體內抗體數量的變化三、填空題5.(23-24高三上·浙江·開學考試)已知成對樣本數據中互不相等,且所有樣本點都在直線上,則這組成對樣本數據的樣本相關系數 .反思提升:判斷相關關系的兩種方法:(1)散點圖法:如果樣本點的分布從整體上看大致在某一曲線附近,變量之間就有相關關系;如果樣本點的分布從整體上看大致在某一直線附近,變量之間就有線性相關關系.(2)決定系數法:利用決定系數判定,R2越趨近1,擬合效果越好,相關性越強.【考點2】回歸分析一、單選題1.(2024·四川綿陽·二模)已知變量x,y之間的線性回歸方程為,且變量x,y之間的一組相關數據如表所示,x 2 4 6 8y 5 8.2 13 m則下列說法正確的是( )A.B.變量y與x是負相關關系C.該回歸直線必過點D.x增加1個單位,y一定增加2個單位2.(2024·全國·模擬預測)2023年第19屆亞運會在杭州舉行,亞運會的吉祥物琮琮、蓮蓮、宸宸深受大家喜愛,某商家統計了最近5個月銷量,如表所示:若y與x線性相關,且線性回歸方程為,則下列說法不正確的是( )時間x 1 2 3 4 5銷售量y/萬只 5 4.5 4 3.5 2.5A.由題中數據可知,變量y與x負相關B.當時,殘差為0.2C.可以預測當時銷量約為2.1萬只D.線性回歸方程中二、多選題3.(23-24高三上·廣東揭陽·期末)2023年入冬以來,流感高發,某醫院統計了一周中連續5天的流感就診人數y與第天的數據如表所示.x 1 2 3 4 5y 21 10a 15a 90 109根據表中數據可知x,y具有較強的線性相關關系,其經驗回歸方程為,則( )A.樣本相關系數在內 B.當時,殘差為-2C.點一定在經驗回歸直線上 D.第6天到該醫院就診人數的預測值為1304.(2024·全國·模擬預測)為了預測某地的經濟增長情況,某經濟學專家根據該地2023年1~6月的GDP的數據y(單位:百億元)建立了線性回歸模型,得到的經驗回歸方程為,其中自變量x指的是1~6月的編號,其中部分數據如表所示:時間 2023年1月 2023年2月 2023年3月 2023年4月 2023年5月 2023年6月編號x 1 2 3 4 5 6y/百億元 11.107參考數據:.則下列說法正確的是( )A.經驗回歸直線經過點B.C.根據該模型,該地2023年12月的GDP的預測值為14.57百億元D.相應于點的殘差為0.103三、填空題5.(2024·江蘇·一模)已知變量的統計數據如下表,對表中數據作分析,發現與之間具有線性相關關系,利用最小二乘法,計算得到經驗回歸直線方程為,據此模型預測當時的值為 .5 6 7 8 93.5 4 5 6 6.56.(2024·陜西渭南·一模)已知一組數據點,用最小二乘法得到其線性回歸方程為,若,則 .四、解答題7.(2024·山東日照·二模)某公司為考核員工,采用某方案對員工進行業務技能測試,并統計分析測試成績以確定員工績效等級.(1)已知該公司甲部門有3名負責人,乙部門有4名負責人,該公司從甲、乙兩部門中隨機選取3名負責人做測試分析,記負責人來自甲部門的人數為,求的最有可能的取值:(2)該公司統計了七個部門測試的平均成績(滿分100分)與績效等級優秀率,如下表所示:32 41 54 68 74 80 920.28 0.34 0.44 0.58 0.66 0.74 0.94根據數據繪制散點圖,初步判斷,選用作為回歸方程.令,經計算得,(ⅰ)已知某部門測試的平均成績為60分,估計其績效等級優秀率;(ⅱ)根據統計分析,大致認為各部門測試平均成績,其中近似為樣本平均數,近似為樣本方差.經計算,求某個部門績效等級優秀率不低于的概率.參考公式與數據:①.②線性回歸方程中,,.③若隨機變量,則,,.8.(22-23高三上·山東青島·期末)由個小正方形構成長方形網格有行和列.每次將一個小球放到一個小正方形內,放滿為止,記為一輪.每次放白球的頻率為,放紅球的概率為q,.(1)若,,記表示100輪放球試驗中“每一列至少一個紅球”的輪數,統計數據如表:n 1 2 3 4 5y 76 56 42 30 26求y關于n的回歸方程,并預測時,y的值;(精確到1)(2)若,,,,記在每列都有白球的條件下,含紅球的行數為隨機變量,求的分布列和數學期望;(3)求事件“不是每一列都至少一個紅球”發生的概率,并證明:.附:經驗回歸方程系數:,,,.反思提升:(1)求經驗回歸方程:利用公式=求;利用=-求,寫出經驗回歸方程.(2)經驗回歸方程的擬合效果,可以利用相關系數|r|判斷,當|r|越趨近于1時,兩變量的線性相關性越強.或利用決定系數R2判斷,R2越大,擬合效果越好.(3)非線性經驗回歸方程轉化為線性經驗回歸方程的方法①若=+ ,設t=,則=+t;②若滿足對數式:=+ln x,設t=ln x,則=+t;③若滿足指數式:y=c1ec2x,兩邊取對數解ln y=ln c1+c2x,設z=ln y,a=ln c1,b=c2,則z=a+bx.【考點3】獨立性檢驗一、單選題1.(2024·黑龍江哈爾濱·二模)針對2025年第九屆亞冬會在哈爾濱舉辦,校團委對“是否喜歡冰雪運動與學生性別的關系”進行了一次調查,其中被調查的男、女生人數相同,男生中喜歡冰雪運動的人數占男生人數的,女生中喜歡冰雪運動的人數占女生人數的,若依據的獨立性檢驗,認為是否喜歡冰雪運動與學生性別有關,則被調查的學生中男生的人數不可能是( )附:.0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828A.48 B.54 C.60 D.662.(2024·寧夏銀川·一模)有甲、乙兩個班級進行數學考試,按照大于等于85分為優秀,85分以下為非優秀統計成績,得到如下所示的列聯表:優秀 非優秀 總計甲班 10 b乙班 c 30合計附:P(K2≥k0) 0.05 0.025 0.010 0.005k0 3.841 5.024 6.635 7.879已知在全部105人中隨機抽取1人,成績優秀的概率為,則下列說法正確的是( )A.列聯表中c的值為30,b的值為35B.列聯表中c的值為15,b的值為50C.根據列聯表中的數據,若按97.5%的可靠性要求,能認為“成績與班級有關系”D.根據列聯表中的數據,若按97.5%的可靠性要求,不能認為“成績與班級有關系”二、多選題3.(2024·山東臨沂·一模)下列結論正確的是( )A.一組樣本數據的散點圖中,若所有樣本點都在直線上,則這組樣本數據的樣本相關系數為B.已知隨機變量,若,則C.在列聯表中,若每個數據均變成原來的2倍,則也變成原來的2倍(,其中)D.分別拋擲2枚質地均勻的骰子,若事件“第一枚骰子正面向上的點數是奇數”,“2枚骰子正面向上的點數相同”,則互為獨立事件4.(22-23高三下·浙江·開學考試)下列結論中,正確的有( )A.數據4,1,6,2,9,5,8的第60百分位數為5B.若隨機變量,則C.已知經驗回歸方程為,且,則D.根據分類變量X與Y的成對樣本數據,計算得到,依據小概率值的獨立性檢驗,可判斷X與Y有關聯,此推斷犯錯誤的概率不大于0.001三、填空題5.(21-22高二下·福建福州·期末)為了考察某種藥物預防疾病的效果,進行動物試驗,得到如下列聯表:藥物 疾病 合計未患病 患病服用 a 50未服用 50合計 80 20 100若在本次考察中得出“在犯錯誤的概率不超過0.01的前提下認為藥物有效”的結論,則a的最小值為 .(其中且)(參考數據:,)附:,α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.8286.(2024·上海金山·二模)為了考察某種藥物預防疾病的效果,進行動物試驗,得到如下圖所示列聯表:藥物 疾病 合計未患病 患病服用 50未服用 50合計 80 20 100取顯著性水平,若本次考察結果支持“藥物對疾病預防有顯著效果”,則()的最小值為 .(參考公式:;參考值:)四、解答題7.(2023·廣東深圳·二模)飛盤運動是一項入門簡單,又具有極強的趣味性和社交性的體育運動,目前已經成為了年輕人運動的新潮流.某俱樂部為了解年輕人愛好飛盤運動是否與性別有關,對該地區的年輕人進行了簡單隨機抽樣,得到如下列聯表:性別 飛盤運動 合計不愛好 愛好男 6 16 22女 4 24 28合計 10 40 50(1)在上述愛好飛盤運動的年輕人中按照性別采用分層抽樣的方法抽取10人,再從這10人中隨機選取3人訪談,記參與訪談的男性人數為X,求X的分布列和數學期望;(2)依據小概率值的獨立性檢驗,能否認為愛好飛盤運動與性別有關聯?如果把上表中所有數據都擴大到原來的10倍,在相同的檢驗標準下,再用獨立性檢驗推斷愛好飛盤運動與性別之間的關聯性,結論還一樣嗎?請解釋其中的原因.附:,其中.0.1 0.01 0.0012.706 6.635 10.8288.(2024·吉林·模擬預測)短視頻已成為當下宣傳的重要手段,東北某著名景點利用短視頻宣傳增加旅游熱度,為調查某天南北方游客來此景點旅游是否與收看短視頻有關,該景點對當天前來旅游的500名游客調查得知,南方游客有300人,因收看短視頻而來的280名游客中南方游客有200人.(1)依據調查數據完成如下列聯表,根據小概率值的獨立性檢驗,分析南北方游客來此景點旅游是否與收看短視潁有關聯:單位:人游客 短視頻 合計收看 未看南方游客北方游客合計(2)為了增加游客的旅游樂趣,該景點設置一款5人傳球游戲,每個人得到球后都等可能地傳給其余4人之一,現有甲、乙等5人參加此游戲,球首先由甲傳出.(i)求經過次傳遞后球回到甲的概率;(ii)記前次傳遞中球傳到乙的次數為,求的數學期望.參考公式:,其中;附表:0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828反思提升:1.在2×2列聯表中,如果兩個變量沒有關系,則應滿足ad-bc≈0.|ad-bc|越小,說明兩個變量之間關系越弱;|ad-bc|越大,說明兩個變量之間關系越強.2.解決獨立性檢驗的應用問題,一定要按照獨立性檢驗的步驟得出結論.獨立性檢驗的一般步驟:(1)根據樣本數據制成2×2列聯表:(2)根據公式χ2=計算χ2;(3)通過比較χ2與臨界值的大小關系來作統計推斷.【基礎篇】一、單選題1.(2024·浙江寧波·二模)某校數學建模興趣小組為研究本地區兒子身高與父親身高之間的關系,抽樣調查后得出與線性相關,且經驗回歸方程為.調查所得的部分樣本數據如下:父親身高 164 166 170 173 173 174 180兒子身高 165 168 176 170 172 176 178則下列說法正確的是( )A.兒子身高是關于父親身高的函數B.當父親身高增加時,兒子身高增加C.兒子身高為時,父親身高一定為D.父親身高為時,兒子身高的均值為2.(2024·天津河西·一模)隨著居民家庭收入的不斷提高,人們對居住條件的改善的需求也在逐漸升溫.某城市統計了最近5個月的房屋交易量,如下表所示:時間 1 2 3 4 5交易量(萬套) 0.8 1.0 1.2 1.5若與滿足一元線性回歸模型,且經驗回歸方程為,則下列說法錯誤的是( )A.根據表中數據可知,變量與正相關B.經驗回歸方程中C.可以預測時房屋交易量約為(萬套)D.時,殘差為3.(2024·天津·一模)下列說法正確的是( )A.一組數據的第80百分位數為17;B.根據分類變量與的成對樣本數據,計算得到,根據小概率值的獨立性檢驗,可判斷與有關聯,此推斷犯錯誤的概率不大于0.05;C.兩個隨機變量的線性相關性越強,相關系數的絕對值越接近于0;D.若隨機變量滿足,則.4.(23-24高三上·天津北辰·期中)下列結論中,錯誤的是( )A.數據4,1,6,2,9,5,8的第60百分位數為6B.若隨機變量,則C.已知經驗回歸方程為,且,則D.根據分類變量與成對樣本數據,計算得到,依據小概率值的獨立性檢驗,可判斷與有關聯,此推斷犯錯誤的概率不大于0.001二、多選題5.(2023·湖北·模擬預測)下列命題中正確的是( )A.若樣本數據,,,的樣本方差為3,則數據,,,的方差為7B.經驗回歸方程為時,變量x和y負相關C.對于隨機事件A與B,,,若,則事件A與B相互獨立D.若,則取最大值時6.(2024·山東棗莊·模擬預測)已知兩個變量y與x對應關系如下表:x 1 2 3 4 5y 5 m 8 9 10.5若y與x滿足一元線性回歸模型,且經驗回歸方程為,則( )A.y與x正相關 B.C.樣本數據y的第60百分位數為8 D.各組數據的殘差和為07.(2024·湖北武漢·二模)下列結論正確的是( )A.一組數據7,8,8,9,11,13,15,17,20,22的第80百分位數為17B.若隨機變量,滿足,則C.若隨機變量,且,則D.根據分類變量與的成對樣本數據,計算得到.依據的獨立性檢驗,可判斷與有關三、填空題8.(23-24高三下·上海嘉定·階段練習)某產品的廣告支出費用x(單位:萬元)與銷售額y(單位:萬元)的數據如下表:x 2 4 5 6 8y 30 40 a 50 70已知y關于x的線性回歸方程為,則表格中實數a的值為 .9.(23-24高二下·江西贛州·期中)甲、乙、丙、丁各自研究兩個隨機變量的數據,若甲、乙、丙、丁計算得到各自研究的兩個隨機變量的線性相關系數分別為,,,,則這四人中, 研究的兩個隨機變量的線性相關程度最高.10.(2024·上海長寧·二模)收集數據,利用列聯表,分析學習成績好與上課注意力集中是否有關時,提出的零假設為:學習成績好與上課注意力集中 (填:有關或無關)四、解答題11.(2024·四川成都·模擬預測)數據顯示,中國在線直播用戶規模及在線直播購物規模近幾年都保持高速增長態勢,某線下家電商場為提升人氣和提高營業額也開通了在線直播,下表統計了該商場開通在線直播的第x天的線下顧客人數y(單位:百人)的數據:x 1 2 3 4 5y 10 12 15 18 20(1)根據第1至第5天的數據分析,計算變量y與x的相關系數r,并用r判斷兩個變量y與x相關關系的強弱(精確到小數點后三位);(2)根據第1至第5天的數據分析,可用線性回歸模型擬合y與x的關系,試求出該線性回歸方程并估計該商場開通在線直播的第10天的線下顧客人數.(參考公式:相關系數,參考數據:回歸方程:,其中,)12.(2024·四川內江·三模)2024年2月10日至17日(正月初一至初八),“2024 內江市中區新春極光焰火草地狂歡節”在川南大草原舉行,共舉行了8場精彩的煙花秀節目.前5場的觀眾人數(單位:萬人)與場次的統計數據如表所示:場次編號 1 2 3 4 5觀眾人數 0.7 0.8 1 1.2 1.3(1)已知可用線性回歸模型擬合與的關系,請建立關于的線性回歸方程;(2)若該煙花秀節目分A、B、C三個等次的票價,某機構隨機調查了該煙花秀節目現場200位觀眾的性別與購票情況,得到的部分數據如表所示,請將列聯表補充完整,并判斷能否有的把握認為該煙花秀節目的觀眾是否購買A等票與性別有關.購買A等票 購買非A等票 總計男性觀眾 50女性觀眾 60總計 100 200參考公式及參考數據:回歸方程中斜率與截距的最小二乘法估計公式分別為,其中.0.100 0.050 0.0102.706 3.841 6.635【能力篇】一、單選題1.(2024·河北·一模)某校為了解本校高一男生身高和體重的相關關系,在該校高一年級隨機抽取了7名男生,測量了他們的身高和體重得下表:身高(單位: 167 173 175 177 178 180 181體重(單位: 90 54 59 64 67 72 76由表格制作成如圖所示的散點圖: 由最小二乘法計算得到經驗回歸直線的方程為,其相關系數為;經過殘差分析,點對應殘差過大,把它去掉后,再用剩下的6組數據計算得到經驗回歸直線的方程為,相關系數為.則下列選項正確的是( )A.B.C.D.二、多選題2.(2024·湖南·一模)下列說法中,正確的是( )A.設有一個經驗回歸方程為,變量增加1個單位時,平均增加2個單位B.已知隨機變量,若,則C.兩組樣本數據和.若已知且,則D.已知一系列樣本點的經驗回歸方程為,若樣本點與的殘差相等,則三、填空題3.(2024·重慶·三模)對具有線性相關關系的變量有一組觀測數據,其經驗回歸方程,則在樣本點處的殘差為 .四、解答題4.(22-23高二下·浙江·階段練習)人工智能正在改變我們的世界,由OpenAI開發的人工智能劃時代標志的ChatGPT能更好地理解人類的意圖,并且可以更好地回答人類的問題,被人們稱為人類的第四次工業革命.它滲透人類社會的方方面面,讓人類更高效地生活.現對130人的樣本使用ChatGPT對服務業勞動力市場的潛在影響進行調查,其數據的統計結果如下表所示:ChatGPT應 用的廣泛性 服務業就業人數的 合計減少 增加廣泛應用 60 10 70沒廣泛應用 40 20 60合計 100 30 130(1)根據小概率值的獨立性檢驗,是否有的把握認為ChatGPT應用的廣泛性與服務業就業人數的增減有關?(2)現從“服務業就業人數會減少”的100人中按分層隨機抽樣的方法抽取5人,再從這5人中隨機抽取3人,記抽取的3人中有人認為人工智能會在服務業中廣泛應用,求的分布列和均值.附:,其中.0.1 0.05 0.012.706 3.841 6.63521世紀教育網(www.21cnjy.com)專題57 成對數據的統計分析(新高考專用)【知識梳理】 2【真題自測】 4【考點突破】 14【考點1】成對數據的相關性 14【考點2】回歸分析 17【考點3】獨立性檢驗 25【分層檢測】 35【基礎篇】 35【能力篇】 43考試要求:1.了解樣本相關系數的統計含義.2.了解一元線性回歸模型和2×2列聯表,會運用這些方法解決簡單的實際問題.3.會利用統計軟件進行數據分析.1.變量的相關關系(1)相關關系兩個變量有關系,但又沒有確切到可由其中的一個去精確地決定另一個的程度,這種關系稱為相關關系.(2)相關關系的分類:正相關和負相關.(3)線性相關一般地,如果兩個變量的取值呈現正相關或負相關,而且散點落在一條直線附近,我們就稱這兩個變量線性相關.一般地,如果兩個變量具有相關性,但不是線性相關,那么我們就稱這兩個變量非線性相關或曲線相關.2.樣本相關系數(1)相關系數r的計算變量x和變量y的樣本相關系數r的計算公式如下:(2)相關系數r的性質①當r>0時,稱成對樣本數據正相關;當r<0時,成對樣本數據負相關;當r=0時,成對樣本數據間沒有線性相關關系.②樣本相關系數r的取值范圍為[-1,1].當|r|越接近1時,成對樣本數據的線性相關程度越強;當|r|越接近0時,成對樣本數據的線性相關程度越弱.3.一元線性回歸模型(1)經驗回歸方程與最小二乘法我們將=x+稱為Y關于x的經驗回歸方程,也稱經驗回歸函數或經驗回歸公式,其圖形稱為經驗回歸直線.這種求經驗回歸方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估計,其中(2)利用決定系數R2刻畫回歸效果,R2越大,即擬合效果越好,R2越小,模型擬合效果越差.4.列聯表與獨立性檢驗(1)2×2列聯表一般地,假設有兩個分類變量X和Y,它們的取值分別為{x1,x2}和{y1,y2},其2×2列聯表為x y 合計y=y1 y=y2x=x1 a b a+bx=x2 c d c+d合計 a+c b+d n=a+b+c+d(2)臨界值χ2=.忽略χ2的實際分布與該近似分布的誤差后,對于任何小概率值α,可以找到相應的正實數xα,使得P(χ2≥xα)=α成立.我們稱xα為α的臨界值,這個臨界值就可作為判斷χ2大小的標準.(3)獨立性檢驗基于小概率值α的檢驗規則是:當χ2≥xα時,我們就推斷H0不成立,即認為X和Y不獨立,該推斷犯錯誤的概率不超過α;當χ2<xα時,我們沒有充分證據推斷H0不成立 ,可以認為X和Y獨立.這種利用χ2的取值推斷分類變量X和Y是否獨立的方法稱為χ2獨立性檢驗,讀作“卡方獨立性檢驗”,簡稱獨立性檢驗.下表給出了χ2獨立性檢驗中幾個常用的小概率值和相應的臨界值α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.8281.求解經驗回歸方程的關鍵是確定回歸系數,,應充分利用回歸直線過樣本點的中心(,).2.根據經驗回歸方程計算的值,僅是一個預報值,不是真實發生的值.3.根據χ2的值可以判斷兩個分類變量有關的可信程度,若χ2越大,則兩分類變量有關的把握越大.一、單選題1.(2024·全國·高考真題)某農業研究部門在面積相等的100塊稻田上種植一種新型水稻,得到各塊稻田的畝產量(單位:kg)并整理如下表畝產量 [900,950) [950,1000) [1000,1050) [1050,1100) [1100,1150) [1150,1200)頻數 6 12 18 30 24 10根據表中數據,下列結論中正確的是( )A.100塊稻田畝產量的中位數小于1050kgB.100塊稻田中畝產量低于1100kg的稻田所占比例超過80%C.100塊稻田畝產量的極差介于200kg至300kg之間D.100塊稻田畝產量的平均值介于900kg至1000kg之間2.(2023·全國·高考真題)某學校為了解學生參加體育運動的情況,用比例分配的分層隨機抽樣方法作抽樣調查,擬從初中部和高中部兩層共抽取60名學生,已知該校初中部和高中部分別有400名和200名學生,則不同的抽樣結果共有( ).A.種 B.種C.種 D.種二、多選題3.(2023·全國·高考真題)有一組樣本數據,其中是最小值,是最大值,則( )A.的平均數等于的平均數B.的中位數等于的中位數C.的標準差不小于的標準差D.的極差不大于的極差三、解答題4.(2024·全國·高考真題)某工廠進行生產線智能化升級改造,升級改造后,從該工廠甲、乙兩個車間的產品中隨機抽取150件進行檢驗,數據如下:優級品 合格品 不合格品 總計甲車間 26 24 0 50乙車間 70 28 2 100總計 96 52 2 150(1)填寫如下列聯表:優級品 非優級品甲車間乙車間能否有的把握認為甲、乙兩車間產品的優級品率存在差異?能否有的把握認為甲,乙兩車間產品的優級品率存在差異?(2)已知升級改造前該工廠產品的優級品率,設為升級改造后抽取的n件產品的優級品率.如果,則認為該工廠產品的優級品率提高了,根據抽取的150件產品的數據,能否認為生產線智能化升級改造后,該工廠產品的優級品率提高了?()附:0.050 0.010 0.001k 3.841 6.635 10.8285.(2023·全國·高考真題)一項試驗旨在研究臭氧效應,試驗方案如下:選40只小白鼠,隨機地將其中20只分配到試驗組,另外20只分配到對照組,試驗組的小白鼠飼養在高濃度臭氧環境,對照組的小白鼠飼養在正常環境,一段時間后統計每只小白鼠體重的增加量(單位:g).試驗結果如下:對照組的小白鼠體重的增加量從小到大排序為15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.132.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2試驗組的小白鼠體重的增加量從小到大排序為7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.219.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5(1)計算試驗組的樣本平均數;(2)(ⅰ)求40只小白鼠體重的增加量的中位數m,再分別統計兩樣本中小于m與不小于m的數據的個數,完成如下列聯表對照組試驗組(ⅱ)根據(i)中的列聯表,能否有95%的把握認為小白鼠在高濃度臭氧環境中與在正常環境中體重的增加量有差異?附:,0.100 0.050 0.0102.706 3.841 6.6356.(2023·全國·高考真題)一項試驗旨在研究臭氧效應.實驗方案如下:選40只小白鼠,隨機地將其中20只分配到實驗組,另外20只分配到對照組,實驗組的小白鼠飼養在高濃度臭氧環境,對照組的小白鼠飼養在正常環境,一段時間后統計每只小白鼠體重的增加量(單位:g).(1)設表示指定的兩只小白鼠中分配到對照組的只數,求的分布列和數學期望;(2)實驗結果如下:對照組的小白鼠體重的增加量從小到大排序為:15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.132.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2實驗組的小白鼠體重的增加量從小到大排序為:7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.219.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5(i)求40只小鼠體重的增加量的中位數m,再分別統計兩樣本中小于m與不小于的數據的個數,完成如下列聯表:對照組實驗組(ii)根據(i)中的列聯表,能否有95%的把握認為小白鼠在高濃度臭氧環境中與正常環境中體重的增加量有差異.附:0.100 0.050 0.0102.706 3.841 6.6357.(2023·全國·高考真題)某廠為比較甲乙兩種工藝對橡膠產品伸縮率的處理效應,進行10次配對試驗,每次配對試驗選用材質相同的兩個橡膠產品,隨機地選其中一個用甲工藝處理,另一個用乙工藝處理,測量處理后的橡膠產品的伸縮率.甲、乙兩種工藝處理后的橡膠產品的伸縮率分別記為,.試驗結果如下:試驗序號 1 2 3 4 5 6 7 8 9 10伸縮率 545 533 551 522 575 544 541 568 596 548伸縮率 536 527 543 530 560 533 522 550 576 536記,記的樣本平均數為,樣本方差為.(1)求,;(2)判斷甲工藝處理后的橡膠產品的伸縮率較乙工藝處理后的橡膠產品的伸縮率是否有顯著提高(如果,則認為甲工藝處理后的橡膠產品的伸縮率較乙工藝處理后的橡膠產品的伸縮率有顯著提高,否則不認為有顯著提高)8.(2023·全國·高考真題)某研究小組經過研究發現某種疾病的患病者與未患病者的某項醫學指標有明顯差異,經過大量調查,得到如下的患病者和未患病者該指標的頻率分布直方圖: 利用該指標制定一個檢測標準,需要確定臨界值c,將該指標大于c的人判定為陽性,小于或等于c的人判定為陰性.此檢測標準的漏診率是將患病者判定為陰性的概率,記為;誤診率是將未患病者判定為陽性的概率,記為.假設數據在組內均勻分布,以事件發生的頻率作為相應事件發生的概率.(1)當漏診率%時,求臨界值c和誤診率;(2)設函數,當時,求的解析式,并求在區間的最小值.參考答案:題號 1 2 3答案 C D BD1.C【分析】計算出前三段頻數即可判斷A;計算出低于1100kg的頻數,再計算比例即可判斷B;根據極差計算方法即可判斷C;根據平均值計算公式即可判斷D.【詳解】對于 A, 根據頻數分布表可知, ,所以畝產量的中位數不小于 , 故 A 錯誤;對于B,畝產量不低于的頻數為,所以低于的稻田占比為,故B錯誤;對于C,稻田畝產量的極差最大為,最小為,故C正確;對于D,由頻數分布表可得,平均值為,故D錯誤.故選;C.2.D【分析】利用分層抽樣的原理和組合公式即可得到答案.【詳解】根據分層抽樣的定義知初中部共抽取人,高中部共抽取,根據組合公式和分步計數原理則不同的抽樣結果共有種.故選:D.3.BD【分析】根據題意結合平均數、中位數、標準差以及極差的概念逐項分析判斷.【詳解】對于選項A:設的平均數為,的平均數為,則,因為沒有確定的大小關系,所以無法判斷的大小,例如:,可得;例如,可得;例如,可得;故A錯誤;對于選項B:不妨設,可知的中位數等于的中位數均為,故B正確;對于選項C:因為是最小值,是最大值,則的波動性不大于的波動性,即的標準差不大于的標準差,例如:,則平均數,標準差,,則平均數,標準差,顯然,即;故C錯誤;對于選項D:不妨設,則,當且僅當時,等號成立,故D正確;故選:BD.4.(1)答案見詳解(2)答案見詳解【分析】(1)根據題中數據完善列聯表,計算,并與臨界值對比分析;(2)用頻率估計概率可得,根據題意計算,結合題意分析判斷.【詳解】(1)根據題意可得列聯表:優級品 非優級品甲車間 26 24乙車間 70 30可得,因為,所以有的把握認為甲、乙兩車間產品的優級品率存在差異,沒有的把握認為甲,乙兩車間產品的優級品率存在差異.(2)由題意可知:生產線智能化升級改造后,該工廠產品的優級品的頻率為,用頻率估計概率可得,又因為升級改造前該工廠產品的優級品率,則,可知,所以可以認為生產線智能化升級改造后,該工廠產品的優級品率提高了.5.(1)(2)(i);列聯表見解析,(ii)能【分析】(1)直接根據均值定義求解;(2)(i)根據中位數的定義即可求得,從而求得列聯表;(ii)利用獨立性檢驗的卡方計算進行檢驗,即可得解.【詳解】(1)試驗組樣本平均數為:(2)(i)依題意,可知這40只小鼠體重的中位數是將兩組數據合在一起,從小到大排后第20位與第21位數據的平均數,由原數據可得第11位數據為,后續依次為,故第20位為,第21位數據為,所以,故列聯表為:合計對照組 6 14 20試驗組 14 6 20合計 20 20 40(ii)由(i)可得,,所以能有的把握認為小白鼠在高濃度臭氧環境中與在正常環境中體重的增加量有差異.6.(1)分布列見解析,(2)(i);列聯表見解析,(ii)能【分析】(1)利用超幾何分布的知識即可求得分布列及數學期望;(2)(i)根據中位數的定義即可求得,從而求得列聯表;(ii)利用獨立性檢驗的卡方計算進行檢驗,即可得解.【詳解】(1)依題意,的可能取值為,則,,,所以的分布列為:故.(2)(i)依題意,可知這40只小白鼠體重增量的中位數是將兩組數據合在一起,從小到大排后第20位與第21位數據的平均數,觀察數據可得第20位為,第21位數據為,所以,故列聯表為:合計對照組 6 14 20實驗組 14 6 20合計 20 20 40(ii)由(i)可得,,所以能有的把握認為小白鼠在高濃度臭氧環境中與正常環境中體重的增加量有差異.7.(1),;(2)認為甲工藝處理后的橡膠產品的伸縮率較乙工藝處理后的橡膠產品的伸縮率有顯著提高.【分析】(1)直接利用平均數公式即可計算出,再得到所有的值,最后計算出方差即可;(2)根據公式計算出的值,和比較大小即可.【詳解】(1),,,的值分別為: ,故(2)由(1)知:,,故有,所以認為甲工藝處理后的橡膠產品的伸縮率較乙工藝處理后的橡膠產品的伸縮率有顯著提高.8.(1),;(2),最小值為.【分析】(1)根據題意由第一個圖可先求出,再根據第二個圖求出的矩形面積即可解出;(2)根據題意確定分段點,即可得出的解析式,再根據分段函數的最值求法即可解出.【詳解】(1)依題可知,左邊圖形第一個小矩形的面積為,所以,所以,解得:,.(2)當時,;當時,,故,所以在區間的最小值為.【考點1】成對數據的相關性一、單選題1.(2024·四川成都·二模)對變量有觀測數據,得散點圖1;對變量有觀測數據,得散點圖2.表示變量之間的線性相關系數,表示變量之間的線性相關系數,則下列說法正確的是( )A.變量與呈現正相關,且 B.變量與呈現負相關,且C.變量與呈現正相關,且 D.變量與呈現負相關,且2.(2024·四川涼山·三模)調查某校高三學生的身高和體重得到如圖所示散點圖,其中身高和體重相關系數,則下列說法正確的是( )A.學生身高和體重沒有相關性B.學生身高和體重呈正相關C.學生身高和體重呈負相關D.若從樣本中抽取一部分,則這部分的相關系數一定是二、多選題3.(22-23高三上·江蘇無錫·期末)已知由樣本數據組成的一個樣本,得到經驗回歸方程為,且,去除兩個樣本點和后,得到新的經驗回歸方程為.在余下的8個樣本數據和新的經驗回歸方程中( ).A.相關變量x,y具有正相關關系B.新的經驗回歸方程為C.隨著自變量x值增加,因變量y值增加速度變小D.樣本的殘差為4.(2024·湖南衡陽·模擬預測)為了研發某種流感疫苗,某研究團隊收集了10組抗體藥物的攝入量與體內抗體數量的數據,并對這些數據作了初步處理,得到了如圖所示的散點圖及一些統計量的值,抗體藥物攝入量為x(單位:mg),體內抗體數量為y(單位:AU/mL).根據散點圖,可以得到回歸直線方程為:.下列說法正確的是( )A.回歸直線方程表示體內抗體數量與抗體藥物攝入量之間的線性相關關系B.回歸直線方程表示體內抗體數量與抗體藥物攝入量之間的函數關系C.回歸直線方程可以精確反映體內抗體數量與抗體藥物攝入量的變化趨勢D.回歸直線方程可以用來預測攝入抗體藥物后體內抗體數量的變化三、填空題5.(23-24高三上·浙江·開學考試)已知成對樣本數據中互不相等,且所有樣本點都在直線上,則這組成對樣本數據的樣本相關系數 .參考答案:題號 1 2 3 4答案 C B ABD AD1.C【分析】利用散點圖,結合相關系數的知識可得答案.【詳解】由題意可知,變量的散點圖中,隨的增大而增大,所以變量與呈現正相關;再分別觀察兩個散點圖,圖比圖點更加集中,相關性更好,所以線性相關系數.故選:C.2.B【分析】由散點圖的特點可分析相關性的問題,從而判斷選項,根據相關系數的定義可判斷選項.【詳解】由散點圖可知,散點的分布集中在一條直線附近,所以學生身高和體重具有相關性,不正確;又身高和體重的相關系數為,相關系數,所以學生身高和體重呈正相關,正確,不正確;從樣本中抽取一部分,相關性可能變強,也可能變弱,所以這部分的相關系數不一定是,不正確.故選:.3.ABD【分析】根據線性回歸方程的求法、意義可判斷ABC ,再由殘差的概念判斷D.【詳解】,x新平均數,.y新平均數,∴,∴.新的線性回歸方程,x,y具有正相關關系,A對.新的線性回歸方程:,B對.由線性回歸方程知,隨著自變量x值增加,因變量y值增加速度恒定,C錯;,,,D對.故選:ABD.4.AD【分析】根據回歸方程的意義判斷即可.【詳解】回歸直線方程只能表示體內抗體數量與抗體藥物攝入量之間的線性相關關系,不是函數關系,A正確,B錯誤,回歸直線方程不能精確反映體內抗體數量與抗體藥物攝入量的變化趨勢,但可以用來預測攝入抗體藥物后體內抗體數量的變化,C錯誤,D正確.故選:AD.5.【分析】根據給定條件,利用相關系數的定義求解作答.【詳解】因為所有樣本點都在直線上,顯然直線的斜率,所以樣本數據成負相關,相關系數為.故答案為:反思提升:判斷相關關系的兩種方法:(1)散點圖法:如果樣本點的分布從整體上看大致在某一曲線附近,變量之間就有相關關系;如果樣本點的分布從整體上看大致在某一直線附近,變量之間就有線性相關關系.(2)決定系數法:利用決定系數判定,R2越趨近1,擬合效果越好,相關性越強.【考點2】回歸分析一、單選題1.(2024·四川綿陽·二模)已知變量x,y之間的線性回歸方程為,且變量x,y之間的一組相關數據如表所示,x 2 4 6 8y 5 8.2 13 m則下列說法正確的是( )A.B.變量y與x是負相關關系C.該回歸直線必過點D.x增加1個單位,y一定增加2個單位2.(2024·全國·模擬預測)2023年第19屆亞運會在杭州舉行,亞運會的吉祥物琮琮、蓮蓮、宸宸深受大家喜愛,某商家統計了最近5個月銷量,如表所示:若y與x線性相關,且線性回歸方程為,則下列說法不正確的是( )時間x 1 2 3 4 5銷售量y/萬只 5 4.5 4 3.5 2.5A.由題中數據可知,變量y與x負相關B.當時,殘差為0.2C.可以預測當時銷量約為2.1萬只D.線性回歸方程中二、多選題3.(23-24高三上·廣東揭陽·期末)2023年入冬以來,流感高發,某醫院統計了一周中連續5天的流感就診人數y與第天的數據如表所示.x 1 2 3 4 5y 21 10a 15a 90 109根據表中數據可知x,y具有較強的線性相關關系,其經驗回歸方程為,則( )A.樣本相關系數在內 B.當時,殘差為-2C.點一定在經驗回歸直線上 D.第6天到該醫院就診人數的預測值為1304.(2024·全國·模擬預測)為了預測某地的經濟增長情況,某經濟學專家根據該地2023年1~6月的GDP的數據y(單位:百億元)建立了線性回歸模型,得到的經驗回歸方程為,其中自變量x指的是1~6月的編號,其中部分數據如表所示:時間 2023年1月 2023年2月 2023年3月 2023年4月 2023年5月 2023年6月編號x 1 2 3 4 5 6y/百億元 11.107參考數據:.則下列說法正確的是( )A.經驗回歸直線經過點B.C.根據該模型,該地2023年12月的GDP的預測值為14.57百億元D.相應于點的殘差為0.103三、填空題5.(2024·江蘇·一模)已知變量的統計數據如下表,對表中數據作分析,發現與之間具有線性相關關系,利用最小二乘法,計算得到經驗回歸直線方程為,據此模型預測當時的值為 .5 6 7 8 93.5 4 5 6 6.56.(2024·陜西渭南·一模)已知一組數據點,用最小二乘法得到其線性回歸方程為,若,則 .四、解答題7.(2024·山東日照·二模)某公司為考核員工,采用某方案對員工進行業務技能測試,并統計分析測試成績以確定員工績效等級.(1)已知該公司甲部門有3名負責人,乙部門有4名負責人,該公司從甲、乙兩部門中隨機選取3名負責人做測試分析,記負責人來自甲部門的人數為,求的最有可能的取值:(2)該公司統計了七個部門測試的平均成績(滿分100分)與績效等級優秀率,如下表所示:32 41 54 68 74 80 920.28 0.34 0.44 0.58 0.66 0.74 0.94根據數據繪制散點圖,初步判斷,選用作為回歸方程.令,經計算得,(ⅰ)已知某部門測試的平均成績為60分,估計其績效等級優秀率;(ⅱ)根據統計分析,大致認為各部門測試平均成績,其中近似為樣本平均數,近似為樣本方差.經計算,求某個部門績效等級優秀率不低于的概率.參考公式與數據:①.②線性回歸方程中,,.③若隨機變量,則,,.8.(22-23高三上·山東青島·期末)由個小正方形構成長方形網格有行和列.每次將一個小球放到一個小正方形內,放滿為止,記為一輪.每次放白球的頻率為,放紅球的概率為q,.(1)若,,記表示100輪放球試驗中“每一列至少一個紅球”的輪數,統計數據如表:n 1 2 3 4 5y 76 56 42 30 26求y關于n的回歸方程,并預測時,y的值;(精確到1)(2)若,,,,記在每列都有白球的條件下,含紅球的行數為隨機變量,求的分布列和數學期望;(3)求事件“不是每一列都至少一個紅球”發生的概率,并證明:.附:經驗回歸方程系數:,,,.參考答案:題號 1 2 3 4答案 C B AD AC1.C【分析】根據給定數據及回歸方程求出樣本中心點,再逐項判斷即可得解.【詳解】依題意,,由,解得,A錯誤;回歸方程中,,則變量y與x是正相關關系,B錯誤;由于樣本中心點為,因此該回歸直線必過點,C正確;由回歸方程知,x增加1個單位,y大約增加2個單位,D錯誤.故選:C2.B【分析】對于選項A,利用表中數據變化情況或看回歸方程的正負均可求解;對于選項B,利用樣本中心點求出線性回歸方程,再利用回歸方程即可求出預測值,進而可求出殘差;對于選項C,利用回歸方程即可求出預測值;對于選項D,利用回歸方程一定過樣本中心點即可求解.【詳解】對于選項A,從數據看,隨的增大而減小,所以變量與負相關,故A正確;對于選項B,由表中數據知,,所以樣本中心點為,將樣本中心點代入中得,所以線性回歸方程為,所以,殘差,故B錯誤;對于選項C,當時銷量約為(萬只),故C正確.對于選項D,由B選項可知,故D正確.故選:B.3.AD【分析】x,y具有較強的正相關關系,可判斷相關系數的范圍,判斷A;計算x,y的平均值,代入回歸直線方程求出a的值,即可求出時的預測值,求得殘差,判斷B;看是否適合回歸直線方程,判斷C;將代入回歸直線方程,求出預測值,判斷D.【詳解】由題意可知x,y具有較強的正相關關系,故樣本相關系數在內,A正確;根據題意得,故,解得,故當時,,殘差為,B錯誤;點即點,當時,,即點不在經驗回歸直線上,C錯誤;當時,,即第6天到該醫院就診人數的預測值為130,D正確,故選:AD4.AC【分析】求得數據的樣本中心點,即可判斷A;結合回歸直線方程求出可判斷B;將代入回歸直線方程求得預測值,可判斷C;根據殘差的計算可判斷D.【詳解】選項A:由題意得:,因為,,所以,得,因此該經驗回歸直線經過樣本點的中心,故A正確;選項B:由A知,,得,故B錯誤;選項C:由B得,則當時,,故該地2023年12月的GDP的預測值為14.57百億元,故C正確;選項D:當時,,相應于點的殘差為,(相應于點的殘差),故D錯誤,故選:AC5.7.4【分析】經驗回歸直線方程過樣本點的中心,所以把代入求得的值,再代入求解即可.【詳解】由已知得,即樣本點中心,因為經驗回歸直線方程過樣本點的中心,所以,解得.所以,當時,.故答案為:.6.【分析】根據回歸方程必過樣本中心點,即可得到答案.【詳解】根據題意可知該組數據點,所以,所以,故答案為:7.(1)(2)(ⅰ)(ⅱ)【分析】(1)依題意的可能取值為,,,,求出所對應的概率,即可判斷;(2)(ⅰ)對兩邊取對數,由參考數據可知,根據樣本中心點求出,即可求出回歸方程,再將代入計算可得;(ⅱ)依題意可得,,再令,求出的取值范圍,再由正態分布的性質計算可得.【詳解】(1)依題意,隨機變量服從超幾何分布,且的可能取值為,,,,則,,,.由此可得最大,即的可能性最大,故最有可能的取值為;(2)(ⅰ)依題意,兩邊取對數,得,即,其中,由提供的參考數據,可知,又,故,所以,由提供的參考數據,可得,故,當時,,即估計其績效等級優秀率為;(ⅱ)由(ⅰ)及提供的參考數據可知,,,又,即,可得,即.又,且,由正態分布的性質,得,記“績效等級優秀率不低于”為事件,則,所以績效等級優秀率不低于的概率等于.8.(1);3.(2)分布列見解析;.(3);證明見解析.【分析】(1)根據所給數據,結合經驗回歸方程系數公式,即可求得回歸方程,繼而求得預測值;(2)確定X的取值可能為,根據條件概率的概率公式求得每一個值對應的概率,即可得分布列,繼而求得期望;(3)求得每一列都至少一個紅球的概率,根據對立事件的概率公式可得事件“不是每一列都至少一個紅球”發生的概率,再求得“每一行都至少一個白球”的概率,結合兩事件的關系可得其概率大小關系,即可證明結論.【詳解】(1)由題意知 ,故,所以 ,所以線性回歸方程為: ,所以,估計時,.(2)由題意知:,,,,則X的取值可能為,記“含紅球的行數為k”為事件,記“每列都有白球”為事件B,所以 ,,,所以X的分布列為:0 1 2所以數學期望為.(3)證明:因為每一列至少一個紅球的概率為 ,記“不是每一列都至少一個紅球”為事件A,所以,記“每一行都至少一個白球”為事件B,所以,顯然, ,所以 ,即,所以.【點睛】關鍵點點睛:解答要首先能正確的理解題意,弄清楚題目的要求是什么,比如第二文中的條件概率的計算,要弄清每種情況的含義,第三問難點在于正確計算出“不是每一列都至少一個紅球”以及“每一行都至少一個白球”的概率,并能進行判斷二者之間的關系,從而比較概率大小,證明結論.反思提升:(1)求經驗回歸方程:利用公式=求;利用=-求,寫出經驗回歸方程.(2)經驗回歸方程的擬合效果,可以利用相關系數|r|判斷,當|r|越趨近于1時,兩變量的線性相關性越強.或利用決定系數R2判斷,R2越大,擬合效果越好.(3)非線性經驗回歸方程轉化為線性經驗回歸方程的方法①若=+ ,設t=,則=+t;②若滿足對數式:=+ln x,設t=ln x,則=+t;③若滿足指數式:y=c1ec2x,兩邊取對數解ln y=ln c1+c2x,設z=ln y,a=ln c1,b=c2,則z=a+bx.【考點3】獨立性檢驗一、單選題1.(2024·黑龍江哈爾濱·二模)針對2025年第九屆亞冬會在哈爾濱舉辦,校團委對“是否喜歡冰雪運動與學生性別的關系”進行了一次調查,其中被調查的男、女生人數相同,男生中喜歡冰雪運動的人數占男生人數的,女生中喜歡冰雪運動的人數占女生人數的,若依據的獨立性檢驗,認為是否喜歡冰雪運動與學生性別有關,則被調查的學生中男生的人數不可能是( )附:.0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828A.48 B.54 C.60 D.662.(2024·寧夏銀川·一模)有甲、乙兩個班級進行數學考試,按照大于等于85分為優秀,85分以下為非優秀統計成績,得到如下所示的列聯表:優秀 非優秀 總計甲班 10 b乙班 c 30合計附:P(K2≥k0) 0.05 0.025 0.010 0.005k0 3.841 5.024 6.635 7.879已知在全部105人中隨機抽取1人,成績優秀的概率為,則下列說法正確的是( )A.列聯表中c的值為30,b的值為35B.列聯表中c的值為15,b的值為50C.根據列聯表中的數據,若按97.5%的可靠性要求,能認為“成績與班級有關系”D.根據列聯表中的數據,若按97.5%的可靠性要求,不能認為“成績與班級有關系”二、多選題3.(2024·山東臨沂·一模)下列結論正確的是( )A.一組樣本數據的散點圖中,若所有樣本點都在直線上,則這組樣本數據的樣本相關系數為B.已知隨機變量,若,則C.在列聯表中,若每個數據均變成原來的2倍,則也變成原來的2倍(,其中)D.分別拋擲2枚質地均勻的骰子,若事件“第一枚骰子正面向上的點數是奇數”,“2枚骰子正面向上的點數相同”,則互為獨立事件4.(22-23高三下·浙江·開學考試)下列結論中,正確的有( )A.數據4,1,6,2,9,5,8的第60百分位數為5B.若隨機變量,則C.已知經驗回歸方程為,且,則D.根據分類變量X與Y的成對樣本數據,計算得到,依據小概率值的獨立性檢驗,可判斷X與Y有關聯,此推斷犯錯誤的概率不大于0.001三、填空題5.(21-22高二下·福建福州·期末)為了考察某種藥物預防疾病的效果,進行動物試驗,得到如下列聯表:藥物 疾病 合計未患病 患病服用 a 50未服用 50合計 80 20 100若在本次考察中得出“在犯錯誤的概率不超過0.01的前提下認為藥物有效”的結論,則a的最小值為 .(其中且)(參考數據:,)附:,α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.8286.(2024·上海金山·二模)為了考察某種藥物預防疾病的效果,進行動物試驗,得到如下圖所示列聯表:藥物 疾病 合計未患病 患病服用 50未服用 50合計 80 20 100取顯著性水平,若本次考察結果支持“藥物對疾病預防有顯著效果”,則()的最小值為 .(參考公式:;參考值:)四、解答題7.(2023·廣東深圳·二模)飛盤運動是一項入門簡單,又具有極強的趣味性和社交性的體育運動,目前已經成為了年輕人運動的新潮流.某俱樂部為了解年輕人愛好飛盤運動是否與性別有關,對該地區的年輕人進行了簡單隨機抽樣,得到如下列聯表:性別 飛盤運動 合計不愛好 愛好男 6 16 22女 4 24 28合計 10 40 50(1)在上述愛好飛盤運動的年輕人中按照性別采用分層抽樣的方法抽取10人,再從這10人中隨機選取3人訪談,記參與訪談的男性人數為X,求X的分布列和數學期望;(2)依據小概率值的獨立性檢驗,能否認為愛好飛盤運動與性別有關聯?如果把上表中所有數據都擴大到原來的10倍,在相同的檢驗標準下,再用獨立性檢驗推斷愛好飛盤運動與性別之間的關聯性,結論還一樣嗎?請解釋其中的原因.附:,其中.0.1 0.01 0.0012.706 6.635 10.8288.(2024·吉林·模擬預測)短視頻已成為當下宣傳的重要手段,東北某著名景點利用短視頻宣傳增加旅游熱度,為調查某天南北方游客來此景點旅游是否與收看短視頻有關,該景點對當天前來旅游的500名游客調查得知,南方游客有300人,因收看短視頻而來的280名游客中南方游客有200人.(1)依據調查數據完成如下列聯表,根據小概率值的獨立性檢驗,分析南北方游客來此景點旅游是否與收看短視潁有關聯:單位:人游客 短視頻 合計收看 未看南方游客北方游客合計(2)為了增加游客的旅游樂趣,該景點設置一款5人傳球游戲,每個人得到球后都等可能地傳給其余4人之一,現有甲、乙等5人參加此游戲,球首先由甲傳出.(i)求經過次傳遞后球回到甲的概率;(ii)記前次傳遞中球傳到乙的次數為,求的數學期望.參考公式:,其中;附表:0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828參考答案:題號 1 2 3 4答案 A C BCD BC1.A【分析】根據已知條件設男生人數為,結合獨立性檢驗公式得出不等式,根據的取值,即可求解.【詳解】設男生人數為,因為被調查的男、女生人數相同,所以女生人數也為,根據題意列出列聯表:男生 女生 合計喜歡冰雪運動不喜歡冰雪運動合計則,因為依據的獨立性檢驗,認為是否喜歡冰雪運動與學生性別有關,所以,即,解得,又,所以B、C、D正確,A錯誤.故選:A2.C【分析】根據題中條件計算可判斷選項A、B;根據列聯表計算出的值,即可判斷選項C,D.【詳解】由題意知,成績優秀的學生數是,成績非優秀的學生數是75,所以,選項A、B錯誤;根據列聯表中的數據,得到因此有97.5%的把握認為“成績與班級有關系”.故C正確,D錯誤,故選:C.3.BCD【分析】根據相關系數的概念判斷A,根據正態分布的方差公式及方差的性質判斷B,根據卡方公式判斷C,根據相互獨立事件的定義判斷D.【詳解】對于A:若所有樣本點都在直線上,則這組樣本數據的樣本相關系數為,故A錯誤;對于B:如,則,又,即則,故B正確;對于C:在列聯表中,若每個數據均變成原來的2倍,則,即也變成原來的倍,故C正確;對于D:分別拋擲2枚質地均勻的骰子,基本事件總數為個,事件“第一枚骰子正面向上的點數是奇數”,則事件包含的基本事件數為個,事件“2枚骰子正面向上的點數相同”,則事件包含的基本事件數為個,所以,,又包含的基本事件有個,所以,所以,則、互為獨立事件,故D正確;故選:BCD4.BC【分析】第60百分位數為第五位數據6,所以選項A錯誤:,所以選項B正確;,所以選項C正確;此推斷犯錯誤的概率大于0.001,所以選項D錯誤.【詳解】解:數據4,1,6,2,9,5,8整理為1,2,4,5,6,8,9,,則數據4,1,6,2,9,5,8的第60百分位數為第五位數據6,所以選項A錯誤:隨機變量,則,所以選項B正確;經驗回歸方程為,且,則,所以選項C正確;根據分類變量X與Y的成對樣本數據,計算得到,依據小概率值的獨立性檢驗,可判斷X與Y有關聯,此推斷犯錯誤的概率大于0.001,所以選項D錯誤.故選:BC.5.46【分析】根據公式列不等式求解.【詳解】由題意可得,整理得,所以或,解得或,又因為且,所以,所以a的最小值為46.故答案為:46.6.【分析】由題意列出不等式,結合近似計算求出m的取值范圍,即可得答案.【詳解】由題意可知,則,解得或,而,故m的最小值為44.故答案為:44.7.(1)答案見解析(2)答案見解析【分析】(1)分別寫出對相應概率列分布列求數學期望即可;(2)先求 再根據數表對應判斷相關性即可,對比兩次的值可以得出結論說明原因.【詳解】(1)樣本中愛好飛盤運動的年輕人中男性 16 人,女性 24 人,比例為 ,按照性別采用分層抽樣的方法抽取 10 人,則抽取男性 4人,女性 6人.隨機變量的取值為:.,,隨機變量的分布列為隨機變量的數學期望.(2)零假設為:愛好飛盤運動與性別無關聯.根據列聯表重的數據,經計算得到根據小概率值的獨立性檢驗,沒有充分證據推斷不成立,因此可以認為成立,即認為愛好飛盤運動與性別無關聯.列聯表中所有數據都擴大到原來的10倍后,根據小概率值的獨立性檢驗,推斷不成立,即認為愛好飛盤運動與性別有關聯.所以結論不一樣,原因是每個數據都擴大為原來的 10 倍,相當于樣本量變大為原來的 10 倍,導致推斷結論發生了變化.8.(1)列聯表見解析,無關(2)(i);(ii)【分析】(1)利用已知條件,完成列聯表,利用獨立性檢驗公式求解判斷即可;(2)(i)設經過次傳遞后回到甲的概率為,求出關系式,得到通項公式;(ii)方法一:設第次傳遞時甲接到球的次數為,則服從兩點分布,,設前次傳遞中球傳到甲的次數為,利用公式求期望即可.方法二:設第次傳遞時,乙接到球的概率和次數分別為與,則服從兩點分布,,利用公式求期望即可.【詳解】(1)將所給數據進行整理,得到如下列聯表:游客 短視頻 合計收看 未看南方游客 200 100 300北方游客 80 120 200合計 280 220 500零假設:南北方游客來此景點旅游與短視頻無關聯.根據小概率值的獨立性檢驗,我們推斷不成立,即認為南北方游客來此景點旅游與收看短視頻有關聯,此推斷犯錯誤的概率不大于0.001(2)(i)設經過次傳遞后回到甲的概率為,,,又,所以是首項為,公比為的等比數列,所以.(ii)(方法一)設第次傳遞時甲接到球的次數為,則服從兩點分布,,設前次傳遞中球傳到甲的次數為,,因為,所以.(方法二)設第次傳遞時,乙接到球的概率和次數分別為與,則服從兩點分布,,由題可知,,又,所以,所以是首項為,公比為的等比數列,,,,故.【點睛】關鍵點點睛:本題第2問(ii)的解決關鍵是,根據題意得到的關系,利用構造法分析出是首項為,公比為的等比數列,由此得解.反思提升:1.在2×2列聯表中,如果兩個變量沒有關系,則應滿足ad-bc≈0.|ad-bc|越小,說明兩個變量之間關系越弱;|ad-bc|越大,說明兩個變量之間關系越強.2.解決獨立性檢驗的應用問題,一定要按照獨立性檢驗的步驟得出結論.獨立性檢驗的一般步驟:(1)根據樣本數據制成2×2列聯表:(2)根據公式χ2=計算χ2;(3)通過比較χ2與臨界值的大小關系來作統計推斷.【基礎篇】一、單選題1.(2024·浙江寧波·二模)某校數學建模興趣小組為研究本地區兒子身高與父親身高之間的關系,抽樣調查后得出與線性相關,且經驗回歸方程為.調查所得的部分樣本數據如下:父親身高 164 166 170 173 173 174 180兒子身高 165 168 176 170 172 176 178則下列說法正確的是( )A.兒子身高是關于父親身高的函數B.當父親身高增加時,兒子身高增加C.兒子身高為時,父親身高一定為D.父親身高為時,兒子身高的均值為2.(2024·天津河西·一模)隨著居民家庭收入的不斷提高,人們對居住條件的改善的需求也在逐漸升溫.某城市統計了最近5個月的房屋交易量,如下表所示:時間 1 2 3 4 5交易量(萬套) 0.8 1.0 1.2 1.5若與滿足一元線性回歸模型,且經驗回歸方程為,則下列說法錯誤的是( )A.根據表中數據可知,變量與正相關B.經驗回歸方程中C.可以預測時房屋交易量約為(萬套)D.時,殘差為3.(2024·天津·一模)下列說法正確的是( )A.一組數據的第80百分位數為17;B.根據分類變量與的成對樣本數據,計算得到,根據小概率值的獨立性檢驗,可判斷與有關聯,此推斷犯錯誤的概率不大于0.05;C.兩個隨機變量的線性相關性越強,相關系數的絕對值越接近于0;D.若隨機變量滿足,則.4.(23-24高三上·天津北辰·期中)下列結論中,錯誤的是( )A.數據4,1,6,2,9,5,8的第60百分位數為6B.若隨機變量,則C.已知經驗回歸方程為,且,則D.根據分類變量與成對樣本數據,計算得到,依據小概率值的獨立性檢驗,可判斷與有關聯,此推斷犯錯誤的概率不大于0.001二、多選題5.(2023·湖北·模擬預測)下列命題中正確的是( )A.若樣本數據,,,的樣本方差為3,則數據,,,的方差為7B.經驗回歸方程為時,變量x和y負相關C.對于隨機事件A與B,,,若,則事件A與B相互獨立D.若,則取最大值時6.(2024·山東棗莊·模擬預測)已知兩個變量y與x對應關系如下表:x 1 2 3 4 5y 5 m 8 9 10.5若y與x滿足一元線性回歸模型,且經驗回歸方程為,則( )A.y與x正相關 B.C.樣本數據y的第60百分位數為8 D.各組數據的殘差和為07.(2024·湖北武漢·二模)下列結論正確的是( )A.一組數據7,8,8,9,11,13,15,17,20,22的第80百分位數為17B.若隨機變量,滿足,則C.若隨機變量,且,則D.根據分類變量與的成對樣本數據,計算得到.依據的獨立性檢驗,可判斷與有關三、填空題8.(23-24高三下·上海嘉定·階段練習)某產品的廣告支出費用x(單位:萬元)與銷售額y(單位:萬元)的數據如下表:x 2 4 5 6 8y 30 40 a 50 70已知y關于x的線性回歸方程為,則表格中實數a的值為 .9.(23-24高二下·江西贛州·期中)甲、乙、丙、丁各自研究兩個隨機變量的數據,若甲、乙、丙、丁計算得到各自研究的兩個隨機變量的線性相關系數分別為,,,,則這四人中, 研究的兩個隨機變量的線性相關程度最高.10.(2024·上海長寧·二模)收集數據,利用列聯表,分析學習成績好與上課注意力集中是否有關時,提出的零假設為:學習成績好與上課注意力集中 (填:有關或無關)四、解答題11.(2024·四川成都·模擬預測)數據顯示,中國在線直播用戶規模及在線直播購物規模近幾年都保持高速增長態勢,某線下家電商場為提升人氣和提高營業額也開通了在線直播,下表統計了該商場開通在線直播的第x天的線下顧客人數y(單位:百人)的數據:x 1 2 3 4 5y 10 12 15 18 20(1)根據第1至第5天的數據分析,計算變量y與x的相關系數r,并用r判斷兩個變量y與x相關關系的強弱(精確到小數點后三位);(2)根據第1至第5天的數據分析,可用線性回歸模型擬合y與x的關系,試求出該線性回歸方程并估計該商場開通在線直播的第10天的線下顧客人數.(參考公式:相關系數,參考數據:回歸方程:,其中,)12.(2024·四川內江·三模)2024年2月10日至17日(正月初一至初八),“2024 內江市中區新春極光焰火草地狂歡節”在川南大草原舉行,共舉行了8場精彩的煙花秀節目.前5場的觀眾人數(單位:萬人)與場次的統計數據如表所示:場次編號 1 2 3 4 5觀眾人數 0.7 0.8 1 1.2 1.3(1)已知可用線性回歸模型擬合與的關系,請建立關于的線性回歸方程;(2)若該煙花秀節目分A、B、C三個等次的票價,某機構隨機調查了該煙花秀節目現場200位觀眾的性別與購票情況,得到的部分數據如表所示,請將列聯表補充完整,并判斷能否有的把握認為該煙花秀節目的觀眾是否購買A等票與性別有關.購買A等票 購買非A等票 總計男性觀眾 50女性觀眾 60總計 100 200參考公式及參考數據:回歸方程中斜率與截距的最小二乘法估計公式分別為,其中.0.100 0.050 0.0102.706 3.841 6.635參考答案:題號 1 2 3 4 5 6 7答案 D D B D BC AD CD1.D【分析】根據變量的線性相關、經驗回歸方程特點逐項分析即可得結論.【詳解】由題意知父親身高與兒子身高具有線性相關關系,不是函數關系,故A不正確;當父親身高增加時,兒子身高約增加,故B不正確;當兒子身高為時,代入可得,父親身高可能為,故C不正確;若某父親身高為,則其兒子的身高估計為,故D正確.故選:D.2.D【分析】首先求出、,根據回歸方程必過樣本中心點求出參數,從而得到回歸方程,再一一判斷即可.【詳解】對于B,依題意,,所以,解得,所以,故B正確;對于A,因為經驗回歸方程,,所以變量與正相關,故A正確;對于C,當時,,所以可以預測時房屋交易量約為(萬套),故C正確;對于D,當時,,所以時,殘差為,故D錯誤.故選:D3.B【分析】A選項,由百分位數的定義得到答案;B選項,,得到結論;C選項,由相關系數的性質得到C錯誤;D選項,由方差的性質得到D錯誤.【詳解】A選項,,故從小到大排列,第8個數和第9個數的平均數作為第80百分位數,即,A錯誤;B選項,由于,得到與有關聯,此推斷犯錯誤的概率不大于0.05,B正確;C選項,兩個隨機變量的線性相關性越強,相關系數的絕對值越接近于1,C錯誤;D選項,若隨機變量滿足,則,D錯誤.故選:B4.D【分析】A選項,將數據排序后,根據百分位數的定義得到答案;B選項,由正態分布的對稱性得到答案;C選項,將樣本中心點代入回歸方程,求出;D選項,由得到D錯誤.【詳解】A選項,數據4,1,6,2,9,5,8排序后得到1,2,4,5,6,8,9,,故選取第5個數據作為第60百分位數,即為6,A正確;B選項,因為,根據對稱性可知,故,B正確;C選項,已知經驗回歸方程為,且,則,解得,C正確;D選項,,故不能得到此結論,D錯誤故選:D5.BC【分析】根據方差的性質可判斷A;根據變量x,y的線性回歸方程的系數,可判斷B;利用條件概率及獨立事件的定義可判斷C;根據二項分布概率公式可判斷D.【詳解】對于A,數據,,…,的方差為,所以A錯誤;對于B,回歸方程的直線斜率為負數,所以變量x與y呈負的線性相關關系,所以B正確;對于C,由,得,所以事件A與事件B獨立,所以C正確;對于D,由,即,解得或,所以D錯誤.故選:BC.6.AD【分析】利用相關性的定義及線性回歸直線可判定A,根據樣本中心點在回歸方程上可判定B,利用百分位數的計算可判定C,利用回歸方程計算預測值可得殘差即可判定D.【詳解】由回歸直線方程知:,所以y與x正相關,即A正確;由表格數據及回歸方程易知,即B錯誤;易知,所以樣本數據y的第60百分位數為,即C錯誤;由回歸直線方程知時對應的預測值分別為,對應殘差分別為,顯然殘差之和為0,即D正確.故選:AD7.CD【分析】A應用百分位數求法判斷;B由方差性質判斷;C根據正態分布對稱性求概率判斷;D由獨立檢驗的基本思想判斷結論.【詳解】A:由,故第80百分位數為,錯;B:由方差的性質知:,錯;C:由正態分布性質,隨機變量的正態曲線關于對稱,所以,對;D:由題設,結合獨立檢驗的基本思想,在小概率情況下與有關,對.故選:CD8.【分析】先求出,代入回歸方程求出,再列方程求實數a的值.【詳解】由條件得,則,所以,解得.故答案為:.9.乙【分析】根據相關系數的定義判斷即可.【詳解】因為,所以這四人中,乙研究的兩個隨機變量的線性相關程度最高,故答案為:乙.10.無關【分析】根據題意,由零假設的定義,即可得到結果.【詳解】零假設等價于兩個變量相互獨立,所以此題中的零假設為:學習成績好與上課注意力集中無關.故答案為:無關11.(1)0.997,相關關系很強.(2),33.2百人.【分析】(1)根據所給數據及參考公式計算出相關系數,即可判斷;(2)首先求出回歸直線方程,再令求出即可得解.【詳解】(1)依題意可得,, , , , ,,∴兩個變量與相關關系很強.(2)因為,,,,所以時(百人),故預估該商場開通在線直播的第天的線下顧客人數為百人.12.(1)(2)表格見解析,沒有【分析】(1)利用表中數據結合最小二乘法計算回歸直線即可;(2)根據題意補全列聯表即可,再由卡方公式及獨立性檢驗的思想判定結果即可.【詳解】(1)由表格可知,,,所以,則;(2)根據數據補全表格如下:購買A等票 購買非A等票 總計男性觀眾 40 50 90女性觀眾 60 50 110總計 100 100 200所以,故沒有的把握認為該煙花秀節目的觀眾是否購買A等票與性別有關.【能力篇】一、單選題1.(2024·河北·一模)某校為了解本校高一男生身高和體重的相關關系,在該校高一年級隨機抽取了7名男生,測量了他們的身高和體重得下表:身高(單位: 167 173 175 177 178 180 181體重(單位: 90 54 59 64 67 72 76由表格制作成如圖所示的散點圖: 由最小二乘法計算得到經驗回歸直線的方程為,其相關系數為;經過殘差分析,點對應殘差過大,把它去掉后,再用剩下的6組數據計算得到經驗回歸直線的方程為,相關系數為.則下列選項正確的是( )A.B.C.D.二、多選題2.(2024·湖南·一模)下列說法中,正確的是( )A.設有一個經驗回歸方程為,變量增加1個單位時,平均增加2個單位B.已知隨機變量,若,則C.兩組樣本數據和.若已知且,則D.已知一系列樣本點的經驗回歸方程為,若樣本點與的殘差相等,則三、填空題3.(2024·重慶·三模)對具有線性相關關系的變量有一組觀測數據,其經驗回歸方程,則在樣本點處的殘差為 .四、解答題4.(22-23高二下·浙江·階段練習)人工智能正在改變我們的世界,由OpenAI開發的人工智能劃時代標志的ChatGPT能更好地理解人類的意圖,并且可以更好地回答人類的問題,被人們稱為人類的第四次工業革命.它滲透人類社會的方方面面,讓人類更高效地生活.現對130人的樣本使用ChatGPT對服務業勞動力市場的潛在影響進行調查,其數據的統計結果如下表所示:ChatGPT應 用的廣泛性 服務業就業人數的 合計減少 增加廣泛應用 60 10 70沒廣泛應用 40 20 60合計 100 30 130(1)根據小概率值的獨立性檢驗,是否有的把握認為ChatGPT應用的廣泛性與服務業就業人數的增減有關?(2)現從“服務業就業人數會減少”的100人中按分層隨機抽樣的方法抽取5人,再從這5人中隨機抽取3人,記抽取的3人中有人認為人工智能會在服務業中廣泛應用,求的分布列和均值.附:,其中.0.1 0.05 0.012.706 3.841 6.635參考答案:題號 1 2答案 A BC1.A【分析】根據的特點判斷斜率和截距;由于去掉,其它點的線性關系更強,從而可判斷相關系數.【詳解】身高的平均數為,因為離群點的橫坐標167小于平均值176,縱坐標90相對過大,所以去掉后經驗回歸直線的截距變小而斜率變大,故去掉后相關性更強,擬合效果也更好,且還是正相關,,故選:A.2.BC【分析】根據回歸方程可判定A,根據正態分布可判定B,根據數據的平均數可判定C,根據回歸方程及殘差的概念可判定D.【詳解】若有一個經驗回歸方程,隨著的增大,會減小,A錯誤;曲線關于對稱,因為,所以,所以,B正確;因為,所以,故,C正確;經驗回歸方程為,且樣本點與的殘差相等,則,所以,D錯誤.故選:BC.3.0.5/【分析】利用樣本中心在回歸直線上及殘差的定義即可求解.【詳解】將代入,得,解得,所以,故當時,,所以殘差.故答案為:0.5.4.(1)沒有(2)分布列見解析,【分析】(1)根據題意求,并與臨界值對比判斷;(2)根據分層抽樣求各層人數,結合超幾何分布求分布列和期望.【詳解】(1)零假設為:ChatGPT對服務業就業人數的增減無關.根據表中數據得,所以根據小概率值的獨立性檢驗,沒有充分證據推斷不成立,因此可以認為無關.(2)由題意得,采用分層抽樣抽取出的5人中,有人認為人工智能會在服務業中廣泛應用,有人認為人工智能不會在服務業中廣泛應用,則的可能取值為,又,所以的分布列為1 2 3所以.21世紀教育網(www.21cnjy.com) 展開更多...... 收起↑ 資源列表 2025年高考數學一輪復習講義專題57成對數據的統計分析(原卷版).docx 2025年高考數學一輪復習講義專題57成對數據的統計分析(解析版).docx 縮略圖、資源來源于二一教育資源庫