資源簡介 統計與統計案例考點1 統計圖表和樣本數字特征1.(2020·新高考卷Ⅱ改編)我國新冠肺炎疫情防控進入常態化,各地有序推進復工復產,下面是某地連續11天復工復產指數折線圖,下列說法正確的是( )①這11天復工指數和復產指數均逐日增加;②這11天期間,復產指數增量大于復工指數的增量;③第3天至第11天復工復產指數均超過80%;④第9天至第11天復產指數增量大于復工指數的增量.A.①② B.②③C.③④ D.②④C [由圖可知,第1天到第2天復工指數減少,第7天到第8天復工指數減少,第10天到第11天復工指數減少,第8天到第9天復產指數減少,故①錯誤;由圖可知,第1天的復產指數與復工指數的差大于第11天的復產指數與復工指數的差,所以這11天期間,復產指數增量小于復工指數的增量,故②錯誤;由圖可知,第3天至第11天復工復產指數均超過80%,故③正確;由圖可知,第9天至第11天復產指數增量大于復工指數的增量,故④正確,故選C.]2.(2019·全國卷Ⅱ)演講比賽共有9位評委分別給出某選手的原始評分,評定該選手的成績時,從9個原始評分中去掉1個最高分、1個最低分,得到7個有效評分.7個有效評分與9個原始評分相比,不變的數字特征是( )A.中位數 B.平均數C.方差 D.極差A [記9個原始評分分別為a,b,c,d,e,f,g,h,i(按從小到大的順序排列),易知e為7個有效評分與9個原始評分的中位數,故不變的數字特征是中位數,故選A.]3.(2021·全國卷乙)某廠研制了一種生產高精產品的設備,為檢驗新設備生產產品的某項指標有無提高,用一臺舊設備和一臺新設備各生產了10件產品,得到各件產品該項指標數據如下:舊設備 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7新設備 10.1 10.4 10.1 10.0 10.1 10.3 10.6 10.5 10.4 10.5舊設備和新設備生產產品的該項指標的樣本平均數分別記為和,樣本方差分別記為s和s.(1)求,,s,s;(2)判斷新設備生產產品的該項指標的均值較舊設備是否有顯著提高(如果-≥2,則認為新設備生產產品的該項指標的均值較舊設備有顯著提高,否則不認為有顯著提高).[解] (1)由表格中的數據易得:=+10.0=10.0,=+10.0=10.3,s=×[(9.7-10.0)2+2×(9.8-10.0)2+(9.9-10.0)2+2×(10.0-10.0)2+(10.1-10.0)2+2×(10.2-10.0)2+(10.3-10.0)2]=0.036,s=×[(10.0-10.3)2+3×(10.1-10.3)2+(10.3-10.3)2+2×(10.4-10.3)2+2×(10.5-10.3)2+(10.6-10.3)2]=0.04.(2)由(1)中數據可得-=10.3-10.0=0.3,而2==,顯然有->2成立,所以認為新設備生產產品的該項指標的均值較舊設備有顯著提高.命題規律:樣本的數字特征、統計圖表主要以選擇題、填空題形式出現,難度較小.通性通法:總體估計的方法(1)統計量法:①若數據已知,常借助,s2等量對樣本總體做出估計,其中=,s2= (xi-)2.②若數據未知,如以頻率分布直方圖形式給出,則應明確直方圖中各統計量的求法.(2)圖表分析法:若根據圖表比較樣本數據的大小,可根據數據分布情況直觀分析,大致判斷平均數的范圍,并依據數據的波動情況比較方差(標準差)的大小.1.[數字特征的計算](2021·廣東模擬)已知數據x1,x2,x3,x4,x5,x6的平均數是5,方差是9,則x+x+x+x+x+x=( )A.159 B.204C.231 D.636B [根據題意,數據x1,x2,x3,x4,x5,x6的平均數=5,方差s2=9,則s2=(x+x+x+x+x+x)-2=9,變形可得:x+x+x+x+x+x=204,故選B.]2.[以頻率分布直方圖為載體](2021·遼寧模擬)某公司為提高職工政治素養,對全體職工進行了一次時事政治測試,隨機抽取了100名職工的成績,并將其制成如圖所示的頻率分布直方圖,以樣本估計總體,則下列結論中正確的是( )A.該公司職工的測試成績不低于60分的人數約占總人數的80%B.該公司職工測試成績的中位數約為75分C.該公司職工測試成績的平均值約為68分D.該公司職工測試成績的眾數約為60分C [由頻率分布直方圖,得:對于A,該公司職工的測試成績不低于60分的頻率為:(0.02+0.015)×20=0.70,∴該公司職工的測試成績不低于60分的人數約占總人數的70%,故A錯誤;對于B,測試成績在[20,60)的頻率為(0.005+0.01)×20=0.3,測試成績在[60,80)的頻率為0.02×20=0.4,∴該公司職工測試成績的中位數約為:60+×20=70分,故B錯誤;對于C,該公司職工測試成績的平均值約為:=30×0.005×20+50×0.01×20+70×0.02×20+90×0.015×20=68分,故C正確;對于D,該公司職工測試成績的眾數約為:=70分,故D錯誤.故選C.]3.[以餅形圖為載體]據了解,到本世紀中葉中國人口老齡化問題將日趨嚴重,如圖是專家預測中國2050年人口比例圖,若從2050年開始退休年齡將延遲到65歲,則下列敘述正確的是( )人口比例圖A.到2050年已經退休的人數將超過40%B.2050年中國46~55歲的人數比16~25歲的人數多30%C.2050年中國25歲以上未退休的人口數大約是已退休人口數的2倍D.按照分層抽樣的方法從16~55歲之間的人群中抽取一個容量為n的樣本,若樣本中46~55歲比26~35歲多6人,則n=104D [由餅形圖知2050年中國將有約32%的人已經退休,所以選項A錯誤;設46~55歲的人數為16x人,16~25歲的人數為13x人,則46~55歲的人數比16~25歲的人數多=≈23%,所以選項B錯誤;25歲以上未退休的人口數占48%,已退休人口數占32%,所以25歲以上未退休的人口數大約是已退休人口數的1.5倍,所以選項C錯誤;由題意知-=6,解得n=104,所以選項D正確,故選D.]考點2 回歸分析1.(2020·全國卷Ⅰ)某校一個課外學習小組為研究某作物種子的發芽率y和溫度x(單位:℃)的關系,在20個不同的溫度條件下進行種子發芽實驗,由實驗數據(xi,yi)(i=1,2,…,20)得到下面的散點圖:由此散點圖,在10 ℃至40 ℃之間,下面四個回歸方程類型中最適宜作為發芽率y和溫度x的回歸方程類型的是( )A.y=a+bx B.y=a+bx2C.y=a+bex D.y=a+bln xD [根據散點圖,用光滑的曲線把圖中各點依次連起來(圖略),由圖并結合選項可排除A,B,C,故選D.]2.(2020·全國卷Ⅱ)某沙漠地區經過治理,生態系統得到很大改善,野生動物數量有所增加.為調查該地區某種野生動物的數量,將其分成面積相近的200個地塊,從這些地塊中用簡單隨機抽樣的方法抽取20個作為樣區,調查得到樣本數據(xi,yi)(i=1,2,…,20),其中xi和yi分別表示第i個樣區的植物覆蓋面積(單位:公頃)和這種野生動物的數量,并計算得xi=60,yi=1 200, (xi-)2=80, (yi-)2=9 000, (xi-)(yi-)=800.(1)求該地區這種野生動物數量的估計值(這種野生動物數量的估計值等于樣區這種野生動物數量的平均數乘以地塊數);(2)求樣本(xi,yi)(i=1,2,…,20)的相關系數(精確到0.01);(3)根據現有統計資料,各地塊間植物覆蓋面積差異很大,為提高樣本的代表性以獲得該地區這種野生動物數量更準確的估計,請給出一種你認為更合理的抽樣方法,并說明理由.附:相關系數r=eq \f(\o() xi-\x\to(x) yi-\x\to(y) ,\r(\o() xi-\x\to(x) 2\o() yi-\x\to(y) 2)),≈1.414.[解] (1)由已知得樣本平均數=i=60,從而該地區這種野生動物數量的估計值為60×200=12 000.(2)樣本(xi,yi)(i=1,2,…,20)的相關系數r===≈0.94.(3)分層抽樣:根據植物覆蓋面積的大小對地塊分層,再對200個地塊進行分層抽樣.理由如下:由(2)知各樣區的這種野生動物數量與植物覆蓋面積有很強的正相關.由于各地塊間植物覆蓋面積差異很大,從而各地塊間這種野生動物數量差異也很大,采用分層抽樣的方法較好地保持了樣本結構與總體結構的一致性,提高了樣本的代表性,從而可以獲得該地區這種野生動物數量更準確的估計.命題規律:高考對該點的考查主要立足兩點:一是考查學生的數據提取,數據分析能力;二是考查學生的數學建模能力,難度適中.通性通法:進行回歸分析的一般思路(1)定關系:依據樣本數據散點圖或相關系數r,確定兩個變量是否具有較強的相關關系.(2)算各值:分別計算,,x,xiyi的值.(3)求系數:求出回歸系數,.其中==eq \f(\o(∑,\s\up7(n),\s\do8(i=1))xiyi-n\o(\x\to(x))\o(\x\to(y)),\o(∑,\s\up7(n),\s\do8(i=1))x\o\al(2,i)-n\x\to(x)).(4)寫方程:=x+.(5)作預測:依據回歸方程給出預測值.提醒:非線性回歸分析可借助代數變換轉化為線性回歸分析.1.[回歸方程的性質]蟋蟀鳴叫可以說是大自然優美、和諧的音樂,殊不知蟋蟀鳴叫的頻率x(每分鐘鳴叫的次數)與氣溫y(單位:℃)存在著較強的線性相關關系.某地觀測人員根據如表的觀測數據,建立了y關于x的線性回歸方程=0.25x+k,則下列說法不正確的是( )x(次數/分鐘) 20 30 40 50 60y(℃) 25 27.5 29 32.5 36A.k的值是20B.變量x,y呈正相關關系 C.若x的值增加1,則y的值約增加0.25D.當蟋蟀52次/分鳴叫時,該地當時的氣溫預報值為33.5 ℃D [由題意,得=(20+30+40+50+60)=40,=(25+27.5+29+32.5+36)=30,則k=-0.25=30-0.25×40=20,故A正確;由線性回歸方程可知,=0.25>0,變量x,y呈正相關關系,故B正確;若x的值增加1,則y的值約增加0.25,故C正確;當x=52時,=0.25×52+20=33,故D錯誤.故選D.]2.[回歸分析]近年來,明代著名醫藥學家李時珍故鄉黃岡市蘄春縣大力發展大健康產業,蘄艾產業化種植已經成為該縣脫貧攻堅的主要產業之一,已知蘄艾的株高y(單位:cm)與一定范圍內的溫度x(單位:℃)有關,現收集了蘄艾的13組觀測數據,得到如圖的散點圖:現根據散點圖利用y=a+b或y=c+建立y關于x的回歸方程,令s=,t=得到如下數據:10.15 109.94 3.04 0.16siyi-13 tiyi-13 s-132 t-132 y-13213.94 -2.1 11.67 0.21 21.22且(si,yi)與(ti,yi)(i=1,2,3,…,13)的相關系數分別為r1,r2且r2=-0.995 3.(1)用相關系數說明哪種模型建立y與x的回歸方程更合適;(2)根據(1)的結果及表中數據,建立關于x的回歸方程;(3)已知蘄艾的利潤z與x,y的關系為z=20y-x,當x為何值時,z的預報值最大.附:參考數據和公式:0.21×21.22=4.456 2,11.67×21.22=247.637 4,=15.736 5,對于一組數據(ui,vi)(i=1,2,3,…,n),其回歸直線方程=+u的斜率和截距的最小二乘法估計分別為=eq \f(\o(∑,\s\up7(n),\s\do8(i=1))uivi-n\o(u,\s\up7(-))\o(v,\s\up7(-)),\o(∑,\s\up7(n),\s\do8(i=1))u\o\al(2,i)-n\o(u,\s\up7(-))),=-,相關系數r=eq \f(\o(∑,\s\up7(n),\s\do8(i=1))uivi-n\o(u,\s\up7(-))\o(v,\s\up7(-)),\r(\o(∑,\s\up7(n),\s\do8(i=1))u\o\al(2,i)-n\o(u,\s\up7(-)))\r(\o(∑,\s\up7(n),\s\do8(i=1))v\o\al(2,i)-n\o(v,\s\up7(-)))).[解] (1)相關系數r2=-0.995 3,r1=eq \f(\o(∑,\s\up7(13),\s\do8(i=1))siyi-13\o(s,\s\up7(-))\o(y,\s\up7(-)),\r(\o(∑,\s\up7(13),\s\do8(i=1))s\o\al(2,i)-13\o(s,\s\up7(-)))\r(\o(∑,\s\up7(13),\s\do8(i=1))y\o\al(2,i)-13\o(y,\s\up7(-))))=≈0.885 8,∵|r1|<|r2|<1,∴用模型y=c+建立y與x的回歸方程更合適.(2)根據(1)知,=eq \f(\o(∑,\s\up7(13),\s\do8(i=1))tiyi-13\o(t,\s\up7(-))\o(y,\s\up7(-)),\o(∑,\s\up7(13),\s\do8(i=1))t\o\al(2,i)-13\x\to(t))==-10,=-=109.94+10×0.16=111.54.∴關于x的回歸方程為=111.54-.(3)由題意知利潤函數z=20y-x=20×-x=2 230.8-,由基本不等式+≥2=20,當且僅當x=20時“=”成立,∴當氣溫x=20 ℃時,利潤z的預報值最大.考點3 獨立性檢驗(2020·新高考卷Ⅰ)為加強環境保護,治理空氣污染,環境監測部門對某市空氣質量進行調研,隨機抽查了100天空氣中的PM2.5和SO2濃度(單位:μg/m3),得下表:SO2PM2.5 [0,50] (50,150] (150,475][0,35] 32 18 4(35,75] 6 8 12(75,115] 3 7 10(1)估計事件“該市一天空氣中PM2.5濃度不超過75,且SO2濃度不超過150”的概率;(2)根據所給數據,完成下面的2×2列聯表:SO2PM2.5 [0,150] (150,475][0,75](75,115](3)根據(2)中的列聯表,判斷是否有99%的把握認為該市一天空氣中PM2.5濃度與SO2濃度有關?附:K2=,[解] (1)根據抽查數據,該市100天的空氣中PM2.5濃度不超過75,且SO2濃度不超過150的天數為32+18+6+8=64,因此,該市一天空氣中PM2.5濃度不超過75,且SO2濃度不超過150的概率的估計值為=0.64.(2)根據抽查數據,可得2×2列聯表:SO2PM2.5 [0,150] (150,475][0,75] 64 16(75,115] 10 10(3)根據(2)的列聯表得K2的觀測值k=≈7.484.由于7.484>6.635,故有99%的把握認為該市一天空氣中PM2.5濃度與SO2濃度有關.命題規律:該類問題常以統計圖、表為載體,以生活題材為背景,借助獨立性檢驗中的K2公式對兩類分類變量的相關性作出判斷.通性通法:獨立性檢驗的一般步驟(1)根據樣本數據列成2×2列聯表;(2)根據公式K2=,計算K2的值;(3)查表比較K2與臨界值的大小關系,作統計判斷.1.[以“五育”為載體](2021·濟南二模)第24屆冬季奧林匹克運動會將于2022年在北京舉辦.為了解某城市居民對冰雪運動的關注情況,隨機抽取了該市100人進行調查統計,得到如下2×2列聯表.男 女 總計關注冰雪運動 35 25 60不關注冰雪運動 15 25 40總計 50 50 100根據列聯表可知( )參考公式:K2=,其中n=a+b+c+d.附表:P(K2≥k0) 0.100 0.050 0.010 0.001k0 2.706 3.841 6.635 10.828A.該市女性居民中大約有5%的人關注冰雪運動B.該市男性居民中大約有95%的人關注冰雪運動C.有95%的把握認為該市居民是否關注冰雪運動與性別有關D.有99%的把握認為該市居民是否關注冰雪運動與性別有關C [由2×2列聯表中的數據可得K2=≈4.167>3.841,因此,有95%的把握認為該市居民是否關注冰雪運動與性別有關.故選C.]2.[與實際生活相聯系]調查某種新型作物A在某地的耕種狀況與農民收入的關系,現在當地農戶中隨機選取了300戶農民進行了統計,發現當年收入水平提高的農戶占,而當年選擇耕種A作物的農戶占,既選擇A作物又收入提高的農戶為180戶.完成下面2×2列聯表,并分析是否有97.5%的把握認為種植A作物與收入提高有關;種植A作物的數量 未種植A作物的數量 總計收入提高的數量收入未提高的數量總計附:K2=,n=a+b+c+d.P(K2≥k0) 0.10 0.05 0.025 0.010 0.005 0.001k0 2.706 3.841 5.024 6.635 7.879 10.828[解] 由題意知:收入提高的有300×=260戶,未種植A作物的有300×=100戶,得2×2列聯表如下:種植A作物的數量 未種植A作物的數量 總計收入提高的數量 180 80 260收入未提高的數量 20 20 40總計 200 100 300經計算得:K2=≈5.769>5.024,∴有97.5%的把握認為收入提高與種植A作物有關.9/13 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫