資源簡介 專題13 統計易錯點一:統計用表中概念不清、識圖不準致誤(頻率分布直方圖、總體取值規律)頻率分布直方圖作頻率分布直方圖的步驟①求極差:極差為一組數據中最大值與最小值的差.②決定組距與組數將數據分組時,一般取等長組距,并且組距應力求“取整”,組數應力求合適,以使數據的分布規律能較清楚地呈現出來.③將數據分組④列頻率分布表各小組的頻率=.⑤畫頻率分布直方圖縱軸表示,實際上就是頻率分布直方圖中各小長方形的高度,小長方形的面積=組距×=頻率.頻率分布直方圖的性質①因為小矩形的面積=組距×=頻率,所以各小矩形的面積表示相應各組的頻率.這樣,頻率分布直方圖就以面積的形式反映了數據落在各個小組內的頻率大小.②在頻率分布直方圖中,各小矩形的面積之和等于1.③=樣本容量.④頻率分布直方圖反映了樣本在各個范圍內取值的可能性,由抽樣的代表性利用樣本在某一范圍內的頻率,可近似地估計總體在這一范圍內的可能性.易錯提醒:頻率分布條形圖和頻率分布直方圖是兩個完全不同的概念,考生應注意兩者之間的區別.雖然它們的橫軸表示的內容是相同的,但是頻率分布條形圖的縱軸表示頻率;頻率分布直方圖的縱軸表示頻率與組距的比值,其各小組的頻率等于該小組上的矩形的面積.例:如圖所示是某公司(共有員工300人)2021年員工年薪情況的頻率分布直方圖,由此可知,員工中年薪在1.4萬元~1.6萬元之間的共有______人.易錯分析:解本題容易出現的錯誤是審題不細,對所給圖形觀察不細心,認為員工中年薪在1.4萬元~1.6萬元之間的頻率為,從而得到員工中年薪在1.4萬元~1.6萬元之間的共有(人)的錯誤結論.正解:由所給圖形,可知員工中年薪在1.4萬元~1.6萬元之間的頻率為,所以員工中年薪在1.4萬元~1.6萬元之間的共有(人).故72.易錯警示:考生誤認為頻率分布直方圖中縱軸表示的是頻率,這是錯誤的,而是“頻率/組距”,所以頻率對應的是各矩形的面積.變式1:某大學有男生名.為了解該校男生的身體體重情況,隨機抽查了該校名男生的體重,并將這名男生的體重(單位:)分成以下六組:、、、、、,繪制成如下的頻率分布直方圖:該校體重(單位:)在區間上的男生大約有 人.變式2:現對某類文物進行某種物性指標檢測,從件中隨機抽取了件,測量物性指標值,得到如下頻率分布直方圖,據此估計這件文物中物性指標值不小于的件數為 .變式3:如圖是根據我國部分城市某年6月份的平均氣溫數據得到的樣本頻率分布直方圖,其中平均氣溫的范圍是[20,26], 樣本數據的分組為[20,21), [21,22),[22, 23),[23, 24), [24, 25),[25,26]. 已知樣本中平均氣溫低于22°C的城市個數為11,樣本中平均氣溫不低于25°C的城市個數是 .1.已知某班全體學生在某次數學考試中的成績(單位:分)的頻率分布直方圖如圖所示,則圖中a所代表的數值是 .2.某校共有400名學生參加了趣味知識競賽(滿分:150分),且每位學生的競賽成績均不低于90分.將這400名學生的競賽成績分組如下:,得到的頻率分布直方圖如圖所示,則這400名學生中競賽成績不低于120分的人數為 .3.從某小學所有學生中隨機抽取100名學生,將他們的身高(單位:)數據繪制成頻率分布直方圖(如圖),其中樣本數據分組,則= . 4.某工廠抽取100件產品測其重量(單位:).其中每件產品的重量范圍是.數據的分組依次為,據此繪制出如圖所示的頻率分布直方圖,則重量在內的產品件數為 . 5.某研究小組經過研究發現某種疾病的患病者與未患病者的某項醫學指標有明顯差異,經過大量調查,得到如下的患病者和未患病者該指標的頻率分布直方圖: 利用該指標制定一個檢測標準,需要確定臨界值,將該指標大于的人判定為陽性,小于或等于的人判定為陰性,此檢測標準的漏診率是將患病者判定為陰性的概率,記為;誤診率是將未患病者判定為陽性的概率,記為.假設數據在組內均勻分布,以事件發生的頻率作為相應事件發生的概率.設函數,則函數在區間取得最小值時 .6.某大學有男生10000名.為了解該校男生的身體體重情況,隨機抽查了該校100名男生的體重,并將這100名男生的體重(單位:kg)分成以下六組:、、、、、,繪制成如圖所示的頻率分布直方圖,該校體重(單位:)在區間上的男生大約有 人. 7.某中學為了解高三男生的體能情況,通過隨機抽樣,獲得了200名男生的100米體能測試成績(單位:秒),將數據按照,,…,分成9組,制成了如圖所示的頻率分布直方圖.由直方圖估計本校高三男生100米體能測試成績大于13.25秒的頻率是 . 8.某工廠對一批產品的長度(單位:)進行檢驗,將抽查的產品所得數據分為五組,整理后得到的頻率分布直方圖如圖所示,若長度在以下的產品有30個,則長度在區間內的產品個數為 . 9.某中學為了解學生的數學學習情況,在全體學生中隨機抽取200名,統計這200名學生某次數學考試的成績,將所得的數據分為7組:,,…,,,并整理得到如下頻率分布直方圖,則在被抽取的學生中,該次數學考試成績不低于80分的人數為 . 10.某區為了解全區名高二學生的體能素質情況,在全區高二學生中隨機抽取了名學生進行體能測試,并將這名的體能測試成績整理成如下頻率分布直方圖.根據此頻率分布直方圖,這名學生平均成績的估計值為 . 11.將一個容量為100的樣本數據,按照從小到大的順序分為8個組,如下表:組號 1 2 3 4 5 6 7 8頻數 10 16 18 15 11 9若第6組的頻率是第3組頻率的2倍,則第6組的頻率是 .12.節約用水是中華民族的傳統美德,某市政府希望在本市試行居民生活用水定額管理,即確定一個合理的居民月用水量標準(噸),用水量不超過的部分按平價收費,超過的部分按議價收費.為此希望已經學習過統計的小明,來給出建議.為了了解全市居民用水量的分布情況,小明通過隨機走訪,獲得了100位居民某年的月均用水量(單位:噸),將數據按照分成9組,制成了如圖所示的頻率分布直方圖.若該市政府希望使的居民每月的用水量不超過標準(噸),如果你是小明,你覺得的估計值為 (精確到小數點后1位)易錯點二:統計中的數字特征的實際意義理解不清楚致誤(頻率分布直方圖特征數考查)眾數、中位數、平均數①眾數:一組數據中出現次數最多的數.②中位數:把一組數據按從小到大(或從大到小)的順序排列,處在中間位置的數(或中間兩個數的平均數)叫做這組數據的中位數.③平均數:如果n個數x1,x2,…,xn,那么叫做這n個數的平均數.總體集中趨勢的估計①平均數、中位數和眾數等都是刻畫“中心位置”的量,它們從不同角度刻畫了一組數據的集中趨勢.②一般地,對數值型數據(如用水量、身高、收入、產量等)集中趨勢的描述,可以用平均數、中位數;而對分類型數據(如校服規格、性別、產品質量等級等)集中趨勢的描述,可以用眾數.頻率分布直方圖中平均數、中位數、眾數的求法①樣本平均數:可以用每個小矩形底邊中點的橫坐標與小矩形面積的乘積之和近似代替.②在頻率分布直方圖中,中位數左邊和右邊的直方圖的面積應相等.③將最高小矩形所在的區間中點作為眾數的估計值.易錯提醒:利用頻率分布直方圖求眾數、中位數與平均數時,易出錯,應注意區分這三者.在頻率分布直方圖中:(1)最高的小長方形底邊中點的橫坐標即是眾數;(2)中位數左邊和右邊的小長方形的面積和是相等的;(3)平均數是頻率分布直方圖的“重心”,等于頻率分布直方圖中每個小長方形的面積乘以小長方形底邊中點的橫坐標之和.例.某班名學生期中考試數學成績的頻率分布直方圖如圖所示.根據頻率分布直方圖,估計該班本次測試眾數為 .變式1:為響應自己城市倡導的低碳出行,小李上班可以選擇自行車,他記錄了次騎車所用時間(單位:分鐘),得到頻率分布直方圖,則騎車時間的眾數的估計值是 分鐘 變式2:數學興趣小組的四名同學各自拋擲骰子5次,分別記錄每次骰子出現的點數,四名同學的部分統計結果如下:甲同學:中位數為3,方差為2.8; 乙同學:平均數為3.4,方差為1.04;丙同學:中位數為3,眾數為3; 丁同學:平均數為3,中位數為2.根據統計結果,數據中肯定沒有出現點數6的是 同學.變式3:以下5個命題中真命題的序號有 .①樣本數據的數字特征中,與眾數、中位數比較起來,平均數可以反映出更多的關于樣本數據全體的信息;②若數據,,,…,的標準差為S,則數據,,,…,的標準差為aS;③將二進制數轉化成十進制數是200;④x是區間[0,5]內任意一個整數,則滿足“”的概率是.1.2022年11月卡塔爾世界杯如期舉行,這是世界足球的一場盛宴.為了了解全民對足球的熱愛程度,組委會在某場比賽結束后,隨機抽取了1000名觀眾進行對足球“喜愛度”的調查評分,將得到的分數分成6段:,,,,,,得到如圖所示的頻率分布直方圖.圖中部分數據丟失,若已知這1000名觀眾評分的中位數估計值為87.5,則m= . 2.為了普及環保知識,增強環保意識,某中學隨機抽取30名學生參加環保知識測試,得分(十分制)如圖所示,假設得分值的中位數為,眾數為,平均數為,則的大小關系是 .3.《中國居民膳食指南()》數據顯示,歲至歲兒童青少年超重肥胖率高達.為了解某地中學生的體重情況,某機構從該地中學生中隨機抽取名學生,測量他們的體重(單位:千克),根據測量數據,按,,,,,分成六組,得到的頻率分布直方圖如圖所示.根據調查的數據,估計該地中學生體重的中位數是 .4.為了解某校高三學生的數學成績,隨機地抽查了該校100名高三學生的期中考試數學成績,得到頻率分布直方圖如圖所示.請根據以上信息,估計該校高三學生數學成績的中位數為 .(結果保留到小數點后兩位)5.2021年某省高考體育百米測試中,成績全部介于12秒與18秒之間,抽取其中100個樣本,將測試結果按如下方式分成六組:第一組,第二組,…,第六組,得到如下頻率分布直方圖.則該100名考生的成績的中位數(保留一位小數)是 .6.200輛汽車通過某一段公路時的時速的頻率分布直方圖如圖所示,則時速的眾數、中位數的估計值分別為 . 7.某快遞驛站統計了近期每天代收快件的數量,并制成如下圖所示的頻率分布直方圖.則該快遞驛站每天代收包裹數量的中位數為 .8.某質檢部門對某新產品的質量指標隨機抽取100件檢測,由檢測結果得到如圖所示的頻率分布直方圖.由頻率分布直方圖可以認為,該產品的質量指標值服從正態分布,其中近似為樣本平均數近似為樣本方差.設表示從該種產品中隨機抽取10件,其質量指標值位于的件數,則的數學期望= .(精確到)注:①同一組數據用該區間的中點值作代表,計算得樣本標準差;②若,則,.9.由于受到網絡電商的沖擊,某品牌的洗衣機在線下的銷售受到影響,承受了一定的經濟損失,現將地區200家實體店該品牌洗衣機的月經濟損失統計如圖所示,估算月經濟損失的平均數為,中位數為n,則 .10.某大學天文臺隨機調查了該校100位天文愛好者的年齡,得到如下樣本數據頻率分布直方圖,則估計該校100名天文愛好者的平均歲數為 . 11.眾數 平均數和中位數都描述了數據的集中趨勢,它們的大小關系和數據分布的形態有關.在如圖的分布形態中,分別表示眾數 平均數 中位數,則中最小值為 . 12.如圖為某工廠工人生產能力頻率分布直方圖,則估計此工廠工人生產能力的平均值為 . 易錯點三:運用數字特征作評價時考慮不周(方差、標準差的求算)方差、標準差①假設一組數據為,則這組數據的平均數,方差為,標準差②若假設一組數據為,它的平均數為,方差為,則一組數據為,的平均數為,方差為。③標準差刻畫了數據的離散程度或波動幅度,標準差越大,數據的離散程度越大;標準差越小,數據的離散程度越小.易錯提醒:方差(標準差)越大,說明數據的離散性越大;方差(標準差)越小,說明數據的離散性越小,數據越集中、穩定.用樣本的數字特征估計總體的數字特征時,如果抽樣的方法比較合理,那么樣本可以反映總體的信息,但從樣本得到的信息會有偏差,這些偏差是由樣本的隨機性引起的.雖然樣本的數字特征并不是總體真正的數字特征,而是總體的一個估計,但這種估計是合理的,特別是當樣本容量很大時,樣本的數字特征穩定于總體的數字特征.例、若甲、乙兩臺機床同時加工直徑為100 mm的零件,為了檢驗產品的質量,從產品中隨機抽取6件進行測量,測得數據如下:(單位:mm):甲:99,100,98,100,103;乙:99,100,102,99,100,100.通過計算,請你說明哪一臺機床加工的零件更符合要求.【錯解】==100,==100,因為兩個機床所加工零件的平均數相等,平均數描繪了數據的平均水平,所以兩臺機床加工的零件都符合要求.【錯因】平均數對數據有“取齊”作用,它描述了一組數據的平均水平,定量地反映了數據的集中趨勢,因此平均數是與樣本數據最接近、最理想的近似值,但由于樣本選取的隨機性,有時用平均數衡量總體的特征會失之偏頗,因此應進一步計算方差或標準差來比較它們的波動大小.【正解】==100,==100,s=×[(99-100)2+3×(100-100)2+(98-100)2+(103-100)2]=,s=×[2×(99-100)2+3×(100-100)2+(102-100)2]=1.s>s,說明甲機床加工的零件波動比較大.故乙機床加工的零件更符合要求.變式1:泉州,作為古代海上絲綢之路的起點,具有深厚的歷史文化底蘊,是全國同時擁有聯合國三大類非遺項目的唯一城市.為高效統籌整合優質文旅資源,文旅局在“五一”假期精心策劃文旅活動,使得來泉旅游人數突破了萬人次.某數學興趣小組為了解來泉游客的旅游體驗滿意度,用問卷的方式隨機調查了名來泉旅游的游客,被抽到的游客根據旅游體驗給出滿意度分值(滿分分),該興趣小組將收集到的數據分成五段:,,,,,處理后繪制了如下頻率分布直方圖. (1)求圖中的值并估計名游客滿意度分值的中位數(結果用分數表示);(2)已知在的平均數為,方差為,在的平均數為,方差為,試求被調查的名游客的滿意度分值的平均數及方差.變式2:拔尖創新人才是21世紀社會經濟發展的巨大動力,培養拔尖創新人才也成為世界各國教育的主要任務.某市為了解市民對拔尖人才培養理念的關注程度,舉辦了“拔尖人才素養必備”知識普及競賽,從所有答卷中隨機抽取100份作為樣本,將樣本的成績(滿分100分,成績均為不低于40分的整數)分成六段:,得到如圖所示的頻率分布直方圖.(1)求頻率分布直方圖中的值,并估計該市這次競賽成績的眾數;(2)已知落在的平均成績,方差,落在的平均成績,方差,求這兩組成績的總平均數和總方差.變式3:為了研究網民的上網習慣,某機構隨機抽取了年齡在10歲到60歲的網民進行問卷調查,按年齡分為5組,即,,,,,并繪制出頻率分布直方圖,如圖所示. (1)若按分層抽樣的方法,從上述網民中抽取n人做采訪,其中年齡在中被抽取的人數為7,求n;(2)若各區間的值以該區間的中點值作代表,求上述網民年齡的方差的估計值.1.已知甲、乙兩位同學在一次射擊練習中各射靶10次,射中環數頻率分布如圖所示: 令,分別表示甲、乙射中環數的均值;,分別表示甲、乙射中環數的方差,則( )A., B.,C., D.,2.某學校組織學生參加數學測試,某班成績的頻率分布直方圖如圖,數據的分組依次為.若不低于分的人數是人,且同一組中的數據用該組區間的中點值代表,則下列說法中正確的是( ) A.該班的學生人數是B.成績在的學生人數是C.估計該班成績的眾數是分D.估計該班成績的方差為3.從某企業生產的某種產品中抽取500件,測量這些產品的一項質量指標值,由測量結果得頻率分布直方圖,則這500件產品質量指標值的樣本方差是 (同一組中的數據用該組區間的中點值作代表).4.在一次區域統考中,為了了解各學科的成績情況,從所有考生成績中隨機抽出20位考生的成績進行統計分析,其中數學學科的頻率分布直方圖如圖所示,據此估計,在本次考試中數學成績的方差為 .(同一組中的數據用該組區間的中點值作代表)5.為了解本市居民的生活成本,甲 乙 丙三名同學利用假期分別對三個社區進行了“家庭每月日常消費額”的調查.他們將調查所得的數據分別繪制成頻率分布直方圖(如圖所示),記甲 乙 丙所調查數據的標準差分別為,,,則它們的大小關系為 .6.某工廠從生產的一批產品中隨機抽出一部分,對這些產品的一項質量指標進行了檢測,整理檢測結果得到如下頻率分布表:質量指標分組頻率 0.1 0.6 0.3據此可估計這批產品的此項質量指標的方差為 .7.2023年10月22日,漢江生態城2023襄陽馬拉松在湖北省襄陽市成功舉行,志愿者的服務工作是馬拉松成功舉辦的重要保障,襄陽市新時代文明實踐中心承辦了志愿者選拔的面試工作.現隨機抽取了100名候選者的面試成績,并分成五組:第一組,第二組,第三組,第四組,第五組,繪制成如圖所示的頻率分布直方圖.已知第一、二組的頻率之和為0.3,第一組和第五組的頻率相同. (1)估計這100名候選者面試成績的平均數和第25百分位數;(2)現從以上各組中用分層隨機抽樣的方法選取20人,擔任本市的宣傳者.①現計劃從第一組和第二組抽取的人中,再隨機抽取2名作為組長.求選出的兩人來自不同組的概率.②若本市宣傳者中第二組面試者的面試成績的平均數和方差分別為62和40,第四組面試者的面試成績的平均數和方差分別為80和70,據此估計這次第二組和第四組面試者所有人的方差.8.古人云“民以食為天”,某校為了了解學生食堂服務的整體情況,進一步提高食堂的服務質量,營造和諧的就餐環境,使同學們能夠獲得更好的飲食服務為此做了一次全校的問卷調查,問卷所涉及的問題均量化成對應的分數(滿分100分),從所有答卷中隨機抽取100份分數作為樣本,將樣本的分數(成績均為不低于40分的整數)分成六段:,得到如圖所示的頻數分布表.樣本分數段頻數 5 10 20 a 25 10頻率 0.05 0.1 0.2 b 0.25 0.1(1)求頻數分布表中a和b的值,并求樣本成績的中位數和平均數;(2)已知落在的分數的平均值為56,方差是7;落在的分數的平均值為65,方差是4,求兩組成績的總平均數和總方差.9.某電信運營公司為響應國家5G網絡建設政策,擬實行5G網絡流量階梯定價,每人月用流量中不超過一種流量計算單位的部分按元收費,超過kGB的部分按2元收費,從用戶群中隨機調查了10000位用戶,獲得了他們某月的流量使用數據,整理得到如下的頻率分布直方圖.已知用戶月使用流量的中位數為(1)求表中的(2)若k為整數,依據本次調查為使以上用戶在該月的流量價格為元,則k至少定為多少 (3)為了進一步了解用戶使用5G流量與年齡的相關關系,由頻率分布直方圖中流量在和兩組用戶中,按人數比例分配的分層抽樣方法中抽取了100名用戶,已知組用戶平均年齡為30,方差為36,流量在組用戶的平均年齡為20,方差為16,求抽取的100名用戶年齡的方差.10.為建立健全國家學生體質健康監測評價機制,激勵學生積極參加身體鍛煉,教育部印發《國家學生體質健康標準》,要求各學校每學年開展覆蓋本校各年級學生的《標準》測試工作.為做好全省的迎檢工作,成都市在高三年級開展了一次體質健康模擬測試,并從中隨機抽取了200名學生的數據,根據他們的健康指數繪制了如圖所示的頻率分布直方圖. (1)估計這200名學生健康指數的平均數和樣本方差(同一組數據用該組區間的中點值作代表);(2)從健康指數在的兩組中利用分層抽樣抽出7人進行電話回訪,并再隨機抽出2人贈送獎品,求從7人中抽出的2人來自不同組的概率.11.年入冬以來,為進一步做好疫情防控工作,避免疫情的再度爆發,地區規定居民出行或者出席公共場合均需佩戴口罩,現將地區個居民一周的口罩使用個數統計如下表所示,其中每周的口罩使用個數在以上(含)的有人.口罩使用數量頻率 (1)求的值,根據表中數據,完善上面的頻率分布直方圖;(只畫圖,不要過程)(2)根據頻率分布直方圖估計地區居民一周口罩使用個數的分位數和中位數;(四舍五入,精確到)(3)根據頻率分布直方圖估計地區居民一周口罩使用個數的平均數以及方差.(每組數據用每組中點值代替)12.某市為了制定合理的節水方案,對居民用水情況進行了調查.通過抽樣,獲得了某年100戶居民每人的月均用水量(單位:噸).將數據按照,,…,分成9組,制成了如下圖所示的頻率分布直方圖. (1)求直方圖中a的值;(2)用每組區間的中點作為每組用水量的平均值,這9組居民每人的月均用水量前四組的方差都為0.3,后5組的方差都為0.4,求這100戶居民月均用水量的方差.13.亞洲運動會簡稱亞運會,是亞洲規模最大的綜合性運動會,由亞洲奧林匹克理事會的成員國輪流主辦,每四年舉辦一屆.1951年第1屆亞運會在印度首都新德里舉行,七十多年來亞洲運動員已成為世界體壇上一支不可忽視的力量,而中國更是世界的體育大國和亞洲的體育霸主.第19屆杭州2022年亞運會將于2023年9月23日至10月8日舉辦,為普及體育知識,增強群眾體育鍛煉意識,某地舉辦了亞運知識競賽活動.活動分為男子組和女子組進行,最終決賽男女各有40名選手參加,右圖是其中男子組成績的頻率分布直方圖(成績介于85到145之間), (1)求圖中缺失部分的直方圖的高度,并估算男子組成績排名第10的選手分數;(2)若計劃從男子組中105分以下的選手中隨機抽樣調查2個同學的答題狀況,則抽到的選手中至少有1位是95分以下選手的概率是多少?(3)若女子組40位選手的平均分為117,標準差為12,試求所有選手的平均分和方差.14.某中學組織了數學知識競賽,從參加考試的學生中抽出40名學生,將其成績(均為整數)分成六組,其部分頻率分布直方圖如圖所示.觀察圖形,回答下列問題.(1)求成績在的頻率,并補全這個頻率分布直方圖;(2)估計這次考試成績的眾數,平均分和方差.15.某學校為了了解高二年級學生數學運算能力,對高二年級的300名學生進行了一次測試.已知參加此次測試的學生的分數全部介于45分到95分之間,該校將所有分數分成5組:,整理得到如下頻率分布直方圖(同組數據以這組數據的中間值作為代表). (1)求的值,并估計此次校內測試分數的平均值;(2)學校要求按照分數從高到低選拔前30名的學生進行培訓,試估計這30名學生的最低分數;(3)試估計這300名學生的分數的方差,并判斷此次得分為52分和94分的兩名同學的成績是否進入到了范圍內?(參考公式:,其中為各組頻數;參考數據:)易錯點四:忽略百分位數兩種情況的選取(百分位數的考查)百分位數①百分位數定義:一般地,一組數據的第p百分位數是這樣一個值,它使得這組數據中至少有p%的數據小于或等于這個值,且至少有(100-p)%的數據大于或等于這個值.②常用的百分位數1.四分位數:第25百分位數,第50百分位數,第75百分位數.2.其它常用的百分位數:第1百分位數,第5百分位數,第95百分位數,第99百分位數.③計算一組n個數據的第p百分位數的一般步驟如下:第一步:按從小到大排列原始數據;第二步:計算i=n×p%;第三步:若i不是整數,而大于i的比鄰整數為j,則第p百分位數為第j項數據;若i是整數,則第p百分位數為第i項與第(i+1)項數據的平均數.易錯提醒:若i不是整數,而大于i的比鄰整數為j,則第p百分位數為第j項數據;若i是整數,則第p百分位數為第i項與第(i+1)項數據的平均數.例.某高校承辦了杭州亞運會志愿者選拔的面試工作.現隨機抽取了100名候選者的面試成績,并分成五組:第一組,第二組,第三組,第四組,第五組,繪制成如圖所示的頻率分布直方圖.已知第三、四、五組的頻率之和為0.7,第一組和第五組的頻率相同. (1)求,的值;(2)估計這100名候選者面試成績的第65百分位數(分位數精確到0.1);(3)在第四,第五兩組志愿者中,采用分層抽樣的方法從中抽取5人,然后再從這5人中選出2人,以確定組長人選,求選出的兩人來自同一組的概率.變式1.某市政府為了倡議市民節約用電,計劃對居民生活用電費用實施階梯式電價制度,即確定一戶居民月均用電量標準 a,用電量不超過 a的部分按照平價收費,超出部分按議價收費.為了確定一個合理的標準,從某小區抽取了100戶居民進行用電量調查單位,并繪制了如圖所示的頻率分布直方圖:(1)求x的值:(2)求被調查用戶的月用電量平均值:同一組數據用該區間的中點值作代表(3)若使居民用戶的水費支出不受影響,應確定a值為多少?變式2.長沙市某中學近幾年加大了對學生奧賽的培訓,為了選擇培訓的對象,2023年5月該中學進行一次數學競賽,從參加競賽的同學中,選取50名同學將其成績(百分制,均為整數)分成六組:第1組,第2組,第3組,第4組,第5組,第6組,得到頻率分布直方圖(如圖),觀察圖中信息,回答下列問題: (1)根據頻率分布直方圖,估計本次考試成績的平均數和第71百分位數(同一組中的數據用該組區間的中點值作代表);(2)已知學生成績評定等級有優秀、良好、一般三個等級,其中成績不小于90分時為優秀等級,若從成績在第5組和第6組的學生中,隨機抽取2人,求所抽取的2人中至少有1人成績優秀的概率.變式3.一個容量為20的樣本,其數據按從小到大的順序排列為:1,2,2,3,5,6,6,7,8,8,9,10,13,13,14,15,17,17,18,18,則該組數據的第75百分位數為 ,第86百分位數為 .1.以下數據為某學校參加學科節數學競賽決賽的10人的成績:(單位:分)72,78,79,80,81,83,84,86,88,90.這10人成績的第百分位數是85,則( )A.65 B.70 C.75 D.802.某校排球社的同學為訓練動作組織了墊排球比賽,以下為根據排球社位同學的墊球個數畫的頻率分布直方圖,所有同學墊球數都在之間.估計墊球數的樣本數據的第百分位數是( )A. B. C. D.3.“幸福感指數”是指人們主觀地評價自己目前生活狀態的滿意程度的指標,常用區間內的一個數來表示,該數越接近10表示滿意程度越高.現隨機抽取10位某小區居民,他們的幸福感指數分別為3,4,5,5,6,6,7,8,9,10,則這組數據的第80百分位數是( )A.7.5 B.8 C.8.5 D.94.為了進一步學習貫徹黨的二十大精神,推進科普宣傳教育,激發學生的學習熱情,營造良好的學習氛圍,不斷提高學生對科學 法律 健康等知識的了解,某學校組織全校班級開展“紅色百年路 科普萬里行”知識競賽.現抽取10個班級的平均成績:,據此估計該校各個班級平均成績的第40百分位數為( )A.77 B.78 C.76 D.805.某地一年之內12個月的月降水量分別為:46,51, 48,53,56, 53,56,64,58,56,66,71,則下列說法正確的是( )A.該地區的月降水量20%分位數為51B.該地區的月降水量50%分位數為53C.該地區的月降水量75%分位數為61D.該地區的月降水量80%分位數為646.習近平總書記強調,要堅持健康第一的教育理念,加強學校體育工作,推動青少年文化學習和體育鍛煉協調發展.某學校對高一年級學生每周在校體育鍛煉時長(單位:小時)進行了統計,得到如下頻率分布表:分組頻率 0.25 0.30 0.20 0.25則下列關于高一年級學生每周體育鍛煉時長的說法中正確的是( )A.眾數約為2.5B.中位數約為3.83C.平均數為3.95D.第80百分位數約為5.27.某公司為了解用戶對其產品的滿意度,隨機調查了10個用戶,得到用戶對產品的滿意度評分如表所示,評分用區間內的一個數來表示,該數越接近10表示滿意度越高,則下列說法正確的( )7 8 9 7 5 4 10 9 4 7A.這組數據的平均數為0B.這組數據的眾數為7C.這組數據的極差為6D.這組數據的第75百分位數為98.人均國內生產總值是人們了解和把握一個國家或地區的宏觀經濟運行狀況的有效工具,即“人均GDP”,常作為發展經濟學中衡量經濟發展狀況的指標,是最重要的宏觀經濟指標之一.在國家統計局的官網上可以查詢到我國2013年至2022年人均國內生產總值(單位:元)的數據,如圖所示,則( )A.2013年至2022年人均國內生產總值逐年遞增B.2013年至2022年人均國內生產總值的極差為42201C.這10年的人均國內生產總值的80%分位數是71828D.這10年的人均國內生產總值的增長量最小的是2020年9.已知互不相同的30個樣本數據,若去掉其中最大和最小的數據,設剩下的28個樣本數據的方差為,平均數為;去掉的兩個數據的方差為,平均數為﹔原樣本數據的方差為,平均數為,若=,則下列說法正確的是( )A.B.C.剩下28個數據的中位數大于原樣本數據的中位數D.剩下28個數據的22%分位數不等于原樣本數據的22%分位數10.8名學生參加跑的成績(單位:s)分別為13.10,12.99,13.01,13.20,13.01,13.20,12.91,13.01,則( )A.極差為0.29 B.眾數為13.01C.平均數近似為13.05 D.第75百分位數為13.1011.黨的二十大報告提出,要加快發展數字經濟,促進數字經濟與實體經濟的深度融合,數字化構建社區服務新模式成為一種時尚.某社區為優化數字化社區服務,問卷調查調研數字化社區服務的滿意度,滿意度采用計分制(滿分100分),統計滿意度繪制成如下頻率分布直方圖,圖中.則下列結論正確的是( )A.B.滿意度計分的眾數為80分C.滿意度計分的分位數是85分D.滿意度計分的平均分是76.512.某校1500名學生參加數學競賽,隨機抽取了40名學生的競賽成績(單位:分),成績的頻率分布直方圖如圖所示,則( ) A.頻率分布直方圖中a的值為0.005 B.估計這40名學生的競賽成績的第60百分位數為75C.估計這40名學生的競賽成績的眾數為80 D.估計總體中成績落在內的學生人數為22513.甘肅省2017到2022年常住人口變化圖如圖所示: 則( )A.甘肅省2017到2020年這4年的常住人口呈遞增趨勢B.甘肅省2017到2022年這6年的常住人口的第40百分位數為2501.98萬C.甘肅省2017到2022年這6年的常住人口的極差為156.41萬D.從2017到2022年這6年中任選1年,則該年的甘肅省常住人口大于2500萬的概率為14.下表是某公司的月固定工資統計表:總工程師 工程師 技術員A 技術員B 技術員C 技術員D 技術員E 見習技術員固定工資(元) 9000 7000 4000 3200 2600 2000 1500 1000由該表能判斷出該公司職工固定工資的75%分位數是 元.15.某城市30天的空氣質量指數如下:29,26,28,29,38,29,26,26,40,31,35,44,33,28,80,86,65,53,70,34,36,,31,38,63,60,56,34,74,34.則這組數據的第75百分位數為 .易錯點五:忽略相關性檢驗而出錯(統計案例)Ⅰ:變量間的相關關系1.變量之間的相關關系當自變量取值一定時,因變量的取值帶有一定的隨機性,則這兩個變量之間的關系叫相關關系.由于相關關系的不確定性,在尋找變量之間相關關系的過程中,統計發揮著非常重要的作用.我們可以通過收集大量的數據,在對數據進行統計分析的基礎上,發現其中的規律,對它們的關系作出判斷.注意:相關關系與函數關系是不同的,相關關系是一種非確定的關系,函數關系是一種確定的關系,而且函數關系是一種因果關系,但相關關系不一定是因果關系,也可能是伴隨關系.2.散點圖將樣本中的個數據點描在平面直角坐標系中,所得圖形叫做散點圖.根據散點圖中點的分布可以直觀地判斷兩個變量之間的關系.(1)如果散點圖中的點散布在從左下角到右上角的區域內,對于兩個變量的這種相關關系,我們將它稱為正相關,如圖(1)所示;(2)如果散點圖中的點散布在從左上角到右下角的區域內,對于兩個變量的這種相關關系,我們將它稱為負相關,如圖(2)所示.3.相關系數若相應于變量的取值,變量的觀測值為,則變量與的相關系數,通常用來衡量與之間的線性關系的強弱,的范圍為.(1)當時,表示兩個變量正相關;當時,表示兩個變量負相關.(2)越接近,表示兩個變量的線性相關性越強;越接近,表示兩個變量間幾乎不存在線性相關關系.當時,所有數據點都在一條直線上.(3)通常當時,認為兩個變量具有很強的線性相關關系.Ⅱ:線性回歸1.線性回歸線性回歸是研究不具備確定的函數關系的兩個變量之間的關系(相關關系)的方法.對于一組具有線性相關關系的數據(x1,y1),(x2,y2),…,(xn,yn),其回歸方程的求法為其中,,,(,)稱為樣本點的中心.2.殘差分析對于預報變量,通過觀測得到的數據稱為觀測值,通過回歸方程得到的稱為預測值,觀測值減去預測值等于殘差,稱為相應于點的殘差,即有.殘差是隨機誤差的估計結果,通過對殘差的分析可以判斷模型刻畫數據的效果以及判斷原始數據中是否存在可疑數據等,這方面工作稱為殘差分析.(1)殘差圖通過殘差分析,殘差點比較均勻地落在水平的帶狀區域中,說明選用的模型比較合適,其中這樣的帶狀區域的寬度越窄,說明模型擬合精確度越高;反之,不合適.(2)通過殘差平方和分析,如果殘差平方和越小,則說明選用的模型的擬合效果越好;反之,不合適.(3)相關指數用相關指數來刻畫回歸的效果,其計算公式是:.越接近于,說明殘差的平方和越小,也表示回歸的效果越好.Ⅲ:非線性回歸解答非線性擬合問題,要先根據散點圖選擇合適的函數類型,設出回歸方程,通過換元將陌生的非線性回歸方程化歸轉化為我們熟悉的線性回歸方程.求出樣本數據換元后的值,然后根據線性回歸方程的計算方法計算變換后的線性回歸方程系數,還原后即可求出非線性回歸方程,再利用回歸方程進行預報預測,注意計算要細心,避免計算錯誤.1.建立非線性回歸模型的基本步驟:(1)確定研究對象,明確哪個是解釋變量,哪個是預報變量;(2)畫出確定好的解釋變量和預報變量的散點圖,觀察它們之間的關系(是否存在非線性關系);(3)由經驗確定非線性回歸方程的類型(如我們觀察到數據呈非線性關系,一般選用反比例函數、二次函數、指數函數、對數函數、冪函數模型等);(4)通過換元,將非線性回歸方程模型轉化為線性回歸方程模型;(5)按照公式計算線性回歸方程中的參數(如最小二乘法),得到線性回歸方程;(6)消去新元,得到非線性回歸方程;(7)得出結果后分析殘差圖是否有異常.若存在異常,則檢查數據是否有誤,或模型是否合適等.Ⅳ:獨立性檢驗1.分類變量和列聯表(1)分類變量:變量的不同“值”表示個體所屬的不同類別,像這樣的變量稱為分類變量.(2)列聯表:①定義:列出的兩個分類變量的頻數表稱為列聯表.②2×2列聯表.一般地,假設有兩個分類變量X和Y,它們的取值分別為{x1,x2}和{y1,y2},其樣本頻數列聯表(稱為2×2列聯表)為總計總計從列表中,依據與的值可直觀得出結論:兩個變量是否有關系.2.等高條形圖(1)等高條形圖和表格相比,更能直觀地反映出兩個分類變量間是否相互影響,常用等高條形圖表示列聯表數據的頻率特征.(2)觀察等高條形圖發現與相差很大,就判斷兩個分類變量之間有關系.3.獨立性檢驗(1)定義:利用獨立性假設、隨機變量來確定是否有一定把握認為“兩個分類變量有關系”的方法稱為兩個分類變量的獨立性檢驗.(2)公式:,其中為樣本容量.(3)獨立性檢驗的具體步驟如下:①計算隨機變量的觀測值,查下表確定臨界值:0.5 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.0010.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828②如果,就推斷“與有關系”,這種推斷犯錯誤的概率不超過;否則,就認為在犯錯誤的概率不超過的前提下不能推斷“與有關系”.【常用結論】常見的非線性回歸模型(1)指數函數型(且,)兩邊取自然對數,,即,令,原方程變為,然后按線性回歸模型求出,.(2)對數函數型令,原方程變為,然后按線性回歸模型求出,.(3)冪函數型兩邊取常用對數,,即,令,原方程變為,然后按線性回歸模型求出,.(4)二次函數型令,原方程變為,然后按線性回歸模型求出,.(5)反比例函數型型令,原方程變為,然后按線性回歸模型求出,.易錯提醒:已知數據求回歸直線方程,應根據散點圖分析變量之間是否滿足線性關系,或求相關系數r進行線性相關性的檢驗,如是非線性的關系,應轉化為線性關系,再求解.例.某鄉政府為提高當地農民收入,指導農民種植藥材,取得較好的效果.以下是某農戶近5年種植藥材的平均收入的統計數據:年份 2018 2019 2020 2021 2022年份代碼x 1 2 3 4 5平均收入y(千元) 59 61 64 68 73(1)根據表中數據,現有與兩種模型可以擬合y與x之間的關系,請分別求出兩種模型的回歸方程;(結果保留一位小數)(2)統計學中常通過比較殘差的平方和來比較兩個模型的擬合效果,已知的殘差平方和是3.5,請根據殘差平方和說明上述兩個方程哪一個擬合效果更好,并據此預測2023年該農戶種植藥材的平均收入.參考數據及公式:,,其中.,.變式1.國務院印發《新時期促進集成電路產業和軟件產業高質量發展的若干政策》.某科技公司響應國家號召,加大了芯片研究投入力度.從2022年起,芯片的經濟收入逐月攀升,該公司在2022年的第一月份至第六月份的月經濟收入(單位:百萬元)關于月份的數據如下表所示:時間(月份) 1 2 3 4 5 6月收入(百萬元) 6 9 15 22 33 47(1)請你根據提供數據,判斷與(均為常數)哪一個適宜作為該公司月經濟收入關于月份的回歸方程類型?(給出判斷即可,不必說明理由)(2)根據(1)的結果及表中的數據,求出關于的回歸方程;(3)從這6個月中抽取3個,記月收入超過16百萬的個數為,求的分布列和數學期望.參考數據:2.86 17.50 142 7.29其中設參考公式和數據:對于一組具有線性相關關系的數據,其回歸直線的斜率和截距的最小二乘估計公式分別為:.變式2.2020年11月,國務院辦公廳印發《新能源汽車產業發展規劃(2021-2035年)》,要求深入實施發展新能源汽車國家戰略,推動中國新能源汽車產業高質量可持續發展,加快建設汽車強國.同時為了推廣新能源替代傳統非綠色能源,除了財政補貼、稅收優惠等激勵性政策外,可間接通過前期技術研發支持等政策引導能源發展方向.某企業多年前就開始進行新能源汽車方面的研發,現對近10年的年技術創新投入和每件產品成本(,2,3,…,10)的數據進行分析,得到如下散點圖, 并計算得:,,,,.(1)根據散點圖可知,可用函數模型擬合y與x的關系,試建立y關于x的回歸方程;(2)已知該產品的年銷售額m(單位:千萬元)與每件產品成本y的關系為.該企業的年投入成本除了年技術創新投入,還要投入其他成本10千萬元,根據(1)的結果回答:當年技術創新投入x為何值時,年利潤的預報值最大 (注:年利潤年銷售額年投入成本)參考公式:對于一組數據,,…,,其回歸直線的斜率和截距的最小二乘估計分別為:,.變式3.臺山市鎮海灣蠔是臺山市著名的特產,因鎮海灣的生蠔田處于咸淡水交匯之地,所以這里的生蠔長得比其他地方肥大,味道更加鮮美.2023年鎮海灣某養殖基地考慮增加人工投入,根據市場調研與模擬,得到人工投入增量x人與年收益增量y萬元的數據和散點圖分別如下:x 2 3 4 6 8 10 13y 13 22 31 42 50 56 58 根據散點圖,建立了y與x的兩個回歸模型:模型①:;模型②:(1)求出模型②中y關于x的回歸方程(精確到0.1);(2)比較模型①,②的決定系數的大小,說明哪個模型擬合效果更好,并用該模型預測,要使年收益增量超過80萬元,人工投入增量至少需要多少人?(精確到1)線性回歸方程的系數:,;模型的決定系數:.參考數據:令,則,且,,,;模型①中;模型②中.1.為幫助鄉村脫貧,某勘探隊計劃了解當地礦脈某金屬的分布情況,測得了平均金屬含量(單位:)與樣本對原點的距離(單位:m)的數據,并作了初步處理,得到了下面的一些統計理的值.(表中,)6 97.90 0.21 60 0.14 14.12 26.13(1)利用樣本相關系數的知識,判斷與哪一個更適宜作為平均金屬含量關于樣本對原點的距離的回歸方程類型?(2)根據(1)的結果回答下列問題:①建立關于的回歸方程;②樣本對原點的距離時,金屬含量的預報值是多少?附:對于一組數據,其線性相關系數,其回歸直線的斜率和截距的最小二乘估計分別為:,.2.一座城市的夜間經濟不僅有助于拉動本地居民內需,還能延長外地游客、商務辦公者等的留存時間,帶動當地經濟發展,是衡量一座城市生活質量、消費水平、投資環境及文化發展活力的重要指標.數據顯示,近年來中國各地政府對夜間經濟的扶持力度加大,夜間經濟的市場發展規模保持穩定增長,下表為2017—2022年中國夜間經濟的市場發展規模(單位:萬億元),其中2017—2022年對應的年份代碼依次為1~6.年份代碼 1 2 3 4 5 6中國夜間經濟的市場發展規模萬億元 20.5 22.9 26.4 30.9 36.4 42.4(1)已知可用函數模型擬合與的關系,請建立關于的回歸方程(的值精確到0.01);(2)某傳媒公司預測2023年中國夜間經濟的市場規模將達到48.1萬億元,現用(1)中求得的回歸方程預測2023年中國夜間經濟的市場規模,若兩個預測規模誤差不超過1萬億元,則認為(1)中求得的回歸方程是理想的,否則是不理想的,判斷(1)中求得的回歸方程是否理想.參考數據:3.366 73.282 17.25 1.16 2.83其中.參考公式:對于一組數據,其回歸直線的斜率和截距的最小二乘估計分別為.3.中國茶文化博大精深,飲茶深受大眾喜愛,茶水的口感與茶葉類型和水的溫度有關,某數學建模小組為了獲得茶水溫度y(單位:)關于時間x(單位:min)的回歸方程模型,通過實驗收集在室溫,用同一溫度的水沖泡的條件下,茶水溫度隨時間變化的7組數據,并對數據做初步處理得到如圖所示散點圖以及如表所示數據. 73.5 3.85表中:,(1)根據散點圖判斷,①與②哪一個更適宜作為該茶水溫度y關于時間x的回歸方程類型?(給出判斷即可,不必說明理由)請根據你的判斷結果及表中數據建立該茶水溫度y關于時間x的回歸方程;(2)已知該茶水溫度降至口感最佳,根據(1)中的回歸方程,求在相同條件下沖泡的茶水,大約需要放置多長時間才能達到最佳飲用口感?附:(1)對于一組數據,…,,其回歸直線的斜率和截距的最小二乘估計分別為,(2)參考數據:,,,,4.當前,新一輪科技革命和產業變革蓬勃興起,以區塊鏈為代表的新一代信息技術迅猛發展,現收集某地近6年區塊鏈企業總數量相關數據,如下表:年份 2017 2018 2019 2020 2021 2022編號 1 2 3 4 5 6企業總數量(單位:百個) 50 78 124 121 137 352(1)若用模型擬合與的關系,根據提供的數據,求出與的經驗回歸方程;(2)為了促進公司間的合作與發展,區塊鏈聯合總部決定進行一次信息化技術比賽,邀請甲、乙、丙三家區塊鏈公司參賽.比賽規則如下:①每場比賽有兩個公司參加,并決出勝負;②每場比賽獲勝的公司與未參加此場比賽的公司進行下一場的比賽;③在比賽中,若有一個公司首先獲勝兩場,則本次比賽結束,該公司獲得此次信息化比賽的“優勝公司”.已知在每場比賽中,甲勝乙的概率為,甲勝丙的概率為,乙勝丙的概率為,若首場由甲乙比賽,求甲公司獲得“優勝公司”的概率.參考數據:,其中,參考公式:對于一組數據,其經驗回歸直線的斜率和截距的最小二乘估計分別為5.某出版社單冊圖書的成本費y(元)與印刷冊數x(千冊)有關,經統計得到數據如下:x 1 2 3 5 7 10 11 20 25 30y 9.02 5.27 4.06 3.03 2.59 2.28 2.21 1.89 1.80 1.75(1)根據以上數據畫出散點圖(可借助統計軟件),并根據散點圖判斷:與中哪一個適宜作為回歸方程模型 (2)根據(1)的判斷結果,試建立成本費y關于印刷冊數x的回歸方程;(3)利用回歸方程估計印刷26000冊圖書的單冊成本(結果保留兩位小數).6.紅蜘蛛是柚子的主要害蟲之一,能對柚子樹造成嚴重傷害,每只紅蜘蛛的平均產卵數y(個)和平均溫度x(℃)有關,現收集了以往某地的7組數據,得到下面的散點圖及一些統計量的值. (1)根據散點圖判斷,與(其中…為自然對數的底數)哪一個更適合作為平均產卵數y(個)關于平均溫度x(℃)的回歸方程類型?(給出判斷即可,不必說明理由)(2)由(1)的判斷結果及表中數據,求出y關于x的回歸方程.(計算結果精確到0.1)附:回歸方程中,,參考數據()5215 17713 714 27 81.3 3.6(3)根據以往每年平均氣溫以及對果園年產值的統計,得到以下數據:平均氣溫在22℃以下的年數占60%,對柚子產量影響不大,不需要采取防蟲措施;平均氣溫在22℃至28℃的年數占30%,柚子產量會下降20%;平均氣溫在28℃以上的年數占10%,柚子產量會下降50%.為了更好的防治紅蜘蛛蟲害,農科所研發出各種防害措施供果農選擇.在每年價格不變,無蟲害的情況下,某果園年產值為200萬元,根據以上數據,以得到最高收益(收益=產值-防害費用)為目標,請為果農從以下幾個方案中推薦最佳防害方案,并說明理由.方案1:選擇防害措施A,可以防止各種氣溫的紅蜘蛛蟲害不減產,費用是18萬;方案2:選擇防害措施B,可以防治22℃至28℃的蜘蛛蟲害,但無法防治28℃以上的紅蜘蛛蟲害,費用是10萬;方案3:不采取防蟲害措施.7.在一次抽樣調查中測得個樣本點,得到下表及散點圖. (1)根據散點圖判斷與哪一個適宜作為關于的回歸方程;(給出判斷即可,不必說明理由)(2)根據(1)的判斷結果試建立與的回歸方程;(計算結果保留整數)參考公式:8.為了研究某種細菌隨天數變化的繁殖個數,收集數據如下:天數 1 2 3 4 5 6繁殖個數 6 12 25 49 95 190 (1)在圖中作出繁殖個數關于天數變化的散點圖,并由散點圖判斷(為常數)與(為常數,且)哪一個適宜作為繁殖個數關于天數變化的回歸方程類型?(給出判斷即可,不必說明理由)(2)對于非線性回歸方程(為常數,且),令,可以得到繁殖個數的對數z關于天數x具有線性關系及一些統計量的值.3.50 62.83 3.53 17.50 596.57 12.09(ⅰ)證明:“對于非線性回歸方程,令,可以得到繁殖個數的對數關于天數具有線性關系(即為常數)”;(ⅱ)根據(ⅰ)的判斷結果及表中數據,建立關于的回歸方程(系數保留2位小數).附:對于一組數據,其回歸直線方程的斜率和截距的最小二乘估計分別為.9.抗體藥物的研發是生物技術制藥領域的一個重要組成部分,抗體藥物的攝入量與體內抗體數量的關系成為研究抗體藥物的一個重要方面.某研究團隊收集了10組抗體藥物的攝入量與體內抗體數量的數據,并對這些數據作了初步處理,得到了如圖所示的散點圖及一些統計量的值,抗體藥物攝入量為x(單位:),體內抗體數量為y(單位:).29.2 12 16 34.4 (1)根據經驗,我們選擇作為體內抗體數量y關于抗體藥物攝入量x的回歸方程,將兩邊取對數,得,可以看出與具有線性相關關系,試根據參考數據建立關于的回歸方程,并預測抗體藥物攝入量為時,體內抗體數量的值;(2)經技術改造后,該抗體藥物的有效率z大幅提高,經試驗統計得z服從正態分布,那這種抗體藥物的有效率超過0.54的概率約為多少?附:①對于一組數據,其回歸直線的斜率和截距的最小二乘估計分別為,;②若隨機變量,則有,,;③取.專題13 統計易錯點一:統計用表中概念不清、識圖不準致誤(頻率分布直方圖、總體取值規律)頻率分布直方圖作頻率分布直方圖的步驟①求極差:極差為一組數據中最大值與最小值的差.②決定組距與組數將數據分組時,一般取等長組距,并且組距應力求“取整”,組數應力求合適,以使數據的分布規律能較清楚地呈現出來.③將數據分組④列頻率分布表各小組的頻率=.⑤畫頻率分布直方圖縱軸表示,實際上就是頻率分布直方圖中各小長方形的高度,小長方形的面積=組距×=頻率.頻率分布直方圖的性質①因為小矩形的面積=組距×=頻率,所以各小矩形的面積表示相應各組的頻率.這樣,頻率分布直方圖就以面積的形式反映了數據落在各個小組內的頻率大小.②在頻率分布直方圖中,各小矩形的面積之和等于1.③=樣本容量.④頻率分布直方圖反映了樣本在各個范圍內取值的可能性,由抽樣的代表性利用樣本在某一范圍內的頻率,可近似地估計總體在這一范圍內的可能性.易錯提醒:頻率分布條形圖和頻率分布直方圖是兩個完全不同的概念,考生應注意兩者之間的區別.雖然它們的橫軸表示的內容是相同的,但是頻率分布條形圖的縱軸表示頻率;頻率分布直方圖的縱軸表示頻率與組距的比值,其各小組的頻率等于該小組上的矩形的面積.例:如圖所示是某公司(共有員工300人)2021年員工年薪情況的頻率分布直方圖,由此可知,員工中年薪在1.4萬元~1.6萬元之間的共有______人.易錯分析:解本題容易出現的錯誤是審題不細,對所給圖形觀察不細心,認為員工中年薪在1.4萬元~1.6萬元之間的頻率為,從而得到員工中年薪在1.4萬元~1.6萬元之間的共有(人)的錯誤結論.正解:由所給圖形,可知員工中年薪在1.4萬元~1.6萬元之間的頻率為,所以員工中年薪在1.4萬元~1.6萬元之間的共有(人).故72.易錯警示:考生誤認為頻率分布直方圖中縱軸表示的是頻率,這是錯誤的,而是“頻率/組距”,所以頻率對應的是各矩形的面積.變式1:某大學有男生名.為了解該校男生的身體體重情況,隨機抽查了該校名男生的體重,并將這名男生的體重(單位:)分成以下六組:、、、、、,繪制成如下的頻率分布直方圖:該校體重(單位:)在區間上的男生大約有 人.【詳解】由頻率分布直方圖可知,該校體重(單位:)在區間上的男生的人數為.故答案為:.變式2:現對某類文物進行某種物性指標檢測,從件中隨機抽取了件,測量物性指標值,得到如下頻率分布直方圖,據此估計這件文物中物性指標值不小于的件數為 .【詳解】抽取的件文物中,物性指標值不小于的頻率為,由此估計出件文物中,物性指標值不小于的頻率約為,∴估計這件文物中物性指標值不小于的有件.故答案為:.變式3:如圖是根據我國部分城市某年6月份的平均氣溫數據得到的樣本頻率分布直方圖,其中平均氣溫的范圍是[20,26], 樣本數據的分組為[20,21), [21,22),[22, 23),[23, 24), [24, 25),[25,26]. 已知樣本中平均氣溫低于22°C的城市個數為11,樣本中平均氣溫不低于25°C的城市個數是 .【詳解】由題意可得:平均氣溫低于22°C的頻率為,平均氣溫不低于25°C的頻率為,∴樣本中平均氣溫低于22°C的城市個數為11,則樣本容量為,故樣本中平均氣溫不低于25°C的城市的個數為.故答案為:9.1.已知某班全體學生在某次數學考試中的成績(單位:分)的頻率分布直方圖如圖所示,則圖中a所代表的數值是 .【答案】0.015【分析】根據頻率分布直方圖結合頻率和為1運算求解.【詳解】由頻率分布直方圖可知每組頻率依次為:,則,解得.故答案為:0.015.2.某校共有400名學生參加了趣味知識競賽(滿分:150分),且每位學生的競賽成績均不低于90分.將這400名學生的競賽成績分組如下:,得到的頻率分布直方圖如圖所示,則這400名學生中競賽成績不低于120分的人數為 .【答案】【分析】由頻率分布直方圖的面積和為求出,再計算出結果即可.【詳解】由頻率分布直方圖可知,解得,這400名學生中競賽成績不低于120分的人數為,故答案為:3.從某小學所有學生中隨機抽取100名學生,將他們的身高(單位:)數據繪制成頻率分布直方圖(如圖),其中樣本數據分組,則= . 【答案】【分析】根據頻率和為,結合圖表中數據,列式計算即可.【詳解】根據圖表數據可得:,即,.故答案為:.4.某工廠抽取100件產品測其重量(單位:).其中每件產品的重量范圍是.數據的分組依次為,據此繪制出如圖所示的頻率分布直方圖,則重量在內的產品件數為 . 【答案】40【分析】根據直方圖確定各組的頻率,進而求出的頻率,最后估算出對應的產品件數.【詳解】由題設對應頻率依次為,所以的頻率為,故重量在內的產品件數為.故答案為:405.某研究小組經過研究發現某種疾病的患病者與未患病者的某項醫學指標有明顯差異,經過大量調查,得到如下的患病者和未患病者該指標的頻率分布直方圖: 利用該指標制定一個檢測標準,需要確定臨界值,將該指標大于的人判定為陽性,小于或等于的人判定為陰性,此檢測標準的漏診率是將患病者判定為陰性的概率,記為;誤診率是將未患病者判定為陽性的概率,記為.假設數據在組內均勻分布,以事件發生的頻率作為相應事件發生的概率.設函數,則函數在區間取得最小值時 .【答案】100【分析】根據題意結合頻率分布直方圖求出函數的解析式,然后利用函數的性質求出最小值時的自變量的值即可.【詳解】當時,,有函數在單調遞減,所以,當時,,有函數在單調遞增,所以,所以,所以在上有最小值0.02,當時取到最小值.故答案為:100.6.某大學有男生10000名.為了解該校男生的身體體重情況,隨機抽查了該校100名男生的體重,并將這100名男生的體重(單位:kg)分成以下六組:、、、、、,繪制成如圖所示的頻率分布直方圖,該校體重(單位:)在區間上的男生大約有 人. 【答案】【分析】由頻率分布直方圖求得體重在區間上男生的頻率,由此求得正確答案.【詳解】體重在區間上男生的頻率為,所以在區間上的男生大約有人.故答案為:7.某中學為了解高三男生的體能情況,通過隨機抽樣,獲得了200名男生的100米體能測試成績(單位:秒),將數據按照,,…,分成9組,制成了如圖所示的頻率分布直方圖.由直方圖估計本校高三男生100米體能測試成績大于13.25秒的頻率是 . 【答案】0.63/【分析】根據頻率分布直方圖中各矩形面積之和為1,可求得a的值,再結合頻率分布直方圖即可求得答案.【詳解】由頻率分布直方圖中各矩形面積之和為1,可得,解得,故體能測試成績大于13.25秒的頻率是,故答案為:0.638.某工廠對一批產品的長度(單位:)進行檢驗,將抽查的產品所得數據分為五組,整理后得到的頻率分布直方圖如圖所示,若長度在以下的產品有30個,則長度在區間內的產品個數為 . 【答案】55【分析】先根據頻率分布直方圖求出長度在區間內的頻率,根據頻率分布直方圖求出長度在以下的頻率,后用比例相等即可得答案.【詳解】由頻率分布直方圖可知,長度在區間內的頻率為,長度在以下的頻率為則長度在區間內的產品個數為,故答案為:55.9.某中學為了解學生的數學學習情況,在全體學生中隨機抽取200名,統計這200名學生某次數學考試的成績,將所得的數據分為7組:,,…,,,并整理得到如下頻率分布直方圖,則在被抽取的學生中,該次數學考試成績不低于80分的人數為 . 【答案】【分析】由頻率分布直方圖求出在被抽取的學生中,該次數學考試成績不低于80分的頻率,再由頻率與頻數的關系數學考試成績不低于80分的人數.【詳解】由頻率分布直方圖可得在被抽取的學生中,該次數學考試成績不低于80分的頻率為,所以在被抽取的學生中,該次數學考試成績不低于80分的人數為,故答案為:.10.某區為了解全區名高二學生的體能素質情況,在全區高二學生中隨機抽取了名學生進行體能測試,并將這名的體能測試成績整理成如下頻率分布直方圖.根據此頻率分布直方圖,這名學生平均成績的估計值為 . 【答案】【分析】根據所有矩形面積之和為求出的值,將每個矩形底邊的中點值乘以對應矩形的面積,相加可得這名學生平均成績.【詳解】由于頻率分布直方圖中所有矩形面積之和為,可得,解得,由頻率分布直方圖可知,這名學生平均成績的估計值為分.故答案為:.11.將一個容量為100的樣本數據,按照從小到大的順序分為8個組,如下表:組號 1 2 3 4 5 6 7 8頻數 10 16 18 15 11 9若第6組的頻率是第3組頻率的2倍,則第6組的頻率是 .【答案】/【分析】求出第6組的頻數即得解.【詳解】由題得第3組和第6組的頻數和為,所以第6組的頻數為.所以第6組的頻率是.故答案為:12.節約用水是中華民族的傳統美德,某市政府希望在本市試行居民生活用水定額管理,即確定一個合理的居民月用水量標準(噸),用水量不超過的部分按平價收費,超過的部分按議價收費.為此希望已經學習過統計的小明,來給出建議.為了了解全市居民用水量的分布情況,小明通過隨機走訪,獲得了100位居民某年的月均用水量(單位:噸),將數據按照分成9組,制成了如圖所示的頻率分布直方圖.若該市政府希望使的居民每月的用水量不超過標準(噸),如果你是小明,你覺得的估計值為 (精確到小數點后1位)【答案】2.9【分析】由頻率分布直方圖解得值,估計的居民每月的用水量所在區間后可計算的.【詳解】由頻率分布直方圖知, ,解得;計算月均用水量小于2.5噸的居民人數所占的百分比為,即71%的居民月均用水量小于2.5噸;計算月均用水量小于3噸的居民人數所占的百分比為,即88%的居民月均用水量小于3噸;故,假設月均用水量平均分布,則(噸),即的居民每月用水量不超過標準為噸.故答案為:2.9.易錯點二:統計中的數字特征的實際意義理解不清楚致誤(頻率分布直方圖特征數考查)眾數、中位數、平均數①眾數:一組數據中出現次數最多的數.②中位數:把一組數據按從小到大(或從大到小)的順序排列,處在中間位置的數(或中間兩個數的平均數)叫做這組數據的中位數.③平均數:如果n個數x1,x2,…,xn,那么叫做這n個數的平均數.總體集中趨勢的估計①平均數、中位數和眾數等都是刻畫“中心位置”的量,它們從不同角度刻畫了一組數據的集中趨勢.②一般地,對數值型數據(如用水量、身高、收入、產量等)集中趨勢的描述,可以用平均數、中位數;而對分類型數據(如校服規格、性別、產品質量等級等)集中趨勢的描述,可以用眾數.頻率分布直方圖中平均數、中位數、眾數的求法①樣本平均數:可以用每個小矩形底邊中點的橫坐標與小矩形面積的乘積之和近似代替.②在頻率分布直方圖中,中位數左邊和右邊的直方圖的面積應相等.③將最高小矩形所在的區間中點作為眾數的估計值.易錯提醒:利用頻率分布直方圖求眾數、中位數與平均數時,易出錯,應注意區分這三者.在頻率分布直方圖中:(1)最高的小長方形底邊中點的橫坐標即是眾數;(2)中位數左邊和右邊的小長方形的面積和是相等的;(3)平均數是頻率分布直方圖的“重心”,等于頻率分布直方圖中每個小長方形的面積乘以小長方形底邊中點的橫坐標之和.例.某班名學生期中考試數學成績的頻率分布直方圖如圖所示.根據頻率分布直方圖,估計該班本次測試眾數為 .解:由題意,因為眾數的估計值是頻率分布直方圖中最高矩形底邊的中點的橫坐標,∴眾數為.故答案為:.變式1:為響應自己城市倡導的低碳出行,小李上班可以選擇自行車,他記錄了次騎車所用時間(單位:分鐘),得到頻率分布直方圖,則騎車時間的眾數的估計值是 分鐘 【詳解】由頻率分布直方圖可知,騎車時間的眾數的估計值是分鐘.故答案為:.變式2:數學興趣小組的四名同學各自拋擲骰子5次,分別記錄每次骰子出現的點數,四名同學的部分統計結果如下:甲同學:中位數為3,方差為2.8; 乙同學:平均數為3.4,方差為1.04;丙同學:中位數為3,眾數為3; 丁同學:平均數為3,中位數為2.根據統計結果,數據中肯定沒有出現點數6的是 同學.【詳解】對于甲同學,當投擲骰子出現結果為1,2,3,3,6時,滿足中位數為3,平均數為:,方差為,可以出現點數6;對于乙同學,若平均數為3.4,且出現點數6,則方差,所以當平均數為3.4,方差為1.04時,一定不會出現點數6;對于丙同學,當擲骰子出現的結果為1,2,3,3,6時,滿足中位數為3,眾數為3,可以出現點數6;對于丁同學,當投擲骰子出現的結果為時,滿足平均數為,中位數為,可以出現點數.綜上,根據統計結果,數據中肯定沒有出現點數6的是乙同學.故答案為:乙變式3:以下5個命題中真命題的序號有 .①樣本數據的數字特征中,與眾數、中位數比較起來,平均數可以反映出更多的關于樣本數據全體的信息;②若數據,,,…,的標準差為S,則數據,,,…,的標準差為aS;③將二進制數轉化成十進制數是200;④x是區間[0,5]內任意一個整數,則滿足“”的概率是.【詳解】對于命題①,平均數與每一個樣本的數據有關,任何一個樣本數據的改變都會引起平均數的改變,這是眾數、中位數都不具有的性質,故與眾數、中位數比較起來,平均數可以反映出更多的關于樣本數據全體的信息,命題①是真命題;對于命題②,數據,,,…,的平均數,,而數據,,,…,的平均數為,方差為,所以,命題②是真命題;對于命題③,,命題③是真命題;對于命題④,x是區間[0,5]內任意一個整數,則x可取0、1、2、3、4、5共6種結果,滿足“”的有0、1、2共3種結果,故概率為,命題④不是真命題.故答案為:①②③.1.2022年11月卡塔爾世界杯如期舉行,這是世界足球的一場盛宴.為了了解全民對足球的熱愛程度,組委會在某場比賽結束后,隨機抽取了1000名觀眾進行對足球“喜愛度”的調查評分,將得到的分數分成6段:,,,,,,得到如圖所示的頻率分布直方圖.圖中部分數據丟失,若已知這1000名觀眾評分的中位數估計值為87.5,則m= . 【答案】/【分析】根據中位數之前的矩形面積之和對于列方程求解即可.【詳解】由題可知,,解得.故答案為:2.為了普及環保知識,增強環保意識,某中學隨機抽取30名學生參加環保知識測試,得分(十分制)如圖所示,假設得分值的中位數為,眾數為,平均數為,則的大小關系是 .【答案】【分析】根據題意求中位數、眾數和平均數,進而可對結果.【詳解】由條形統計圖可知,30名學生的得分為得分 3 4 5 6 7 8 9 10頻數 2 3 10 6 3 2 2 2因為中位數為第15,16個數(分別為5,6)的平均數,所以,且5出現次數最多,故,平均數,因為,即.故答案為:.3.《中國居民膳食指南()》數據顯示,歲至歲兒童青少年超重肥胖率高達.為了解某地中學生的體重情況,某機構從該地中學生中隨機抽取名學生,測量他們的體重(單位:千克),根據測量數據,按,,,,,分成六組,得到的頻率分布直方圖如圖所示.根據調查的數據,估計該地中學生體重的中位數是 .【答案】【分析】根據頻率分布直方圖估計中位數的方法直接計算即可.【詳解】,,該地中學生體重的中位數位于內,設中位數為,則,解得:.故答案為:.4.為了解某校高三學生的數學成績,隨機地抽查了該校100名高三學生的期中考試數學成績,得到頻率分布直方圖如圖所示.請根據以上信息,估計該校高三學生數學成績的中位數為 .(結果保留到小數點后兩位)【答案】【分析】依據頻率分布直方圖,計算時對應的數值,即為中位數.【詳解】解:,,所以中位數在之間,設中位數為,則有,所以故答案為:.5.2021年某省高考體育百米測試中,成績全部介于12秒與18秒之間,抽取其中100個樣本,將測試結果按如下方式分成六組:第一組,第二組,…,第六組,得到如下頻率分布直方圖.則該100名考生的成績的中位數(保留一位小數)是 .【答案】15.3【分析】由頻率分布直方圖估計樣本的中位數時,可知中位數出現在概率為的地方,即可求解.【詳解】因為前三組頻率直方圖面積和為,前四組頻率直方圖面積和為,所以中位數位于第四組內,設中位數為,則,解得,故答案為:15.3.6.200輛汽車通過某一段公路時的時速的頻率分布直方圖如圖所示,則時速的眾數、中位數的估計值分別為 . 【答案】65,62.5.【分析】根據矩形的高確定眾數,先計算面積確定中位數所在的區間,再利用公式求出中位數.【詳解】解:∵最高的矩形為第三個矩形,∴時速的眾數的估計值為.前兩個矩形的面積為(0.01+0.03)×10=0.4<,前三個矩形的面積為(0.01+0.03+0.04)×10=0.8>,所以中位數在區間,設中位數為,由題得,解之得.∴中位數的估計值為62.5.故答案為:65,62.5.7.某快遞驛站統計了近期每天代收快件的數量,并制成如下圖所示的頻率分布直方圖.則該快遞驛站每天代收包裹數量的中位數為 .【答案】260【分析】先確定中位數在區間內,設其為,解方程即得解.【詳解】解:左邊第一個矩形的面積為,左邊第二個矩形的面積為,左邊第三個矩形的面積為,因為,所以中位數在區間內,設其為,所以,所以.故答案為:2608.某質檢部門對某新產品的質量指標隨機抽取100件檢測,由檢測結果得到如圖所示的頻率分布直方圖.由頻率分布直方圖可以認為,該產品的質量指標值服從正態分布,其中近似為樣本平均數近似為樣本方差.設表示從該種產品中隨機抽取10件,其質量指標值位于的件數,則的數學期望= .(精確到)注:①同一組數據用該區間的中點值作代表,計算得樣本標準差;②若,則,.【答案】【分析】先求出的近似值即樣本平均數,然后結合條件以及注釋即可求解.【詳解】計算得,由條件,從而.故從該種產品中隨機抽取1件,其質量指標值位于的概率是,所以抽取10件的期望值為.故答案為:9.由于受到網絡電商的沖擊,某品牌的洗衣機在線下的銷售受到影響,承受了一定的經濟損失,現將地區200家實體店該品牌洗衣機的月經濟損失統計如圖所示,估算月經濟損失的平均數為,中位數為n,則 .【答案】360【解析】先計算第一塊小矩形的面積,第二塊小矩形的面積,,面積和超過0.5,所以中位數在第二塊求解,然后再求得平均數作差即可.【詳解】第一塊小矩形的面積,第二塊小矩形的面積,故;而,故.故答案為:360.【點睛】本題考查頻率分布直方圖、樣本的數字特征,考查運算求解能力以及數形結合思想,屬于基礎題.10.某大學天文臺隨機調查了該校100位天文愛好者的年齡,得到如下樣本數據頻率分布直方圖,則估計該校100名天文愛好者的平均歲數為 . 【答案】21.4【分析】根據頻率分布直方圖的平均數的計算公式,準確計算,即求解.【詳解】根據頻率分布直方圖的平均數的計算公式,可得估計該校100名天文愛好者的平均歲數為:.故答案為:.11.眾數 平均數和中位數都描述了數據的集中趨勢,它們的大小關系和數據分布的形態有關.在如圖的分布形態中,分別表示眾數 平均數 中位數,則中最小值為 . 【答案】【分析】將所給的直方圖近似看作為一個梯形,再根據眾數,平均數和中位數的定義求解.【詳解】將所給的直方圖近似看作為一個梯形,則眾數m出現在最大的矩形(即從左邊數第6個矩形)內,平均數n出現在從左邊數第4個矩形內,中位數p必須保證中位數p兩邊矩形面積相等,所以出現在從左邊數第5個矩形內,所以n最小;故答案為:n.12.如圖為某工廠工人生產能力頻率分布直方圖,則估計此工廠工人生產能力的平均值為 . 【答案】/【分析】先根據面積之和為1求x,然后根據直方圖估計平均值的計算方法求解即可.【詳解】由解得,所以.故答案為:易錯點三:運用數字特征作評價時考慮不周(方差、標準差的求算)方差、標準差①假設一組數據為,則這組數據的平均數,方差為,標準差②若假設一組數據為,它的平均數為,方差為,則一組數據為,的平均數為,方差為。③標準差刻畫了數據的離散程度或波動幅度,標準差越大,數據的離散程度越大;標準差越小,數據的離散程度越小.易錯提醒:方差(標準差)越大,說明數據的離散性越大;方差(標準差)越小,說明數據的離散性越小,數據越集中、穩定.用樣本的數字特征估計總體的數字特征時,如果抽樣的方法比較合理,那么樣本可以反映總體的信息,但從樣本得到的信息會有偏差,這些偏差是由樣本的隨機性引起的.雖然樣本的數字特征并不是總體真正的數字特征,而是總體的一個估計,但這種估計是合理的,特別是當樣本容量很大時,樣本的數字特征穩定于總體的數字特征.例、若甲、乙兩臺機床同時加工直徑為100 mm的零件,為了檢驗產品的質量,從產品中隨機抽取6件進行測量,測得數據如下:(單位:mm):甲:99,100,98,100,103;乙:99,100,102,99,100,100.通過計算,請你說明哪一臺機床加工的零件更符合要求.【錯解】==100,==100,因為兩個機床所加工零件的平均數相等,平均數描繪了數據的平均水平,所以兩臺機床加工的零件都符合要求.【錯因】平均數對數據有“取齊”作用,它描述了一組數據的平均水平,定量地反映了數據的集中趨勢,因此平均數是與樣本數據最接近、最理想的近似值,但由于樣本選取的隨機性,有時用平均數衡量總體的特征會失之偏頗,因此應進一步計算方差或標準差來比較它們的波動大小.【正解】==100,==100,s=×[(99-100)2+3×(100-100)2+(98-100)2+(103-100)2]=,s=×[2×(99-100)2+3×(100-100)2+(102-100)2]=1.s>s,說明甲機床加工的零件波動比較大.故乙機床加工的零件更符合要求.變式1:泉州,作為古代海上絲綢之路的起點,具有深厚的歷史文化底蘊,是全國同時擁有聯合國三大類非遺項目的唯一城市.為高效統籌整合優質文旅資源,文旅局在“五一”假期精心策劃文旅活動,使得來泉旅游人數突破了萬人次.某數學興趣小組為了解來泉游客的旅游體驗滿意度,用問卷的方式隨機調查了名來泉旅游的游客,被抽到的游客根據旅游體驗給出滿意度分值(滿分分),該興趣小組將收集到的數據分成五段:,,,,,處理后繪制了如下頻率分布直方圖. (1)求圖中的值并估計名游客滿意度分值的中位數(結果用分數表示);(2)已知在的平均數為,方差為,在的平均數為,方差為,試求被調查的名游客的滿意度分值的平均數及方差.【詳解】(1)由頻率分布直方圖可得:,解得 由頻率分布直方圖, 因此,中位數落在區間內, 可以估計名游客滿意度分值的中位數為(2)把在的平均數記為,方差記為;在的平均數記為,方差記為;在的平均數記為,方差記為 由題得,,,,,在的頻率為,在的頻率為則 由 可得 即被調查的名游客的滿意度分值的方差為變式2:拔尖創新人才是21世紀社會經濟發展的巨大動力,培養拔尖創新人才也成為世界各國教育的主要任務.某市為了解市民對拔尖人才培養理念的關注程度,舉辦了“拔尖人才素養必備”知識普及競賽,從所有答卷中隨機抽取100份作為樣本,將樣本的成績(滿分100分,成績均為不低于40分的整數)分成六段:,得到如圖所示的頻率分布直方圖.(1)求頻率分布直方圖中的值,并估計該市這次競賽成績的眾數;(2)已知落在的平均成績,方差,落在的平均成績,方差,求這兩組成績的總平均數和總方差.【詳解】(1)由頻率分布直方圖可知,,該市這次競賽成績的眾數為75分.(2)落在與的人數比為.所以,.變式3:為了研究網民的上網習慣,某機構隨機抽取了年齡在10歲到60歲的網民進行問卷調查,按年齡分為5組,即,,,,,并繪制出頻率分布直方圖,如圖所示. (1)若按分層抽樣的方法,從上述網民中抽取n人做采訪,其中年齡在中被抽取的人數為7,求n;(2)若各區間的值以該區間的中點值作代表,求上述網民年齡的方差的估計值.【詳解】(1)由題意得,,解得,年齡在中人數所占比例為則.(2),,,,五組的頻率分別為,若各區間的值以該區間的中點值作代表,則上述網民年齡的平均值的估計值為(歲)方差的估計值為1.已知甲、乙兩位同學在一次射擊練習中各射靶10次,射中環數頻率分布如圖所示: 令,分別表示甲、乙射中環數的均值;,分別表示甲、乙射中環數的方差,則( )A., B.,C., D.,【答案】D【分析】根據頻率分布圖分別計算,,比較大小可得.【詳解】由圖可知,,,所以,.故選:D.2.某學校組織學生參加數學測試,某班成績的頻率分布直方圖如圖,數據的分組依次為.若不低于分的人數是人,且同一組中的數據用該組區間的中點值代表,則下列說法中正確的是( ) A.該班的學生人數是B.成績在的學生人數是C.估計該班成績的眾數是分D.估計該班成績的方差為【答案】ACD【分析】根據頻率與總數關系、頻率和為、頻率分布直方圖估計眾數、平均數和方差的方法依次判斷各個選項即可.【詳解】對于A,不低于分對應的頻率為,該班的學生人數為,A正確;對于B,,,成績在的學生人數為,B錯誤;對于C,成績在對應的矩形面積最大,估計該班成績的眾數為分,C正確;對于D,估計該班成績的平均數為,方差為,D正確.故選:ACD.3.從某企業生產的某種產品中抽取500件,測量這些產品的一項質量指標值,由測量結果得頻率分布直方圖,則這500件產品質量指標值的樣本方差是 (同一組中的數據用該組區間的中點值作代表).【答案】110【分析】由頻率分布直方圖可得數據的平均值,再由方差的公式運算即可得解.【詳解】由頻率分布直方圖得抽取產品的質量指標值的樣本平均值為:,∴樣本方差.故答案為:110.【點睛】本題考查了利用頻率分布直方圖求數據的方差,考查了運算求解能力,屬于基礎題.4.在一次區域統考中,為了了解各學科的成績情況,從所有考生成績中隨機抽出20位考生的成績進行統計分析,其中數學學科的頻率分布直方圖如圖所示,據此估計,在本次考試中數學成績的方差為 .(同一組中的數據用該組區間的中點值作代表)【答案】110【解析】根據頻率分布直方圖,直接利用平均數與方差的公式,即可得到本題答案.【詳解】由題,得,方差.故答案為:110【點睛】本題主要考查利用頻率分布圖求數據平均數與方差的問題.5.為了解本市居民的生活成本,甲 乙 丙三名同學利用假期分別對三個社區進行了“家庭每月日常消費額”的調查.他們將調查所得的數據分別繪制成頻率分布直方圖(如圖所示),記甲 乙 丙所調查數據的標準差分別為,,,則它們的大小關系為 .【答案】【解析】第二組數據是單峰的每一個小長方形的差別比較小,數字數據較分散,各個段內分布均勻,第一組數據的兩端數字較多,絕大部分數字都處在兩端最分散,而第三組數據絕大部分數字都在平均數左右,是集中,由此得到結果.【詳解】解:根據三個頻率分步直方圖知,第一組數據的兩端數字較多,絕大部分數字都處在兩端數據偏離平均數遠,最分散,其方差最大;第二組數據絕大部分數字都在平均數左右,數據最集中,故其方差最小,而第三組數據是單峰的每一個小長方形的差別比較小,數字分布均勻,數據不如第一組偏離平均數大,方差比第一組中數據中的方差小,總上可知,故答案為:,【點睛】本題考查頻率分步直方圖,考查三組數據的標準差,考查標準差的意義,是比較幾組數據的波動大小的量,屬于基礎題.6.某工廠從生產的一批產品中隨機抽出一部分,對這些產品的一項質量指標進行了檢測,整理檢測結果得到如下頻率分布表:質量指標分組頻率 0.1 0.6 0.3據此可估計這批產品的此項質量指標的方差為 .【答案】144【分析】由每組數據中點值代替這組數據值,乘以頻率相加得平均值,再由方差公式計算方差.【詳解】由題意得這批產品的此項質量指標的平均數為,故方差為.故答案為:144.7.2023年10月22日,漢江生態城2023襄陽馬拉松在湖北省襄陽市成功舉行,志愿者的服務工作是馬拉松成功舉辦的重要保障,襄陽市新時代文明實踐中心承辦了志愿者選拔的面試工作.現隨機抽取了100名候選者的面試成績,并分成五組:第一組,第二組,第三組,第四組,第五組,繪制成如圖所示的頻率分布直方圖.已知第一、二組的頻率之和為0.3,第一組和第五組的頻率相同. (1)估計這100名候選者面試成績的平均數和第25百分位數;(2)現從以上各組中用分層隨機抽樣的方法選取20人,擔任本市的宣傳者.①現計劃從第一組和第二組抽取的人中,再隨機抽取2名作為組長.求選出的兩人來自不同組的概率.②若本市宣傳者中第二組面試者的面試成績的平均數和方差分別為62和40,第四組面試者的面試成績的平均數和方差分別為80和70,據此估計這次第二組和第四組面試者所有人的方差.【答案】(1)平均數為,第25百分位數為63(2)①;②【分析】(1)由頻率分布直方圖列出方程組解出,然后分別計算出平均數和百分位數即可;(2)①先利用分層抽樣的方法計算樣本,然后利用古典概型概率求解,然后根據題意計算方差即可.【詳解】(1)由題意可知:,解得,可知每組的頻率依次為:,所以平均數等于,因為,設第25百分位數為,則,解得,第25百分位數為63.(2)①根據分層抽樣,和的頻率比為,故在和中分別選取1人和5人,分別編號為A和1,2,3,4,5,則在這6人中隨機抽取兩個的樣本空間包含的樣本點有:,,,,A5,12,13,14,15,23,24,25,34,35,45,共15個,即,記事件B“兩人來自不同組”,則B包含的樣本點有,,,,共5個,即,所以②設第二組、第四組的平均數與方差分別為,,,,且兩組頻率之比為,成績在第二組、第四組的平均數成績在第二組、第四組的方差,故估計成績在第二組、第四組的方差是.8.古人云“民以食為天”,某校為了了解學生食堂服務的整體情況,進一步提高食堂的服務質量,營造和諧的就餐環境,使同學們能夠獲得更好的飲食服務為此做了一次全校的問卷調查,問卷所涉及的問題均量化成對應的分數(滿分100分),從所有答卷中隨機抽取100份分數作為樣本,將樣本的分數(成績均為不低于40分的整數)分成六段:,得到如圖所示的頻數分布表.樣本分數段頻數 5 10 20 a 25 10頻率 0.05 0.1 0.2 b 0.25 0.1(1)求頻數分布表中a和b的值,并求樣本成績的中位數和平均數;(2)已知落在的分數的平均值為56,方差是7;落在的分數的平均值為65,方差是4,求兩組成績的總平均數和總方差.【答案】(1),,,(2)兩組市民成績的總平均數是,總方差是【分析】(1)根據頻率分布直方圖的性質,求得,結合中位數、平均數的計算公式,即可求解;(2)根據分層抽樣的分法,得到分數在和的人數,結合分層抽樣的方差的計算方法,即可求解.【詳解】(1)解:(1)由,解得,則,由,所以,由成績在的頻率為,所以中位數為,平均數為.(2)解:由表可知,分數在的市民人數為10人,成績在的市民人數為20人,故,則,所以兩組市民成績的總平均數是,總方差是.9.某電信運營公司為響應國家5G網絡建設政策,擬實行5G網絡流量階梯定價,每人月用流量中不超過一種流量計算單位的部分按元收費,超過kGB的部分按2元收費,從用戶群中隨機調查了10000位用戶,獲得了他們某月的流量使用數據,整理得到如下的頻率分布直方圖.已知用戶月使用流量的中位數為(1)求表中的(2)若k為整數,依據本次調查為使以上用戶在該月的流量價格為元,則k至少定為多少 (3)為了進一步了解用戶使用5G流量與年齡的相關關系,由頻率分布直方圖中流量在和兩組用戶中,按人數比例分配的分層抽樣方法中抽取了100名用戶,已知組用戶平均年齡為30,方差為36,流量在組用戶的平均年齡為20,方差為16,求抽取的100名用戶年齡的方差.【答案】(1)(2)(3)48【分析】(1)根據頻率分布直方圖的特征即可求解;(2)根據頻率分布直方圖,結合百分位數的求法即可求解;(3)根據頻率分布直方圖,結合方差的計算公式即可求解.【詳解】(1),,(2)通過直方圖可知第85百分位數落在第組,,解得,,;(3)按分層抽樣在組抽取40人記為,,,,則,,在組抽取60人,記為,,同理可得,平均值為,抽取的100名用戶的方差10.為建立健全國家學生體質健康監測評價機制,激勵學生積極參加身體鍛煉,教育部印發《國家學生體質健康標準》,要求各學校每學年開展覆蓋本校各年級學生的《標準》測試工作.為做好全省的迎檢工作,成都市在高三年級開展了一次體質健康模擬測試,并從中隨機抽取了200名學生的數據,根據他們的健康指數繪制了如圖所示的頻率分布直方圖. (1)估計這200名學生健康指數的平均數和樣本方差(同一組數據用該組區間的中點值作代表);(2)從健康指數在的兩組中利用分層抽樣抽出7人進行電話回訪,并再隨機抽出2人贈送獎品,求從7人中抽出的2人來自不同組的概率.【答案】(1)平均數為60,方差為86(2)【分析】(1)根據頻率分布直方圖求各組頻率,結合平均數、方差公式運算求解;(2)根據分層抽樣求分層人數,利用列舉法結合古典概型運算求解.【詳解】(1)由頻率分布直方圖可知分組的頻率依次為:,所以平均數,方差,所以這200名學生體重的平均數為60,方差為86.(2)由(1)可知健康指數在的兩組的頻率之比為,所以抽取的7人中,有人,記為;有人,記為.隨機試驗的所有可能結果有:,,,,,,,,,,,,,,,,,,,,共21個基本事件,其中來自不同組的結果有:,,,,,,,,,,,,共12個基本事件,所以所求概率為.11.年入冬以來,為進一步做好疫情防控工作,避免疫情的再度爆發,地區規定居民出行或者出席公共場合均需佩戴口罩,現將地區個居民一周的口罩使用個數統計如下表所示,其中每周的口罩使用個數在以上(含)的有人.口罩使用數量頻率 (1)求的值,根據表中數據,完善上面的頻率分布直方圖;(只畫圖,不要過程)(2)根據頻率分布直方圖估計地區居民一周口罩使用個數的分位數和中位數;(四舍五入,精確到)(3)根據頻率分布直方圖估計地區居民一周口罩使用個數的平均數以及方差.(每組數據用每組中點值代替)【答案】(1),;頻率分布直方圖見解析(2)分位數為個,中位數為個(3)平均數為個,方差為.【分析】(1)根據頻數與頻率關系可構造方程求得,由此可補全頻率分布直方圖;(2)由頻率分布直方圖估計百分位數和中位數的方法直接求解即可;(3)由頻率分布直方圖估計平均數和方差的方法直接求解即可.【詳解】(1)由每周的口罩使用個數在以上(含)的有人得:,解得:,,則頻率分布直方圖如下: (2),,分位數位于,設其為,則,解得:,即估計分位數為個;,,中位數位于,設其為,則,解得:,即估計中位數為個.(3)由頻率分布直方圖得一周內使用口罩的平均數為:(個),方差為,則所求平均數估計為個,方差估計為.12.某市為了制定合理的節水方案,對居民用水情況進行了調查.通過抽樣,獲得了某年100戶居民每人的月均用水量(單位:噸).將數據按照,,…,分成9組,制成了如下圖所示的頻率分布直方圖. (1)求直方圖中a的值;(2)用每組區間的中點作為每組用水量的平均值,這9組居民每人的月均用水量前四組的方差都為0.3,后5組的方差都為0.4,求這100戶居民月均用水量的方差.【答案】(1)0.30;(2)1.1136.【分析】(1)根據給定的頻率分布直方圖,利用各小矩形面積和為1求出a值作答.(2)求出100戶居民月均用水量的平均數,再列式計算方差作答.【詳解】(1)由頻率分布直方圖知,數據在的頻率依次,則由,解得,所以直方圖中a的值為0.30.(2)由頻率分布直方圖得100戶居民月均用水量的平均數為:,所以這100戶居民月均用水量的方差為:.13.亞洲運動會簡稱亞運會,是亞洲規模最大的綜合性運動會,由亞洲奧林匹克理事會的成員國輪流主辦,每四年舉辦一屆.1951年第1屆亞運會在印度首都新德里舉行,七十多年來亞洲運動員已成為世界體壇上一支不可忽視的力量,而中國更是世界的體育大國和亞洲的體育霸主.第19屆杭州2022年亞運會將于2023年9月23日至10月8日舉辦,為普及體育知識,增強群眾體育鍛煉意識,某地舉辦了亞運知識競賽活動.活動分為男子組和女子組進行,最終決賽男女各有40名選手參加,右圖是其中男子組成績的頻率分布直方圖(成績介于85到145之間), (1)求圖中缺失部分的直方圖的高度,并估算男子組成績排名第10的選手分數;(2)若計劃從男子組中105分以下的選手中隨機抽樣調查2個同學的答題狀況,則抽到的選手中至少有1位是95分以下選手的概率是多少?(3)若女子組40位選手的平均分為117,標準差為12,試求所有選手的平均分和方差.【答案】(1),(2)(3)平均分為,方差為【分析】(1)先求出所有矩形的面積,再用1減去這個面積可得缺失部分的面積,除以10可得其高度,可求得第10名的成績是第75百分位數,然后利用百分位數的定義可求得結果;(2)求得105以下合計6個人,對這6人編號后,利用列舉法求解;(3)利用平均數和方差的定義求解即可.【詳解】(1)因為已有矩形的面積和為,所以缺失的矩形面積為,所以高度為,由于,所以第10名記為第75百分位數,設第10名的成績為,則位于第5組,且,解得,所以成績排名第10的選手分數為129;(2)105以下合計6個人,將6人依次編號為1,2,3,4,5,6(95分以下的人編號為1,2),任選2個人的方法數,列舉出所有樣本點:12,13,14,15,16,23,24,25,26,34,35,36,45,46,56共計15種,包含1,2的有9種,故概率為;(3)男子組選手的平均分,男子組得分的方差所有選手的平均得分為,所以所有選手得分的方差.14.某中學組織了數學知識競賽,從參加考試的學生中抽出40名學生,將其成績(均為整數)分成六組,其部分頻率分布直方圖如圖所示.觀察圖形,回答下列問題.(1)求成績在的頻率,并補全這個頻率分布直方圖;(2)估計這次考試成績的眾數,平均分和方差.【答案】(1)0.3,直方圖見解析(2)眾數為75,平均分為71分,方差194.【分析】(1)根據各組的頻率和為1可求出的頻率,從而可補全頻率分布直方圖;(2)根據眾數,平均分和方差的定義結合頻率分布直方圖求解.【詳解】(1)因為各組的頻率之和等于1,所以成績在的頻率為補全頻率分布直方圖如圖所示: (2)由頻率分布直方圖可得,這次考試成績在區間內的最多,因此這次考試成績的眾數為75利用中值估算學生成績的平均分:,方差:,所以本次考試的眾數為75,平均分為71分,方差194.15.某學校為了了解高二年級學生數學運算能力,對高二年級的300名學生進行了一次測試.已知參加此次測試的學生的分數全部介于45分到95分之間,該校將所有分數分成5組:,整理得到如下頻率分布直方圖(同組數據以這組數據的中間值作為代表). (1)求的值,并估計此次校內測試分數的平均值;(2)學校要求按照分數從高到低選拔前30名的學生進行培訓,試估計這30名學生的最低分數;(3)試估計這300名學生的分數的方差,并判斷此次得分為52分和94分的兩名同學的成績是否進入到了范圍內?(參考公式:,其中為各組頻數;參考數據:)【答案】(1),75分(2)90分(3)答案見解析【分析】(1)先由各組的頻率和為1,求出,然后利用平均數的定義可求出,(2)先求出這30 名學生的最低分數就是該次校內測試分數的90%分位數,然后利用百分位的定義求解即可,(3)先利用方差公式求出方差后再判斷即可【詳解】(1),所以,所以該次校內考試測試分數的平均數的估計值為:分.(2)因為,所以這30名學生的最低分數就是該次校內測試分數的分位數.該次校內考試測試分數的分位數為這30名學生的最低分數的估計值為90分.(3),,得分為52分的同學的成績沒有進入到內,得分為94分的同學的成績進入到了內.即:得分為52分的同學的成績沒有進入到范圍,得分為94分的同學的成績進入到范圍了.易錯點四:忽略百分位數兩種情況的選取(百分位數的考查)百分位數①百分位數定義:一般地,一組數據的第p百分位數是這樣一個值,它使得這組數據中至少有p%的數據小于或等于這個值,且至少有(100-p)%的數據大于或等于這個值.②常用的百分位數1.四分位數:第25百分位數,第50百分位數,第75百分位數.2.其它常用的百分位數:第1百分位數,第5百分位數,第95百分位數,第99百分位數.③計算一組n個數據的第p百分位數的一般步驟如下:第一步:按從小到大排列原始數據;第二步:計算i=n×p%;第三步:若i不是整數,而大于i的比鄰整數為j,則第p百分位數為第j項數據;若i是整數,則第p百分位數為第i項與第(i+1)項數據的平均數.易錯提醒:若i不是整數,而大于i的比鄰整數為j,則第p百分位數為第j項數據;若i是整數,則第p百分位數為第i項與第(i+1)項數據的平均數.例.某高校承辦了杭州亞運會志愿者選拔的面試工作.現隨機抽取了100名候選者的面試成績,并分成五組:第一組,第二組,第三組,第四組,第五組,繪制成如圖所示的頻率分布直方圖.已知第三、四、五組的頻率之和為0.7,第一組和第五組的頻率相同. (1)求,的值;(2)估計這100名候選者面試成績的第65百分位數(分位數精確到0.1);(3)在第四,第五兩組志愿者中,采用分層抽樣的方法從中抽取5人,然后再從這5人中選出2人,以確定組長人選,求選出的兩人來自同一組的概率.【詳解】(1)因為第三、四、五組的頻率之和為0.7,所以,解得,所以前兩組的頻率之和為,即,所以;(2)前兩個分組頻率之和為0.3,前三個分組頻率之和為0.75,所以第65百分位數在65和75之間,即為;(3)第四、第五兩組志愿者分別有20人,5人,故按照分層抽樣抽得的第四組志愿者人數為4,分別設為,,,,第五組志愿者人數為1,設為,這5人中選出2人,所有情況有,,,,,,,,,共有10種情況,其中選出的兩人來自同一組的有,,,,,,共6種情況,故選出的兩人來自同一組的概率為.變式1.某市政府為了倡議市民節約用電,計劃對居民生活用電費用實施階梯式電價制度,即確定一戶居民月均用電量標準 a,用電量不超過 a的部分按照平價收費,超出部分按議價收費.為了確定一個合理的標準,從某小區抽取了100戶居民進行用電量調查單位,并繪制了如圖所示的頻率分布直方圖:(1)求x的值:(2)求被調查用戶的月用電量平均值:同一組數據用該區間的中點值作代表(3)若使居民用戶的水費支出不受影響,應確定a值為多少?【詳解】(1),解得;(2);(3);;故分位數在之間,設為,,解得.變式2.長沙市某中學近幾年加大了對學生奧賽的培訓,為了選擇培訓的對象,2023年5月該中學進行一次數學競賽,從參加競賽的同學中,選取50名同學將其成績(百分制,均為整數)分成六組:第1組,第2組,第3組,第4組,第5組,第6組,得到頻率分布直方圖(如圖),觀察圖中信息,回答下列問題: (1)根據頻率分布直方圖,估計本次考試成績的平均數和第71百分位數(同一組中的數據用該組區間的中點值作代表);(2)已知學生成績評定等級有優秀、良好、一般三個等級,其中成績不小于90分時為優秀等級,若從成績在第5組和第6組的學生中,隨機抽取2人,求所抽取的2人中至少有1人成績優秀的概率.【詳解】(1),所以本次考試成績的平均分約為66.8;因為成績在的頻率為,成績在的頻率為,所以第71百分位數位于,設其為,則,解得,所以第71百分位數為75;(2)第5組的人數為:人,可記為,,,;第6組的人數為:人,可記為,,;則從中任取2人,有,,,,,,,,,,,,,,,,,,,,,共21種情況,其中至少有1人成績優秀的情況有,,,,,,,,,,,,,,共15種情況.所以至少有1人成績優秀的概率.變式3.一個容量為20的樣本,其數據按從小到大的順序排列為:1,2,2,3,5,6,6,7,8,8,9,10,13,13,14,15,17,17,18,18,則該組數據的第75百分位數為 ,第86百分位數為 .【詳解】,第75百分位數為;,第86百分位數為第18個數據17.故答案為:;17.1.以下數據為某學校參加學科節數學競賽決賽的10人的成績:(單位:分)72,78,79,80,81,83,84,86,88,90.這10人成績的第百分位數是85,則( )A.65 B.70 C.75 D.80【答案】B【分析】由樣本數據第百分位的定義求解即可得出答案.【詳解】因為人成績的第百分位數是,而,即第位與第位的平均值,所以是這人成績的第百分為數.故選:B.2.某校排球社的同學為訓練動作組織了墊排球比賽,以下為根據排球社位同學的墊球個數畫的頻率分布直方圖,所有同學墊球數都在之間.估計墊球數的樣本數據的第百分位數是( )A. B. C. D.【答案】D【分析】根據頻率分布直方圖可計算得到第百分位數位于區間內,根據百分位數估算的方法可求得結果.【詳解】墊球數在區間內的人數占總數的;墊球數在區間內的人數占總數的;第百分位數位于區間內,且,估計墊球數的樣本數據的第百分位數是.故選:D.3.“幸福感指數”是指人們主觀地評價自己目前生活狀態的滿意程度的指標,常用區間內的一個數來表示,該數越接近10表示滿意程度越高.現隨機抽取10位某小區居民,他們的幸福感指數分別為3,4,5,5,6,6,7,8,9,10,則這組數據的第80百分位數是( )A.7.5 B.8 C.8.5 D.9【答案】C【分析】計算得,然后由第8個數據和第9個數據求平均數可得.【詳解】因為,所以第80百分位數是.故選:C4.為了進一步學習貫徹黨的二十大精神,推進科普宣傳教育,激發學生的學習熱情,營造良好的學習氛圍,不斷提高學生對科學 法律 健康等知識的了解,某學校組織全校班級開展“紅色百年路 科普萬里行”知識競賽.現抽取10個班級的平均成績:,據此估計該校各個班級平均成績的第40百分位數為( )A.77 B.78 C.76 D.80【答案】A【分析】由第p百分位數計算公式可得答案.【詳解】因共10個數據,則,故該組數據的第40百分位數為從小到大排列第4個數據與第5個數據的平均數,即.故選:A5.某地一年之內12個月的月降水量分別為:46,51, 48,53,56, 53,56,64,58,56,66,71,則下列說法正確的是( )A.該地區的月降水量20%分位數為51B.該地區的月降水量50%分位數為53C.該地區的月降水量75%分位數為61D.該地區的月降水量80%分位數為64【答案】ACD【分析】把12個月的月降水量數據從小到大排列,利用百分位數的定義求解即得.【詳解】12個月的月降水量數據從小到大排列為:46,48,51,53,53,56,56,56,58,64, 66,71,由,該地區的月降水量20%分位數為51,A正確;由,該地區的月降水量50%分位數為,B錯誤;由,該地區的月降水量75%分位數為,C正確;由,該地區的月降水量80%分位數為64,D正確.故選:ACD6.習近平總書記強調,要堅持健康第一的教育理念,加強學校體育工作,推動青少年文化學習和體育鍛煉協調發展.某學校對高一年級學生每周在校體育鍛煉時長(單位:小時)進行了統計,得到如下頻率分布表:分組頻率 0.25 0.30 0.20 0.25則下列關于高一年級學生每周體育鍛煉時長的說法中正確的是( )A.眾數約為2.5B.中位數約為3.83C.平均數為3.95D.第80百分位數約為5.2【答案】BCD【分析】根據眾數的定義,中位數的定義,平均數的定義,百分位數的定義即可求解.【詳解】對A,因為最大頻率的組的中點值為3.5,則眾數大約為3.5,故A錯誤;對B,由表可知,中位數在第二組中,設其為,則,解得,故B正確;對C,因為平均數為,故C正確;對D,因為前三組的頻率和為0.75,則第80百分位數位于第4組,設其為,可得,解得,故D正確.故選:BCD.7.某公司為了解用戶對其產品的滿意度,隨機調查了10個用戶,得到用戶對產品的滿意度評分如表所示,評分用區間內的一個數來表示,該數越接近10表示滿意度越高,則下列說法正確的( )7 8 9 7 5 4 10 9 4 7A.這組數據的平均數為0B.這組數據的眾數為7C.這組數據的極差為6D.這組數據的第75百分位數為9【答案】BCD【分析】先將這組數據從小到大依次排列,然后根據平均數、眾數、極差、百分位數的概念,計算求解,即可得出答案.【詳解】將這組數據從小到大依次排列,為4,4,5,7,7,7,8,9,9,10.對于A項,這組數據的平均數為,選項A錯誤;對于B項,這組數據的眾數是7,選項B正確;對于C項,這組數據的極差是,選項C正確;對于D項,因為,且第8個數是9,所以這組數據的第75百分位數為9,選項D正確.故選:BCD.8.人均國內生產總值是人們了解和把握一個國家或地區的宏觀經濟運行狀況的有效工具,即“人均GDP”,常作為發展經濟學中衡量經濟發展狀況的指標,是最重要的宏觀經濟指標之一.在國家統計局的官網上可以查詢到我國2013年至2022年人均國內生產總值(單位:元)的數據,如圖所示,則( )A.2013年至2022年人均國內生產總值逐年遞增B.2013年至2022年人均國內生產總值的極差為42201C.這10年的人均國內生產總值的80%分位數是71828D.這10年的人均國內生產總值的增長量最小的是2020年【答案】ABD【分析】根據圖中數據和極差、百分位數、增長量的定義判斷.【詳解】由圖可知,2013年至2022年人均國內生產總值逐年遞增,A正確;2013年至2022年人均國內生產總值的極差為85698-43497=42201,B正確;因為10×80%=8,所以這10年的人均國內生產總值的80%分位數是.C不正確;由圖中數據分析可知,2020年人均同內生產總值的增長為71828-70078=1750(元),是這10年中增長量最小的,D正確.故選:ABD.9.已知互不相同的30個樣本數據,若去掉其中最大和最小的數據,設剩下的28個樣本數據的方差為,平均數為;去掉的兩個數據的方差為,平均數為﹔原樣本數據的方差為,平均數為,若=,則下列說法正確的是( )A.B.C.剩下28個數據的中位數大于原樣本數據的中位數D.剩下28個數據的22%分位數不等于原樣本數據的22%分位數【答案】ABD【分析】對于A選項,求出剩下的28個樣本數據的和、去掉的兩個數據和、原樣本數據和,列出方程即可;對于B選項,寫出和的表達式即可;對于C選項,根據中位數定義判斷即可;對于D選項,根據分位數定義判斷即可.【詳解】A. 剩下的28個樣本數據的和為,去掉的兩個數據和為,原樣本數據和為,所以,因為=,所以,故A選項正確;B.設,,因為,所以,所以,所以,故B選項正確;C. 剩下28個數據的中位數等于原樣本數據的中位數,故C選項錯誤;D.去掉2個數據,則剩下28個數據的22%分位數不等于原樣本數據的22%分位數,故D正確.故選:ABD.10.8名學生參加跑的成績(單位:s)分別為13.10,12.99,13.01,13.20,13.01,13.20,12.91,13.01,則( )A.極差為0.29 B.眾數為13.01C.平均數近似為13.05 D.第75百分位數為13.10【答案】ABC【分析】根據極差,眾數,平均數,百分位數的概念逐項分析.【詳解】將該組數據從小到大排列為:12.91,12.99,13.01,13.01,13.01,13.10,13.20,13.20.對于A:極差為,故A正確;對于B:這組數據中13.01出現3次,眾數為13.01,故B正確;對于C:平均數為,故C正確;對于D:因為共有8個數據,所以,則第75百分位數為.所以D錯誤.故選:ABC.11.黨的二十大報告提出,要加快發展數字經濟,促進數字經濟與實體經濟的深度融合,數字化構建社區服務新模式成為一種時尚.某社區為優化數字化社區服務,問卷調查調研數字化社區服務的滿意度,滿意度采用計分制(滿分100分),統計滿意度繪制成如下頻率分布直方圖,圖中.則下列結論正確的是( )A.B.滿意度計分的眾數為80分C.滿意度計分的分位數是85分D.滿意度計分的平均分是76.5【答案】ACD【分析】根據頻率之和為1即可求解A,根據眾數,中位數以及平均數的計算即可分別求解BCD.【詳解】由頻率分布直方圖可知,即,又,所以,所以選項正確;滿意度計分的眾數為75分,所以選項錯誤;前三組的頻率之和為0.75,前四組的頻率之和為,則分位數,故,滿意度計分的分位數為85,所以選項正確;滿意度計分的平均分為:分,所以選項D正確.故選:ACD.12.某校1500名學生參加數學競賽,隨機抽取了40名學生的競賽成績(單位:分),成績的頻率分布直方圖如圖所示,則( ) A.頻率分布直方圖中a的值為0.005 B.估計這40名學生的競賽成績的第60百分位數為75C.估計這40名學生的競賽成績的眾數為80 D.估計總體中成績落在內的學生人數為225【答案】AD【分析】先根據頻率之和為1可得,進而可求每組的頻率,再結合統計相關知識逐項分析判斷即可.【詳解】由,可得,故A正確;前三個矩形的面積和為,所以這名學生的競賽成績的第百分位數為,故B錯誤;由成績的頻率分布直方圖易知,這名學生的競賽成績的眾數為,故C 錯誤;總體中成績落在內的學生人數為,故D正確.故選:AD13.甘肅省2017到2022年常住人口變化圖如圖所示: 則( )A.甘肅省2017到2020年這4年的常住人口呈遞增趨勢B.甘肅省2017到2022年這6年的常住人口的第40百分位數為2501.98萬C.甘肅省2017到2022年這6年的常住人口的極差為156.41萬D.從2017到2022年這6年中任選1年,則該年的甘肅省常住人口大于2500萬的概率為【答案】BD【分析】A.由條形圖判斷;B.利用第百分位數的定義求解判斷;C.利用極差的定義求解判斷;D.利用古典概型的概率求解判斷.【詳解】由圖可知,A錯誤.甘肅省2017到2022年這6年的常住人口(單位:萬)按照從小到大的順序排列為2490.02,2492.42,2501.98,2625.71,2637.26,2647.43,因為,所以這6年的常住人口的第40百分位數為2501.98萬,B正確.甘肅省2017到2022年這6年的常住人口的極差為萬,C錯誤.從2017到2022年這6年中任選1年,則該年的甘肅省常住人口大于2500萬的概率為,D正確.故選:BD14.下表是某公司的月固定工資統計表:總工程師 工程師 技術員A 技術員B 技術員C 技術員D 技術員E 見習技術員固定工資(元) 9000 7000 4000 3200 2600 2000 1500 1000由該表能判斷出該公司職工固定工資的75%分位數是 元.【答案】5500【分析】利用百分位數的定義求解即可.【詳解】由,所以該公司職工固定工資的75%分位數為表中從右到左的第6個數與第7個數的平均數,即為.故答案為:5500.15.某城市30天的空氣質量指數如下:29,26,28,29,38,29,26,26,40,31,35,44,33,28,80,86,65,53,70,34,36,,31,38,63,60,56,34,74,34.則這組數據的第75百分位數為 .【答案】56【分析】把給定數據按由小到大的順序排列,再根據第p百分位數的定義求解即得.【詳解】顯然,30個數據由小到大排列為:26,26,26,28,28,29,29,29,31,31,33,34,34,34,35,36,38,38,40,44,,53,56,60,63,65,70,74,80,86,或者26,26,26,28,28,29,29,29,31,31,33,34,34,34,35,36,38,38,40,,44,53,56,60,63,65,70,74,80,86,由,得這組數據的第75百分位數為上述排列后的從小到大的第23個數56.故答案為:56易錯點五:忽略相關性檢驗而出錯(統計案例)Ⅰ:變量間的相關關系1.變量之間的相關關系當自變量取值一定時,因變量的取值帶有一定的隨機性,則這兩個變量之間的關系叫相關關系.由于相關關系的不確定性,在尋找變量之間相關關系的過程中,統計發揮著非常重要的作用.我們可以通過收集大量的數據,在對數據進行統計分析的基礎上,發現其中的規律,對它們的關系作出判斷.注意:相關關系與函數關系是不同的,相關關系是一種非確定的關系,函數關系是一種確定的關系,而且函數關系是一種因果關系,但相關關系不一定是因果關系,也可能是伴隨關系.2.散點圖將樣本中的個數據點描在平面直角坐標系中,所得圖形叫做散點圖.根據散點圖中點的分布可以直觀地判斷兩個變量之間的關系.(1)如果散點圖中的點散布在從左下角到右上角的區域內,對于兩個變量的這種相關關系,我們將它稱為正相關,如圖(1)所示;(2)如果散點圖中的點散布在從左上角到右下角的區域內,對于兩個變量的這種相關關系,我們將它稱為負相關,如圖(2)所示.3.相關系數若相應于變量的取值,變量的觀測值為,則變量與的相關系數,通常用來衡量與之間的線性關系的強弱,的范圍為.(1)當時,表示兩個變量正相關;當時,表示兩個變量負相關.(2)越接近,表示兩個變量的線性相關性越強;越接近,表示兩個變量間幾乎不存在線性相關關系.當時,所有數據點都在一條直線上.(3)通常當時,認為兩個變量具有很強的線性相關關系.Ⅱ:線性回歸1.線性回歸線性回歸是研究不具備確定的函數關系的兩個變量之間的關系(相關關系)的方法.對于一組具有線性相關關系的數據(x1,y1),(x2,y2),…,(xn,yn),其回歸方程的求法為其中,,,(,)稱為樣本點的中心.2.殘差分析對于預報變量,通過觀測得到的數據稱為觀測值,通過回歸方程得到的稱為預測值,觀測值減去預測值等于殘差,稱為相應于點的殘差,即有.殘差是隨機誤差的估計結果,通過對殘差的分析可以判斷模型刻畫數據的效果以及判斷原始數據中是否存在可疑數據等,這方面工作稱為殘差分析.(1)殘差圖通過殘差分析,殘差點比較均勻地落在水平的帶狀區域中,說明選用的模型比較合適,其中這樣的帶狀區域的寬度越窄,說明模型擬合精確度越高;反之,不合適.(2)通過殘差平方和分析,如果殘差平方和越小,則說明選用的模型的擬合效果越好;反之,不合適.(3)相關指數用相關指數來刻畫回歸的效果,其計算公式是:.越接近于,說明殘差的平方和越小,也表示回歸的效果越好.Ⅲ:非線性回歸解答非線性擬合問題,要先根據散點圖選擇合適的函數類型,設出回歸方程,通過換元將陌生的非線性回歸方程化歸轉化為我們熟悉的線性回歸方程.求出樣本數據換元后的值,然后根據線性回歸方程的計算方法計算變換后的線性回歸方程系數,還原后即可求出非線性回歸方程,再利用回歸方程進行預報預測,注意計算要細心,避免計算錯誤.1.建立非線性回歸模型的基本步驟:(1)確定研究對象,明確哪個是解釋變量,哪個是預報變量;(2)畫出確定好的解釋變量和預報變量的散點圖,觀察它們之間的關系(是否存在非線性關系);(3)由經驗確定非線性回歸方程的類型(如我們觀察到數據呈非線性關系,一般選用反比例函數、二次函數、指數函數、對數函數、冪函數模型等);(4)通過換元,將非線性回歸方程模型轉化為線性回歸方程模型;(5)按照公式計算線性回歸方程中的參數(如最小二乘法),得到線性回歸方程;(6)消去新元,得到非線性回歸方程;(7)得出結果后分析殘差圖是否有異常.若存在異常,則檢查數據是否有誤,或模型是否合適等.Ⅳ:獨立性檢驗1.分類變量和列聯表(1)分類變量:變量的不同“值”表示個體所屬的不同類別,像這樣的變量稱為分類變量.(2)列聯表:①定義:列出的兩個分類變量的頻數表稱為列聯表.②2×2列聯表.一般地,假設有兩個分類變量X和Y,它們的取值分別為{x1,x2}和{y1,y2},其樣本頻數列聯表(稱為2×2列聯表)為總計總計從列表中,依據與的值可直觀得出結論:兩個變量是否有關系.2.等高條形圖(1)等高條形圖和表格相比,更能直觀地反映出兩個分類變量間是否相互影響,常用等高條形圖表示列聯表數據的頻率特征.(2)觀察等高條形圖發現與相差很大,就判斷兩個分類變量之間有關系.3.獨立性檢驗(1)定義:利用獨立性假設、隨機變量來確定是否有一定把握認為“兩個分類變量有關系”的方法稱為兩個分類變量的獨立性檢驗.(2)公式:,其中為樣本容量.(3)獨立性檢驗的具體步驟如下:①計算隨機變量的觀測值,查下表確定臨界值:0.5 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.0010.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828②如果,就推斷“與有關系”,這種推斷犯錯誤的概率不超過;否則,就認為在犯錯誤的概率不超過的前提下不能推斷“與有關系”.【常用結論】常見的非線性回歸模型(1)指數函數型(且,)兩邊取自然對數,,即,令,原方程變為,然后按線性回歸模型求出,.(2)對數函數型令,原方程變為,然后按線性回歸模型求出,.(3)冪函數型兩邊取常用對數,,即,令,原方程變為,然后按線性回歸模型求出,.(4)二次函數型令,原方程變為,然后按線性回歸模型求出,.(5)反比例函數型型令,原方程變為,然后按線性回歸模型求出,.易錯提醒:已知數據求回歸直線方程,應根據散點圖分析變量之間是否滿足線性關系,或求相關系數r進行線性相關性的檢驗,如是非線性的關系,應轉化為線性關系,再求解.例.某鄉政府為提高當地農民收入,指導農民種植藥材,取得較好的效果.以下是某農戶近5年種植藥材的平均收入的統計數據:年份 2018 2019 2020 2021 2022年份代碼x 1 2 3 4 5平均收入y(千元) 59 61 64 68 73(1)根據表中數據,現有與兩種模型可以擬合y與x之間的關系,請分別求出兩種模型的回歸方程;(結果保留一位小數)(2)統計學中常通過比較殘差的平方和來比較兩個模型的擬合效果,已知的殘差平方和是3.5,請根據殘差平方和說明上述兩個方程哪一個擬合效果更好,并據此預測2023年該農戶種植藥材的平均收入.參考數據及公式:,,其中.,.【詳解】(1)根據農戶近5年種植藥材的平均收入情況的統計數據可得:,,所以,,則,.設,則,所以,則,.所以,兩種模型的回歸方程分別為,.(2)回歸方程為時,將值代入可得估計值分別為59,60.8,63.8,68,73.4,則殘差平方和為.而的殘差平方和是3.5,則,所以回歸方程擬合效果更好,應選擇該方程進行擬合.當時,故預測2023年該農戶種植藥材的平均收入為80千元,即8萬元.變式1.國務院印發《新時期促進集成電路產業和軟件產業高質量發展的若干政策》.某科技公司響應國家號召,加大了芯片研究投入力度.從2022年起,芯片的經濟收入逐月攀升,該公司在2022年的第一月份至第六月份的月經濟收入(單位:百萬元)關于月份的數據如下表所示:時間(月份) 1 2 3 4 5 6月收入(百萬元) 6 9 15 22 33 47(1)請你根據提供數據,判斷與(均為常數)哪一個適宜作為該公司月經濟收入關于月份的回歸方程類型?(給出判斷即可,不必說明理由)(2)根據(1)的結果及表中的數據,求出關于的回歸方程;(3)從這6個月中抽取3個,記月收入超過16百萬的個數為,求的分布列和數學期望.參考數據:2.86 17.50 142 7.29其中設參考公式和數據:對于一組具有線性相關關系的數據,其回歸直線的斜率和截距的最小二乘估計公式分別為:.【詳解】(1)根據數據判斷知適宜作為該公司月經濟收人關于月份的回歸方程類型.(2)由,得到,令,則,所以,又,所以,故,即.(3)易知在前6個月的收入中,月收入超過16佰萬的有3個,故服從的超幾何分布,又的所有取值為,又,,,,所以的分布列為0 1 2 3則(或).變式2.2020年11月,國務院辦公廳印發《新能源汽車產業發展規劃(2021-2035年)》,要求深入實施發展新能源汽車國家戰略,推動中國新能源汽車產業高質量可持續發展,加快建設汽車強國.同時為了推廣新能源替代傳統非綠色能源,除了財政補貼、稅收優惠等激勵性政策外,可間接通過前期技術研發支持等政策引導能源發展方向.某企業多年前就開始進行新能源汽車方面的研發,現對近10年的年技術創新投入和每件產品成本(,2,3,…,10)的數據進行分析,得到如下散點圖, 并計算得:,,,,.(1)根據散點圖可知,可用函數模型擬合y與x的關系,試建立y關于x的回歸方程;(2)已知該產品的年銷售額m(單位:千萬元)與每件產品成本y的關系為.該企業的年投入成本除了年技術創新投入,還要投入其他成本10千萬元,根據(1)的結果回答:當年技術創新投入x為何值時,年利潤的預報值最大 (注:年利潤年銷售額年投入成本)參考公式:對于一組數據,,…,,其回歸直線的斜率和截距的最小二乘估計分別為:,.【詳解】(1)令,則y關于u的線性回歸方程為, 由題意可得, , 則, 所以,y關于x的回歸方程為.(2)由可得, 年利潤, 當時,年利潤M取得最大值,此時, 所以,當年技術創新投入為40千萬元時,年利潤的預報值取最大值.變式3.臺山市鎮海灣蠔是臺山市著名的特產,因鎮海灣的生蠔田處于咸淡水交匯之地,所以這里的生蠔長得比其他地方肥大,味道更加鮮美.2023年鎮海灣某養殖基地考慮增加人工投入,根據市場調研與模擬,得到人工投入增量x人與年收益增量y萬元的數據和散點圖分別如下:x 2 3 4 6 8 10 13y 13 22 31 42 50 56 58 根據散點圖,建立了y與x的兩個回歸模型:模型①:;模型②:(1)求出模型②中y關于x的回歸方程(精確到0.1);(2)比較模型①,②的決定系數的大小,說明哪個模型擬合效果更好,并用該模型預測,要使年收益增量超過80萬元,人工投入增量至少需要多少人?(精確到1)線性回歸方程的系數:,;模型的決定系數:.參考數據:令,則,且,,,;模型①中;模型②中.【詳解】(1)令,則模型②為:,由,,,,得,,所以模型②中y關于x的回歸方程是.(2)模型①中的決定系數,模型②的決定系數,因為,所以模型①中的決定系數小于模型②的決定系數,所以模型②的擬合效果更好.在模型②下,年收益增量超過80萬元,則有,所以,所以人工投入增量至少需要20人.1.為幫助鄉村脫貧,某勘探隊計劃了解當地礦脈某金屬的分布情況,測得了平均金屬含量(單位:)與樣本對原點的距離(單位:m)的數據,并作了初步處理,得到了下面的一些統計理的值.(表中,)6 97.90 0.21 60 0.14 14.12 26.13(1)利用樣本相關系數的知識,判斷與哪一個更適宜作為平均金屬含量關于樣本對原點的距離的回歸方程類型?(2)根據(1)的結果回答下列問題:①建立關于的回歸方程;②樣本對原點的距離時,金屬含量的預報值是多少?附:對于一組數據,其線性相關系數,其回歸直線的斜率和截距的最小二乘估計分別為:,.【答案】(1)更適宜;(2)①;②【分析】(1)分別求出與所對應的線性相關系數,然后比較大小即可判斷.(2)根據數據和公式即可求得關于的回歸方程,根據回歸方程代入,即可求出金屬含量的預報值.【詳解】(1)由題的線性相關系數,的線性相關系數,因為所以更適宜作為平均金屬含量關于樣本對原點的距離的回歸方程類型.(2)①由(1),令,,則,所以,,則,即.②當時,金屬含量的預報值2.一座城市的夜間經濟不僅有助于拉動本地居民內需,還能延長外地游客、商務辦公者等的留存時間,帶動當地經濟發展,是衡量一座城市生活質量、消費水平、投資環境及文化發展活力的重要指標.數據顯示,近年來中國各地政府對夜間經濟的扶持力度加大,夜間經濟的市場發展規模保持穩定增長,下表為2017—2022年中國夜間經濟的市場發展規模(單位:萬億元),其中2017—2022年對應的年份代碼依次為1~6.年份代碼 1 2 3 4 5 6中國夜間經濟的市場發展規模萬億元 20.5 22.9 26.4 30.9 36.4 42.4(1)已知可用函數模型擬合與的關系,請建立關于的回歸方程(的值精確到0.01);(2)某傳媒公司預測2023年中國夜間經濟的市場規模將達到48.1萬億元,現用(1)中求得的回歸方程預測2023年中國夜間經濟的市場規模,若兩個預測規模誤差不超過1萬億元,則認為(1)中求得的回歸方程是理想的,否則是不理想的,判斷(1)中求得的回歸方程是否理想.參考數據:3.366 73.282 17.25 1.16 2.83其中.參考公式:對于一組數據,其回歸直線的斜率和截距的最小二乘估計分別為.【答案】(1);(2)是理想的【分析】(1)通過對所給的的函數模型取對數,轉換為求回歸直線方程即可,再結合題中所給的直線方程與數據即可得解.(2)利用(1)中求得的函數模型進行預測,結合回歸方程理想的定義判斷即可.【詳解】(1)將的等號左右兩邊同時取自然對數得,所以.,而,所以,.所以,即,所以.(2)2023年對應的年份代碼為7,當時,,,所以(1)中求得的回歸方程是理想的.3.中國茶文化博大精深,飲茶深受大眾喜愛,茶水的口感與茶葉類型和水的溫度有關,某數學建模小組為了獲得茶水溫度y(單位:)關于時間x(單位:min)的回歸方程模型,通過實驗收集在室溫,用同一溫度的水沖泡的條件下,茶水溫度隨時間變化的7組數據,并對數據做初步處理得到如圖所示散點圖以及如表所示數據. 73.5 3.85表中:,(1)根據散點圖判斷,①與②哪一個更適宜作為該茶水溫度y關于時間x的回歸方程類型?(給出判斷即可,不必說明理由)請根據你的判斷結果及表中數據建立該茶水溫度y關于時間x的回歸方程;(2)已知該茶水溫度降至口感最佳,根據(1)中的回歸方程,求在相同條件下沖泡的茶水,大約需要放置多長時間才能達到最佳飲用口感?附:(1)對于一組數據,…,,其回歸直線的斜率和截距的最小二乘估計分別為,(2)參考數據:,,,,【答案】(1)②更適宜,;(2)7.5min.【分析】(1)根據散點圖選擇②,取對數,再利用最小二乘法公式求出回歸直線方程即可.(2)利用(1)中回歸方程,列出關于的方程求解即得.【詳解】(1)由散點圖知,更適宜的回歸方程為②,即.由,得,兩邊取自然對數,得,令,則,,結合表中數據,得,結合參考數據可得,由,得,所以茶水溫度y關于時間x的回歸方程為.(2)依題意,室溫下,茶水溫度降至口感最佳,即,整理得,于是,解得,所以在相同條件下,剛泡好的茶水大約需要放置7.5min才能達到最佳引用口感.4.當前,新一輪科技革命和產業變革蓬勃興起,以區塊鏈為代表的新一代信息技術迅猛發展,現收集某地近6年區塊鏈企業總數量相關數據,如下表:年份 2017 2018 2019 2020 2021 2022編號 1 2 3 4 5 6企業總數量(單位:百個) 50 78 124 121 137 352(1)若用模型擬合與的關系,根據提供的數據,求出與的經驗回歸方程;(2)為了促進公司間的合作與發展,區塊鏈聯合總部決定進行一次信息化技術比賽,邀請甲、乙、丙三家區塊鏈公司參賽.比賽規則如下:①每場比賽有兩個公司參加,并決出勝負;②每場比賽獲勝的公司與未參加此場比賽的公司進行下一場的比賽;③在比賽中,若有一個公司首先獲勝兩場,則本次比賽結束,該公司獲得此次信息化比賽的“優勝公司”.已知在每場比賽中,甲勝乙的概率為,甲勝丙的概率為,乙勝丙的概率為,若首場由甲乙比賽,求甲公司獲得“優勝公司”的概率.參考數據:,其中,參考公式:對于一組數據,其經驗回歸直線的斜率和截距的最小二乘估計分別為【答案】(1)(2)【分析】(1)令,利用最小二乘法求出,即可得解;(2)由根據相互獨立事件概率的乘法公式計算即可得到答案.【詳解】(1)令,,則,,所以,所以;(2)設甲公司獲得“優勝公司”為事件,則,所以甲公司獲得“優勝公司”的概率為.5.某出版社單冊圖書的成本費y(元)與印刷冊數x(千冊)有關,經統計得到數據如下:x 1 2 3 5 7 10 11 20 25 30y 9.02 5.27 4.06 3.03 2.59 2.28 2.21 1.89 1.80 1.75(1)根據以上數據畫出散點圖(可借助統計軟件),并根據散點圖判斷:與中哪一個適宜作為回歸方程模型 (2)根據(1)的判斷結果,試建立成本費y關于印刷冊數x的回歸方程;(3)利用回歸方程估計印刷26000冊圖書的單冊成本(結果保留兩位小數).【答案】(1)繪圖見解析,適宜作為回歸方程模型;(2);(3)成本約為元.【分析】(1)根據表格數據繪制散點圖,由各點的變化趨勢確定合適的模型即可;(2)利用最小二乘法求回歸方程;(3)由(2)所得回歸方程估計時對應的單冊成本費用.【詳解】(1)由表格數據可得如下散點圖, 顯然,兩者之間是某種非線性關系,故適宜作為回歸方程模型.(2)令且,則,,,,則,所以,故.(3)由(2),將代入回歸方程得元.6.紅蜘蛛是柚子的主要害蟲之一,能對柚子樹造成嚴重傷害,每只紅蜘蛛的平均產卵數y(個)和平均溫度x(℃)有關,現收集了以往某地的7組數據,得到下面的散點圖及一些統計量的值. (1)根據散點圖判斷,與(其中…為自然對數的底數)哪一個更適合作為平均產卵數y(個)關于平均溫度x(℃)的回歸方程類型?(給出判斷即可,不必說明理由)(2)由(1)的判斷結果及表中數據,求出y關于x的回歸方程.(計算結果精確到0.1)附:回歸方程中,,參考數據()5215 17713 714 27 81.3 3.6(3)根據以往每年平均氣溫以及對果園年產值的統計,得到以下數據:平均氣溫在22℃以下的年數占60%,對柚子產量影響不大,不需要采取防蟲措施;平均氣溫在22℃至28℃的年數占30%,柚子產量會下降20%;平均氣溫在28℃以上的年數占10%,柚子產量會下降50%.為了更好的防治紅蜘蛛蟲害,農科所研發出各種防害措施供果農選擇.在每年價格不變,無蟲害的情況下,某果園年產值為200萬元,根據以上數據,以得到最高收益(收益=產值-防害費用)為目標,請為果農從以下幾個方案中推薦最佳防害方案,并說明理由.方案1:選擇防害措施A,可以防止各種氣溫的紅蜘蛛蟲害不減產,費用是18萬;方案2:選擇防害措施B,可以防治22℃至28℃的蜘蛛蟲害,但無法防治28℃以上的紅蜘蛛蟲害,費用是10萬;方案3:不采取防蟲害措施.【答案】(1)更適宜(2)(3)選擇方案1最佳,理由見解析【分析】(1)根據散點圖的形狀,可判斷更適宜作為平均產卵數y關于平均溫度x的回歸方程類型;(2)將兩邊同時取自然對數,轉化為線性回歸方程,即可得到答案;(3)求出三種方案的收益的均值,根據均值越大作為判斷標準.【詳解】(1)由散點圖可以判斷,更適宜作為平均產卵數y關于平均溫度x的回歸方程類型.(2)將兩邊同時取自然對數,可得,由題中的數據可得,,,所以,則,所以z關于x的線性回歸方程為,故y關于x的回歸方程為;(3)用,和分別表示選擇三種方案的收益.采用第1種方案,無論氣溫如何,產值不受影響,收益為萬,即采用第2種方案,不發生28℃以上的紅蜘蛛蟲害,收益為萬,如果發生,則收益為萬,即,同樣,采用第3種方案,有所以,,,.顯然,最大,所以選擇方案1最佳.7.在一次抽樣調查中測得個樣本點,得到下表及散點圖. (1)根據散點圖判斷與哪一個適宜作為關于的回歸方程;(給出判斷即可,不必說明理由)(2)根據(1)的判斷結果試建立與的回歸方程;(計算結果保留整數)參考公式:【答案】(1)(2)【分析】(1)根據散點圖即可求解,(2)將非線性轉化為線性,即可利用最小二乘法求解.【詳解】(1)由題中散點圖可以判斷,適宜作為關于的回歸方程;(2)令,則,原數據變為由表可知與近似具有線性相關關系,計算得,,,所以,,則.所以關于的回歸方程是.8.為了研究某種細菌隨天數變化的繁殖個數,收集數據如下:天數 1 2 3 4 5 6繁殖個數 6 12 25 49 95 190 (1)在圖中作出繁殖個數關于天數變化的散點圖,并由散點圖判斷(為常數)與(為常數,且)哪一個適宜作為繁殖個數關于天數變化的回歸方程類型?(給出判斷即可,不必說明理由)(2)對于非線性回歸方程(為常數,且),令,可以得到繁殖個數的對數z關于天數x具有線性關系及一些統計量的值.3.50 62.83 3.53 17.50 596.57 12.09(ⅰ)證明:“對于非線性回歸方程,令,可以得到繁殖個數的對數關于天數具有線性關系(即為常數)”;(ⅱ)根據(ⅰ)的判斷結果及表中數據,建立關于的回歸方程(系數保留2位小數).附:對于一組數據,其回歸直線方程的斜率和截距的最小二乘估計分別為.【答案】(1)選擇為回歸方程較宜(2)(ⅰ)證明見解析;(ⅱ)【分析】(1)根據表格提供數據畫出散點圖,并由此選擇.(2)(ⅰ)利用換元法,結合對數運算證得結論成立;(ⅱ)根據回歸方程的求法求得正確答案.【詳解】(1)作出散點圖如圖所示. 由散點圖看出樣本點分布在一條指數型曲線的周圍,故選擇為回歸方程較宜.(2)(i)由已知:令,則,則,,即.所以繁殖個數的對數關于天數具有線性關系.(ii)由(i)知繁殖個數的對數關于天數可以用線性回歸方程來擬合.由表中數據可得,,,得到關于的線性回歸方程為,又,因此細菌的繁殖個數關于天數的非線性回歸方程為.9.抗體藥物的研發是生物技術制藥領域的一個重要組成部分,抗體藥物的攝入量與體內抗體數量的關系成為研究抗體藥物的一個重要方面.某研究團隊收集了10組抗體藥物的攝入量與體內抗體數量的數據,并對這些數據作了初步處理,得到了如圖所示的散點圖及一些統計量的值,抗體藥物攝入量為x(單位:),體內抗體數量為y(單位:).29.2 12 16 34.4 (1)根據經驗,我們選擇作為體內抗體數量y關于抗體藥物攝入量x的回歸方程,將兩邊取對數,得,可以看出與具有線性相關關系,試根據參考數據建立關于的回歸方程,并預測抗體藥物攝入量為時,體內抗體數量的值;(2)經技術改造后,該抗體藥物的有效率z大幅提高,經試驗統計得z服從正態分布,那這種抗體藥物的有效率超過0.54的概率約為多少?附:①對于一組數據,其回歸直線的斜率和截距的最小二乘估計分別為,;②若隨機變量,則有,,;③取.【答案】(1);(2)【分析】(1)用最小二乘法求解回歸直線方程,再求非線性回歸方程即可;(2)根據正態分布的對稱性求解給定區間的概率即可.【詳解】(1)將兩邊取對數,得,設,,則回歸方程變為,由表中數據可知,,,所以,,所以,即,故y關于x的回歸方程為,當時,.(2)因為z服從正態分布,其中,,所以,所以,故這種抗體藥物的有效率z超過0.54的概率約為.資料整理【淘寶店鋪:向陽百分百】 展開更多...... 收起↑ 資源列表 備戰2024年高考數學易錯題(新高考專用)專題13 統計 Word版含解析.docx 備戰2024年高考數學易錯題(新高考專用)專題13 統計 Word版無答案.docx 縮略圖、資源來源于二一教育資源庫