資源簡介 4.3.2 獨立性檢驗基礎過關練題組一 2×2列聯表1.某村莊對該村內50名老年人、年輕人每年是否體檢的情況進行了調查,統計數據如表所示:每年體檢 每年未體檢 合計老年人 a 7 c年輕人 6 b d合計 e f 50已知抽取的老年人、年輕人各25名,則對列聯表中數據的分析錯誤的是( )A.a=18 B.b=19C.c+d=50 D.e-f=22.已知甲、乙兩個班級進行數學考試,按照大于或等于85分為優秀,85分以下為非優秀,得到如下列聯表:優秀 非優秀 總計甲班 10 b乙班 c 30總計 105已知在105人中隨機抽取1人,成績優秀的概率為,則下列說法正確的是( )A.列聯表中c的值為30,b的值為35B.列聯表中c的值為15,b的值為50C.列聯表中c的值為20,b的值為50D.由列聯表可看出成績與班級有關系題組二 對獨立性檢驗的理解3.下列關于回歸分析與獨立性檢驗的說法正確的是( )A.回歸分析和獨立性檢驗沒有什么區別B.回歸分析是對兩個變量之間確定性關系的分析,而獨立性檢驗是分析兩個變量之間的不確定性關系C.回歸分析研究的是兩個變量之間的相關關系,獨立性檢驗是對兩個變量是否具有某種關系的一種檢驗D.獨立性檢驗一定可以確定兩個變量之間是否具有某種關系4.下列對變量X與Y的統計量χ2的值的說法正確的是( )A. χ2越大,“X與Y有關系”的可信程度越小B. χ2越小,“X與Y有關系”的可信程度越大C. χ2越小,“X與Y有關系”的可信程度越小D. χ2越大,“X與Y無關”的可信程度越大題組三 獨立性檢驗的應用5.根據分類變量x與y的觀察數據,計算得到χ2=2.974,依據給出的臨界值表作出下列判斷,其中正確的是( )P(χ2≥k) 0.1 0.05 0.01 0.005 0.001k 2.706 3.841 6.635 7.879 10.828A.有95%的把握認為變量x與y獨立B.有95%的把握認為變量x與y不獨立C.認為變量x與y獨立,這個結論犯錯誤的概率不超過10%D.認為變量x與y不獨立,這個結論犯錯誤的概率不超過10%6.某機構為了解某地區中學生在校月消費情況,隨機抽取了100名中學生進行調查,將月消費金額不低于550元的學生看成“高消費群”,調查結果如表所示:高消費群 非高消費群 合計男 15 35 50女 10 40 50合計 25 75 100附:χ2=.P(χ2≥k) 0.10 0.05 0.025 0.010 0.005 0.001k 2.706 3.841 5.024 6.635 7.879 10.828下列結論正確的是( )A.有90%的把握認為“高消費群與性別有關”B.沒有90%的把握認為“高消費群與性別有關”C.在犯錯誤的概率不超過1%的前提下,認為“高消費群與性別無關”D.在犯錯誤的概率不超過1%的前提下,認為“高消費群與性別有關”7.某單位為了調查性別與對工作的滿意程度是否具有相關性,隨機抽取了若干名員工,所得數據統計如下表所示,其中x∈N+,且x<20,若有90%的把握認為性別與對工作的滿意程度具有相關性,則x的值可以是 .(給出一個滿足條件的x值即可) 對工作滿意 對工作不滿意男 5x 5x女 4x 6x附:χ2=,其中n=a+b+c+d.P(χ2≥k) 0.10 0.05 0.025 0.010 0.005 0.001k 2.706 3.841 5.024 6.635 7.879 10.8288.某大學餐飲中心對全校一年級新生的飲食習慣進行抽樣調查,調查結果如下:南方學生喜歡甜品的有60人,不喜歡甜品的有20人;北方學生喜歡甜品的有10人,不喜歡甜品的有10人.那么至少有 %的把握認為“南方學生和北方學生在選用甜品的飲食習慣方面有差異”. 附: χ2=,其中n=a+b+c+d.P(χ2≥k) 0.1 0.05 0.01 0.005k 2.706 3.841 6.635 7.8799.有一項研究同年齡段的男、女生的注意力差別的腦功能實驗,實驗數據如下表:注意力穩定 注意力不穩定男生 29 7女生 33 5則χ2= (精確到小數點后三位),依據P(χ2≥3.841)=0.05,該實驗 (填“不支持”或“支持”)該年齡段的學生在注意力的穩定性上關于性別沒有顯著差異. 10.某鄉鎮在實施鄉村振興的進程中,大力推廣科學種田,引導廣大農戶種植優良品種,進一步推動當地農業發展,不斷促進農業增產農民增收.為了解某新品種水稻的產量情況,現從種植該新品種水稻的不同自然條件的田地中隨機抽取400畝,統計其畝產量x(單位:t),并以此為樣本繪制了如圖所示的頻率分布直方圖.(1)求這400畝水稻平均畝產量的估計值(同一組中的數據用該組區間的中點值為代表,精確到小數點后兩位);(2)若這400畝水稻的灌溉水源有河水和井水,現統計了兩種水源灌溉水稻的畝產量,并得到下表:畝產量超過0.7 t 畝產量不超過0.7 t 總計河水灌溉 180 90 270井水灌溉 70 60 130總計 250 150 400判斷能否有95%的把握認為畝產量與所用灌溉水源有關.附:χ2=,其中n=a+b+c+d.P(χ2≥k) 0.10 0.05 0.01 0.001k 2.706 3.841 6.635 10.82811.相關統計數據顯示,中國經常參與體育鍛煉的人數比例為37.2%,城鄉居民達到《國民體質測定標準》合格以上的人數比例達到90%以上.某市一健身連鎖機構對其會員進行了統計,制作成如下兩個統計圖,會員年齡等級分布圖(年齡為整數)如圖1,會員一個月內到健身房次數分布扇形圖如圖2.若將會員按年齡分為“年輕人”(20~39歲)和“非年輕人”(19歲及以下或40歲及以上)兩類,將一個月內到健身房鍛煉16次及以上的會員稱為“健身達人”,15次及以下的會員稱為“健身愛好者”,已知在“健身達人”中有是“年輕人”.圖1 會員年齡等級分布圖圖2 會員一個月內到健身房次數分布扇形圖(1)現從該健身連鎖機構會員中隨機抽取一個容量為100的樣本,根據圖中的數據,補全下方2×2列聯表,并判斷是否有95%的把握認為是不是“健身達人”與年齡有關;年輕人 非年輕人 合計健身達人健身愛好者合計(2)將(1)中相應的頻率作為概率,該健身連鎖機構隨機選取3名會員進行回訪,設3名會員中既是“年輕人”又是“健身達人”的人數為隨機變量X,求X的分布列和數學期望.附:χ2=,其中n=a+b+c+d.P(χ2≥k) 0.05 0.01 0.005 0.001k 3.841 6.635 7.879 10.828能力提升練題組 獨立性檢驗及其應用1.假設兩個分類變量X和Y的2×2列聯表如下:X Y 合計y1 y2x1 a 10 a+10x2 c 30 c+30合計 a+c 40 100對于同一樣本,以下數據能說明X和Y有關系的可能性最大的一組是( )A.a=40,c=20 B.a=45,c=15C.a=35,c=25 D.a=30,c=302.第19屆亞運會結束后,某網絡直播平臺調研“大學生是否喜歡觀看體育比賽直播與性別有關”,從某高校男、女生中各隨機抽取100名進行問卷調查,得到如下數據(5≤m≤15,m∈N):喜歡觀看 不喜歡觀看男生 80-m 20+m女生 50+m 50-m通過計算,有95%的把握認為大學生喜歡觀看體育比賽直播與性別有關,則在被調查的100名女生中喜歡觀看體育比賽直播的人數的最大值為( )附:χ2=,其中n=a+b+c+d.P(χ2≥k) 0.15 0.10 0.05 0.01 0.001k 2.072 2.706 3.841 6.635 10.828A.55 B.57 C.58 D.603.針對中學生追星問題,某校團委對“中學生是否追星和性別有關”進行了一次調查,其中女生人數是男生人數的,男生追星的人數占男生人數的,女生追星的人數占女生人數的.若有95%的把握認為中學生是否追星和性別有關,則男生至少有 人. 附: χ2=,其中n=a+b+c+d.P(χ2≥k) 0.1 0.05 0.01 0.005 0.001k 2.706 3.841 6.635 7.879 10.8284.動漫電影《哪吒2》一經上映,就獲得較好的評價,也取得了很好的票房成績,某平臺為了解觀眾對該影片的評價情況(評價結果僅有“好評”“差評”),從平臺所有參與評價的觀眾中隨機抽取400人進行調查,數據如下表所示(單位:人):好評 差評 合計男性 80 200女性 90合計 400(1)把2×2列聯表補充完整,并判斷是否有99.5%的把握認為“對該部影片的評價情況與性別有關”;(2)從隨機抽取的400人中所有給出“好評”的觀眾中采用按男女分層抽樣的方法隨機抽取7人參加平臺和影片出品方組織的活動,為了方便活動,現從7人中隨機選出2人作為正、副領隊,求所選出的正、副領隊是一男一女的概率.參考公式:χ2=,其中n=a+b+c+d.參考數據:P(χ2≥k) 0.10 0.05 0.025 0.010 0.005 0.001k 2.706 3.841 5.024 6.635 7.879 10.8285.某醫療用品生產企業對原有的生產線進行技術升級,為了更好地對比技術升級前和升級后的效果,甲生產線繼續使用舊的生產模式,乙生產線采用新的生產模式,現質檢部門隨機抽檢了甲、乙兩條生產線的各200件該醫療用品,在抽取的400件產品中,根據檢測結果將它們分為A,B,C三個等級,A,B等級都是合格品,C等級是次品,統計結果如表所示.表一:等級 A B C頻數 200 150 50表二:合格品 次品 合計甲 160乙 10合計在相關政策扶持下,確保每件該醫療用品的合格品都有對口銷售渠道,但按照國家對該醫療用品產品質量的要求,所有的次品必須由廠家自行銷毀.(1)請根據所提供的數據,完成上面的2×2列聯表(表二),并判斷是否有99.9%的把握認為產品的合格率與技術升級有關;(2)在抽檢的所有次品中,按甲、乙生產線生產的次品比例進行分層抽樣抽取10件該醫療用品,然后從這10件中隨機抽取5件,記甲生產線生產的有X件,求X的分布列和數學期望;(3)已知每件該醫療用品的生產成本為20元,A,B等級產品的出廠單價分別為m元、40元,甲生產線抽檢的該醫療用品中有70件為A等級,用樣本的頻率估計概率,若進行技術升級后,平均生產1件該醫療用品比技術升級前多盈利不超過9元,求A等級產品的出廠單價最高為多少元.附: χ2=,其中n=a+b+c+d.P(χ2≥k) 0.05 0.01 0.005 0.001k 3.841 6.635 7.879 10.828答案與分層梯度式解析4.3.2 獨立性檢驗基礎過關練1.D 2.D 3.C 4.C 5.D 6.B1.D 由題意得,a+7=c=25,6+b=d=25,c+d=50,a+6=e,7+b=f,e+f=50,所以a=18,b=19,e=24,f=26,所以e-f=-2.故選D.2.D 依題意,得,解得c=20,由10+b+20+30=105,得b=45.補全列聯表如下:優秀 非優秀 總計甲班 10 45 55乙班 20 30 50總計 30 75 105甲班的優秀率為,乙班的優秀率為,所以成績與班級有關系,故選D.3.C4.C5.D 因為χ2=2.974>2.706,所以在犯錯誤的概率不超過10%的前提下,認為變量x與y有關,即認為變量x與y不獨立.故選D.6.B 由題表得χ2=≈1.333<2.706,所以沒有90%的把握認為“高消費群與性別有關”.故選B.7.答案 14(或15,16,17,18,19中任意一個)解析 χ2=>2.706,解得x>13.394 7,因為x∈N+且x<20,所以x=14或x=15或x=16或x=17或x=18或x=19.8.答案 95解析 由題意得,2×2列聯表如下:喜歡甜品 不喜歡甜品 合計南方學生 60 20 80北方學生 10 10 20合計 70 30 100χ2=≈4.762>3.841,所以至少有95%的把握認為“南方學生和北方學生在選用甜品的飲食習慣方面有差異”.9.答案 0.538;支持解析 由題表中數據可知,a=29,b=7,c=33,d=5,根據χ2=,其中n=a+b+c+d計算可知χ2=≈0.538<3.841,所以沒有足夠的把握認為學生在注意力的穩定性上與性別有關,即該實驗支持該年齡段的學生在注意力的穩定性上關于性別沒有顯著差異.10.解析 (1)由題意得,(0.75×2+1.25×2+1.75+2.25+b)×0.1=1,解得b=2,所以這400畝水稻平均畝產量的估計值為(0.45×0.75+0.55×1.25+0.65×1.75+0.75×2.25+0.85×2+0.95×1.25+1.05×0.75)×0.1≈0.75.(2)χ2=≈6.154>3.841,所以有95%的把握認為畝產量與所用灌溉水源有關.11.解析 (1)由題圖1得“年輕人”占比為45.5%+34.5%=80%,則樣本中“年輕人”的人數為100×80%=80,“非年輕人”的人數為100-80=20.由題圖2得“健身達人”占比為30.1%+19.2%+10.7%=60%,則樣本中“健身達人”的人數為100×60%=60,又“健身達人”中有是“年輕人”,所以“健身達人”中“年輕人”的人數為60×=50,“非年輕人”的人數為60-50=10;“健身愛好者”的人數為100-60=40,其中“年輕人”的人數為80-50=30,“非年輕人”的人數為40-30=10.2×2列聯表如下:年輕人 非年輕人 合計健身達人 50 10 60健身愛好者 30 10 40合計 80 20 100可得χ2=≈1.042<3.841,所以沒有95%的把握認為是不是“健身達人”與年齡有關.(2)由(1)可知,任意一名會員既是“年輕人”又是“健身達人”的概率為,則X~B,P(X=0)=,P(X=2)=,故X的分布列為X 0 1 2 3P數學期望E(X)=3×.能力提升練1.B χ2=·.根據2×2列聯表和獨立性檢驗的相關知識知,當b,d 一定時,a,c相差越大,與相差就越大, χ2就越大,即X和Y有關系的可能性越大,結合選項知,B中a-c=30與其他選項相比相差最大.2.C 由題意得, χ2===≥3.841,所以(15-m)2≥43.7,又5≤m≤15,m∈N,所以15-m≥7,解得m≤8,故在被調查的100名女生中喜歡觀看體育比賽直播的人數的最大值為58.故選C.3.答案 12解析 設男生人數為x,依題意可得2×2列聯表如下:追星 不追星 總計男生 x女生總計 x若有95%的把握認為中學生是否追星和性別有關,則χ2≥3.841,由χ2=x≥3.841,解得x≥10.24,∵均為整數,∴男生至少有12人.4.解析 (1)2×2列聯表補充完整如下:好評 差評 合計男性 120 80 200女性 90 110 200合計 210 190 400χ2=≈9.023>7.879,因此有99.5%的把握認為“對該部影片的評價情況與性別有關”.(2)采用分層抽樣的方法從男性給出“好評”者中抽取的人數為120×=4;從女性給出“好評”者中抽取的人數為90×=3.從7人中抽取2人有=21種情況,其中包含一男一女的有=12種情況,故所求概率P=.5.解析 (1)2×2列聯表如下:合格品 次品 合計甲 160 40 200乙 190 10 200合計 350 50 400χ2=≈20.571>10.828,故有99.9%的把握認為產品的合格率與技術升級有關.(2)由題意得抽取的10件中有8件甲生產線的,2件乙生產線的,所以X的所有可能取值為3,4,5.P(X=3)=,P(X=5)=.所以X的分布列為X 3 4 5P所以E(X)=3×=4.(3)易得甲生產線抽檢的產品中有70件A等級產品,90件B等級產品,40件C等級產品;乙生產線抽檢的產品中有130件A等級產品,60件B等級產品,10件C等級產品.所以對于甲生產線,單件產品的利潤為-2;對于乙生產線,單件產品的利潤為-8.由題意得≤9,解得m≤50,所以A等級產品的出廠單價最高為50元.20(共13張PPT)1.2×2列聯表(1)定義:隨機事件A與B的樣本數據整理成如下的表格形式.知識 清單破4.3.2 獨立性檢驗知識點 獨立性檢驗A 總計B a b a+b c d c+d總計 a+c b+d a+b+c+d 因為這個表格中,核心的數據是中間4個格子,所以這樣的表格通常稱為2×2列聯表.(2)χ2計算公式:χ2= ,其中n=a+b+c+d.知識拓展 列聯表的統計意義(1)事件A發生的概率可估計為P(A)= ;(2)事件B發生的概率可估計為P(B)= ;(3)事件AB發生的概率可估計為P(AB)= .2.獨立性檢驗任意給定一個α(稱為顯著性水平,通常取為0.05,0.01等),可以找到滿足條件P(χ2≥k)=α的數k(稱為顯著性水平α對應的分位數).若χ2≥k成立,就稱在犯錯誤的概率不超過α的前提下,可以認為A與B不獨立(也稱為A與B有關);或說有1-α的把握認為A與B有關.若χ2到前述結論.這一過程通常稱為獨立性檢驗.知識拓展 (1)χ2A與B獨立時,也稱為A與B無關.當χ2通常得到的結果,或者是有1-α的把握認為A與B有關,或者沒有1-α的把握認為A與B有關.(2)常用的顯著性水平α以及對應的分位數k如下表所示.α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001k 2.706 3.841 6.635 7.879 10.828知識辨析判斷正誤,正確的畫“√”,錯誤的畫“ ”.1.2×2列聯表中的數據是兩個分類變量的頻數. ( )2.分類變量中的變量與函數中的變量是同一概念.( )3.若由一個2×2列聯表中的數據計算得χ2=4.013,那么有95%的把握認為兩個變量之間有關系. ( )4.在2×2列聯表中,若|ad-bc|越小,則說明兩個分類變量之間關系越強. ( ) √√ 應用獨立性檢驗解決實際問題的一般步驟(1)根據抽樣數據整理出2×2列聯表,計算χ2的值,并與臨界值k比較;(2)根據檢驗規則得出推斷結論;(3)在兩個分類變量X和Y不獨立的情況下,根據需要,通過比較相應的頻率,分析X和Y間的影響規律.講解分析疑難 獨立性檢驗的應用疑難 情境破典例 隨著智能手機的普及,手機計步軟件迅速流行開來,這類軟件能自動記載每個人每日健步走的步數,從而為科學健身提供一定的幫助.某市工會為了解該市市民每日健步走的情況,從本市市民中隨機抽取了2 000名(其中不超過40歲的市民恰好有1 000名),利用手機計步軟件統計了他們某天健步走的步數(單位:千),并將樣本數據分為[3,5),[5,7),[7,9),[9,11),[11,13),[13,15),[15,17),[17,19),[19,21]九組,將抽取的不超過40歲的市民的樣本數據繪制成頻率分布直方圖,將40歲以上的市民的樣本數據整理為頻數分布表,并利用該樣本的頻率分布估計總體的概率分布.分組(單位:千) [3,5) [5,7) [7,9) [9,11) [11,13)頻數 10 20 20 30 400分組(單位:千) [13,15) [15,17) [17,19) [19,21]頻數 200 200 100 20(1)現規定,每日健步走的步數不低于13 000的為“健步達人”,填寫列聯表,并分析能否在犯錯誤的概率不超過0.1%的前提下,認為是不是“健步達人”與年齡有關;健步達人 非健步達人 總計40歲以上的市民不超過40歲的市民總計(2)(i)利用樣本平均數和中位數估計該市不超過40歲的市民每日健步走的步數(單位:千)的平均數和中位數(每組數據取區間的中點值代替);(ii)由頻率分布直方圖可以認為,不超過40歲的市民每日健步走的步數Z(單位:千)近似地服從正態分布N(μ,σ2),其中μ近似為樣本平均數 ,σ的值已求出約為3.64.現從該市不超過40歲的市民中隨機抽取5人,記其中每日健步走的步數Z(單位:千)位于[4.88,15.8]的人數為X,求X的數學期望.參考公式:χ2= ,其中n=a+b+c+d.參考數據:α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001k 2.706 3.841 6.635 7.879 10.828若Z~N(μ,σ2),則P(μ-σ≤Z≤μ+σ)≈0.683,P(μ-2σ≤Z≤μ+2σ)≈0.954.解析 (1)列聯表為健步達人 非健步達人 總計40歲以上的市民 520 480 1 000不超過40歲的市民 400 600 1 000總計 920 1 080 2 000計算可得χ2= ≈28.986>10.828,能在犯錯誤的概率不超過0.1%的前提下,認為是不是“健步達人”與年齡有關.(2)(i)樣本平均數為4×0.04+6×0.06+8×0.10+10×0.10+12×0.30+14×0.20+16×0.10+18×0.08+20×0.02=12.16.由前4組的頻率之和為0.04+0.06+0.10+0.10=0.30,前5組的頻率之和為0.30+0.30=0.6,知樣本中位數落在第5組,設樣本中位數為t,則(t-11)×0.15=0.5-0.3,所以t= .故可以估計該市不超過40歲的市民每日健步走的步數(單位:千)的平均數為12.16,中位數為 .(ii)由題意得[μ-2σ,μ+σ]=[4.88,15.8],而P(μ-2σ≤Z≤μ+σ)= P(μ-2σ≤Z≤μ+2σ)+ P(μ-σ≤Z≤μ+σ)≈0.818 5,所以X~B(5,0.818 5),所以E(X)=5×0.818 5=4.092 5.解后反思 獨立性檢驗得出的結論是帶有概率性質的,只能說結論成立的概率有多大,而不能完全肯定一個結論,在分析問題時一定要注意這一點,不可對某個問題下確定性結論,否則就可能對統計計算的結果給出錯誤的解釋. 展開更多...... 收起↑ 資源列表 4.3.2 獨立性檢驗.docx 4.3.2 獨立性檢驗.pptx 縮略圖、資源來源于二一教育資源庫