資源簡介 4.3 獨立性檢驗【學習目標】1.理解獨立性檢驗的基本思想及其實施步驟.(數學抽象)2.能利用列聯表探討兩個分類變量的關系.(邏輯推理)3.了解χ2的含義及其應用.(數學抽象)4.通過對數據的處理,提高解決實際問題的能力.(數學運算)【自主預習】1.有人說:“在犯錯誤的概率不超過0.01的前提下認為吸煙和患肺癌有關,是指每100名吸煙者中就會有99名肺癌患者.”你認為這種觀點正確嗎 為什么 2.利用χ2進行獨立性檢驗,估計值的準確度與樣本容量有關嗎 3.應用獨立性檢驗的基本思想對兩個變量間的關系作出的推斷一定是正確的嗎 1.判斷下列結論是否正確.(正確的打“√”,錯誤的打“×”)(1)列聯表中的數據是兩個分類變量的頻數. ( )(2)χ2是判斷事件A與B是否相關的統計量. ( )(3)獨立性檢驗的思想類似于反證法. ( )2.假設有兩個分類變量X與Y,它們的可能取值分別為{x1,x2}和{y1,y2},其2×2列聯表為y1 y2x1 10 18x2 m 26則當m取( )時,X與Y的關系最弱.A.8 B.9 C.14 D.193.某校為了檢驗高中數學新課程改革的成果,在兩個班進行教學方式的對比試驗,兩個月后進行了一次檢測,試驗班與對照班成績統計如2×2列聯表所示(單位:人),則其中m= ,n= . 80分及80分以上 80分以下 合計試驗班 32 18 50對照班 24 m 50合計 56 44 n 【合作探究】探究1 2×2列聯表問題1:吸煙與患肺癌之間的關系還是前面我們研究的線性相關關系嗎 問題2:下表是2×2列聯表.y1 y2 合計x1 33 21 54x2 a 13 46合計 b 34 表中a,b處的值應為多少 新知生成2×2列聯表YX 患肺癌(B) 未患肺癌() 合計吸煙(A) a b a+b不吸煙() c d c+d合計 a+c b+d a+b+c+d 像上表這樣,將兩個(或兩個以上)分類變量進行交叉分類得到的頻數分布表稱為列聯表;稱X,Y為分類變量,其中變量X有兩個變量值——“吸煙”和“不吸煙”,變量Y有兩個變量值——“患肺癌”和“未患肺癌”.因為所涉及的兩個分類變量X,Y均有兩個變量值,所以稱上表為2×2列聯表.新知運用例1 在對人們飲食習慣的一次調查中,共調查了124人,其中六十歲及以上的有70人,六十歲以下的有54人.六十歲以上的人中有43人的飲食以蔬菜為主,另外27人則以肉類為主;六十歲以下的人中有21人飲食以蔬菜為主,另外33人則以肉類為主.請根據以上數據作出飲食習慣與年齡的2×2列聯表,并利用與判斷二者是否有關系.方法指導 先列2×2列聯表,然后填寫,再根據比值判斷.【方法總結】 1.作2×2列聯表時,關鍵是對涉及的變量分清類別,計算時要準確無誤.2.利用2×2列聯表分析兩個分類變量間的關系時,首先要根據題中數據獲得2×2列聯表,然后根據頻率特征,即將與或與的值相比,直觀地反映出兩個分類變量間是否相互影響,但方法較粗劣. 假設有兩個變量X和Y,他們的取值分別為x1,x2和y1,y2,其列聯表為YX y1 y2 合計x1 a 21 73x2 8 25 33合計 b 46 106 則表中a,b的值分別是( ).A.94,96 B.54,52 C.52,50 D.52,60探究2 獨立性檢驗 為了解某高校學生中午午休時間玩手機的情況,隨機抽取了100名大學生進行調查.下面是根據調查結果繪制的學生日均午休時玩手機時間的頻率分布直方圖,將日均午休時玩手機不低于40分鐘的學生稱為“手機控”.問題1:請根據以上數據填寫下列2×2列聯表中的數據.非手機控 手機控 合計男 女 10 55合計 100 問題2:如何判斷“手機控”與性別是否有關系 問題3:能定量分析“手機控”與性別是否有關 新知生成1.獨立性檢驗的概念利用統計量χ2來確定在多大程度上可以認為“兩個分類變量有關系”的方法,稱為兩個分類變量的獨立性檢驗.χ2=,其中n=a+b+c+d.2.臨界值如表所示:P(χ2≥ x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.8283.獨立性檢驗的步驟利用獨立性檢驗推斷“X與Y有關系”,可按下面的步驟進行:(1)提出統計假設H0:X與Y之間沒有關系;(2)根據2×2列聯表及χ2的計算公式,得出χ2的觀測值;(3)查臨界值表確定臨界值x0,然后作出判斷.4.變量獨立性判斷的依據:(1)如果χ2>10.828,就有不少于99.9%的把握認為“X與Y之間有關系”;(2)如果χ2>6.635,就有不少于99%的把握認為“X與Y之間有關系”;(3)如果χ2>3.841,就有不少于95%的把握認為“X與Y之間有關系”;(4)如果χ2≤3.841,就認為還沒有充分的證據顯示“X與Y之間有關系”.新知運用例2 某校對學生課外活動進行調查,結果整理成下表,分析喜歡體育還是文娛與性別是否有關系.喜歡體育 喜歡文娛 合計男生 21 23 44女生 6 29 35合計 27 52 79 .【方法總結】 用χ2進行“相關的檢驗”步驟(1)零假設:先假設兩變量無關.(2)計算χ2:套用χ2的公式求得χ2的值.(3)查臨界值表:確定相應的臨界值.(4)下結論:比較χ2與臨界值的大小,得出結論. 為調查某地區老年人是否需要志愿者提供幫助,用簡單隨機抽樣方法從該地區調查了500位老年人,結果如下: 性別 是否需要志愿者 男 女需要 40 30不需要 160 270 (1)估計該地區老年人中,需要志愿者提供幫助的老年人的比例.(2)能否有99%的把握認為該地區的老年人是否需要志愿者提供幫助與性別有關 探究3 獨立性檢驗的應用例3 某高校共有學生15000人,其中男生10500人,女生4500人.為調查該校學生每周平均體育運動時間的情況,采用分層隨機抽樣的方法,收集300位學生每周平均體育運動時間(單位:小時)的樣本數據.(1)應收集多少位女生的樣本數據 (2)根據這300個樣本數據,得到學生每周平均體育運動時間的頻率分布直方圖(如圖),其中樣本數據的分組區間為[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估計該校學生每周平均體育運動時間超過4小時的概率.(3)在樣本數據中,有60位女生的每周平均體育運動時間超過4小時,請建立一個每周平均體育運動時間與性別的列聯表,并判斷是否可以認為“該校學生的每周平均體育運動時間與性別有關”.【方法總結】 解答此類題目的關鍵在于熟練掌握χ2統計量的數值計算,根據計算得出χ2的值,對比三個臨界值2.706,3.841和6.635,作出統計推斷. 某學生興趣小組隨機調查了某市100天中每天的空氣質量等級和當天到某公園鍛煉的人次,整理數據得到下表(單位:天): 鍛煉人次 空氣質量等級 [0,200] (200,400] (400,600]1(優) 2 16 252(良) 5 10 123(輕度污染) 6 7 84(中度污染) 7 2 0 (1)分別估計該市一天的空氣質量等級為1,2,3,4的概率.(2)求一天中到該公園鍛煉的平均人次的估計值(同一組中的數據用該組區間的中點值為代表).(3)若某天的空氣質量等級為1或2,則稱這天“空氣質量好”;若某天的空氣質量等級為3或4,則稱這天“空氣質量不好”.根據所給數據,完成下面的2×2列聯表,并根據列聯表,判斷是否有95%的把握認為一天中到該公園鍛煉的人次與該市當天的空氣質量有關.空氣質量 人次 合計人次≤400 人次>400好不好合計 附:χ2=,n=a+b+c+d. 【隨堂檢測】1.下面是一個2×2列聯表: 健康狀況 優秀情況 不健康 健康 合計不優秀 a 21 73優秀 2 25 27合計 b 46 100則表中a,b的值分別是( ).A.94,96 B.52,50 C.52,54 D.54,522.為了研究高中學生對鄉村音樂的態度(喜歡和不喜歡兩種態度)與性別的關系,運用2×2列聯表進行獨立性檢驗,經計算χ2=8.01,則認為“喜歡鄉村音樂與性別有關系”的把握約為( ).A.0.1% B.1% C.99% D.99.9%3.某高校《統計初步》課程的教師隨機調查了選該課的一些學生的情況,具體數據如下表: 專業 性別 非統計專業 統計專業男 13 10女 7 20則有 的把握判定主修統計專業與性別有關. 4.高三(1)班班主任李老師為了了解本班學生喜愛中國古典文學是否與性別有關,對全班50人進行了問卷調查,得到如下列聯表:喜歡中國古典文學 不喜歡中國古典文學 合計女生 5男生 10合計 50已知從全班50人中隨機抽取1人,抽到喜歡中國古典文學的學生的概率為0.6.(1)請將上面的列聯表補充完整.(2)是否有99%的把握認為喜歡中國古典文學與性別有關 請說明理由.24.3 獨立性檢驗【學習目標】1.理解獨立性檢驗的基本思想及其實施步驟.(數學抽象)2.能利用列聯表探討兩個分類變量的關系.(邏輯推理)3.了解χ2的含義及其應用.(數學抽象)4.通過對數據的處理,提高解決實際問題的能力.(數學運算)【自主預習】1.有人說:“在犯錯誤的概率不超過0.01的前提下認為吸煙和患肺癌有關,是指每100名吸煙者中就會有99名肺癌患者.”你認為這種觀點正確嗎 為什么 【答案】 不正確.因為犯錯誤的概率不超過0.01表示的是吸煙與患肺癌有關的程度,不是患肺癌的百分數.2.利用χ2進行獨立性檢驗,估計值的準確度與樣本容量有關嗎 【答案】 利用χ2進行獨立性檢驗,可以對推斷的正確性的概率作出估計,樣本容量n越大,這個估計值越準確.如果抽取的樣本容量很小,那么利用χ2進行獨立性檢驗的結果就不具有可靠性.3.應用獨立性檢驗的基本思想對兩個變量間的關系作出的推斷一定是正確的嗎 【答案】 不一定.所有的推斷只代表一種可能性,不代表具體情況.1.判斷下列結論是否正確.(正確的打“√”,錯誤的打“×”)(1)列聯表中的數據是兩個分類變量的頻數. ( )(2)χ2是判斷事件A與B是否相關的統計量. ( )(3)獨立性檢驗的思想類似于反證法. ( )【答案】 (1)√ (2)√ (3)√2.假設有兩個分類變量X與Y,它們的可能取值分別為{x1,x2}和{y1,y2},其2×2列聯表為y1 y2x1 10 18x2 m 26則當m取( )時,X與Y的關系最弱.A.8 B.9 C.14 D.19【答案】 C【解析】 由10×26=18m,解得m≈14.4,所以當m=14時,X與Y的關系最弱.3.某校為了檢驗高中數學新課程改革的成果,在兩個班進行教學方式的對比試驗,兩個月后進行了一次檢測,試驗班與對照班成績統計如2×2列聯表所示(單位:人),則其中m= ,n= . 80分及80分以上 80分以下 合計試驗班 32 18 50對照班 24 m 50合計 56 44 n 【答案】 26 100【解析】 由題意得解得【合作探究】探究1 2×2列聯表問題1:吸煙與患肺癌之間的關系還是前面我們研究的線性相關關系嗎 【答案】 不是. 問題2:下表是2×2列聯表.y1 y2 合計x1 33 21 54x2 a 13 46合計 b 34 表中a,b處的值應為多少 【答案】 a=46-13=33,b=33+a=33+33=66.新知生成2×2列聯表YX 患肺癌(B) 未患肺癌() 合計吸煙(A) a b a+b不吸煙() c d c+d合計 a+c b+d a+b+c+d 像上表這樣,將兩個(或兩個以上)分類變量進行交叉分類得到的頻數分布表稱為列聯表;稱X,Y為分類變量,其中變量X有兩個變量值——“吸煙”和“不吸煙”,變量Y有兩個變量值——“患肺癌”和“未患肺癌”.因為所涉及的兩個分類變量X,Y均有兩個變量值,所以稱上表為2×2列聯表.新知運用例1 在對人們飲食習慣的一次調查中,共調查了124人,其中六十歲及以上的有70人,六十歲以下的有54人.六十歲以上的人中有43人的飲食以蔬菜為主,另外27人則以肉類為主;六十歲以下的人中有21人飲食以蔬菜為主,另外33人則以肉類為主.請根據以上數據作出飲食習慣與年齡的2×2列聯表,并利用與判斷二者是否有關系.方法指導 先列2×2列聯表,然后填寫,再根據比值判斷.【解析】 2×2列聯表如下:年齡 飲食習慣 年齡在六十 歲及以上 年齡在六十 歲以下 合計飲食以蔬菜為主 43 21 64飲食以肉類為主 27 33 60合計 70 54 124 將表中數據代入公式得==0.671875,==0.45.顯然二者數據具有較為明顯的差距,據此可以在某種程度上認為飲食習慣與年齡有關系.【方法總結】 1.作2×2列聯表時,關鍵是對涉及的變量分清類別,計算時要準確無誤.2.利用2×2列聯表分析兩個分類變量間的關系時,首先要根據題中數據獲得2×2列聯表,然后根據頻率特征,即將與或與的值相比,直觀地反映出兩個分類變量間是否相互影響,但方法較粗劣. 假設有兩個變量X和Y,他們的取值分別為x1,x2和y1,y2,其列聯表為YX y1 y2 合計x1 a 21 73x2 8 25 33合計 b 46 106 則表中a,b的值分別是( ).A.94,96 B.54,52 C.52,50 D.52,60【答案】 D【解析】 根據列聯表知a=73-21=52,又a+8=b,所以b=60.探究2 獨立性檢驗 為了解某高校學生中午午休時間玩手機的情況,隨機抽取了100名大學生進行調查.下面是根據調查結果繪制的學生日均午休時玩手機時間的頻率分布直方圖,將日均午休時玩手機不低于40分鐘的學生稱為“手機控”.問題1:請根據以上數據填寫下列2×2列聯表中的數據.非手機控 手機控 合計男 女 10 55合計 100 【答案】 可得2×2列聯表如下:非手機控 手機控 合計男 30 15 45女 45 10 55合計 75 25 100 問題2:如何判斷“手機控”與性別是否有關系 【答案】 可通過表格與圖形進行直觀分析,男生“手機控”的頻率是f1===,女生“手機控”的頻率是f2===,雖然f1>f2,但二者差別不大,不足以說明“手機控”與性別有關.問題3:能定量分析“手機控”與性別是否有關 【答案】 可通過統計分析定量判斷,先計算χ2,然后與臨界值比較、判斷.因為χ2=≈3.030<3.841,所以沒有充分的證據顯示“手機控”與性別是否有關.新知生成1.獨立性檢驗的概念利用統計量χ2來確定在多大程度上可以認為“兩個分類變量有關系”的方法,稱為兩個分類變量的獨立性檢驗.χ2=,其中n=a+b+c+d.2.臨界值如表所示:P(χ2≥ x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.8283.獨立性檢驗的步驟利用獨立性檢驗推斷“X與Y有關系”,可按下面的步驟進行:(1)提出統計假設H0:X與Y之間沒有關系;(2)根據2×2列聯表及χ2的計算公式,得出χ2的觀測值;(3)查臨界值表確定臨界值x0,然后作出判斷.4.變量獨立性判斷的依據:(1)如果χ2>10.828,就有不少于99.9%的把握認為“X與Y之間有關系”;(2)如果χ2>6.635,就有不少于99%的把握認為“X與Y之間有關系”;(3)如果χ2>3.841,就有不少于95%的把握認為“X與Y之間有關系”;(4)如果χ2≤3.841,就認為還沒有充分的證據顯示“X與Y之間有關系”.新知運用例2 某校對學生課外活動進行調查,結果整理成下表,分析喜歡體育還是文娛與性別是否有關系.喜歡體育 喜歡文娛 合計男生 21 23 44女生 6 29 35合計 27 52 79 【解析】 先提出統計假設H0:喜歡體育還是文娛與性別沒有關系.根據列聯表中的數據,可得a=21,b=23,c=6,d=29,n=79,可得χ2==≈8.106>7.879,故否定假設H0,即認為喜歡體育還是喜歡文娛與性別有關.【方法總結】 用χ2進行“相關的檢驗”步驟(1)零假設:先假設兩變量無關.(2)計算χ2:套用χ2的公式求得χ2的值.(3)查臨界值表:確定相應的臨界值.(4)下結論:比較χ2與臨界值的大小,得出結論. 為調查某地區老年人是否需要志愿者提供幫助,用簡單隨機抽樣方法從該地區調查了500位老年人,結果如下: 性別 是否需要志愿者 男 女需要 40 30不需要 160 270 (1)估計該地區老年人中,需要志愿者提供幫助的老年人的比例.(2)能否有99%的把握認為該地區的老年人是否需要志愿者提供幫助與性別有關 【解析】 (1)調查的500位老年人中有70位需要志愿者提供幫助,因此在該地區老年人中,需要幫助的老年人的比例的估計值為×100%=14%.(2)χ2=≈9.967,因為9.967>6.635,所以有99%的把握認為該地區的老年人是否需要志愿者提供幫助與性別有關.探究3 獨立性檢驗的應用例3 某高校共有學生15000人,其中男生10500人,女生4500人.為調查該校學生每周平均體育運動時間的情況,采用分層隨機抽樣的方法,收集300位學生每周平均體育運動時間(單位:小時)的樣本數據.(1)應收集多少位女生的樣本數據 (2)根據這300個樣本數據,得到學生每周平均體育運動時間的頻率分布直方圖(如圖),其中樣本數據的分組區間為[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估計該校學生每周平均體育運動時間超過4小時的概率.(3)在樣本數據中,有60位女生的每周平均體育運動時間超過4小時,請建立一個每周平均體育運動時間與性別的列聯表,并判斷是否可以認為“該校學生的每周平均體育運動時間與性別有關”.【解析】 (1)由分層隨機抽樣可得300×=90(位),所以應收集90位女生的樣本數據.(2)由頻率分布直方圖得,學生每周平均體育運動時間超過4小時的頻率為1-2×(0.100+0.025)=0.75,所以該校學生每周平均體育運動時間超過4小時的概率的估計值為0.75.(3)由(2)知,300位學生中有300×0.75=225人的每周平均體育運動時間超過4小時,75人的每周平均體育運動時間不超過4小時.樣本數據中有210份是關于男生的,90份是關于女生的,可得每周平均體育運動時間與性別的2×2列聯表如下:男生 女生 合計每周平均體育運動時間 不超過4小時 45 30 75每周平均體育運動時間 超過4小時 165 60 225合計 210 90 300 結合列聯表中的數據可算得χ2=≈4.762>3.841,所以至少有95%的把握認為“該校學生的每周平均體育運動時間與性別有關”.【方法總結】 解答此類題目的關鍵在于熟練掌握χ2統計量的數值計算,根據計算得出χ2的值,對比三個臨界值2.706,3.841和6.635,作出統計推斷. 某學生興趣小組隨機調查了某市100天中每天的空氣質量等級和當天到某公園鍛煉的人次,整理數據得到下表(單位:天): 鍛煉人次 空氣質量等級 [0,200] (200,400] (400,600]1(優) 2 16 252(良) 5 10 123(輕度污染) 6 7 84(中度污染) 7 2 0 (1)分別估計該市一天的空氣質量等級為1,2,3,4的概率.(2)求一天中到該公園鍛煉的平均人次的估計值(同一組中的數據用該組區間的中點值為代表).(3)若某天的空氣質量等級為1或2,則稱這天“空氣質量好”;若某天的空氣質量等級為3或4,則稱這天“空氣質量不好”.根據所給數據,完成下面的2×2列聯表,并根據列聯表,判斷是否有95%的把握認為一天中到該公園鍛煉的人次與該市當天的空氣質量有關.空氣質量 人次 合計人次≤400 人次>400好不好合計 附:χ2=,n=a+b+c+d. 【解析】 (1)由頻數分布表可知,該市一天的空氣質量等級為1的概率的估計值為=0.43,等級為2的概率的估計值為=0.27,等級為3的概率的估計值為=0.21,等級為4的概率的估計值為=0.09.(2)由頻數分布表可知,一天中到該公園鍛煉的人次的平均數為=350. (3)2×2列聯表如下:空氣質量 人次 合計人次≤400 人次>400好 33 37 70不好 22 8 30合計 55 45 100 χ2=≈5.820>3.841,因此,有95%的把握認為一天中到該公園鍛煉的人次與該市當天的空氣質量有關.【隨堂檢測】1.下面是一個2×2列聯表: 健康狀況 優秀情況 不健康 健康 合計不優秀 a 21 73優秀 2 25 27合計 b 46 100則表中a,b的值分別是( ).A.94,96 B.52,50 C.52,54 D.54,52【答案】 C【解析】 由a+21=73,得a=52,由b+46=100,得b=54.2.為了研究高中學生對鄉村音樂的態度(喜歡和不喜歡兩種態度)與性別的關系,運用2×2列聯表進行獨立性檢驗,經計算χ2=8.01,則認為“喜歡鄉村音樂與性別有關系”的把握約為( ).A.0.1% B.1% C.99% D.99.9%【答案】 C【解析】 因為χ2>6.635,所以至少有99%的把握認為“喜歡鄉村音樂與性別有關系”.3.某高?!督y計初步》課程的教師隨機調查了選該課的一些學生的情況,具體數據如下表: 專業 性別 非統計專業 統計專業男 13 10女 7 20則有 的把握判定主修統計專業與性別有關. 【答案】 95%【解析】 χ2=≈4.844>3.841,故有95%的把握認為主修統計專業與性別有關.4.高三(1)班班主任李老師為了了解本班學生喜愛中國古典文學是否與性別有關,對全班50人進行了問卷調查,得到如下列聯表:喜歡中國古典文學 不喜歡中國古典文學 合計女生 5男生 10合計 50已知從全班50人中隨機抽取1人,抽到喜歡中國古典文學的學生的概率為0.6.(1)請將上面的列聯表補充完整.(2)是否有99%的把握認為喜歡中國古典文學與性別有關 請說明理由.【解析】 (1)依題意,從全班50人中隨機抽取1人,抽到喜歡中國古典文學的學生的概率為0.6,所以喜歡中國古典文學的學生有0.6×50=30人,不喜歡中國古典文學的學生有20人,由此填寫2×2列聯表,如下表所示:喜歡中國古典文學 不喜歡中國古典文學 合計女生 20 5 25男生 10 15 25合計 30 20 50 (2)χ2==>6.635,故有99%的把握認為喜歡中國古典文學與性別有關.2 展開更多...... 收起↑ 資源列表 4.3 獨立性檢驗 - 副本.docx 4.3 獨立性檢驗.docx 縮略圖、資源來源于二一教育資源庫