資源簡介 選修三《第八章 成對數據的統計分析》 8.3 列聯表與獨立性檢驗 數值變量的取值為實數, 其大小和運算都有實際含義. 分類變量的取值可用實數表示, 但數值只作為編號使用,沒有 大小和運算意義. 本節只討論取值{0,1}的分類變量的關聯性 研究一定范圍內的兩種現象或性質之間是否存在關聯性或存在差異 研究一定范圍內的兩個變量的相關關系 選修三《第八章 成對數據的統計分析》 8.3.1 分類變量與列聯表 思考1:如何利用統計數據判斷一對分類變量之間是否具有關聯性呢? 問題背景:為了有針對性地提高學生體育鍛煉的積極性,某中學需要了解性別因素是否對本校學生體育鍛煉的經常性有影響,為此對學生是否經常鍛煉的情況進行了普查.全校學生的普查數據如下:523名女生中有331名經常鍛煉;601名男生中有473名經常鍛煉. 你能利用這些數據,說明該校女生和男生在體育鍛煉的經常性方面是否存在差異嗎? ∴該校的女生和男生在體育鍛煉的經常性方面有差異,且男生更經常鍛煉. 在實踐中,由于保存原始數據的成本較高,人們經常按研究問題的需要,將數據分類統計,并做成2×2列聯表加以保存. 問題背景:全校學生的普查數據如下:523名女生中有331名經常鍛煉;601名男生中有473名經常鍛煉. 你能利用這些數據,說明該校女生和男生在體育鍛煉的經常性方面是否存在差異嗎? {5940675A-B579-460E-94D1-54222C63F5DA}性別 鍛煉 合計 不經常(Y=0) 經常(Y=1) 女生(X=0) 331 523 男生(X=1) 473 601 合計 2×2列聯表 192 128 1124 320 804 列聯表給出了成對分類變量數據的交叉分類頻數. 性別對體育鍛煉的經常性有影響: 性別對體育鍛煉的經常性無影響: 頻率穩定于概率 對于大多數實際問題,我們無法獲得所關心的全部對象的數據,但可利用隨機抽樣獲得一定數量的樣本數據,再利用隨機事件發生的頻率穩定于概率的原理作出推斷. 例1.為比較甲、乙兩所學校學生的數學水平,采用簡單隨機抽樣的方法抽取88名學生.通過測試得到了如下數據:甲校43名學生中有10名數學成績優秀;乙校45名學生中有7名數學成績優秀.試分析兩校學生中數學成績優秀率之間是否存在差異. {5940675A-B579-460E-94D1-54222C63F5DA}性別 鍛煉 合計 不優秀(Y=0) 優秀(Y=1) 甲校(X=0) 33 10 43 乙校(X=1) 38 7 45 合計 71 17 88 甲校學生中數學成績優秀的頻率為: 乙校學生中數學成績優秀的頻率為: 依據頻率穩定于概率的原理,可推斷 P(Y=1|X=0)>P(Y=1|X=1). 故可認為兩校學生的數學成績優秀率存在差異, 甲校學生的數學成績優秀率比乙校學生的高. 等高堆積條形圖 不優秀的頻率為0.7674 不優秀的頻率為0.8444 新知1:列聯表 2×2列聯表:一般地,在樣本空間Ω中,定義兩個分類變量X和Y如下: X=0,……1,……和Y=0,……1,……,列出兩個分類變量的頻數表為: ? {5940675A-B579-460E-94D1-54222C63F5DA}X Y 合計 Y=0 Y=1 X=0 a b a+b X=1 c d c+d 合計 a+c b+d a+b+c+d (樣本容量n) 若不相等,則推斷兩個分類變量有關聯或存在明顯差異. 若相等,則推斷兩個分類變量無關聯或沒有明顯差異. 鞏固:列聯表 練習1. 假設有兩個分類變量X與Y,它們的可能取值分別為{0,1}和{0,1}, 其2×2列聯表為: {5940675A-B579-460E-94D1-54222C63F5DA}X Y 合計 Y=0 Y=1 X=0 10 18 28 X=1 m 26 m+26 合計 10+m 44 m+54 則當m取( )時,X與Y的關系最弱. A.8 B.9 C.14 D.19 X與Y的關系幾乎無關聯 C 新知2:等高堆積條形圖 等高條形圖展示可列聯表數據的頻率特征,依據頻率穩定與概率的原理, 我們可以推斷結果. ①和表格相比,等高條形圖更能直觀地反映出兩個分類變量間是否相互影響. ②比較同色的條形圖高度差,若高度差明顯,則判斷兩個分類變量有關系或存在明顯差異. 兩個分類變量x,y之間關系最強的是( ) 吸煙與患肺病有關聯 D 鞏固:等高堆積條形圖 練習2. 某學校對高三學生做了一項調查發現:在平時的模擬考試中,性格內向的學生426人中有332人在考前心情緊張,性格外向的學生594人中有213人在考前心情緊張.作出等高堆積條形圖,利用圖形判斷考前心情緊張與性格類別是否有關系. 從圖中可以看出性格內向的樣本中考前心情緊張的頻率比性格外向的樣本中考前心情緊張的頻率高,可以認為考前心情緊張與性格類型有關聯. 內向 外向 緊張 0.6092 0.1979 不緊張 0.3908 0.8021 思考2:你認為“兩校學生的數學成績優秀率存在差異”這一結論是否有可能是錯誤的? 甲校學生中數學成績優秀的頻率為: 乙校學生中數學成績優秀的頻率為: 依據頻率穩定于概率的原理, 可推斷P(Y=1|X=0)>P(Y=1|X=1). 即甲校學生的數學成績優秀率比乙校學生的高,故可認為兩校學生的數學成績優秀率存在差異. “兩校學生的數學成績優秀率存在差異”這個結論是根據兩個頻率間存在差異推斷出來的.但有可能在隨機抽取的樣本中,兩個頻率間確實存在差異,但兩校學生的數學成績優秀率實際上是沒有差別的. 導致推斷放錯誤的原因: ①樣本容量較小,導致頻率與概率的誤差較大; ②樣本具有隨機性,因而頻率有隨機性,頻率和概率之間存在誤差; 思考3:有多大的把握推斷“學校與優秀率有關”?這個推斷犯錯誤的可能性多大? 希望能對出現錯誤推斷的概率有一定的控制或估算. 選修三《第八章 成對數據的統計分析》 8.3.2 獨立性檢驗 判斷兩個分類變量是否獨立(無關聯)的檢驗方法 課前需知 在合理的假設前提下,小概率事件幾乎不會發生. 若小概率事件發生了,則認為原假設不成立. 設X和Y為定義在樣本空間Ω上,取值于{0, 1}的成對分類變量. 課本P128-129證明 {X=0,Y=0}發生頻數的期望值Ea {X=0,Y=0}發生頻數的觀測值 同理 由圖知χ2≥xα是小概率事件 找某個值xα來界定χ2的大小 理解:犯錯誤的概率不超過α 新知:(卡方)獨立性檢驗的步驟 (1)認清分類變量,提出零假設H0:X和Y獨立,即…與…無關聯(無差異); (2)列表:列出2×2列聯表. (3)求值:由表中數據計算χ2的值. (4)推斷:將χ2值與臨界值xα比較,根據小概率值α的獨立性檢驗規則,得出結論 若χ2≥xα,則推斷H0不成立,即認為X和Y不獨立,該推斷犯錯誤的概率不超過α; 若χ2P(χ2≥xα)=α 0.1 0.05 0.01 0.005 0.001 xα 2.706 3.841 6.635 7.879 10.828 利用χ2的取值推斷分類變量X 和Y 是否獨立的方法稱為χ2獨立性檢驗 新知:(卡方)獨立性檢驗 ①作用:由χ2≥xα是否發生推斷分類變量X和Y是否獨立. ②獨立性檢驗中常用的小概率值和相應的臨界值 P(χ2≥xα)=α 0.1 0.05 0.01 0.005 0.001 xα 2.706 3.841 6.635 7.879 10.828 利用χ2的取值推斷分類變量X 和Y 是否獨立的方法稱為χ2獨立性檢驗 如:若假設H0成立,對于小概率值α=0.05的χ2獨立性檢驗規則如下: (1)當χ2≥3.841=x0.05時,∵P(χ2≥3.841)=0.05,可推斷H0不成立, 即認為X和Y不獨立,該推斷犯錯誤的概率不超過0.05; (2)當χ2<3.841=x0.05時,我們沒有充分證據推斷H0不成立,可認為X和Y獨立. 應用:(卡方)獨立性檢驗 例1.根據以下列聯表的數據,試分析兩校學生中數學成績優秀率之間是否存在差異. {5940675A-B579-460E-94D1-54222C63F5DA}性別 鍛煉 合計 不優秀(Y=0) 優秀(Y=1) 甲校(X=0) 33 10 43 乙校(X=1) 38 7 45 合計 71 17 88 P(χ2≥xα)=α 0.1 0.05 0.01 0.005 0.001 xα 2.706 3.841 6.635 7.879 10.828 提出原(零)假設 計算χ2 找臨界值比較 下結論 沒有考慮由樣本隨機性可能導致的錯誤, 所以這個推斷依據不太充分 獨立性檢驗更理性、更全面,理論依據更充分 應用:(卡方)獨立性檢驗 例3.兒童醫院用甲、乙兩種療法治療小兒消化不良.采用有放回簡單隨機抽樣的方法對治療情況進行檢查,得到了如下數據:抽到接受甲種療法的患兒67名,其中未治愈15名,治愈52名;抽到接受乙種治療法的患兒69名,其中未治愈6名,治愈63名.試根據小概率值α=0.005的獨立性檢驗,分析乙種療法的效果是否比甲種療法好. {5940675A-B579-460E-94D1-54222C63F5DA}療法 療效 合計 未治愈 治愈 甲 15 52 67 乙 6 63 69 合計 21 115 136 P(χ2≥xα)=α 0.1 0.05 0.01 0.005 0.001 xα 2.706 3.841 6.635 7.879 10.828 應用:(卡方)獨立性檢驗 [變式]兒童醫院用甲、乙兩種療法治療小兒消化不良.采用有放回簡單隨機抽樣的方法對治療情況進行檢查,得到了如下數據:抽到接受甲種療法的患兒67名,其中未治愈15名,治愈52名;抽到接受乙種治療法的患兒69名,其中未治愈6名,治愈63名.試根據小概率值α=0.05的獨立性檢驗,分析甲、乙兩種療法的效果是否有差異. {5940675A-B579-460E-94D1-54222C63F5DA}療法 療效 合計 未治愈 治愈 甲 15 52 67 乙 6 63 69 合計 21 115 136 P(χ2≥xα)=α 0.1 0.05 0.01 0.005 0.001 xα 2.706 3.841 6.635 7.879 10.828 應用:(卡方)獨立性檢驗 例4.為研究吸煙是否與肺癌有關,某腫瘤研究所采取有放回簡單隨機抽樣的方法,調查了9965人,得到成對樣本觀測數據的分類統計結果,如表所示.依據小概率值α=0.001的獨立性檢驗,分析吸煙是否會增加患肺癌得風險. {5940675A-B579-460E-94D1-54222C63F5DA}吸煙 肺癌 合計 不患肺癌 患肺癌 非吸煙者 7775 42 7817 吸煙者 2099 49 2148 合計 9874 9115 9965 P(χ2≥xα)=α 0.1 0.05 0.01 0.005 0.001 xα 2.706 3.841 6.635 7.879 10.828 思辨:(卡方)獨立性檢驗 例4.為研究吸煙是否與肺癌有關,某腫瘤研究所采取有放回簡單隨機抽樣的方法,調查了9965人,得到成對樣本觀測數據的分類統計結果,如表所示.依據小概率值α=0.001的獨立性檢驗,分析吸煙是否會增加患肺癌得風險. {5940675A-B579-460E-94D1-54222C63F5DA}吸煙 肺癌 合計 不患肺癌 患肺癌 非吸煙者 7775 42 7817 吸煙者 2099 49 2148 合計 9874 9115 9965 根據表中的數據計算, 不吸煙者中患肺癌的頻率為427817≈0.0054; 吸煙者中患肺癌的頻率分別為492148≈0.0228. ? 由0.02280.0054≈4.2可見,在被調查者中,吸煙者患肺癌的頻率是不吸煙者患肺癌的頻率的4倍以上.于是,根據頻率穩定于概率的原理,我們可以認為吸煙者患肺癌的概率明顯大于不吸煙者患肺癌的概率,即吸煙更容易引發肺癌. ? 應用:(卡方)獨立性檢驗 練習1.同學寒假期間對其30位親屬的飲食習慣進行了一次調查,列出了如下2×2列聯表, 則可以說其親屬的飲食習慣與年齡有關,該推斷犯錯誤的概率不超過 ( ) A.0.005 B.0.004 C.0.002 D.0.001 P(χ2≥xα)=α 0.1 0.05 0.01 0.005 0.001 xα 2.706 3.841 6.635 7.879 10.828 年齡 飲食習慣 合計 偏愛蔬菜 偏愛肉類 50歲以下 4 8 12 50歲以上 16 2 18 合計 20 10 30 應用:(卡方)獨立性檢驗 練習2.為研究患肺癌與吸煙是否有關,有人做了一次相關調查,其中部分數據丟失,但可以確定的是不吸煙人數與吸煙人數相等,吸煙患癌人數占吸煙總人數的45,不吸煙的人數中,患肺癌與不患肺癌的人數之比為1∶4.若研究得到在犯錯誤概率不超過0.001的前提下,認為患肺癌與吸煙有關,則受調查的人中吸煙人數至少有多少? ? P(χ2≥xα)=α 0.1 0.05 0.01 0.005 0.001 xα 2.706 3.841 6.635 7.879 10.828 吸煙情況 患病情況 合計 患肺癌 不患肺癌 吸煙 4x x 5x 不吸煙 x 4x 5x 合計 5x 5x 10x 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫