資源簡介 8.3.2 獨立性檢驗 導學案學習目標通過實例,理解2×2列聯表的統計意義.2.通過實例,了解2×2列聯表獨立性檢驗及其應用.重點難點重點:2×2列聯表,獨立性檢驗的思想和方法.難點:卡方統計量的導出和意義,獨立性檢驗的思想和方法.課前預習 自主梳理知識點一 分類變量為了表述方便,我們經常會使用一種特殊的隨機變量,以區別不同的現象或性質,這類隨機變量稱為分類變量.分類變量的取值可以用實數表示.知識點二 2×2列聯表1.2×2列聯表給出了成對分類變量數據的交叉分類頻數.2.定義一對分類變量X和Y,我們整理數據如下表所示:X Y 合計Y=0 Y=1X=0 a b a+bX=1 c d c+d合計 a+c b+d n=a+b+c+d像這種形式的數據統計表稱為2×2列聯表.知識點三 獨立性檢驗1.定義:利用χ2的取值推斷分類變量X和Y是否獨立的方法稱為χ2獨立性檢驗,讀作“卡方獨立性檢驗”.簡稱獨立性檢驗.2.χ2=,其中n=a+b+c+d.3.獨立性檢驗解決實際問題的主要環節(1)提出零假設H0:X和Y相互獨立,并給出在問題中的解釋.(2)根據抽樣數據整理出2×2列聯表,計算χ2的值,并與臨界值xα比較.(3)根據檢驗規則得出推斷結論.(4)在X和Y不獨立的情況下,根據需要,通過比較相應的頻率,分析X和Y間的影響規律.思考 獨立性檢驗與反證法的思想類似,那么獨立性檢驗是反證法嗎?答案 不是.因為反證法不會出錯,而獨立性檢驗依據的是小概率事件幾乎不發生.自主檢測1.判斷正誤,正確的填“正確”,錯誤的填“錯誤”.(1)分類變量中的變量與函數的變量是同一概念.( )(2)等高堆積條形圖可初步分析兩分類變量是否有關系,而獨立性檢驗中取值則可通過統計表從數據上說明兩分類變量的相關性的大?。? )(3)事件A與B的獨立性檢驗無關,即兩個事件互不影響.( )(4)的大小是判斷事件A與B是否相關的統計量.( )(5)概率值越小,臨界值越大.( )(6)獨立性檢驗的思想類似于反證法.( )(7)獨立性檢驗的結論是有多大的把握認為兩個分類變量有關系.( )2.某校為了研究學生的性別和對待某一活動的態度(支持與不支持)的關系,運用列聯表進行獨立性檢驗,經計算,則所得到的統計學結論是:有__________的把握認為“學生性別與支持該活動有關系”( )0.100 0.050 0.025 0.010 0.0012.706 3.841 5.024 6.635 10.828A. B. C. D.3.通過隨機詢問110名性別不同的大學生是否愛好體育,男 女 總計愛好 40 20 60不愛好 20 30 50總計 60 50 110得到上表:參照附表,得到的正確結論是( )附:由公式算得:附表:0.25 0.15 0.10 0.05 0.025 0.010 0.0051.323 2.702 2.706 3.841 5.024 6.635 7.879A.有以上的把握認為“愛好體育運動與性別有關”B.有以上的把握認為“愛好體育運動與性別無關”C.在犯錯誤的概率不超過的前提下,認為“愛好體育運動與性別有關”D.在犯錯誤的概率不超過的前提下,認為“愛好體育運動與性別無關”4.為了豐富教職工業余文化生活,某校計劃在假期組織70名老師外出旅游,并給出了兩種方案(方案一和方案二),每位老師均選擇且只選擇一種方案,其中有50%的男老師選擇方案一,有75%的女老師選擇方案二,且選擇方案一的老師中女老師占40%,則參照附表,得到的正確結論是( )附:() 0.10 0.05 0.0252.706 3.841 5.024,.A.在犯錯誤的概率不超過2.5%的前提下,認為“選擇方案與性別有關”B.在犯錯誤的概率不超過2.5%的前提下,認為“選擇方案與性別無關”C.有95%以上的把握認為“選擇方案與性別有關”D.有95%以上的把握認為“選擇方案與性別無關”5.對分類變量和進行獨立性檢驗的零假設為( )A.:分類變量和獨立B.:分類變量和不獨立C.:D.:分類變量和相關聯新課導學學習探究環節一 創設情境,引入課題(1)舊知回顧:在上一節課,我們學習了列聯表,由隨機事件的穩定性,了解并作出判斷兩個分類變量是否有關聯,請同學們思考:用頻率推斷兩個分類變量是否獨立有什么缺點?前面我們通過列聯表整理成對分類變量的樣本觀測數據,并根據隨機事件頻率的穩定性推斷兩個分類變量之間是否有關聯.引導學生對頻率與概率的比較,由頻率具有隨機性,與概率之間存在差異;通過數據改變,由樣本容量較小時,犯錯誤的概率較大.(2)問題激發:有沒有更合理的推斷方法,同時也希望對出現的錯誤推斷的概率一定的控制或估算?由概率知識分析,如果兩個事件的獨立,它們的充要條件是什么?我們需要更好的方法彌補因頻率的隨機性帶來判斷兩個分類變量的不可靠性,改進提高判斷的結論科學性與穩定性.如何改進提高,先回頭看獨立事件,我們已知道,事件與事件獨立的充要條件是,這與兩個分類變量的頻率之間又有什么樣的聯系呢?對于隨機樣本而言,因為頻率具有隨機性,頻率與概率之間存在誤差,所以我們的推斷可能犯錯誤,而且在樣本容量較小時,犯錯誤的可能性會較大.因此,需要找到一種更為合理的推斷方法,同時也希望能對出現錯誤推斷的概率有一定的控制或估算.考慮以為樣本空間的古典概型.我們將兩個分類變量的列聯表抽象簡化,以0,1分別表示事件發生的兩種結果,如下表所示,獨立的另一層含義,即我們需要了解事件與是否存在關聯?, ,, ,我們知道與不獨立,互為對立事件,與不獨立,互為對立事件.我們需要判斷下面的假定關系:是否成立?設和為定義在上,取值于的成對分類變量.我們希望判斷事件和之間是否有關聯.注意到和,和都是互為對立事件,與前面的討論類似,我們需要判斷下面的假定關系是否成立,通常稱為零假設或原假設.這里,表示從中隨機選取一個樣本點,該樣本點屬于的概率,而表示從中隨機選取一個樣本點,該樣本點屬于的概率.由條件概率的定義可知,零假設等價于或①注意到和為對立事件,于是,再由概率的性質,我們有.由此推得①式等價于.因此,零假設等價于與獨立.根據已經學過的概率知識,下面的四條性質彼此等價:與獨立;與獨立;與獨立;與獨立.如果這些性質成立,我們就稱分類變量和獨立,這相當于下面四個等式成立:;;;.因此,我們可以用概率語言,將零假設改述為::分類變量和獨立.根據我們通過簡單隨機抽樣得到了X和Y的抽樣數據列聯表,如表8.3-3所示.表8.3-3合計合計8.3-3是關于分類變量和的抽樣數據的列聯表:最后一行的前兩個數分別是事件和的頻數;最后一列的前兩個數分別是事件和的頻數;中間的四個數是事件的頻數;右下角格中的數是樣本容量.對于隨機樣本,表8.3-3中的頻數a,b,c,d都是隨機變量,而表8.3-2中的響應數據是這些隨機變量的一次觀測結果.環節二 觀察分析,感知概念思考:如何基于②中的四個等式及列聯表8.3-3中的數據,構造適當的統計量,對成對的分類變量X和Y是否相互獨立作出推斷?在零假設成立的條件下,根據頻率穩定于概率的原理,由②中的第一個等式,我們可以用概率和對應的頻率的乘積估計概率,而把視為事件發生的頻數的期望值(或預期值).這樣,該頻數的觀測值和應該比較接近.綜合②中的四個式子,如果零假設成立,下面四個量的取值都不應該太大:,,,.③反之,當這些量的取值較大時,就可以推斷不成立.顯然,分別考慮③中的四個差的絕對值很困難.我們需要找到一個既合理又能夠計算分布的統計量,來推斷是否成立.一般來說,若頻數的期望值較大,則③中相應的差的絕對值也會較大;而若頻數的期望值較小,則③中相應的差的絕對值也會較?。?br/>疑問:有沒有更好的方式一次性將4個量全部考慮包含?于是,1900年,英國數學家卡方·皮爾遜在研究的基礎上,提出了如下統計量:為了合理地平衡這種影響,我們將四個差的絕對值取平方后分別除以相應的期望值再求和,得到如下的統計量:.該表達式可化簡為. (1)問題4:那么,究竟大到什么程度,可以推斷H0不成立呢 或者說,怎樣確定判斷大小的標準呢 統計學家建議,用隨機變量取值的大小作為判斷零假設是否成立的依據,當它比較大時推斷不成立,否則認為成立.那么,究竟大到什么程度,可以推斷不成立呢?或者說,怎樣確定判斷大小的標準呢?環節三 抽象概括,形成概念連續疑問:卡方統計量有什么用呢?統計學家建議,用卡方的大小作為判斷零假設是否成立的依據,當它比較大時推斷不成立,否則認為成立.那么,究竟大到什么程度,可以推斷不成立呢?或者說,怎樣確定判斷卡方大小的標準呢?根據小概率事件在一次試驗中不大可能發生的規律,上面的想法可以通過確定一個與相矛盾的小概率事件來實現.在假定的條件下,對于有放回簡單隨機抽樣,當樣本容量充分大時,統計學家得到了的近似分布.忽略的實際分布與該近似分布的誤差后,對于任何小概率值,可以找到相應的正實數,使得下面關系成立:.我們稱為的臨界值,這個臨界值就可作為判斷大小的標準.概率值越小,臨界值越大.當總體很大時,抽樣有、無放回對的分布影響較小.因此,在應用中往往不嚴格要求抽樣必須是有放回的.由④式可知,只要把概率值取得充分小,在假設成立的情況下,事件是不大可能發生的.根據這個規律,如果該事件發生,我們就可以推斷不成立.不過這個推斷有可能犯錯誤,但犯錯誤的概率不會超過.基于小概率值的檢驗規則是:當時,我們就推斷不成立,即認為和不獨立,該推斷犯錯誤的概率不超過;當時,我們沒有充分證據推斷不成立,可以認為和獨立.這種利用的取值推斷分類變量和是否獨立的方法稱為獨立性檢驗,讀作“卡方獨立性檢驗”,簡稱獨立性檢驗(test of independence).表8.3-4給出了獨立性檢驗中幾個常用的小概率值和相應的臨界值.表8.3-40.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828例如,對于小概率值,我們有如下的具體檢驗規則:(1)當時,我們推斷不成立,即認為和不獨立,該推斷犯錯誤的概率不超過0.05;(2)當時,我們沒有充分證據推斷不成立,即認為和獨立.環節四 辨析理解 深化概念例2 依據小概率值的獨立性檢驗,分析例1中的抽樣數據,能否據此推斷兩校學生的數學成績優秀率有差異?解:零假設為:分類變量和相互獨立,即兩校學生的數學成績優秀率無差異.根據表8.3-2中的數據,計算得到.根據小概率值的獨立性檢驗,沒有充分證據推斷不成立,因此可以認為成立,即認為兩校的數學成績優秀率沒有差異.思考:例1和例2都是基于同一組數據的分析,但卻得出了不同的結論,你能說明其中的原因嗎?事實上,如前所述,例1只是根據一個樣本的兩個頻率間存在差異得出兩校學生數學成績優秀率有差異的結論,并沒有考慮由樣本隨機性可能導致的錯誤,所以那里的推斷依據不太充分.在例2中,我們用獨立性檢驗對零假設進行了檢驗.通過計算,發現小于所對應的臨界值2.706,因此認為沒有充分證據推斷不成立,所以接受,推斷出兩校學生的數學優秀率沒有顯著差異的結論.這個檢驗結果意味著,抽樣數據中兩個頻率的差異很有可能是由樣本隨機性導致的.因此,只根據頻率的差異得出兩校學生的數學成績優秀率有差異的結論是不可靠的.由此可見,相對于簡單比較兩個頻率的推斷,用獨立性檢驗得到的結果更理性、更全面,理論依據也更充分.當我們接受零假設時,也可能犯錯誤.我們不知道犯錯誤這類錯誤的概率的大小,但是知道,若越大,則越?。?br/>例3某兒童醫院用甲、乙兩種療法治療小兒消化不良.采用有放回簡單隨機抽樣的方法對治療情況進行檢查,得到了如下數據:抽到接受甲種療法的患兒67名,其中未治愈15名,治愈52名;抽到接受乙種療法的患兒69名,其中未治愈6名,治愈63名.試根據小概率值的獨立性檢驗,分析乙種療法的效果是否比甲種療法好.解:零假設為:療法與療效獨立,即兩種療法效果沒有差異.將所給數據進行整理,得到兩種療法治療數據的列聯表,如表8.3-5所示.表8.3-5 單位:人療法 療效 合計未治愈 治愈甲 15 52 67乙 6 63 69合計 21 115 136根據列聯表中的數據,經計算得到.根據小概率值的獨立性檢驗,沒有充分證據推斷不成立,因此可以認為成立,即認為兩種療法效果沒有差異.觀察:在表8.3-5中,若對調兩種療法的位置或對調兩種療效的位置,則表達式(1)中a,b,c,d的賦值都會相應地改變.這樣做會影響取值的計算結果嗎?環節五 概念應用,鞏固內化例4為研究吸煙是否與肺癌有關,某腫瘤研究所采取有放回簡單隨機抽樣的方法,調查了9965人,得到成對樣本觀測數據的分類統計結果,如表8.3-6所示.依據小概率值的獨立性檢驗,分析吸煙是否會增加患肺癌的風險.表8.3-6 單位:人吸煙 肺癌 合計非肺癌患者 肺癌患者非吸煙者 7775 42 7817吸煙者 2099 49 2148合計 9874 91 9965解:零假設為:吸煙與患肺癌之間無關聯.根據列聯表中的數據,經計算得到.根據小概率值的獨立性檢驗,我們推斷不成立,即認為吸煙與患肺癌有關聯,此推斷犯錯誤的概率不大于0.001.根據表8.3-6中的數據計算,不吸煙者中不患肺癌和患肺癌的頻率分別為和;吸煙者中不患肺癌和患肺癌的頻率分別為和.由可見,在被調查者中,吸煙者患肺癌的頻率是不吸煙者患肺癌的頻率的4倍以上.于是,根據頻率穩定于概率的原理,我們可以認為吸煙者患肺癌的概率明顯大于不吸煙者患肺癌的概率,即吸煙更容易引發肺癌.總結上面的例子,應用獨立性檢驗解決實際問題大致應包括以下幾個主要環節:(1)提出零假設:和相互獨立,并給出在問題中的解釋.(2)根據抽樣數據整理出列聯表,計算的值,并與臨界值比較.(3)根據檢驗規則得出推斷結論.(4)在和不獨立的情況下,根據需要,通過比較相應的頻率,分析和間的影響規律.注意,上述幾個環節的內容可以根據不同情況進行調整例如,在有些時候,分類變量的抽樣數據列聯表是問題中給定的.思考:獨立性檢驗的思想類似于我們常用的反證法,你能指出二者之間的相同和不同之處嗎?簡單地說,反證法是在某種假設之下,推出一個矛盾結論,從而證明不成立;而獨立性檢驗是在零假設之下,如果出現一個與相矛盾的小概率事件,就推斷不成立,且該推斷犯錯誤的概率不大于這個小概率.另外,在全部邏輯推理正確的情況下,反證法不會犯錯誤,但獨立性檢驗會犯隨機性錯誤.獨立性檢驗的本質是比較觀測值與期望值之間的差異,由所代表的這種差異的大小是通過確定適當的小概率值進行判斷的.這是一種非常重要的推斷方法,不僅有相當廣泛的應用,也開啟了人類認識世界的一種新的思維方式.環節六 歸納總結,反思提升1. 本節課學習的概念有哪些?(1)獨立性檢驗的基本原理,小概率事件;(2)列聯表,卡方統計量,臨界值表;(3)獨立性檢驗的基本步驟:假設、計算、查表、下結論(4)知識清單:①分類變量.②2×2列聯表.③等高堆積條形圖.④獨立性檢驗,χ2公式.2. 在解決問題時,用到了哪些數學思想?(1)反證法思想.(2)常見誤區:對獨立性檢驗的原理不理解,導致不會用χ2分析問題.環節七 目標檢測,作業布置完成教材:自主學習課本例3,并完成練習3.通過課本例3的學習,了解到兩個分類變量卡方統計量偏小的情況,對于原假設如何下結論.備用練習6.“獨立性檢驗”中,在犯錯誤的概率不超過0.05的前提下認為事件A和B有關,則算出的數據滿足( ?。?br/>A. B. C. D.7.經過對x2的統計量的研究,得到了若干個臨界值,當x2<2.706時,我們認為事件A與B( )α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828A.有95%的把握認為A與B有關系B.有99%的把握認為A與B有關系C.沒有充分理由說明事件A與B有關系D.不能確定8.某地政府調查育齡婦女生育意愿與家庭年收入高低的關系時,隨機調查了當地3000名育齡婦女,用獨立性檢驗的方法處理數據,并計算得,則根據這一數據以及臨界值表,判斷育齡婦女生育意愿與家庭年收入高低有關系的可信度( )A.低于1% B.低于0.5%C.高于99% D.高于99.5%9.在一次獨立性檢驗中得到如下列聯表:A1 A2 總計B1 200 800 1000B2 180 a 180+a總計 380 800+a 1180+a若這兩個分類變量A和B沒有關系,則a的可能值是( )A.200 B.720C.100 D.18010.下列說法中錯誤的是( )A.殘差的平方和可用來判斷模型擬合的效果B.設有一個回歸方程,自變量增加個單位時,因變量平均增加個單位C.線性回歸直線必過點D.在一個列聯表中,由計算得(其中),則有的把握確認這兩個變量間有關系試卷第1頁,共3頁試卷第1頁,共3頁參考答案:1. 錯誤 正確 錯誤 正確 正確 正確 正確【分析】由分類變量概念、等高堆積條形圖的意義,以及獨立性檢驗的概念、思想以及意義即可逐一判斷.【詳解】分類變量是說明事物類別的一個名稱(從屬關系),它不同于函數中的變量(依賴關系),故(1)錯誤;由等高堆積條形圖以及獨立性檢驗中的意義可知(2)正確;事件A與B的獨立性檢驗無關,即兩個事件“大概率”互不影響,故(3)錯誤;由的意義可知(4)正確;由與的關系可知(5)正確;對比獨立性檢驗思想以及反證法思想可知(6)正確;由獨立性檢驗的意義可知(7)正確.故答案為:錯誤;正確;錯誤;正確;正確;正確;正確.2.C【分析】根據的值,結合參考表格,計算出犯錯的概率,即可求得有把握的概率.【詳解】,對照表格:,因此有把握認為“學生性別與支持該活動沒有關系”.有的把握認為“學生性別與是否支持該活動有關系”,故選:C.【點睛】本題考查獨立性檢驗,解題時注意利用表格數據與觀測值比較,考查了分析能力和理解能力,屬于基礎題.3.A【分析】先根據公式計算,再對照參考數據作判斷選擇.【詳解】所以有以上的把握認為“愛好體育運動與性別有關”,或在犯錯誤的概率不超過的前提下,認為“愛好體育運動與性別有關”故選:A【點睛】本題考查卡方計算及其應用,考查基本分析判斷能力,屬基礎題.4.C【分析】設該校男老師的人數為,女老師的人數為,根據條件,得到列聯表,求出,的值,利用公式計算的值,再與表中臨界值比較可得結果.【詳解】設該校男老師的人數為,女老師的人數為,則可得如下表格:方案一 方案二男老師女老師由題意,可得,可得,,則,但,所以無97.5%以上有95%以上的把握認為“選擇方案與性別有關”.故選:C.5.A【分析】由零假設的定義即可得到答案.【詳解】在判斷兩個分類變量之間是否有關聯時,需要判斷假定關系:是否成立,通常稱為零假設或原假設.零假設:分類變量和獨立故選:A.6.C【分析】通過的觀測值,對照臨界值表,得出統計結論.【詳解】由臨界值表可知:當時,滿足在犯錯誤的概率不超過0.05的前提下認為事件和有關,0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.0010.46 0.71 1.32 2.07 2.71 3.84 5.02 6.64 7.88 10.83結合選項可知,故選:C.7.C【分析】由x2<2.706判斷事件A與B的關系.【詳解】當x2≥2.706時,有90%以上的把握說明A與B有關系,但當x2<2.706時,只能說明A與B是否有關系的理由不夠充分故選:C.8.C【分析】判斷在臨界值表中的位置即可.【詳解】臨界值表:因為介于6.635和10.828之間,故判斷育齡婦女生育意愿與家庭年收入高低有關系的可信度介于99%和99.9%之間.故選:C.9.B【分析】當時,兩者沒有關系,帶值檢驗即可【詳解】當a=720時,,易知此時兩個分類變量沒有關系.故選:B.10.B【分析】利用殘差平方和與模型擬合效果的關系可判斷A選項;利用回歸直線方程的概念可判斷BC選項;利用獨立性檢驗的基本思想可判斷D選項.【詳解】對于A選項,殘差的平方和可用來判斷模型擬合的效果,殘差越小,模型的擬合效果越好,A對;對于B選項,設有一個回歸方程,自變量增加個單位時,因變量平均減少個單位,B錯;對于C選項,線性回歸直線必過點,C對;對于D選項,在一個列聯表中,由計算得(其中),則有的把握確認這兩個變量間有關系,D對.故選:B.答案第1頁,共2頁答案第1頁,共2頁 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫