資源簡介 (共60張PPT)7.3獨立性檢驗問題1、所求直線方程叫做回歸直線方程;相應的直線叫做回歸直線。2、對兩個變量進行的線性分析叫做線性回歸分析。回歸直線方程溫故知新稱為樣本點的中心。溫故知新(1)當r >0時,稱成對數據正相關;當r <0時,稱成對數據負相關.(2)r 的取值范圍為[-1,1](3)當|r|越接近1時,成對樣本數據的線性相關程度越強;當|r|越接近0時,成對樣本數據的線性相關程度越弱.2. 樣本相關系數r獨立性檢驗本節研究的是兩個分類變量的獨立性檢驗問題。在日常生活中,我們常常關心分類變量之間是否有關系:例如,吸煙是否與患肺癌有關系?性別是否對于喜歡數學課程有影響?等等。吸煙與肺癌列聯表患肺癌 不患肺癌 總計不吸煙 56 1932 1988吸煙 23 4567 4590總計 79 6499 6578為了調查吸煙是否對肺癌有影響,某腫瘤研究所隨機地調查了6578人,得到如下結果(單位:人)列聯表分類變量3.1獨立性檢驗:問題提出上面是一張2行2列的表,在統計中稱為2×2列聯表.在這個問題中,需要考慮兩個變量:是否吸煙,是否患肺癌;每個變量應取兩個值:吸煙、不吸煙,患肺癌、未患肺癌.上表中的數據是根據調査得到的結果,如吸煙且患肺癌的人數是56,不吸煙但患肺癌的人數是23,等等.我們的問題是:如何根據表格中的數據來判斷吸煙與患肺癌是否有關系,即它們是否獨立?這一問題稱為2×2列聯表的獨立性檢驗.分析理解假設“吸煙與否”與“是否患肺癌”沒有關系,即吸煙與患肺癌是獨立的.根據直觀經驗, 我們把吸煙人群中患肺癌的人所占百分比,與不吸煙人群中患肺癌的人所占百分比作比較. 如果吸煙不影響患肺癌,就意味著,無論吸煙與否,患肺癌的人所占的百分比應是基本一樣的.就此題而言:吸煙人群中患肺癌的人所占百分比是不吸煙人群中患肺癌的人所占百分比是顯然,吸煙人群中患肺癌的人所占百分比,與不吸煙人群中患肺癌的人所占百分比不相等,且相差較大.由此我們可以推斷,開始的假設可能是不成立的.也就是說,患肺癌與吸煙可能是有關系的.由吸煙人群中患肺癌的人所占的百分比較大,可以認為吸煙會對肺癌的發病率產生一定的影響.另一方面,如果吸煙和患肺癌是獨立的,那么就有P(A1B1) = P(A1)P(B1), P(A1B2)= P(Al)P(B2) ,P(A2B1)=P(A2)P(B1), P(A2B2)= P(A2)P(B2).先討論P(A1B1) = P(A1)P(B1),的情況.我們可以列出頻率表,并用既吸煙又患肺癌的人的頻率來估計P(A1B1),用吸煙的人的頻率來估計P(A1),用患肺癌的人的頻率來估計P(B1),得到表7-10.既吸煙又患肺癌的人的頻率是0.85%,吸煙的人的頻率是30.22%,患肺癌的人的頻率是1.20%.顯然,30.22.%×1.20%≈0.36%≠0.85%.由于根據表中數據計算出的值是頻率值,它只是概率的估計值,因此即使變量之間獨立,這兩個數一般也不一定恰好相等.但是當這兩個數相差很大時,就可以得出:患肺癌與吸煙有關的可能性較大.抽象概括其中,a表示變量A取A1,且變量B取B1時的數據;b表示變量A取A1,且變量B取 B2時的數據;c表示變量A取A2,且變量B取Bl時的數據;d表示變量A取A2,且變量B取B2時的數據.3.2 獨立性檢驗的基本思想統計學家選取以下統計量,用它的大小來檢驗變量之間是否獨立:統計上已經證明:在變量A, B獨立的前提下,當樣本量很大時,χ2近似服從一個已知的分布χ2(1).當χ2較大時,說明變量之間不獨立.在統計中,用以下結果對變量的獨立性進行判斷.統計學家選取以下統計量,用它的大小來檢驗變量之間是否獨立:(1)當χ2≤2.706時,沒有充分的證據判斷變量A,B有關聯,可以認為變量A,B是沒有關聯的;(2)當χ2>2.706時,有90%的把握判斷變量A,B有關聯;(3)當χ2>3.841時,有95%的把握判斷變量A,B有關聯;(4)當χ2>6.635時,有99%的把握判斷變量A,B有關聯.χ2較大時,說明變量之間不獨立深化概念卡方統計量X Y 合計Y=0 Y=1X=0 a b a+bX=1 c d c+d合計 a+c b+d n=a+b+c+d追問1 卡方統計量有什么用呢?統計學家建議,用隨機變量 χ2取值 的大小作為判斷零假設H0是否成立的依據。根據小概率事件在一次試驗中不大可能發生的規律,可以通過確定一個與H0相矛盾的小概率事件來實現,在假定H0的條件下,對于有放回簡單隨機抽樣,當樣本容量n充分大時,統計學家得到了 χ2的近似分布.P(χ2 ≥ xα)=α我們稱xα為α的臨界值,這個臨界值可以作為判斷χ2大小的標準.概率值α越小,臨界值xα越大.xαα這種利用χ2的取值推斷分類變量X和Y是否獨立的方法稱為χ2獨立性檢驗,讀作“卡方獨立性檢驗”,簡稱獨立性檢驗.α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828下表給出了χ2獨立性檢驗中幾個常用的小概率值和相應的臨界值:基于小概率值α的檢驗規則:追問3 怎么看這個表呢?α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828追問3 怎么看這個表呢?例如,對于小概率值α=0.05,我們有如下的具體檢驗規則:按α=0.1的卡方獨立性檢驗,沒有充分證據推斷H0不成立(數學結論),可以認為X和Y獨立(實際結論).獨立性檢驗基本的思想類似反證法(1)假設結論不成立,即“兩個分類變量沒有關系”.(2)在此假設下隨機變量 K2 應該很能小,如果由觀測數據計算得到K2的觀測值k很大,則在一定程度上說明假設不合理.(3)根據隨機變量K2的含義,可以通過評價該假設不合理的程度,由實際計算出的,說明假設合理的程度為99.9%,即“兩個分類變量有關系”這一結論成立的可信度為約為99.9%.反證法原理與假設檢驗原理反證法原理: 在一個已知假設下,如果推出一個矛盾,就證明了這個假設不成立。假設檢驗原理:在一個已知假設下,如果一個與該假設矛盾的小概率事件發生,就推斷這個假設不成立。獨立性檢驗基本的思想類似反證法(1)假設結論不成立,即“兩個分類變量沒有關系”.(2)在此假設下隨機變量 K2 應該很能小,如果由觀測數據計算得到K2的觀測值k很大,則在一定程度上說明假設不合理.(3)根據隨機變量K2的含義,可以通過評價該假設不合理的程度,由實際計算出的,說明假設合理的程度為99.9%,即“兩個分類變量有關系”這一結論成立的可信度為約為99.9%.1.思考辨析(正確的畫“√”,錯誤的畫“×”)(1)列聯表中的數據是兩個變量的頻數.( )(2)2×2列聯表只有4個格子.( )(3)χ2的大小是判斷變量A與B是否相關的統計量.( )√ ×√2.下面是一個2×2列聯表:y1 y2 總計x1 a 21 73x2 2 25 27總計 b 46 100則表中a、b的值分別為( )A.94、96 B.52、50C.52、54 D.54、52C3.對兩個變量A與B的χ2的值說法正確的是( )A.χ2越大,“A與B有關”的把握性越小B.χ2越小,“A與B有關”的把握性越小C.χ2越接近于0,“A與B無關”的把握性越小D.χ2越大,“A與B無關”的把握性越大解析:χ2越大,A與B越不獨立,所以關聯越大;相反,χ2越小,關聯越小.故選B.答案:B 看書 運動 合計男 8 20 28女 16 12 28合計 24 32 56解析:根據表中數據得到χ2≈4.667>3.841,所以至少有95%的把握判定休閑方式與性別有關系.答案:95%3.3 獨立性檢驗的應用例1 某組織對男、女青年是否喜愛古典音樂進行了一個調查,調查者隨機調查了146名青年,表7-12給出了調查的結果(單位:人):試問:男、女青年喜愛古典音樂的程度是否有差異?解 依題意知該問題是判斷喜愛古典音樂是否與青年的性別有關.根據表7-12中的數據計算得到表7-13(單位:人):例題講解例2 容易生氣的人更有可能患心臟病嗎?某機構隨機調查了2 796人,表7-14給出了調查的結果(單位:人):試問:容易生氣的人是否更有可能患心臟病?解 問題是要判斷患心臟病是否與易怒有關.根據表7-14中的數據計算得到表7-15 (單位:人):例2 生物學上對于人類頭發的顏色與眼睛虹膜的顏色是否有關進行了調研,以下是一次調査結果,調查人數共212人.調査結果如表7-16(單位:人):試問:頭發的顏色與眼睛虹膜的顏色有關嗎?解 問題是要判斷頭發的顏色是否與眼睛虹膜的顏色有關.根據表7-16中的數據計算得到表7-17(單位:人):例4.某心臟病醫院為了研究禿頂是否與心臟病有關,對665名男性心臟和772名其他病人做了研究,是否可以以99%的把握認為禿頂與心臟病有關?患心臟病 不患心臟病 總計禿頂 214 175 389不禿頂 451 597 1048總計 665 772 1437智慧的閃光!例1.在某醫院,因為患心臟病而住院的665名男性病人中,有214人禿頂,而另外772名不是因為患心臟病而住院的男性病人中有175人禿頂.分別利用圖形和獨立性檢驗方法判斷是否有關 你所得的結論在什么范圍內有效 患心臟病 不患心臟病 總計禿頂 214 175 389不禿頂 451 597 1048總計 665 772 1437在禿頂中患心臟病的比重是在不禿頂中患心臟病的比重是55.01%43.03%例1.在某醫院,因為患心臟病而住院的665名男性病人中,有214人禿頂,而另外772名不是因為患心臟病而住院的男性病人中有175人禿頂.分別利用圖形和獨立性檢驗方法判斷是否有關 你所得的結論在什么范圍內有效 患心臟病 不患心臟病 總計禿頂 214 175 389不禿頂 451 597 1048總計 665 772 1437根據聯表的數據,得到所以有99%的把握認為“禿頂與患心臟病有關”。研究人員表示,掉頭發在很大程度上是由日漸增大的工作壓力、不能充分休息、不正確飲食和睡眠不足等因素引起的。在接受調查的人群中,有41%的受禿頭威脅的人表示,他們一日睡覺時間不足4小時禿頂=心臟病?注意:因為這組數據來自住院的病人,因此所得到的結論適合住院的病人群體.2、本例中的邊框中的注解:1、在解決實際問題時,可以直接計算K2的觀測值k進行獨立檢驗,而不必寫出K2的推導過程;主要是使得我們注意統計結果的適用范圍(這由樣本的代表性所決定)課堂練習變式1、某班主任對全班50名學生的學習積極性和對待班級工作的態度進行了調查,得出以下2x2列聯表:如果隨機抽查該班的一名學生,那么抽到積極參加班級工作的學生的概率是12/5.(1)求a,b,c,d的值.(2)試運用獨立性檢驗的思想方法分析:能否有99.9%的把握認為學生的學習積極性與對待班級工作的態度有關系?并說明理由.積極參加班級工作 不太主動參加班級工作 總計學習積極性高 18 7 25學習積極性一般 a b 25總計 c d 50解:(1)積極參加班級工作的學生有c人,總人數為50,由抽到積極參加班級工作的學生的概率P1=c/50=12/25,解得c=24,所以a=6.所以b=25-a=19,d=50-c=26.拓展提高變式2、某疫苗進行安全性臨床試驗.該疫苗安全性的一個重要指標是:注射疫苗后人體血液中的高鐵血紅蛋白的含量(以下簡稱為“M含量”)不超過1%,則為陰性,認為受試者沒有出現血癥.若一批受試者的M含量平均數不超過0.65%,出現血癥的被測試者的比例不超過5%,同時滿足這兩個條件則認為該疫苗在M含量指標上是“安全的”;否則為“不安全”.現有男、女志愿者各200名接受了該疫苗注射.經數據整理,制得頻率分布直方圖如圖.(注:在頻率分布直方圖中,同一組數據用該區間的中點值作代表.)(1)請說明該疫苗在M含量指標上的安全性;(2)按照性別分層抽樣,隨機抽取50名志愿者進行M含量的檢測,其中女性志愿者被檢測出陽性的恰好1人.請利用樣本估計總體的思想,完成這400名志愿者的2x2列聯表,并判斷是否有超過95%的把握認為,注射該疫苗后,高鐵血紅蛋白血癥與性別有關?拓展提高(2)依題意得,抽取的50名志愿者中女性志愿者應為25人,由已知,25名女性志愿者被檢測出陽性恰有1人,故女性中陽性的頻率0.04,所以全部女性志愿者陽性共有200 x 0.04 = 8人。由(1)知400名志愿者中,陽性的頻率為0.03,所以陽性的人數共有400 x 0.03=12人因此男性志愿者被檢測出陽性的人數是12-8=4人.所得2x2列聯表如下:男 女 合計陽性 4 8 12陰性 196 192 388合計 200 200 4001.在一項中學生近視情況的調查中,某校男生150名中有80名近視,女生140名中有70名近視,在檢驗這些中學生眼睛近視是否與性別有關時用什么方法最有說服力( )A.平均數與方差 B.回歸分析C.獨立性檢驗 D.概率解析:判斷兩個變量是否有關的最有效方法是進行獨立性檢驗.答案:C課堂練習2.分類變量X和Y的列表如下,則下列說法判斷正確的是( ) y1 y2 合計x1 a b a+bx2 c d c+d合計 a+c b+d a+b+c+dA.ad-bc越小,說明X和Y關系越弱B.ad-bc越大,說明X和Y關系越強C.(ad-bc)2越大,說明X與Y關系越強D.(ad-bc)2越接近于0,說明X與Y關系越強答案:C3.若由一個2×2列聯表中的數據計算得χ2=4.013,那么有________把握認為兩個變量有關.( )A.95% B.97.5%C.99% D.99.9%解析:∵χ2=4.013>3.841,∴有95%的把握認為兩個變量有關.答案:A4.下面2×2列聯表的χ2的值為________. B 合計A 8 4 122 16 18合計 10 20 30答案:105.在研究某種藥物對“H7N9”病毒的治療效果時,進行動物試驗,得到以下數據,對150只動物服用藥物,其中132只動物存活,18只動物死亡,對照組150只動物進行常規治療,其中114只動物存活,36只動物死亡.(1)根據以上數據建立一個2×2列聯表.(2)試問該種藥物對治療“H7N9”病毒是否有效? 存活數 死亡數 合計服用藥物 132 18 150未服藥物 114 36 150合計 246 54 300拓展提高6、這一年來人類與新型冠狀病毒的“戰爭”讓人們逐漸明白一個道理,人類社會組織模式的差異只是小事情,病毒在地球上存在了三四十億年,而人類的文明史不過只有幾千年而已,人類無法消滅病毒,只能與之共存,或者病毒自然消亡,在病毒面前,個體自由要服從于集體或者群體生命的價值.在傳染病學中,通常把從致病刺激物侵入機體內或者對機體發生作用起,到機體出現反應或開始呈現該疾病對應的相關癥狀時止的這一階段稱為潛伏期,因此我們應該注意做好良好的防護措施和隔離措施.某研究團隊統計了某地區10000名患者的相關信息,得到如下表格:潛伏期 (0,2] (2,4] (4,6] (6,8] (8,10] (10,12] (12,14]人數 600 1900 3000 2500 1600 250 150(1)新冠肺炎的潛伏期受諸多因素的影響,為研究潛伏期與年齡的關系,通過分層抽樣從10000名患者中抽取200人進行研究,完成下面的2×2列聯表,并判斷能否在犯錯誤的概率不超過0.001的前提下認為潛伏期與患者年齡有關?(2)依據上述數據,將頻率作為概率,且每名患者的潛伏期是否超過8天相互獨立.為了深入研究,該團隊在這一地區抽取了20名患者,其中潛伏期不超過8天的人數最有可能是多少?潛伏期≤8 潛伏期>8 總計60歲以上(含60歲) 15060歲以下 30總計 200拓展提高解:(1數據可知,潛伏期大于8天的人數為(1600+250+150)/10000 x 200=40人,補充完整的2×2列聯表如下,潛伏期≤8 潛伏期>8 總計60歲以上(含60歲) 130 20 15060歲以下 30 20 50總計 160 40 200解:(2)該地區10000名患者中潛伏期不超過8天的人數為600+1900+3000+2500名,將頻率視為概率,潛伏期不超過8天的概率為8000/10000=0.8,所以抽取的20名患者中潛伏期不超過8天的人數最有可能是20 x 0.8 = 16名.鏈接高考1、(2021 全國高考真題(文))甲、乙兩臺機床生產同種產品,產品按質量分為一級品和二級品,為了比較兩臺機床產品的質量,分別用兩臺機床各生產了200件產品,產品的質量情況統計如下表:一級品 二級品 合計甲機床 150 50 200乙機床 120 80 200合計 270 130 400(1)甲機床、乙機床生產的產品中一級品的頻率分別是多少 (2)能否有99%的把握認為甲機床的產品質量與乙機床的產品質量有差異 走進高考解:(1)甲機床生產的產品中的一級品的頻率為150/200=75%,乙機床生產的產品中的一級品的頻率為120/200=60%.鏈接高考2、(2020 全國高考真題(文))某學生興趣小組隨機調查了某市100天中每天的空氣質量等級和當天到某公園鍛煉的人次,整理數據得到下表(單位:天).[0,200] (200,400] (400,600]1(優) 2 16 252(良) 5 10 123(輕度污染) 6 7 84(中度污染) 7 2 0(1)分別估計該市一天的空氣質量等級為1,2,3,4的概率;(2)求一天中到該公園鍛煉的平均人次的估計值(同一組中的數據用該組區間的中點值為代表);(3)若某天的空氣質量等級為1或2,則稱這天“空氣質量好”;若某天的空氣質量等級為3或4,則稱這天“空氣質量不好”.根據所給數據,完成下面的2×2列聯表,并根據列聯表,判斷是否有95%的把握認為一天中到該公園鍛煉的人次與該市當天的空氣質量有關?人次≤400 人次>400空氣質量好空氣質量不好鏈接高考解:(1)由頻數分布表可知,該市一天的空氣質量等級為1的概率為(2+16+25)/100=0.43,等級為2的概率為(5+10+12)/100=0.27,等級為3的概率為(6+7+8)/100=0.21,等級為4的概率為(7+2+0)/100=0.09;(2)由頻數分布表可知,一天中到該公園鍛煉的人次的平均數為(100x20+300x35+500x45)/100=350(3)2x2列聯表如下:人次≤400 人次>400空氣質量好 33 37空氣質量不好 22 82022年新高考一卷數學第20題高考鏈接——2022年新高考一卷數學第20題1.相互獨立事件:設A,B為兩個事件,若P(AB)=P(A)P(B),則稱事件A與事件B相互獨立。即一個事件的發生與否對另一個事件發生的概率沒有影響。小結兩個值并將形如此表的表格稱為2×2列聯表.5.獨立性判斷的方法χ2≤2.706χ2>2.706χ2>3.841χ2>6.635小概率值≥0.1<0.1<0.05<0.01 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫