資源簡介 (共25張PPT)第八章 成對數(shù)據(jù)的統(tǒng)計分析學習目標1. 理解正相關(guān)、負相關(guān)、線性相關(guān)的概念;掌握樣本相關(guān)系數(shù)的公式,能利用樣本相關(guān)系數(shù)描述成對樣本數(shù)據(jù)的數(shù)字特征。2.通過具體案例理解一元線性回歸模型、經(jīng)驗回歸方程,以及一元線性回歸模型中參數(shù)的最小二乘估計。3.掌握決定系數(shù)的公式,并能利用決定系數(shù)判斷不同模型擬合的效果。4.掌握列聯(lián)表和獨立性檢驗的概念,并能通過列聯(lián)表和獨立性檢驗解決基本的實際問題。8.1 成對數(shù)據(jù)的統(tǒng)計相關(guān)性引言頻率分布直方圖描述樣本數(shù)據(jù)的分布規(guī)律,均值刻畫樣本數(shù)據(jù)的擊中趨勢,用方差刻畫樣本數(shù)據(jù)的離散程度,這些方法適用于通過樣本認識單個變量的統(tǒng)計規(guī)律。在現(xiàn)實中,我們經(jīng)常需要了解兩個或兩個以上變量之間的關(guān)系,例如教育部門為掌握學生身體健康狀況,需要了解身高變量和體重變量之間的關(guān)系;醫(yī)療部門要制定預防青少年近視的措施,需要了解有哪兒些因素會影響視力,以及這些因素是如何影響視力的;商家要根據(jù)顧客的意見改進服務水平,希望了解哪兒些因素影響服務水平,以及這些因素是如何起作用的。為此我們需要進一步通過樣本推斷變量之間關(guān)系的知識和方法。8.1.1 變量的相關(guān)關(guān)系一個人的體重與他的身高有關(guān)系,一般來說,個子高的人往往體重值較大,個子矮的人往往體重值較小,但是身高并不是決定體重的唯一因素,例如生活中的飲食習慣、體育鍛煉、睡眠時間以及遺傳因素等也是影響體重的重要因素。像這樣,兩個變量有關(guān)系,但又沒有確切到可由其中的一個去精確地決定另一個的程度,這種關(guān)系稱為相關(guān)關(guān)系。用散點圖展示成對樣本數(shù)據(jù)的變化特征,圖中散點大致落在一條直線附近,就可以推斷兩個變量之間存在著相關(guān)關(guān)系。從整體上看,當一個變量的值增加時,另一個變量的相應值也呈現(xiàn)增加的趨勢,稱這兩個變量正相關(guān);當一個變量的值增加時,另一個變量的值呈現(xiàn)減小的趨勢,稱這兩個變量負相關(guān).如果兩個變量的取值呈現(xiàn)正相關(guān)或負相關(guān),而且散點落在一條直線附近,稱這兩個變量線性相關(guān)。如果兩個變量具有相關(guān)性,但不是線性相關(guān),稱這兩個變量非線性相關(guān)或曲線相關(guān).8.1.2 樣本相關(guān)系數(shù)散點圖雖然能直觀地看出兩個變量是否存在相關(guān)關(guān)系,但無法確切地反映成對樣本數(shù)據(jù)的相關(guān)程度,我們需要引入樣本相關(guān)系數(shù)r來量化兩個變量之間的相關(guān)程度的大小。典例解析例1:在對人體的脂肪含量和年齡之間關(guān)系的研究中,科研人員獲得了一些年齡和脂肪含量的簡單隨機抽樣數(shù)據(jù),如下表。表中每個編號下面的年齡和脂肪含量數(shù)據(jù)都是對同一個體的觀測結(jié)果,它們構(gòu)成了成對數(shù)據(jù)。編號 1 2 3 4 5 6 7年齡/歲 23 27 39 41 45 49 50脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2編號 8 9 10 11 12 13 14年齡/歲 53 54 56 57 58 60 61脂肪含量/% 29.6 30.2 31.4 30.8 33.5 35.2 34.6根據(jù)以上數(shù)據(jù),你能推斷人體的脂肪含量與年齡之間存在怎樣的關(guān)系嗎?如果線性相關(guān)請計算樣本相關(guān)系數(shù),并推斷它們的相關(guān)程度。(1)這些散點大致落在一條從左下角到右上角的直線附近,表明隨著年齡值的增加,相應的脂肪含量值呈現(xiàn)增加的趨勢(正相關(guān)),因此脂肪含量和年齡變量之間線性相關(guān)。典例分析8.2 一元線性回歸模型及其應用8.2.1 一元線性回歸模型通過前面的學習,我們已經(jīng)學會推斷兩個變量是否存在相關(guān)關(guān)系以及相關(guān)程度的大小。如果能像建立函數(shù)模型刻畫兩個變量之間的確定性關(guān)系那樣,通過建立適當?shù)慕y(tǒng)計模型刻畫兩個隨機變量的相關(guān)關(guān)系,那么我們可以利用這兩個模型研究兩個變量之間的隨機關(guān)系,并通過模型進行預測.例2:生活經(jīng)驗告訴我們,兒子的身高與父親的身高不僅線性相關(guān),而且正相關(guān),即父親的身高較高時,兒子的身高通常也比較高。為了進一步研究兩者之間的關(guān)系,有人調(diào)查了某所高校14名男大學生的身高及其父親的身高,得到的數(shù)據(jù)如下表所示.編號 1 2 3 4 5 6 7 8 9 10 11 12 13 14父親身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180兒子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182根據(jù)題意可得,兒子身高和父親身高線性相關(guān),且r≈0.886,相關(guān)程度較高思考:兒子身高和父親身高這兩個變量之間的關(guān)系可以用函數(shù)模型刻畫嗎?由此可見,兒子身高和父親身高之間不是函數(shù)關(guān)系,也就不能用函數(shù)模型刻畫。散點大致分布在一條直線附近,表明兒子身高和父親身高這兩個變量之間有較強的線性相關(guān)關(guān)系,因此可以用一次函數(shù)來刻畫父親身高對兒子身高的影響,而把影響兒子身高的其他因素,如目前身高、生活環(huán)境、飲食習慣等作為誤差,得到刻畫兩個變量之間關(guān)系的線性回歸模型,其中隨機誤差是一個隨機變量.概念生成8.2.2 一元線性回歸模型參數(shù)的最小二乘估計8.2.2 一元線性回歸模型參數(shù)的最小二乘估計殘差比較均勻地分布在橫軸(x=0)的兩側(cè),說明該模型滿足一元線性回歸模型的假設。典例分析例3:人們將男子短跑100m的高水平運動員稱為“百米飛人”。下表給出1968年之前男子短跑100m世界紀錄產(chǎn)生的年份和世界記錄的數(shù)據(jù)。試根據(jù)這些成對數(shù)據(jù),建立男子短跑100m世界紀錄關(guān)于記錄產(chǎn)生年份的經(jīng)驗回歸方程。編號 1 2 3 4 5 6 7 8年份 1896 1912 1921 1930 1936 1956 1960 1968記錄/s 11.80 10.60 10.40 10.30 10.20 10.10 10.00 9.95以成對數(shù)據(jù)中的世界紀錄產(chǎn)生年份為生坐標,世界紀錄為縱坐標作散點圖,得到右圖.散點看上去大致分布在一條直線附近,似乎可用一元線性回歸模型建立經(jīng)驗回歸方程。典例分析8.3 列聯(lián)表與獨立性檢驗8.3.1 分類變量與列聯(lián)表在現(xiàn)實生活中,人們經(jīng)常需要回答一定范圍內(nèi)的兩種現(xiàn)象或性質(zhì)之間是否存在關(guān)聯(lián)性或相互影響的問題,例如:就讀不同學校是否對學生的成績有影響;不同班級學生用于體育鍛煉的時間是否有差別;吸煙是否會增加患肺癌的風險等等.在討論上述問題時,為了方便,我們經(jīng)常會使用一種特殊的隨機變量,以區(qū)別不同的現(xiàn)象或性質(zhì),這類隨機變量稱為分類變量。分類變量的取值可以用實數(shù)表示,例如:學生所在的班級可以用1,2,3表示;男性,女性可以用1,0表示等等。在很多時候,這些數(shù)值只作為編號使用,并沒有通常的大小和現(xiàn)實意義。本節(jié)我們主要討論取值{0,1}的分類變量的關(guān)聯(lián)性問題。例4:為了有針對性提高學生體育鍛煉的積極性,某中學需要了解性別因素是否對本校學生體育鍛煉的經(jīng)常性有影響,為此對學生是否經(jīng)常鍛煉的情況進行了普查,數(shù)據(jù)如下:523名女生中有331名經(jīng)常鍛煉;601名男生中有473名經(jīng)常鍛煉。你能利用這些數(shù)據(jù),說明該校女生和男生在體育鍛煉的經(jīng)常性方面是否存在差異嗎?為了清晰,我們用表格整理數(shù)據(jù),如下:性別 鍛煉合計不經(jīng)常(Y=0) 經(jīng)常(Y=1) 女生(X=0) 192 331 523男生(X=1) 128 473 601合計 320 804 11242×2列聯(lián)表8.3.2 獨立性檢驗前面我們通過列聯(lián)表整理成對分類變量的樣本觀測數(shù)據(jù),并根據(jù)隨機事件頻率的穩(wěn)定性推斷兩個分類變量之間是否有關(guān)聯(lián)。對于隨機樣本而言,因為頻率具有隨機性,頻率與概率之間存在誤差,所以我們的推斷可能犯錯誤,而且在樣本容量較小時,犯錯誤概率可能性會較大。因此需要找到一種更為合理的推斷方法,同時也希望能對出現(xiàn)錯誤推斷的概率有一定的控制或估算.X Y合計Y=0 Y=1 X=0 a b a+bX=1 c d c+d合計 a+c b+d n=a+b+c+d概念生成0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828下表給出了卡方獨立性檢驗中5個常用的小概率值和臨界值。典例分析例4:某兒童醫(yī)院用甲、乙兩種療法治療小兒消化不良,采用有放回簡單隨機抽樣的方法對治療情況進行檢查,得到如下數(shù)據(jù):抽到接受甲種療法的患兒67名,其中未治愈15名,治愈52名;抽到接受乙種療法的患兒69名,其中未治愈6名,治愈63名;試根據(jù)小概率值 的獨立性檢驗,分析乙種療法的效果是否比甲種療法好。療法 療效合計未治愈 治愈 甲 15 52 67乙 6 63 69合計 21 115 136典例分析例4:為研究吸煙是否與肺癌有關(guān),某腫瘤研究所采取有放回簡單隨機抽樣的方法,調(diào)查了9965認,得到成對樣本觀測數(shù)據(jù)的分類統(tǒng)計結(jié)果,如下表。依據(jù)小概率值 的獨立性檢驗,分析吸煙是否會增加患肺癌的風險。吸煙 肺癌合計非肺癌患者 肺癌患者 非吸煙者 7775 42 7817吸煙者 2099 49 2148合計 9874 91 9965規(guī)律總結(jié)課堂小結(jié)1. 正相關(guān)、負相關(guān)、線性相關(guān);2.樣本相關(guān)系數(shù)的公式;3.一元線性回歸模型、經(jīng)驗回歸方程,以及一元線性回歸模型中參數(shù)的最小二乘估計;3.決定系數(shù)的公式;4.列聯(lián)表和獨立性檢驗,能通過列聯(lián)表和獨立性檢驗解決基本的實際問題。作業(yè)布置教材課本P135習題8.3第5-7題.THANKS 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫