資源簡(jiǎn)介 第八章 知識(shí)點(diǎn)清單目錄第八章 成對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析8. 1 成對(duì)數(shù)據(jù)的相關(guān)關(guān)系8. 2 一元線性回歸模型及其應(yīng)用8. 3 分類變量與列聯(lián)表第八章 成對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析8. 1 成對(duì)數(shù)據(jù)的相關(guān)關(guān)系一、變量的相關(guān)關(guān)系1. 相關(guān)關(guān)系:兩個(gè)變量有關(guān)系,但又沒有確切到可由其中的一個(gè)去精確地決定另一個(gè)的程度,這種關(guān)系稱為相關(guān)關(guān)系.2. 散點(diǎn)圖:將成對(duì)樣本數(shù)據(jù)用直角坐標(biāo)系中的點(diǎn)表示出來(lái),由這些點(diǎn)組成的統(tǒng)計(jì)圖就叫做散點(diǎn)圖.3. 正相關(guān)與負(fù)相關(guān):從整體上看,當(dāng)一個(gè)變量的值增加時(shí),另一個(gè)變量的相應(yīng)值也呈現(xiàn)增加的趨勢(shì),就稱這兩個(gè)變量正相關(guān);當(dāng)一個(gè)變量的值增加時(shí),另一個(gè)變量的相應(yīng)值呈現(xiàn)減小的趨勢(shì),就稱這兩個(gè)變量負(fù)相關(guān).4. 線性相關(guān):一般地,如果兩個(gè)變量的取值呈現(xiàn)正相關(guān)或負(fù)相關(guān),而且散點(diǎn)落在一條直線附近,就稱這兩個(gè)變量線性相關(guān).5. 非線性相關(guān):一般地,如果兩個(gè)變量具有相關(guān)性,但不是線性相關(guān),就稱這兩個(gè)變量非線性相關(guān)或曲線相關(guān).二、樣本相關(guān)系數(shù)1. 樣本相關(guān)系數(shù):r= ,r為變量x和變量y的樣本相關(guān)系數(shù),有時(shí)也稱樣本線性相關(guān)系數(shù).2. 樣本相關(guān)系數(shù)r的特征(1)r∈[-1,1].(2)當(dāng)r>0時(shí),稱成對(duì)樣本數(shù)據(jù)正相關(guān);當(dāng)r<0時(shí),稱成對(duì)樣本數(shù)據(jù)負(fù)相關(guān).(3)當(dāng)|r|越接近1時(shí),成對(duì)樣本數(shù)據(jù)的線性相關(guān)程度越強(qiáng);當(dāng)|r|越接近0時(shí),成對(duì)樣本數(shù)據(jù)的線性相關(guān)程度越弱.2. 樣本相關(guān)系數(shù)r是一個(gè)描述成對(duì)樣本數(shù)據(jù)的數(shù)字特征,它的正負(fù)性可以反映成對(duì)樣本數(shù)據(jù)的變化特征.三、兩個(gè)變量相關(guān)性的判斷1. 利用散點(diǎn)圖判斷兩個(gè)變量的相關(guān)性(1)作兩個(gè)變量的散點(diǎn)圖,可觀察它們的相關(guān)性.(2)若散點(diǎn)從左至右呈上升趨勢(shì),則這兩個(gè)變量正相關(guān);若散點(diǎn)從左至右呈下降趨勢(shì),則這兩個(gè)變量負(fù)相關(guān);若散點(diǎn)毫無(wú)規(guī)律,則這兩個(gè)變量無(wú)相關(guān)關(guān)系;若散點(diǎn)大致分布在一條直線附近,則這兩個(gè)變量線性相關(guān),否則沒有線性相關(guān)關(guān)系.2. 利用樣本相關(guān)系數(shù)判斷兩個(gè)變量相關(guān)性的強(qiáng)弱樣本相關(guān)系數(shù)r是從數(shù)值上來(lái)判斷變量間的線性相關(guān)程度的量,是定量分析法.|r|刻畫了樣本點(diǎn)集中于某條直線的程度.|r|越接近1,散點(diǎn)圖中的樣本點(diǎn)分布越接近一條直線,兩個(gè)變量的線性相關(guān)程度越強(qiáng).8. 2 一元線性回歸模型及其應(yīng)用一、一元線性回歸模型1. 把式子稱為Y關(guān)于x的一元線性回歸模型. 其中,Y稱為因變量或響應(yīng)變量, x稱為自變量或解釋變量;a和b為模型的未知參數(shù),a稱為截距參數(shù),b稱為斜率參數(shù);e是Y與bx+a之間的隨機(jī)誤差. 如果e=0,那么Y與x之間的關(guān)系就可用一元線性函數(shù)模型來(lái)描述.二、經(jīng)驗(yàn)回歸方程與最小二乘法1. 設(shè)滿足一元線性回歸模型的兩個(gè)變量的n對(duì)樣本數(shù)據(jù)為(xi,yi)(i=1,2,…,n),通常用各散點(diǎn)到直線y=bx+a的豎直距離的平方之和Q= 來(lái)刻畫各樣本觀測(cè)數(shù)據(jù)與該直線的“整體接近程度”.(1)當(dāng)a,b的取值為 時(shí),Q達(dá)到最小.(2)將=x+稱為Y關(guān)于x的經(jīng)驗(yàn)回歸方程,也稱經(jīng)驗(yàn)回歸函數(shù)或經(jīng)驗(yàn)回歸公式,其圖形稱為經(jīng)驗(yàn)回歸直線. 這種求經(jīng)驗(yàn)回歸方程的方法叫做最小二乘法,求得的, 叫做b,a的最小二乘估計(jì).三、殘差分析1. 對(duì)于響應(yīng)變量Y,通過(guò)觀測(cè)得到的數(shù)據(jù)稱為觀測(cè)值,通過(guò)經(jīng)驗(yàn)回歸方程得到的稱為預(yù)測(cè)值,觀測(cè)值減去預(yù)測(cè)值稱為殘差. 殘差是隨機(jī)誤差的估計(jì)結(jié)果,通過(guò)對(duì)殘差的分析可以判斷模型刻畫數(shù)據(jù)的效果,以及判斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù)等,這方面工作稱為殘差分析.四、回歸模型擬合效果的檢驗(yàn)1. 刻畫回歸效果的方式(1)殘差圖法作圖時(shí)以殘差為縱坐標(biāo),橫坐標(biāo)可以選為樣本編號(hào),或身高數(shù)據(jù),或體重估計(jì)值等,這樣作出的圖形稱為殘差圖. 在殘差圖中,殘差點(diǎn)比較均勻地落在以橫軸為對(duì)稱軸的水平的帶狀區(qū)域中,說(shuō)明選用的模型比較合適,這樣的帶狀區(qū)域的寬度越窄,說(shuō)明模型擬合精度越高.(2)殘差平方和法:殘差平方和為 (yi-)2,殘差平方和越小,模型擬合效果越好.(3)決定系數(shù)R2法:R2=1-.R2越大,殘差平方和越小,即模型的擬合效果越好;R2越小,殘差平方和越大,即模型的擬合效果越差.五、經(jīng)驗(yàn)回歸方程的求解與應(yīng)用1. 利用經(jīng)驗(yàn)回歸方程可以對(duì)總體進(jìn)行預(yù)測(cè)和估計(jì),經(jīng)驗(yàn)回歸方程將部分觀測(cè)值所反應(yīng)的規(guī)律進(jìn)行延伸,從而成為我們對(duì)有線性相關(guān)關(guān)系的兩個(gè)變量進(jìn)行分析和控制、依據(jù)自變量的取值估計(jì)和預(yù)報(bào)因變量值的基礎(chǔ)和依據(jù). 解決此類問(wèn)題的步驟:(1)畫出成對(duì)樣本數(shù)據(jù)的散點(diǎn)圖;(2)按照求經(jīng)驗(yàn)回歸方程的步驟和公式,寫出經(jīng)驗(yàn)回歸方程;(3)利用經(jīng)驗(yàn)回歸方程進(jìn)行分析,分析過(guò)程中注意函數(shù)思想的應(yīng)用.六、非線性回歸分析1. 研究?jī)蓚€(gè)變量的關(guān)系時(shí),依據(jù)樣本畫出散點(diǎn)圖,從整體上看,如果樣本點(diǎn)沒有分布在某個(gè)帶狀區(qū)域內(nèi),就稱這兩個(gè)變量之間不具有線性相關(guān)關(guān)系. 當(dāng)兩個(gè)變量不具有線性相關(guān)關(guān)系時(shí),依據(jù)樣本點(diǎn)的分布選擇合適的曲線方程來(lái)擬合數(shù)據(jù),可通過(guò)變量代換,利用一元線性回歸模型建立兩個(gè)變量間的非線性經(jīng)驗(yàn)回歸方程.2. 常見的非線性經(jīng)驗(yàn)回歸方程的轉(zhuǎn)換方式如表所示:曲線方程 曲線(曲線的一部分) 變換公式 變換后的線性函數(shù)y=axb c=ln a,v=ln x, u=ln y u=c+bvy=aebx c=ln a,u=ln y u=c+bxy=a c=ln a,v=, u=ln y u=c+bvy=a+bln x v=ln x y=a+bv3. 建立非線性回歸模型的基本步驟(1)確定研究對(duì)象,明確涉及的變量;(2)畫出確定好的變量間的散點(diǎn)圖,觀察它們之間的關(guān)系(是否存在非線性關(guān)系);(3)由經(jīng)驗(yàn)確定非線性經(jīng)驗(yàn)回歸方程的類型(如我們觀察到數(shù)據(jù)有非線性關(guān)系,一般選用反比例函數(shù)型、指數(shù)函數(shù)型、對(duì)數(shù)函數(shù)型模型等);(4)通過(guò)換元,將非線性回歸模型轉(zhuǎn)化為一元線性回歸模型;(5)按照公式計(jì)算經(jīng)驗(yàn)回歸方程中的參數(shù),得到經(jīng)驗(yàn)回歸方程;(6)消去新元,得到非線性經(jīng)驗(yàn)回歸方程.8. 3 分類變量與列聯(lián)表一、分類變量與列聯(lián)表1. 分類變量:為了表述方便,我們經(jīng)常會(huì)使用一種特殊的隨機(jī)變量,以區(qū)別不同的現(xiàn)象或性質(zhì),這類隨機(jī)變量稱為分類變量. 分類變量的取值可以用實(shí)數(shù)表示.2. 2× 2列聯(lián)表假設(shè)兩個(gè)分類變量X和Y,它們的可能取值分別為{x1,x2}和{y1,y2},其2×2列聯(lián)表為X Y 合計(jì)y1 y2x1 a b a+bx2 c d c+d合計(jì) a+c b+d a+b+c+d 2×2列聯(lián)表給出了成對(duì)分類變量數(shù)據(jù)的交叉分類頻數(shù).3. 兩個(gè)分類變量之間關(guān)聯(lián)關(guān)系的定性分析方法(1)頻率分析法:通過(guò)對(duì)樣本的每個(gè)分類變量的不同類別事件發(fā)生的頻率大小進(jìn)行比較來(lái)分析分類變量之間是否有關(guān)聯(lián)關(guān)系. 通常通過(guò)列聯(lián)表列出兩個(gè)分類變量的頻數(shù)表來(lái)進(jìn)行分析.(2)圖形分析法:與表格相比,圖形更能直觀地反映兩個(gè)分類變量間是否互相影響,常用等高堆積條形圖展示列聯(lián)表中數(shù)據(jù)的頻率特征.二、獨(dú)立性檢驗(yàn)1. 假定通過(guò)簡(jiǎn)單隨機(jī)抽樣得到了X和Y的抽樣數(shù)據(jù)列聯(lián)表,如表所示.X Y 合計(jì)Y=0 Y=1X=0 a B a+bX=1 c d c+d合計(jì) a+c b+d n=a+b+c+d 則χ2=.2. 利用χ2的取值推斷分類變量X和Y是否獨(dú)立的方法稱為χ2獨(dú)立性檢驗(yàn),讀作“卡方獨(dú)立性檢驗(yàn)”,簡(jiǎn)稱獨(dú)立性檢驗(yàn).3. χ2獨(dú)立性檢驗(yàn)中5個(gè)常用的小概率值和相應(yīng)的臨界值如下表所示.α 0. 1 0. 05 0. 01 0. 005 0. 001xα 2. 706 3. 841 6. 635 7. 879 10. 828獨(dú)立性檢驗(yàn)的實(shí)質(zhì)是檢驗(yàn)兩個(gè)分類變量是否相關(guān)及相關(guān)的程度有多大,其應(yīng)用過(guò)程如下: 根據(jù)觀測(cè)數(shù)據(jù)計(jì)算出χ2的值,其值越大,說(shuō)明“X與Y有關(guān)系”成立的可能性越大,在假設(shè)X與Y沒有關(guān)系的前提下,可以通過(guò)查閱臨界值表得到P(χ2≥xα),從而得到兩變量相關(guān)的程度.三、由χ2進(jìn)行獨(dú)立性檢驗(yàn)1. 應(yīng)用獨(dú)立性檢驗(yàn)解決實(shí)際問(wèn)題大致應(yīng)包括以下幾個(gè)主要環(huán)節(jié):(1)提出零假設(shè)H0:分類變量X和Y相互獨(dú)立,并給出在問(wèn)題中的解釋;(2)根據(jù)抽樣數(shù)據(jù)整理出2×2列聯(lián)表,計(jì)算χ2的值,并與臨界值xα比較;(3)根據(jù)檢驗(yàn)規(guī)則得出推斷結(jié)論;(4)在X和Y不獨(dú)立的情況下,根據(jù)需要,通過(guò)比較相應(yīng)的頻率,分析X和Y間的影響規(guī)律.【注】上述幾個(gè)環(huán)節(jié)的內(nèi)容可以根據(jù)不同情況進(jìn)行調(diào)整. 例如,在有些時(shí)候,分類變量的抽樣數(shù)據(jù)列聯(lián)表是問(wèn)題中給定的.四、獨(dú)立性檢驗(yàn)與統(tǒng)計(jì)、概率的綜合應(yīng)用1. 通過(guò)頻率分布直方圖的統(tǒng)計(jì)功能完善2×2列聯(lián)表,從而對(duì)事件進(jìn)行獨(dú)立性檢驗(yàn),準(zhǔn)確讀取頻率分布直方圖中的數(shù)據(jù),進(jìn)行分組統(tǒng)計(jì)是解題的關(guān)鍵. 解決獨(dú)立性檢驗(yàn)的問(wèn)題要注意明確兩類主體,明確研究的兩類問(wèn)題,再就是準(zhǔn)確列出2×2列聯(lián)表,準(zhǔn)確計(jì)算χ2. 在寫出2×2列聯(lián)表中a,b,c,d的值時(shí),注意一定要按順序. 展開更多...... 收起↑ 資源預(yù)覽 縮略圖、資源來(lái)源于二一教育資源庫(kù)