資源簡介 第八章 成對數據的統計分析 章末復習課一、線性回歸分析1.回歸分析是對具有相關關系的兩個變量進行統計分析的一種常用方法.其基本步驟為通過散點圖和經驗選擇經驗回歸方程的類型,然后通過一定的規則確定出相應的經驗回歸方程,通過一定的方法進行檢驗,最后應用于實際或對響應變量進行預測.2.主要培養數學建模和數據分析的素養.例1 某沙漠地區經過治理,生態系統得到很大改善,野生動物數量有所增加.為調查該地區某種野生動物的數量,將其分成面積相近的200個地塊,從這些地塊中用簡單隨機抽樣的方法抽取20個作為樣區,調查得到樣本數據(xi,yi)(i=1,2,…,20),其中xi和yi分別表示第i個樣區的植物覆蓋面積(單位:公頃)和這種野生動物的數量,并計算得(1)求該地區這種野生動物數量的估計值(這種野生動物數量的估計值等于樣區這種野生動物數量的平均數乘以地塊數);(2)求樣本(xi,yi)(i=1,2,…,20)的樣本相關系數(精確到0.01);(3)根據現有統計資料,各地塊間植物覆蓋面積差異很大,為提高樣本的代表性以獲得該地區這種野生動物數量更準確的估計,請給出一種你認為更合理的抽樣方法,并說明理由.附:樣本相關系數反思感悟 解決回歸分析問題的一般步驟(1)畫散點圖.根據已知數據畫出散點圖.(2)判斷變量的相關性并求經驗回歸方程.通過觀察散點圖,直觀感知兩個變量是否具有相關關系.在此基礎上,利用最小二乘法求,,然后寫出經驗回歸方程.(3)回歸分析.畫殘差圖或計算R2,進行殘差分析.(4)實際應用.依據求得的經驗回歸方程解決實際問題.跟蹤訓練1 下面給出了根據我國2016年~2022年水果人均占有量y(單位:kg)和年份代碼x繪制的散點圖和經驗回歸方程的殘差圖(2016年~2022年的年份代碼x分別為1~7).(1)根據散點圖分析y與x之間的相關關系;(3)根據經驗回歸方程的殘差圖,分析經驗回歸方程的擬合效果.二、獨立性檢驗1.獨立性檢驗研究的問題是有多大把握認為兩個分類變量之間有關系.為此需先列出2×2列聯表,從表格中可以直觀地得到兩個分類變量是否有關系.另外等高堆積條形圖能更直觀地反映兩個分類變量之間的情況.獨立性檢驗的思想是可以先假設二者無關系,求隨機變量χ2的值,若χ2大于臨界值,則拒絕假設,否則,接受假設.2.通過計算χ2的值,進而分析相關性結論的可信程度,提升數學運算、數據分析的素養.例2 某企業為提高服務質量留住客戶,從運營系統中選出300名客戶,對業務水平和服務水平的評價進行統計,其中業務水平的滿意率為,服務水平的滿意率為,對業務水平和服務水平都滿意的客戶有180人.(1)完成2×2列聯表;業務水平 服務水平 合計對服務水平滿意人數 對服務水平不滿意人數對業務水平滿意人數對業務水平不滿意人數合計(2)依據小概率值α=0.05的獨立性檢驗,能否認為業務水平與服務水平有關?反思感悟 獨立性檢驗的一般步驟(1)根據樣本數據制成2×2列聯表.(2)根據公式χ2=計算χ2的值.(3)查表比較χ2與臨界值的大小關系,作出統計判斷.跟蹤訓練2 考察小麥種子滅菌與否跟發生黑穗病的關系,經試驗觀察,得到數據如表:黑穗病 種子滅菌情況 合計種子滅菌 種子未滅菌有黑穗病 26 184 210無黑穗病 50 200 250合計 76 384 460試分析依據小概率值α=0.05的獨立性檢驗,能否據此推斷種子滅菌與小麥發生黑穗病有關?三、數形結合思想在獨立性檢驗中的應用1.數形結合思想就是在解決與幾何圖形有關的問題時,將圖形信息轉換成代數信息,利用數量特征,將其轉化為代數問題;在進行回歸分析時,常利用散點圖、殘差圖等說明線性相關情況或模型的擬合效果.在獨立性檢驗中,我們常用等高堆積條形圖直觀地反映數據的情況,從而可以粗略地判斷兩個分類變量是否有關系.2.主要培養數學抽象和數學運算的素養.例3 某機構為了了解患色盲是否與性別有關,隨機抽取了1 000名成年人進行調查,在調查的480名男性中有38名患色盲,520名女性中有6名患色盲,分別利用圖形和獨立性檢驗(α=0.001)的方法來判斷患色盲與性別是否有關.反思感悟 解獨立性檢驗的應用問題的關注點(1)兩個明確:①明確兩類主體;②明確研究的兩個問題.(2)兩個準確:①準確畫出2×2列聯表;②準確理解χ2.跟蹤訓練3 某電視傳媒公司為了解某地區電視觀眾對某類體育節目的收視情況,隨機抽取了100名觀眾進行調查.如圖所示的是根據調查結果繪制的觀眾日均收看該體育節目時間的頻率分布直方圖.將日均收看該體育節目時間不低于40分鐘的觀眾稱為“體育迷”.(1)根據已知條件完成下面的2×2列聯表,依據小概率值α=0.05的獨立性檢驗,能否據此認為“體育迷”與性別有關?性別 “體育迷”情況 合計非體育迷 體育迷男女 10 55合計(2)將上述調查所得到的頻率視為概率.現在從該地區大量電視觀眾中,采用隨機抽樣方法每次抽取1名觀眾,抽取3次,記被抽取的3名觀眾中的“體育迷”人數為X.若每次抽取的結果是相互獨立的,求X的分布列,均值E(X)和方差D(X).附:χ2=,其中n=a+b+c+d.α 0.05 0.01xα 3.841 6.635四、轉化與化歸思想在非線性回歸分析中的應用1.轉化與化歸思想主要體現在非線性回歸分析中.在實際問題中,并非所有的變量關系均滿足線性關系,故要選擇適當的函數模型去擬合樣本數據,再通過代數變換,把非線性問題線性化.2.主要培養數學建模和數學運算的素養.例4 某公司為研究某種圖書每冊的成本費y(單位:元)與印刷數量x(單位:千冊)的關系,收集了一些數據并進行了初步處理,得到了下面的散點圖及一些統計量的值.(1)根據散點圖判斷y=a+bx與y=c+哪一個模型更適合作為該圖書每冊的成本費y(單位:元)與印刷數量x(單位:千冊)的經驗回歸方程(只要求給出判斷,不必說明理由);(2)根據(1)的判斷結果及表中數據,建立y關于x的經驗回歸方程(回歸系數的結果精確到0.01);(3)若該圖書每冊的定價為9.22元,則至少應該印刷多少冊才能使銷售利潤不低于80 000元?(假設能夠全部售出.結果精確到1)附:對于一組數據(ω1,υ1),(ω2,υ2),…,(ωn,υn),其經驗回歸直線=+ω的斜率和截距的最小二乘估計公式分別為反思感悟 非線性化的回歸分析問題,畫出已知數據的散點圖,選擇跟散點圖擬合得最好的函數模型進行變量代換,作出變換后樣本點的散點圖,用線性回歸模型擬合.跟蹤訓練4 近年我國外貿企業一手抓質量,一手抓生產,產銷形勢喜人.自2022年6月以來,我國外貿進出口連續實現正增長,出口國際市場占世界的份額不斷攀升,外貿發展韌性強勁.某個遠洋運輸公司出口營業額增長數據表如下:月份 2022年6月 2022年7月 2022年8月 2022年9月月份代碼x 1 2 3 4新增出口營業額y億元 2.4 2.8 3.6 5.1月份 2022年10月 2022年11月 2022年12月 2023年1月月份代碼x 5 6 7 8新增出口營業額y億元 7.1 9.1 11.7 14.2某位同學分別用兩種模型:①=x2+,②=x+進行擬合,得到相應的經驗回歸方程并進行殘差分析,殘差圖如下(注:殘差等于yi-i):這位同學在進行擬合時,對數據作了初步處理,得到一些統計量的值:(1)根據殘差圖,比較模型①,②的擬合效果,應該選擇哪個模型?并簡要說明理由;(2)根據(1)的判斷結果及表中數據,建立y關于x的經驗回歸方程,并預測該遠洋運輸公司2023年3月新增出口營業額.(精確到0.01)章末復習課例1 解 (1)從而該地區這種野生動物數量的估計值為60×200=12 000.(2)樣本(xi,yi)(i=1,2,…,20)的樣本相關系數為r==≈0.94.(3)采用比例分配的分層隨機抽樣,根據植物覆蓋面積的大小對地塊分層,再對200個地塊進行分層隨機抽樣.理由如下:由(2)知各樣區的這種野生動物數量與植物覆蓋面積有很強的正相關關系.由于各地塊間植物覆蓋面積差異很大,從而各地塊間這種野生動物數量差異也很大,采用分層隨機抽樣的方法較好地保持了樣本結構與總體結構的一致性,提高了樣本的代表性,從而可以獲得該地區這種野生動物數量更準確的估計.跟蹤訓練1 解 (1)根據散點圖可知,散點均勻分布在一條直線附近,且隨著x的增大,y增大,故y與x成線性相關,且為正相關.(2)依題意得,=×(1+2+3+4+5+6+7)=4,=×1 074≈153.43,==≈7.89,=-≈153.43-7.89×4=121.87,所以y關于x的經驗回歸方程為=7.89x+121.87.(3)由殘差圖可以看出,殘差對應點分布在水平帶狀區域內,且寬度較窄,說明擬合效果較好,經驗回歸方程的預測精度較高.例2 解 (1)由題意可得對業務水平滿意的有300×=260(人),對服務水平滿意的有300×=200(人),2×2列聯表如下.業務水平 服務水平 合計對服務水平滿意人數 對服務水平不滿意人數對業務水平滿意人數 180 80 260對業務水平不滿意人數 20 20 40合計 200 100 300(2)零假設為H0:業務水平與服務水平無關.計算得χ2==≈5.769>3.841=x0.05,依據小概率值α=0.05的獨立性檢驗,我們推斷H0不成立,即認為業務水平與服務水平有關.跟蹤訓練2 解 零假設為H0:種子滅菌與小麥發生黑穗病無關.由列聯表的數據可得χ2=≈4.804>3.841=x0.05,根據小概率值α=0.05的獨立性檢驗,我們推斷H0不成立,可以認為種子滅菌與小麥發生黑穗病有關系.例3 解 根據題目所給的數據作出如下的列聯表:性別 色盲 合計患色盲 未患色盲男 38 442 480女 6 514 520合計 44 956 1 000根據列聯表作出相應的等高堆積條形圖,如圖所示.圖中兩個深色條的高分別表示男性和女性中患色盲的頻率,從圖中可以看出,男性中患色盲的頻率明顯高于女性中患色盲的頻率,因此我們可認為患色盲與性別有關.零假設為H0:患色盲與性別無關.根據列聯表中所給的數據,得χ2=≈27.139>10.828=x0.001,根據小概率值α=0.001的獨立性檢驗,推斷H0不成立,即認為患色盲與性別有關,此推斷犯錯誤的概率不超過0.001.跟蹤訓練3 解 (1)由頻率分布直方圖可知,在抽取的100人中,“體育迷”有25人,從而2×2列聯表如下:性別 “體育迷”情況 合計非體育迷 體育迷男 30 15 45女 45 10 55合計 75 25 100零假設為H0:“體育迷”與性別無關.將2×2列聯表中的數據代入公式計算,得χ2==≈3.030<3.841=x0.05,根據小概率值α=0.05的獨立性檢驗,沒有充分證據推斷H0不成立,即認為“體育迷”與性別無關.(2)由頻率分布直方圖,知抽到“體育迷”的頻率為0.25,將頻率視為概率,即從觀眾中抽取一名“體育迷”的概率為.由題意知X~B,從而X的分布列為X 0 1 2 3PE(X)=3×=,D(X)=3××=.例4 解 (1)由散點圖判斷,y=c+更適合作為該圖書每冊的成本費y(單位:元)與印刷數量x(單位:千冊)的經驗回歸方程.(2)令u=,先建立y關于u的經驗回歸方程=+u,由于=≈8.96,所以=-·≈3.63-8.96×0.269≈1.22,所以y關于u的經驗回歸方程為=1.22+8.96u,所以y關于x的非線性經驗回歸方程為=1.22+.(3)假設印刷x千冊,依題意得9.22x-x≥80,解得x≥11.12,所以至少印刷11 120冊才能使銷售利潤不低于80 000元.跟蹤訓練4 解 (1)選擇模型①.理由如下:根據殘差圖可以看出,模型①的估計值和真實值相對比較接近,模型②的殘差相對較大一些,所以模型①的擬合效果相對較好.(2)由(1),可知y關于x的經驗回歸方程為=x2+,令t=x2,則=t+.由所給數據可得=×(1+4+9+16+25+36+49+64)=25.5.=×(2.4+2.8+3.6+5.1+7.1+9.1+11.7+14.2)=7.所以=≈0.19.=-≈7-0.19×25.5≈2.16.所以y關于x的經驗回歸方程為=0.19x2+2.16.預測該遠洋運輸公司2023年3月新增出口營業額為=0.19×102+2.16=21.16(億元). 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫