資源簡介 第二講 成對數據的統計分析知 識 梳 理知識點一 變量的相關關系1.相關關系兩個變量有關系,但又沒有確切到可由其中的一個 去精確地決定 另一個的程度,這種關系稱為相關關系.2.散點圖每一個序號下的成對樣本數據都可用直角坐標系中的 點 表示出來,由這些點組成的統計圖稱為散點圖.3.正相關、負相關如果從整體上看,當一個變量的值增加時,另一個變量的相應值也呈現 增加 的趨勢,我們就稱這兩個變量正相關;如果當一個變量的值增加時,另一個變量的相應值呈現 減小 的趨勢,則稱這兩個變量負相關.4.變量的線性相關如果兩個變量的取值呈現 正相關或負相關 ,而且散點落在 一條直線 附近,我們就稱這兩個變量線性相關.一般地,如果兩個變量具有相關性,但不是線性相關,那么我們就稱這兩個變量 非線性相關或曲線相關 .5.樣本相關系數稱r=為變量x和變量y的相關系數.r∈[-1,1],當r>0時,成對樣本數據 正相關 ;當r<0時,成對樣本數據 負相關 ;當|r|接近1時,成對樣本數據的線性相關程度 越強 ;當|r|接近0時,成對樣本數據的線性相關程度 越弱 .知識點二 一元線性回歸模型1.一元線性回歸模型我們稱上式為Y關于x的一元線性回歸模型.其中,Y稱為 因變量或響應變量 ,x稱為 自變量或解釋變量 ;a和b為模型的未知參數,a稱為截距參數,b稱為斜率參數;e是Y與bx+a之間的隨機誤差.2.經驗回歸方程記=i,=i,因此當a,b的取值為(,)稱為樣本點的中心.我們將=x+稱為Y關于x的經驗回歸方程,也稱經驗回歸函數或經驗回歸公式,其圖形稱為 經驗回歸直線 ,這種求經驗回歸方程的方法叫做 最小二乘法 ,求得的,叫做b,a的 最小二乘估計 .注:經驗回歸直線必過樣本點中心.3.殘差分析(1)對于響應變量Y,通過觀測得到的數據稱為 觀測值 ,通過經驗回歸方程得到的稱為 預測值 ,觀測值減去預測值稱為 殘差 .殘差是隨機誤差的估計結果,通過對殘差的分析可以判斷模型刻畫數據的效果,以及判斷原始數據中是否存在可疑數據等,這方面工作稱為 殘差分析 .(2)殘差的散點圖殘差比較均勻地集中分布在以橫軸為對稱軸的水平帶狀區域內,則滿足一元線性回歸模型對隨機誤差的假設.(3)決定系數R2=1-.在R2表達式中,(yi-)2與經驗回歸方程無關,殘差平方和 (yi-i)2 與經驗回歸方程有關.因此R2越大,意味著殘差平方和越 小 ,即模型的擬合效果越 好 ;R2越小,表示殘差平方和越 大 ,即模型的擬合效果越 差 .在線性回歸模型中,R2表示解釋變量對響應變量的貢獻率,R2越接近1,擬合效果越好.知識點三 獨立性檢驗1.分類變量:用以區別不同的現象或性質的隨機變量.2.2×2列聯表設X,Y為兩個分類變量,它們的取值分別為{x1,x2}和{y1,y2},其樣本頻數列聯表(2×2列聯表)如下:y1 y2 總計x1 a b a+b x2 c d c+d總計 a+c b+d a+b+c+d 3.獨立性檢驗(1)零假設(或原假設)以Ω為樣本空間的古典概型.設X和Y為定義在Ω上,取值于{0,1}的成對分類變量.H0: P(Y=1|X=0)=P(Y=1|X=1) 稱為零假設.(2)臨界值χ2= .對于任何小概率值α,可以找到相應的正實數xα,使得下面關系成立:P(?2≥xα)=α.稱xα為α的 臨界值 ,這個臨界值就可作為判斷χ2大小的標準.概率值α越小,臨界值xα越大.(3)獨立性檢驗基于小概率值α的檢驗規則是:當χ2≥xα時,我們就推斷H0不成立,即認為X和Y 不獨立 ,該推斷犯錯誤的概率不 超過α ;當χ2這種利用χ2的取值推斷分類變量X和Y是否獨立的方法稱為?2獨立性檢驗,讀作“卡方獨立性檢驗”,簡稱獨立性檢驗.4.獨立性檢驗解決實際問題的一般步驟(1)提出零假設H0:X與Y相互獨立,并給出在問題中的解釋.(2)根據抽樣數據整理出2×2列聯表,計算χ2值,并與臨界值xα比較.(3)根據經驗規則得出推斷結論.(4)在X和Y不獨立的情況下,根據需要,通過比較相應的頻率,分析X和Y間的影響規律.歸 納 拓 展1.回歸分析是對具有相關關系的兩個變量進行統計分析的方法,只有在散點圖大致呈線性分布時,求出的經驗回歸方程才有實際意義,否則,求出的經驗回歸方程毫無意義.根據經驗回歸方程進行預報,僅是一個預報值,而不是真實發生的值.2.相關系數r=.3.獨立性檢驗是對兩個變量的關系的可信程度的判斷,而不是對其是否有關系的判斷.根據?2的值可以判斷兩個分類變量有關的可信程度,并用來指導科研和實際生活.雙 基 自 測題組一 走出誤區1.判斷下列結論是否正確(請在括號中打“√”或“×”)(1)“名師出高徒”可以解釋為教師的教學水平與學生的水平成正相關關系.( √ )(2)兩個隨機變量的線性相關性越強,相關系數的絕對值越接近于0.( × )(3)只有兩個變量有相關關系,所得到的回歸模型才有預測價值.( √ )(4)某同學研究賣出的熱飲杯數y與氣溫x(℃)之間的關系,得回歸方程=-2.352x+147.767,則氣溫為2 ℃時,一定可賣出143杯熱飲.( × )(5)事件x,y關系越密切,則由觀測數據計算得到的χ2的觀測值越大.( √ )(6)由獨立性檢驗可知,在犯錯誤的概率不超過1%的前提下認為物理成績優秀與數學成績有關,某人數學成績優秀,則他有99%的可能物理優秀.( × )題組二 走進教材2.(多選題)(選擇性必修3P113T5)對變量y和x的一組樣本數據(x1,y1),(x2,y2),…,(xn,yn)進行回歸分析,建立回歸模型,則( BD )A.殘差平方和越大,模型的擬合效果越好B.若由樣本數據得到經驗回歸直線=x+,則其必過點(,)C.用決定系數R2來刻畫回歸效果,R2越小,說明模型的擬合效果越好D.若y和x的樣本相關系數r=-0.95,則y和x之間具有很強的負線性相關關系3.(選擇性必修3P132例3)某兒童醫院用甲、乙兩種療法治療小兒消化不良.采用有放回簡單隨機抽樣的方法對治療情況進行檢查,得到了如下數據:抽到接受甲種療法的患兒67名,其中未治愈15名、治愈52名;抽到接受乙種療法的患兒69名,其中未治愈6名,治愈63名.試根據小概率值α=0.005的獨立性檢驗,分析甲、乙兩種療法的效果,結論為 兩種療法效果沒有差異 .附:α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828[解析] 由題意的兩種療法數據的列聯表療法 療效 合計未治愈 治愈甲 15 52 67乙 6 63 69合計 21 115 136根據列聯表中的數據,經計算得到χ2=≈4.881<7.879=x0.005.根據小概率值α=0.005的獨立性檢驗,認為兩種療法效果沒有差異.題組三 走向高考4.(2023·高考天津卷)調查某種群花萼長度和花瓣長度,所得數據如圖所示,其中相關系數r=0.824 5,下列說法正確的是( C )A.花瓣長度和花萼長度沒有相關性B.花瓣長度和花萼長度呈現負相關C.花瓣長度和花萼長度呈現正相關D.若從樣本中抽取一部分,則這部分的相關系數一定是0.824 5[解析] 根據散點的集中程度可知,花瓣長度和花萼長度有相關性,A選項錯誤;散點的分布是從左下到右上,從而花瓣長度和花萼長度呈現正相關性,B選項錯誤,C選項正確;由于r=0.824 5是全部數據的相關系數,取出來一部分數據,相關性可能變強,可能變弱,即取出的數據的相關系數不一定是0.824 5,D選項錯誤.故選C.5.(2022·全國高考甲卷(節選))甲、乙兩城之間的長途客車均由A和B兩家公司運營,為了解這兩家公司長途客車的運行情況,隨機調查了甲、乙兩城之間的500個班次,得到下面列聯表:準點班次數 未準點班次數A 240 20B 210 30能否有90%的把握認為甲、乙兩城之間的長途客車是否準點與客車所屬公司有關?附:χ2=,P(?2≥xα) 0.100 0.050 0.010xα 2.706 3.841 6.635[解析] 根據已知數據得到列聯表如下:公司 準點班次數 未準點班次數 合計A 240 20 260B 210 30 240合計 450 50 500χ2==≈3.205>2.706.所以有90%的把握認為甲、乙兩城之間的長途客車是否準點與客車所屬公司有關.第一講 隨機抽樣 用樣本估計總體知 識 梳 理普查——對每一個調查對象都進行調查的方法.抽樣調查——根據一定目的,從總體中 抽取一部分個體 進行調查,并以此為依據對總體的情況作出估計和推斷的調查方法.調查對象的 全體 稱為總體,組成總體的 每一個調查對象 稱為個體.從總體中抽取的那部分個體稱為樣本, 樣本中包含的個體數 稱為樣本容量,簡稱樣本量.知識點一 簡單隨機抽樣1.定義:一般地,設一個總體含有N(N為正整數)個個體,從中 逐個 抽取n(1≤n2.常用方法: 抽簽法 和 隨機數法 .注:本章所稱的簡單隨機抽樣指不放回簡單隨機抽樣.知識點二 分層隨機抽樣1.定義:一般地,按一個或多個變量把總體劃分成若干個子總體,每個個體屬于且僅屬于一個子總體,在每個子總體中獨立地進行簡單隨機抽樣,再把所有子總體中抽取的樣本合在一起作為總樣本,這樣的抽樣方法稱為 分層隨機抽樣 ,每一個子總體稱為 層 .在分層隨機抽樣中,如果每層樣本量都與層的大小成比例,那么稱這種樣本量的分配方式為 比例分配 .2.分層隨機抽樣的應用范圍:當總體是由差異明顯的幾個部分組成時,往往選用分層隨機抽樣.知識點三 總體取值規律的估計頻率分布表與頻率分布直方圖頻率分布表和頻率分布直方圖,是從各個小組數據在樣本容量中所占比例大小的角度,來表示數據分布規律,從中可以看到整個樣本數據的頻率分布情況.繪制頻率分布直方圖的步驟為:1. 求極差 ——求一組數據中 最大值 與 最小值 的差.2. 決定組距與組數 ——決定組距與組數:組距與組數的確定沒有固定的標準.若為整數,則= 組數 ;若不為整數,則+1= 組數 .3. 將數據分組 ——通常對組內數據取左閉右開區間,最后一組數據取閉區間.4. 列頻率分布表 ——計算各小組的頻率,繪制成表格.5. 畫頻率分布直方圖 ——畫圖時,以橫軸表示分組,縱軸(大長方形的高度)表示.知識點四 總體百分位數的估計一般地,一組數據的第p百分位數是這樣一個值,它使得這組數據中至少有p%的數據小于或等于這個值,且至少有(100-p)%的數據大于或等于這個值.計算一組n個數據的第p百分位數的步驟:第1步,按從小到大的順序排列原始數據;第2步,計算i=n×p%;第3步,若i不是整數,而大于i的比鄰整數為j,則第p百分位數為第j項數據;若i是整數,則第p百分位數為第i項與第(i+1)項數據的平均值.知識點五 總體集中趨勢與離散程度的估計1.眾數:一組數據中出現次數最多的數.2.中位數:將數據從小到大排列,若有奇數個數,則最中間的數是中位數;若有偶數個數,則中間兩數的平均數是中位數.3.平均數:= i ,反映了一組數據的平均水平.注:(1)平均數表示“平均水平”,中位數表示“中等水平”,眾數表示“多數水平”,它們都有各自的使用范圍,在實際應用中要注意選擇.(2)一組數據的平均數、中位數都是唯一的.眾數不唯一,也可以有多個.(3)眾數一定是原數據中的數,平均數和中位數都不一定是原始數據中的數.4.設一組樣本數據是x1,x2,…,xn,用表示其平均值,則(1)方差s2=(xi-)2=-2.(2)標準差s==.標準差刻畫了數據的離散程度或波動幅度,標準差越大,數據的離散程度越大;標準差越小,數據的離散程度越小.歸 納 拓 展1.兩種抽樣方法的區別與聯系類別 共同點 各自特點 聯系 適用范圍簡單隨機抽樣 ①抽樣過程中每個個體被抽到的可能性相等;②每次抽出個體后不再將它放回,即不放回抽樣. 從總體中直接隨機抽取,是一種等可能抽樣. 最基本的抽樣方法.常用方法抽簽法和隨機數法. 總體個數不多,且希望被抽取的個體帶有隨機性,無固定間隔.分層抽樣 將總體分成互不交叉的層,分層進行抽取,是一種等比例抽樣. 各層抽樣時,采用簡單隨機抽樣. 總體由差異明顯的幾部分組成.2.若一組數據xi(i=1,2,…,n)的平均數為,方差為s2,則數據組axi+b(i=1,2,…,n,a,b為常數)的平均數為a+b,方差為a2s2.3.頻率分布直方圖與眾數、中位數與平均數的關系(1)最高的小長方形底邊中點的橫坐標即是眾數.(2)中位數左邊和右邊的小長方形的面積和是相等的,均為.(3)平均數是頻率分布直方圖的“重心”,等于頻率分布直方圖中每個小長方形的面積乘以小長方形底邊中點的橫坐標之和.雙 基 自 測題組一 走出誤區1.判斷下列結論是否正確(請在括號中打“√”或“×”)(1)抽簽法中,先抽的人抽中的可能性大.( × )(2)分層抽樣中,每個個體被抽到的可能性與層數及分層有關.( × )(3)從頻率分布直方圖得不出原始的數據內容,把數據表示成直方圖后,原有的具體數據信息就被抹掉了.( √ )(4)在頻率分布直方圖中,最高的小長方形底邊中點的橫坐標是眾數.( √ )(5)1,2,2,3,5的80%分位數是3.( × )(6)對單峰頻率直方圖,和中位數相比,平均數總是在“長尾巴”那邊.( √ )題組二 走進教材2.(必修2P184T3改編)高二年級有男生490人,女生510人,男生、女生進行分層,通過分層隨機抽樣的方法,得到男生、女生的平均身高分別為170.2 cm和160.8 cm.各層中按比例分配樣本,總樣本量為100,那么在男生中應抽取了 49 名,在這種情況下,估計高二年級全體學生的平均身高為 165.4 cm.[解析] 由=得x=49.由×170.2+×160.8≈165.4(cm).3.(必修2P197T1改編)從某小區抽取100戶居民用戶進行用電量調查,發現他們的用電量都在50~350 kW·h之間,進行適當分組后(每組為左閉右開的區間),畫出頻率分布直方圖如圖所示,則直方圖中x= 0.004 4 ,在被調查的用戶中,用電量的平均值為 186 kW·h,用電量落在區間[100,250)內的戶數為 70 .[解析] (0.002 4+0.003 6+0.006 0+x+0.002 4+0.001 2)×50=1,計算得x=0.004 4.50×(75×0.002 4+125×0.003 6+175×0.006+225×0.004 4+275×0.002 4+325×0.001 2)=186.(0.003 6+0.006 0+0.004 4)×50×100=70.題組三 走向高考4.(2021·全國甲卷)為了解某地農村經濟情況,對該地農戶家庭年收入進行抽樣調查,將農戶家庭年收入的調查數據整理得到頻率分布直方圖:根據此頻率分布直方圖,下面結論中不正確的是( C )A.該地農戶家庭年收入低于4.5萬元的農戶比率估計為6%B.該地農戶家庭年收入不低于10.5萬元的農戶比率估計為10%C.估計該地農戶家庭年收入的平均值不超過6.5萬元D.估計該地有一半以上的農戶,其家庭年收入介于4.5萬元至8.5萬元之間[解析] 因為頻率直方圖中的組距為1,所以各組的直方圖的高度等于頻率.樣本頻率直方圖中的頻率即可作為總體的相應比率的估計值.該地農戶家庭年收入低于4.5萬元的農戶的比率估計值為0.02+0.04=0.06=6%,故A正確;該地農戶家庭年收入不低于10.5萬元的農戶比率估計值為0.04+0.02×3=0.10=10%,故B正確;該地農戶家庭年收入介于4.5萬元至8.5萬元之間的比例估計值為0.10+0.14+0.20×2=0.64=64%>50%,故D正確;該地農戶家庭年收入的平均值的估計值為3×0.02+4×0.04+5×0.10+6×0.14+7×0.20+8×0.20+9×0.10+10×0.10+11×0.04+12×0.02+13×0.02+14×0.02=7.68(萬元),超過6.5萬元,故C錯誤.故選C.5.(多選題)(2021·新高考Ⅰ)有一組樣本數據x1,x2,…,xn,由這組數據得到新樣本數據y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c為非零常數,則( CD )A.兩組樣本數據的樣本平均數相同B.兩組樣本數據的樣本中位數相同C.兩組樣本數據的樣本標準差相同D.兩組樣本數據的樣本極差相同[解析] 兩組數據的平均數的差為c,故A錯誤;兩組樣本數據的樣本中位數的差是c,故B錯誤;∵標準差D(yi)=D(xi+c)=D(xi),∴兩組樣本數據的樣本標準差相同,故C正確;∵yi=xi+c(i=1,2,…,n),c為非零常數,x的極差為xmax-xmin,y的極差為(xmax+c)-(xmin+c)=xmax-xmin,∴兩組樣本數據的樣本極差相同,故D正確.故選CD. 展開更多...... 收起↑ 資源列表 2025版高考數學一輪總復習知識梳理第9章統計成對數據的統計分析第1講隨機抽樣用樣本估計總體.doc 2025版高考數學一輪總復習知識梳理第9章統計成對數據的統計分析第2講成對數據的統計分析.doc 縮略圖、資源來源于二一教育資源庫