資源簡介 9.1.1 簡單隨機抽樣 第九章統計 人工智能的本質就是統計學。多年來,許多諾貝爾經濟學獎獲得者大多使用的是統計學。學好統計這門工具,才能帶來新時代的突破。 任正非: 中國婦女兒童狀況統計資料2022年各省高中近視排名 2022浙江省高中生近視率86.5% 統計學是通過收集數據和分析數據來認識未知現象的一門科學, 它可以為人們制定決策提供依據。統計中數據分析的過程如下: 收集數據 整理數據 提取信息 構建模型 進行推斷 獲得結論 ? 準確掌握全國的人口數據,可以為科學制定國民經濟和社會發展規劃及其他方針政策提供依據.2020年,我國進行了第七次人口普查,對全國人口普遍地、逐戶逐人地進行一次性調查登記.調查內容包括每位居民的姓名、性別、年齡、民族、受教育程度等.這里居民為調查對象,而居民的性別、年齡、民族、受教育程度等是要調查的指標. 人口普查 哪吒2觀眾年齡分布 25歲以下 約占42% 25~40歲 約占36.8% 40歲以上 約占21.2% 思考1:人口普查的數據與哪吒2觀眾年齡分布的數據是如何獲得的? 像人口普查這樣,對每一個調查對象都進行調查的方法,稱為全面調查,又叫普查. 個體 組成總體的每一個調查對象 為了強調調查目的,也可以把調查對象的某些指標的全體作為總體, 每一個調查對象的相應指標作為個體. 總體: 個體: 全國所有居民 每一個居民 全國所有居民的性別、年齡等. 每一個居民的性別、年齡等. 普查 總體 調查對象的全體 抽樣調查 根據一定目的,從總體中抽取一部分個體進行調查,并以此為依據對總體的情況作出估計和推斷的調查方法,稱為抽樣調查. 樣本 總體中抽取的那部分個體 樣本容量 樣本中包含的個體數 樣本數據 調查樣本獲得的變量值稱為樣本的觀測數據 兩種基本的抽樣方法—— 簡單隨機抽樣 分層隨機抽樣 思考2:你能舉出生活中使用它們進行調查的例子嗎? 它們分別有什么好處? {5C22544A-7EE6-4342-B048-85BDC9FD1C3A}方式 優點 缺點 適用場景 普查 抽樣調查 全面、準確性高 花費少,效率高 工作量大,時間長 耗人力、物力、財力 獲得的信息不夠全面 對象很少時 對象很多,或檢驗對對象具有破壞性 問題?1 既然抽樣調查的目的是為了了解總體的情況,?那么抽取的 樣本應該具有什么特點??你能否用實例說明? 實例:假設你作為一名食品衛生監督人員,?要對某食品店內的一批待售袋裝牛奶的細菌數是否超標進行檢驗,?你該如何抽樣? 抽取的樣本數據能很好地反映總體情況——用樣本估計總體 問題?2:如何科學地抽取樣本?怎樣使抽取的樣本充分地反映總體的情況? 1936年進行了美國總統的選舉,當時電話和汽車只有少數富人擁有。在美國總統選舉前,一份頗有名氣的雜志的工作人員做了一次民意調查,調查蘭頓和羅斯福誰將當選下一屆總統,為了了解公眾意向,調查者通過電話薄和車輛登記薄上的名單給一大批人發了調查表,通過分析收回的調查表,顯示蘭頓非常受歡迎。于是此雜志社預測蘭頓將在選舉中獲勝。實際選舉結果正好相反,最后羅斯福在選舉中獲勝,其數據如下: {21E4AEA4-8DFA-4A89-87EB-49C32662AFE0}候選人 預測結果 實際結果 蘭頓 57% 38% 羅斯福 43% 62% 問題?2:如何科學地抽取樣本?怎樣使抽取的樣本充分地反映總體的情況? 客觀、公平 每一個個體被抽到的概率都相等 探究:假設口袋中有紅色和白色共1000個小球,除顏色外,小球的大小、質地完全相同,你能通過抽樣調查的方法估計袋中紅球所占的比例嗎? 總體:袋中所有小球 個體:每一個小球 變量:小球的顏色 我們可以從袋中隨機摸出一個球,記錄顏色后放回,搖勻后再摸出一個球,如此重復n次。 根據初中的概率知識可知,隨著摸球次數的增加,摸到紅球的頻率會逐漸穩定于摸到紅球的概率,即口袋中紅球所占的比例。 因此,我們可以通過放回摸球,用頻率估計出紅球的比例. 思考1: 如何保證每個球被抽到的機會是均等的? 放回隨機抽樣:各次抽樣的結果互相不受影響,產生極端樣本的可能性較大,同一個小球有可能被摸中多次, 極端情況是每次摸到同一個小球, 而被重復摸中的小球只能提供同一個小球的顏色信息。 不放回隨機抽樣:同一個體不會被重復抽到,產生極端樣本的可能性要小,但各次抽樣結果之間不獨立,統計分析困難一些。 思考2: 有放回摸球和不放回摸球,哪個摸球方式更好? 簡單隨機抽樣定義: 一般地,設一個總體含有N(N為正整數)個個體,從中逐個抽取n(1≤n 如果抽取是放回的,且每次抽取時總體內的各個個體被抽到的概率都相等,我們把這樣的抽樣方法叫做放回簡單隨機抽樣. 如果抽取是不放回的,且每次抽取時總體內未進入樣本的各個個體被抽到的概率是相等的,我們把這樣的抽樣方法叫做不放回簡單隨機抽樣. 放回簡單隨機抽樣和不放回簡單隨機抽樣統稱為簡單隨機抽樣.通過簡單隨機抽樣獲得的樣本稱為簡單隨機樣本. 思考:簡單隨機抽樣有什么特點? 1.總體的個體數有限;樣本數n小于等于樣本總體的個數N ; 2.樣本的抽取是逐個進行的,每次只抽取一個個體; 3.每個個體被抽到的機會都相等,抽樣具有公平性. 不放回簡單隨機抽樣的效率更高. 因此實踐中人們更多采用不放回簡單隨機抽樣.除非特殊說明,本章所稱的簡單隨機抽樣指不放回簡單隨機抽樣. 從總體中,逐個不放回地隨機抽取n個個體作為樣本,一次性批量隨機抽取n個個體作為樣本,兩種方法是等價的. 問題 一家家具廠要為樹人中學高一年級制作課桌椅,他們事先想了解全體高一年級的平均身高,以便設定可調節課桌椅的標準高度。已知樹人中學高一年級有712名學生,如果要通過簡單隨機抽樣的方法調查高一年級學生的平均身高,應該怎樣抽取樣本?在這個抽樣中,總體、個體、變量分別是什么? 總體是 樹人中學全部高一年級的學生 個體是 每一位學生 變量是 學生的身高 思考:你能把生活中經常用到的抽簽法數學化嗎? (1) 給712名學生編號,例如1~712進行編號; (2) 把所有編號寫在外觀、質地等無差別的小紙片(也可以是卡片、小球等)上作為號簽,并將這些小紙片放在一個不透明的盒里,充分攪拌; (3) 從盒中不放回地逐個抽取號簽,使與號簽上的編號對應的學生進入樣本,直到抽足樣本所需要的人數. 抽簽法 追問1 為什么要給學生編號?編號用學號可以嗎? 注意 (1) 編號是為了將每名學生能明確區分開.給學生編號時,可用用學號作為編號,因為學號與學生之間也是一一對應的. (2)編號產生的隨機性實現個體抽取的隨機性. 追問2 抽簽法的步驟是什么? 1.編號:將總體中的所有個體編號; 2.制簽:并把號碼寫在形狀、大小相同的號簽上; 將號簽放在一個不透明容器中,并攪拌均勻. 3.取樣:每次從中不放回抽取一個號簽,直到抽取到足夠的樣本量. 優點:簡單易行,當總體個數不多時,號簽攪拌均勻很容易,個體有均等的機會被抽中,從而能保證樣本的代表性. 缺點:當總體個數較多時,號簽很難攪拌均勻,產生的樣本代表性差的可能性很大. 追問3 抽簽法的優缺點是什么? 抽簽法一般適用于總體中個體數不多的情形 追問4 抽簽法的實質是什么?你能想辦法彌補抽簽法的不足嗎? 抽簽法的實質是在一定范圍內隨機地、等可能地產生的一組有實際背景的數.? 抽簽法有簡單化、程序化、機械化等特點.? 根據抽簽法的實質,?如果能從事先準備好的、隨機產生的一列數即隨機數表中抽取不大于總體容量的數,?那么就能用隨機產生的數來代替抽簽的過程與方法,?并且這個隨機數表可以用于其他場合的抽簽. 隨機數法步驟 1.編號:將總體中的所有個體編號; 2.選號:用隨機數工具產生編號范圍內的整數隨機數; 3.取樣:把產生的隨機數作為抽中的編號(位數一致),使與編號對應的個體進入樣本. 注:如果生成的隨機數有重復,即同一編號被多次抽到,只保留第一次,其余全部剔除,再重新產生隨機數,直到抽足樣本所需要的人數 隨機數法一般適用于總體中個體數較多的情形 如果用隨機試驗生成部分隨機數如下所示,據此寫出應抽取的10位學生的編號. 162, 277, 943, 949, 545, 354, 821, 737, 932, 354, 873, 520, 964, 384, 263, 491, 648, 642, 175, 331, 572, 455, 068, 877, 047, 447, 672, 172, 065, 025, 834, 216, 337, 663, 013, 785, 916, 955, 567, 199, 810, 507, 175, 128, 673, 580, 667. ? 解:162,277, 545,354, 520,384, 263, 491, 648,642. ①把握隨機數表產生的特點:?只要是隨機的、等可能的,? 怎樣產生都行. 問題?: 如何生產隨機數? ②隨機數表的種產生方法:?用隨機試驗產生隨機數,用信息技術生產隨機數 用隨機試驗生成隨機數 準備10個大小質地一樣的小球,小球上分別寫上數字0,1,…9,放在不透明盒子中,當編號是三位的時候,有放回抽取3次,抽前充分攪拌,第一、二、三次號作摸到數字分別作為百、十、個位數。 這樣產生的隨機數可能會有重復. 如果生成的隨機數有重復,即同一編號被多次抽到,可以剔除重復的編號并重新產生隨機數,直到產生的不同編號個數等于樣本所需要的人數. 追問:如果生成的隨機數有重復,該如何解決? 練習 如圖,由均勻材質制成的一個正20面體(每個面都是正三角形),將20個面平分成10組,第1組標上0,第2組標上1,???,第10組標上9. (1) 投擲正20面體,若把朝上一面的數字作為投擲結果,則出現0, 1, 2, ??? , 9是等可能的嗎? (2) 三個正20面體分別涂上紅、黃、藍三種顏色,分別代表百位、十位、個位,同時投擲可以產生一個三位數(百位為0的也看作三位數),它是000~999范圍內的隨機數嗎? 進入計算器的計算模式(不同的計算器型號可能會有不同),調出生成隨機數的函數并設置參數,例如RandInt,按“=”鍵即可生成1—712范圍內的整數隨機數.重復按“=”鍵,可以生成多個隨機數.這樣產生的隨機數可能會有重復. random隨機的 integer 整數 用信息技術生成隨機數 ① 用計算器生成隨機數 解:記[0,1)內的隨機數為r. 設b為712r+1的整數部分,則b就是1~712范圍內的整數隨機數. 設a為100r+1的整數部分,則a就是1~100范圍內的整數隨機數. 練習. 如果計算器只能生成[0,1)內的隨機數,你有辦法把它轉化為1~100范圍內的整數隨機數嗎?轉化為1~712范圍內的整數隨機數呢? ② 用電子表格軟件生成隨機數 在電子表格軟件的任意單元格中輸入“=RANDBETWEEN(1,712)”,即可生成一個1—712范圍內的整數隨機數.再利用電子表格軟件的自動填充功能,可以快速生成大量的隨機數. ③ 用R統計軟件生成隨機數 在R軟件的控制臺中,輸入“sample (1: 712, 50, replace=F) ”,按回車鍵,就可以得到50個1~712范圍內的不重復的整數隨機數(如右圖). 一般的抽簽軟件, 專業的統計軟件,如:SAS,SPSS, S-Plus,State等; 綜合性較強的數學軟件,如:Python, MATLAB,Mathematica,GeoGebra等. 思考:比較隨機數法與抽簽法,它們各有什么優點和缺點? {5C22544A-7EE6-4342-B048-85BDC9FD1C3A}抽樣方法 優點 缺點 抽簽法 簡單易行 總體量較大時, 制作號簽成本高,“均勻攪拌”困難. 隨機數法 方便、快捷、效率高,可節省成本. 隨機試驗和部分軟件可能會產生重復隨機數,需要剔除重復編號并重新產生. 問題:用簡單隨機抽樣的方法抽取樣本,樣本量是否越大越好? 用簡單隨機抽樣的方法抽取樣木,樣本量越大,結果越準確。一般來說,樣本量大的要比樣本量小的好,增加樣本量可以較好地提高估計的效果. 但在實際情況中,樣本量會導致人力、費用、時間等成本的增加. 抽樣調查中樣本量的選擇要根據實際問題的需要,在精度和費用兩者間進行權衡,并不一定是越大越好. 問題延伸?: 在樹人中學高一年級的712名學生中,男生有326名,女生有386名,調查高一年級學生的平均身高,?你認為怎樣做比較好? 研究路線 如何獲 取數據 抽樣 調查 抽樣 方法 簡單隨機 抽樣方法 抽簽法 隨機數法 用樣本估計總體 每個個體被抽到的概率相等 思想方法 判斷標準 “對錯之分”變為“好差之分”. 思維方式 “確定性思維”向“統計思維轉化”. 數學價值 實際問題與生活經驗數學化,模式化,不斷提出問題, 解決問題,發現新問題的過程. 大千世界一粒粟,? 一粒粟里納須彌. 隨機抽樣洞玄機, ?數理統計解迷離. 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫