資源簡介 6.5 數學建模案例(三):人數估計【學習目標】了解數據分析的意義,了解統計分析報告的主要組成部分,會選擇合適的方法分析,解決實際問題,會從實際問題的樣本數據中提取刻畫其特征的量(如中位數、均值、方差等).(數學建模、數據分析)【合作探究】一、問題背景某大學計算機專業的報考人數連年創新高,今年報名剛結束,某考生想知道報考人數.考生的編號按0001,0002,…的順序從小到大依次排列,該考生隨機了解了50個考生的編號.具體如下:0400 0904 0747 0090 0636 0714 0017 04320403 0276 0986 0804 0697 0419 0735 02780358 0434 0946 0123 0647 0349 0105 01860079 0435 0960 0543 0495 0974 0219 03800397 0283 0504 0140 0518 0966 0559 09100658 0442 0694 0065 0757 0702 0498 01560225 0327請給出一種方法,根據這50個隨機抽取的編號,估計考生總數.二、問題解析上述問題中,總體中的個體已經按自然數編號,然后在自然數1,2,3,…,N中不放回地隨機抽取n(這里n=50)個數,將抽取的樣本從小到大排序后記為x1,x2,…,xn,其中1≤xn≤N.一般來說,關于考生總數沒有精確的估計方法,若不能獲取其他輔助信息,則只能利用樣本估計總體的方法進行近似估計.為使估計值盡量接近真值,可以在多種假設的條件下采用不同的估計方法來建立數學模型并求解.1.模型建立與求解模型1 用樣本最大值估計總體的最大值用給出數據的最大值=xn(例如,986)來估計考生總數,由于xn≤N恒成立,因此,該方法在實際應用中很可能出現低估N的情況.模型2 用樣本中位數估計總體中位數當n為奇數時,樣本的中位數為,而總體的中位數取,由于樣本中位數可以近似看成總體中位數,因而有≈,故可取=2-1作為N的估計值;當n為偶數時,樣本的中位數為,從而有≈,故可取=+-1作為N的估計值.為了避免用這種方法得到的估計值偏小,可以考慮用下面的方法對考生總數N進行調整:=在本問題中,n=50且x50>x25+x26-1,因此可用986來估計考生總數.一般情況下,樣本點越多,估計值會越合理.而上述方法的求解過程并沒有利用已獲得的全部樣本信息,因此我們需要建立更為合理的數學模型.模型3 用樣本的平均值估計總體的平均值假設隨機抽取的50個數的平均值近似等于所有考生的平均值,以此來估計考生總數N.由于這50個數的算術平均值為24572÷50=491.44,它應該與接近,因此取=491.44×2≈983作為N的估計值.由于983小于樣本的最大值986,因此可用986來估計考生總數.模型4 用分區間法求解把這50個樣本從小到大排列,利用它將N個數據分段,選取不同端點得到不同的估計值.分區間的一種方法是:利用50個樣本數據,將區間[1,N]分成51個小區間[1,x1),[x1,x2),…,[x50,N].這51個小區間長度均值為,而前50個區間的平均長度為,由于樣本是隨機抽取的,可以認為≈,所以N的估計值可取為==1006,其中{x}表示不小于x的最小整數.上述分區間的方法忽略了x50可能取到N的情況,因此,我們也可以將區間[1,N]改為[1,N+1],即把[1,N+1]分成51個小區間[1,x1),[x1,x2),…,[x50,N+1],取≈,所以N的估計值可取為==1005.2.模型的進一步討論前面我們采用不同的方法對考生總數進行了估計,發現估計方法不同得到的考生數量也不同,存在一定的差異.而分區間法由于劃分小區間所采用的分段方式不同,也有可能得到不同的估計值.但這些結果都是在某種合理的假設前提下得到的,不能說哪種方法得到的估計值一定是錯的.這也體現了統計方法的特點.按照不同的估計方法往往會得到不同的估計值,那么有沒有評價估計方法優劣的標準呢 我們可以利用計算機模擬各種估計方法,然后通過計算估計值與真值之間的偏離程度來評價估計方法的優劣.具體實施步驟如下.步驟(1):設定N以及試驗次數k的值;步驟(2):在1,2,…,N這N個自然數中不放回地隨機抽取50個數據,組成一個樣本;步驟(3):將樣本中50個數據按從小到大的順序排列,即x1步驟(4):按照不同的估計方法分別得到不同的估計值;步驟(5):重復上述步驟(1)~(4)k次.模擬完后,對估計值偏離真值N的程度進行計算:設第m(1≤m≤k)次試驗得到的估值為,k次模擬得到的估計值與真值N之間的近似程度用估計值與真值差的平方的平均值來衡量,即計算,將其值記為MSE.結論:當試驗次數k足夠大時,MSE的大小反映了采用不同估計方法得到的估值偏離真值N的程度,具有較小MSE值的估計方法更為合理.一、問題背景為了實現綠色發展,踐行“綠水青山就是金山銀山”的發展理念,避免浪費能源,某市政府計劃對居民用電采用階梯收費的方法.為此,相關部門在該市隨機調查了200戶居民六月份的用電量(單位:kW·h),以了解這個城市家庭用電量的情況.數據如下:107 101 78 99 208 127 74 223 31 131214 135 89 66 60 115 189 135 146 127203 97 96 62 65 111 56 151 106 8162 91 67 93 212 159 61 63 178 194194 216 101 98 139 78 110 192 105 9622 50 138 251 120 112 100 201 98 84137 203 260 134 156 61 70 100 72 164174 131 93 100 163 80 76 95 152 18288 247 191 70 130 49 114 110 163 202265 18 94 146 149 147 177 339 57 109107 182 101 148 274 289 82 213 165 224142 61 108 137 90 254 201 83 253 113130 82 170 110 108 63 250 237 120 84154 288 170 123 172 319 62 133 130 127107 71 96 140 77 106 132 106 135 132167 82 258 542 51 107 69 98 72 48109 134 250 42 320 113 180 144 116 530200 174 135 160 462 139 133 304 191 283121 132 118 134 124 178 206 626 120 274141 80 187 88 324 136 498 169 77 57根據以上數據,應當如何確定階梯電價中的電量臨界值,才能使得電價更為合理 二、問題解析1.問題分析選取六月份調查是因為這個城市六月份的部分時間需要使用空調,因此六月份的用電量在一年12個月中處于中等偏上水平.如果階梯電價臨界值的確定依賴于居民月用電量的分布,例如計劃實施3階的階梯電價,有人給出一個分布如下:75%的用戶在第一檔(最低一檔),20%的用戶在第二檔,5%的用戶在第三檔(最高一檔).這樣,需要通過樣本數據估計第一檔與第二檔、第二檔與第三檔的兩個電量臨界值,即75%和95%這兩個電量臨界值.利用電子表格軟件,對上面的樣本數據進行排序,可以得到下面的結果:8 18 22 31 42 48 49 50 51 5657 57 60 61 61 61 62 62 63 6365 66 67 69 70 70 71 72 72 7476 77 77 78 78 80 80 82 82 8283 84 84 88 88 89 90 91 93 9394 95 96 96 96 97 98 98 98 99100 100 100 101 101 101 105 106 106 106107 107 107 107 108 108 109 109 110 110110 111 112 113 113 114 115 116 118 120120 120 121 123 124 127 127 127 130 130130 131 131 132 132 132 133 133 134 134134 135 135 135 135 136 137 137 138 139139 140 141 142 144 416 146 147 148 149151 152 154 156 159 160 162 163 163 164165 167 169 170 170 172 174 174 177 178178 180 182 182 187 189 191 191 192 194194 200 201 201 202 203 203 206 208 212213 214 216 223 224 237 247 250 250 251253 254 258 260 265 274 274 283 288 289304 319 320 324 339 462 498 530 542 6262.特征量分析(1)樣本數據總共有200個,最小值是8,最大值是626,說明200戶居民六月份的最小用電量為8 kW·h,最大用電量為626 kW·h,極差為618 kW·h.(2)因為數據量是200,所以這組數據的樣本中位數就是有序樣本中第100個數130和第101個數130的平均數,即130,說明這個城市六月份居民用電量的中間水平大約在130 kW·h.(3)因為200×75%=150,所以第一個臨界值為有序樣本中第150個數178和第151個數178的平均數,即178.因為200×95%=190,所以第二個臨界值為有序樣本中第190個數289和第191個數304的平均數,這個平均數為296.5(因為是對95%分位數的估計,所以估計值可以是289和304之間任何一個數,為了便于操作可以取值為297).3.解決問題依據確定了的電量臨界值,階梯電價可以規定如下:(1)用戶每月用電量不超過178 kW·h(或每年用電量不超過2136 kW·h),按第一檔電價標準繳費;(2)用戶每月用電量在區間(178,297](單位:kW·h)內(或每年用電量在區間(2136,3564](單位:kW·h)內),其中的178 kW·h按第一檔電價標準繳費,超過178 kW·h的部分按第二檔電價標準繳費;(3)用戶每月用電量超過297 kW·h(或每年用電量超過3564 kW·h),其中的178 kW·h按第一檔電價標準繳費,119 kW·h 按第二檔電價標準繳費,超過297 kW·h的部分按第三檔電價標準繳費.社會上對這種制定階梯電價的方法存在不同的意見,可以討論并制定合理的階梯電價.2 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫