資源簡介 (共31張PPT)5.3 數(shù)據(jù)的分析必修一 《數(shù)據(jù)與計算》從王者榮耀里學(xué)會數(shù)據(jù)分析5.3 數(shù)據(jù)的分析什么是數(shù)據(jù)分析?數(shù)據(jù)分析是在一大批雜亂無章的數(shù)據(jù)中,運用數(shù)字化工具和技術(shù),探索數(shù)據(jù)內(nèi)在的結(jié)構(gòu)和規(guī)律,構(gòu)建數(shù)學(xué)模型,并進(jìn)行可視化表達(dá),通過驗證將模型轉(zhuǎn)化為知識,為診斷過去、預(yù)測未來發(fā)揮作用。高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析李海青水資源分布現(xiàn)狀過去旅游業(yè)的發(fā)展情況了解事物的現(xiàn)狀診斷過去的發(fā)展歷程預(yù)測房價走向預(yù)測未來的走向數(shù)據(jù)分析高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析5.3.1 特征探索數(shù)據(jù)特征探索的主要任務(wù)是對數(shù)據(jù)進(jìn)行預(yù)處理高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析發(fā)現(xiàn)和處理缺失值、異常數(shù)據(jù)繪制直方圖數(shù)據(jù)預(yù)處理觀察數(shù)據(jù)的分布特征求最大值、最小值、極差等描述性統(tǒng)計量5.3.1 特征探索高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析姓名 語文 數(shù)學(xué) 英語小明 93 77小王 898 90 85小陳 59 78 75缺失值異常值補全修正5.3.1 特征探索李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析[1]數(shù)據(jù)清洗,發(fā)現(xiàn)缺失值把價格為零的數(shù)據(jù)變?yōu)榭罩?br/>缺失值用64代替5.3.1 特征探索高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析[2]異常值處理中,利用畫散點圖發(fā)現(xiàn)異常值部分數(shù)據(jù)分布不均勻評論數(shù)異常為>200000;價格異常為>2300;5.3.1 特征探索高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析line=len(data.values)col=len(data.values)da=data.valuesfor i in range(0,line):for j in range(0,col):if (da[i][2]>2300):da[i][2]=“36”if (da[j][3]>200000):da[i][j]=“58”[3]處理異常數(shù)據(jù),評論數(shù)異常為>200000;價格異常為>2300;再重新繪制散點圖數(shù)據(jù)分布均勻評論數(shù)用58代替價格用36代替高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析5.3.1 特征探索[4]求最大值、最小值、極差、組距,繪制價格直方圖和評論數(shù)直方圖結(jié)論:價格在10-30塊之間的商品種類最多此價位的商品競爭最激烈5.3.2 關(guān)聯(lián)分析高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析關(guān)聯(lián)分析就是分析并發(fā)現(xiàn)存在于大量數(shù)據(jù)之間的關(guān)聯(lián)性或相關(guān)性,從而描述一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式。指導(dǎo)商品擺放制定促銷策略尋找潛在用戶5.3.2 關(guān)聯(lián)分析李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析典型案例:尿布與啤酒5.3.2 關(guān)聯(lián)分析高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析如何進(jìn)行關(guān)聯(lián)分析?5.3.2 關(guān)聯(lián)分析高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析如何進(jìn)行關(guān)聯(lián)分析?序號 商品1 可樂,雞蛋,火腿2 可樂,尿布,啤酒3 可樂,尿布,啤酒,火腿4 尿布,啤酒5.3.2 關(guān)聯(lián)分析李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析步驟一:掃描數(shù)據(jù),建立項集,統(tǒng)計頻率次數(shù)C1項集 出現(xiàn)頻率次數(shù)[可樂][雞蛋][火腿][尿布][啤酒]31233序號 商品1 可樂,雞蛋,火腿2 可樂,尿布,啤酒3 可樂,尿布,啤酒,火腿4 尿布,啤酒5.3.2 關(guān)聯(lián)分析高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析步驟二:計算各個集合的支持度序號 商品1 可樂,雞蛋,火腿2 可樂,尿布,啤酒3 可樂,尿布,啤酒,火腿4 尿布,啤酒C1項集 出現(xiàn) 頻率次數(shù) 支持度[可樂] 3[雞蛋] 1[火腿] 2[尿布] 3[啤酒] 3支持度=3/4=0.751/4=0.252/4=0.53/4=0.753/4=0.755.3.2 關(guān)聯(lián)分析高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析步驟三:設(shè)置最小支持度=0.4,篩選出支持度不小于最小支持度的數(shù)據(jù)項,形成頻繁項集L1C1項集 出現(xiàn) 頻率次數(shù) 支持度[可樂] 3 0.75[雞蛋] 1 0.25[火腿] 2 0.5[尿布] 3 0.75[啤酒] 3 0.75頻繁項集L1[可樂][火腿][尿布][啤酒]5.3.2 關(guān)聯(lián)分析李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析步驟四:將L1中的數(shù)據(jù)兩兩拼接,先形成候選項集C2,再形成頻繁項集L2頻繁項集L1[可樂][火腿][尿布][啤酒]候選項集C2 支持度[可樂,火腿] 2/4=0.5[可樂,尿布] 2/4=0.5[可樂,啤酒] 2/4=0.5[火腿,尿布] 1/4=0.25[火腿,啤酒] 1/4=0.25[尿布,啤酒] 3/4=0.75頻繁項集L2[可樂,火腿][可樂,尿布][可樂,啤酒][尿布,啤酒]5.3.2 關(guān)聯(lián)分析高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析步驟五:重復(fù)前面的步驟,繼續(xù)將數(shù)據(jù)進(jìn)行拼接,直到形成最終頻繁項集頻繁項集L2[可樂,火腿][可樂,尿布][可樂,啤酒][尿布,啤酒]候選項集C3 支持度[可樂,火腿,尿布] 2/4=0.5[可樂,火腿,啤酒] 2/4=0.5[可樂,尿布,啤酒] 3/4=0.75頻繁項集L3[可樂,尿布,啤酒]5.3.2 關(guān)聯(lián)分析高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析C1項集 支持度[可樂] 3/4=0.75[雞蛋] 1/4=0.25[火腿] 2/4=0.50[尿布] 3/4=0.75[啤酒] 3/4=0.75頻繁項集L1[可樂] [火腿][尿布][啤酒]C2項集 支持度[可樂,火腿] 2/4=0.50[可樂,尿布] 2/4=0.50[可樂,啤酒] 2/4=0.50[火腿,尿布] 1/4=0.25[火腿,啤酒] 1/4=0.25[尿布,啤酒] 3/4=0.75頻繁項集L2[可樂,火腿] [可樂,尿布][可樂,啤酒][尿布,啤酒]C3項集 支持度[可樂,火腿,尿布] 2/4=0.50[可樂,火腿,啤酒] 2/4=0.50[可樂,尿布,啤酒] 3/4=0.75頻繁項集L3[可樂,尿布,啤酒]5.3.3 聚類分析李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進(jìn)行分類,達(dá)到“物以類聚、人以群分”的效果。菜鳥繹站的選址共享單車停靠點的選址5.3.3 聚類分析李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析經(jīng)典聚類分析方法:K-平均算法(K-means算法)問題:1.怎樣選擇初始的K個中心點?2.怎么判斷其余的數(shù)據(jù)點屬于哪一類 5.3.3 聚類分析李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析經(jīng)典聚類分析方法:K-平均算法(K-means算法)問題:1.怎樣選擇初始的K個中心點?2.怎么判斷其余的數(shù)據(jù)點屬于哪一類 隨機(jī)選擇依次判斷數(shù)據(jù)點與K個中心點的距離, 選擇離得最近的中心點作為同類5.3.3 聚類分析李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析K-平均算法的基本思想就是在空間N個點中,初始隨機(jī)選擇K個點作為中心聚類點,然后將N個點分別與K個點計算距離,選擇自己最近的點作為自己的中心點,再不斷更新中心聚集點,以達(dá)到“物以類聚,人以群分”的效果。高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析5.3.4 數(shù)據(jù)分類1.思路:先基于樣本數(shù)據(jù)訓(xùn)練構(gòu)建分類函數(shù)或者分類模型(分類器);然后用分類器將待分類數(shù)據(jù)進(jìn)行分類。2.應(yīng)用:預(yù)測(數(shù)據(jù)分類、回歸分析)基于樣本數(shù)據(jù)記錄根據(jù)分類準(zhǔn)則自動對未知數(shù)據(jù)進(jìn)行推廣描述從而實現(xiàn)對未知數(shù)據(jù)進(jìn)行預(yù)測3.常用的方法:貝葉斯分類技術(shù)事件發(fā)生的概率5.3.4 數(shù)據(jù)分類高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析采集數(shù)據(jù)建立分類的模型對新數(shù)據(jù)進(jìn)行 分類5.3.4 數(shù)據(jù)分類李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析如表所示是某網(wǎng)絡(luò)商城客戶購物行為特征的一組統(tǒng)計資料。已知某客戶購物行為特征A為數(shù)值182.8,特征B為數(shù)值58.9,特征C為數(shù)值26,請問這人是重要客戶還是普通客戶?客戶 特征A 特征B 特征C重要客戶 182.8 81.6 30重要客戶 180.4 86.1 29重要客戶 170.0 77.1 30重要客戶 180.4 74.8 28普通客戶 152.4 45.3 24普通客戶 167.6 68.0 26普通客戶 165.2 58.9 25普通客戶 175.2 68.0 275.3.4 數(shù)據(jù)分類李海青高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析import numpy as npX=np.array([[182.8,81.6,30],[180.4,86.1,29],[170.0,77.1,30],[180.4,74.8,28],[152.4,45.3,24],[167.6,68.0,26],[165.2,58.9,25],[175.2,68.0,27]])Y=np.array([1,1,1,1,0,0,0,0])From sklearn.naive_bayes import GaussianNBclf=GaussianNB().fit(X,Y)print(clf.predict([[182.8,58.9,26]]))程序運行結(jié)果為0,表示這人是普通客戶根據(jù)資料得到一個樣本子集,把分類的樣本子集(X,Y)和測試樣本[182.8,58.9,26]利用程序運行如下:5.3 數(shù)據(jù)的分析總結(jié)高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析練一練:高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析1.數(shù)據(jù)特征探索的主要任務(wù)是對數(shù)據(jù)進(jìn)行預(yù)處理,以下不屬于該過程的是( )A.數(shù)據(jù)清洗 B.異常數(shù)據(jù)處理C. 數(shù)據(jù)缺失處理 D.數(shù)據(jù)分類處理D2.某超市曾經(jīng)研究銷售數(shù)據(jù),發(fā)現(xiàn)購買方便面的顧客購買火腿腸、鹵蛋等商品的概率很大,進(jìn)而調(diào)整商品擺放位置。這種數(shù)據(jù)分析方法是( )A.聚類分析 B.數(shù)據(jù)分析 C.關(guān)聯(lián)分析 D.回歸分析C3. K-平均算法是一種經(jīng)典的( )算法。A.關(guān)聯(lián)分析 B.數(shù)據(jù)分類C.聚類分析 D.數(shù)據(jù)可視化C練一練:高中信息技術(shù)必修1 數(shù)據(jù)與計算5.3 數(shù)據(jù)的分析4. 數(shù)據(jù)聚類分析的主要任務(wù)是( )A.對數(shù)據(jù)進(jìn)行預(yù)處理,發(fā)現(xiàn)和處理缺失值,是常數(shù)據(jù)、繪制直方圖,觀察數(shù)據(jù)分布的特征,求最大值,最小值、極差等描述性統(tǒng)計量B.分析發(fā)現(xiàn)存在于大量數(shù)據(jù)之間的關(guān)聯(lián)性和相關(guān)性,從而描述一個事物的共同規(guī)律和模式。C.是一種探索性的分析。不必事先給出一個分類標(biāo)準(zhǔn),而是讓其自動分類。D.是數(shù)據(jù)分析中最基本的方法,先基于樣本數(shù)據(jù)構(gòu)建分類器,然后進(jìn)行預(yù)測。C5. 某同學(xué)體重70Kg,身高178cm,下列能用來判斷該同學(xué)偏肥或偏瘦最有效的數(shù)據(jù)分析方法是( )。A. 聚類分析 B.關(guān)聯(lián) 分析C.數(shù)據(jù)分類 D.以上都不行C 展開更多...... 收起↑ 資源預(yù)覽 縮略圖、資源來源于二一教育資源庫