資源簡介 5.3 數(shù)據(jù)的分析 1 5.3 數(shù)據(jù)的分析 題 問 采集到的數(shù)據(jù),沒有分析處理,能直接使用? 2 5.3 數(shù)據(jù)的分析 數(shù) 據(jù) 分 析 4 5.3 數(shù)據(jù)的分析 流 交 ①分組:4—6位同學(xué)組成一個學(xué)習(xí)小組; ②通過查找資料、學(xué)習(xí)和交流,填寫下表。 ①在一大批雜亂無章的數(shù)據(jù)中,運用數(shù)字化的工具和技術(shù),探索數(shù) 據(jù)內(nèi)在的結(jié)構(gòu)和規(guī)律,構(gòu)建數(shù)據(jù)模型,并進(jìn)行可視化表達(dá); ②通過驗證將模型轉(zhuǎn)化為知識,為診斷過去,預(yù)測未來發(fā)揮作用。 數(shù) 的 據(jù) 分 析 用 作 ①特征探索 ②關(guān)聯(lián)分析 ③聚類分析 ④數(shù)據(jù)分類 ⑤建立模型和模型評價。 數(shù) 據(jù) 分 析 的 常 用 方 法 . . . . i . . z . t . t z i j i j z 5.3 數(shù)據(jù)的分析 1 特征探索 2 關(guān)聯(lián)分析 CONTENT 3 目錄 >> 聚類分析 4 數(shù)據(jù)分類 6 5.3 數(shù)據(jù)的分析 請各學(xué)習(xí)小組選擇下面一個參考主題,或者自擬一個感興趣的數(shù)據(jù)分析方法,開展項目學(xué)習(xí)。 ①特征探索 ②關(guān)聯(lián)分析 ③聚類分析 ④數(shù)據(jù)分類 請各學(xué)習(xí)小組根據(jù)項目選題,利用老師下發(fā)的《5.3 數(shù)據(jù)分析》導(dǎo)學(xué)案 和《5.3 項目學(xué)習(xí) 活動記錄表》,制定相應(yīng)的項目活動方案。 . . . . i . . z . t . t z i j i j z 5.3 數(shù)據(jù)的分析 各學(xué)習(xí)小組根據(jù)項目選題及擬定的項目方案,結(jié)合探究的知識,完成相應(yīng)的數(shù)據(jù)分析。 1.采用適當(dāng)?shù)姆椒ㄍ瓿上鄳?yīng)項目選題的數(shù)據(jù)分析工作。 2.探究數(shù)據(jù)分析的方法和步驟,填寫《5.3 項目活動記錄表》 。 師生共同回顧項目活動的整個過程,總結(jié)和歸納本節(jié)課的知識,學(xué)習(xí)小組完善《5.3 項目 活動記錄表》。 . . . . i . . z . t . t z i j i j z 5.3 數(shù)據(jù)的分析 1 特 征 探 索 9 5.3.1 特征探索 究 探 1. 觀看微課視頻“特征探索程序介紹”; 2. 打開運行配套學(xué)習(xí)資源包”第五章\課本素材\程序5-3數(shù)據(jù)預(yù)處理”,觀 察、分析數(shù)據(jù)預(yù)處理結(jié)果; 3. 總結(jié)、歸納特征探索的主要任務(wù)。填寫《5.3 項目學(xué)習(xí)活動記錄表》 “活動2”的內(nèi)容。 . . . . i . . z . t . t z i j i j z 5.3.1 特征探索 驗 體 (1)數(shù)據(jù)清洗,發(fā)現(xiàn)缺失值。如果銷量為0的,修改為64。 x=0 data ["price"][(data["price"]==0)]=None For i in data.columns: ? for j in range(len(data)): ?? if(data[i].isnull())[j]: # 如果為空即插入 值 ??? data[i][j]="64“ x+=1 # 空值插入64 print(x) . . . . i . . z . t . t z i j i j z 驗 5.3.1 特征探索 體 (2)異常值處理中,利用畫散點圖發(fā)現(xiàn)異常值部分,找到異常值。 data2=data.T price=data2.values[2] comt=data2.values[3] plt.xlabel('price') # 顯示X坐標(biāo)標(biāo) 簽 plt.ylabel('paynum') # 顯示Y坐 標(biāo)標(biāo)簽 pyl.plot(price,comt,"o") pyl.show( ) . . . . i . . z . t . t z i j i j z 5.3.1 特征探索 驗 體 (3)求最大值和最小值。 pricemax=da2[2].max(?) pricemin=da2[2].min(?) commentmax=da2[3].max(? ) commentmin=da2[3].min(? ) . . . . i . . z . t . t z i j i j z 驗 5.3.1 特征探索 體 (4)求極差 pricerg=pricemax—pricemin commentrg=commentmax— commentmin (5)求組距 pricedst=pricerg/13 commentdst=commentrg/13 . . . . i . . z . t . t z i j i j z 驗 5.3.1 特征探索 體 (6)繪制價格直方圖。 pricesty=npy.arange(pricemin,pricemax, pricedst) pyl.hist(da2[2],pricesty) pyl.show(?) 分析結(jié)果:價格在10-30塊之間的商品種類最多,此價位的商品競爭最激烈。 . . . . i . . z . t . t z i j i j z 驗 5.3.1 特征探索 體 (7)繪制銷量數(shù)直方圖。 paynumsty=npy.arange(paynummin,paynummax+1, paynumdst) plt.xlabel('paynum') plt.ylabel('number') # 顯示X坐標(biāo)標(biāo)簽 # 顯示Y坐標(biāo)標(biāo)簽 pyl.hist(da2[3],paynumsty) pyl.show() 分析結(jié)果:銷量在10以下的商品種類最多,大部分商品銷量一般。 . . . . i . . z . t . t z i j i j z 結(jié) 5.3.1 特征探索 總 特征探索的主要任務(wù)是對數(shù)據(jù)進(jìn)行預(yù)處理,發(fā)現(xiàn)和處理缺失值、異常數(shù)據(jù), 繪制直方圖,觀察分析數(shù)據(jù)的分布特征,求最大值、最小值、極差、組距 等描述性統(tǒng)計量。 主 . . . . i . . z . t . t z i j i j z 5.3 數(shù)據(jù)的分析 2 關(guān) 聯(lián) 分 析 18 例 5.3.2 關(guān)聯(lián)分析 實 商品關(guān)聯(lián) —— 顧客購買習(xí)慣 —— 商家制定銷售策略 . . . . i . . z . t . t z i j i j z 5.3.2 關(guān)聯(lián)分析 究 探 1. 觀看微課視頻“關(guān)聯(lián)分析程序介紹”; 2. 查找資料、討論和交流計算機(jī)如何對數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析; 3. 總結(jié)、歸納關(guān)聯(lián)分析的方法和基本算法。填寫《5.3 項目學(xué)習(xí)活動記錄表》“活動3”的 內(nèi)容。 . . . . i . . z . t . t z i j i j z 究 5.3.2 關(guān)聯(lián)分析 探 計算機(jī)如何對數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析 ? 序 號 1 商 品 可樂,大米,牙膏 2 3 4 可樂,豬肉,啤酒 可樂,豬肉,啤酒,牙膏 豬肉,啤酒 . . . . i . . z . t . t z i j i j z 究 5.3.2 關(guān)聯(lián)分析 探 關(guān)聯(lián)分析 步驟一:掃描數(shù)據(jù),建立項集。 C1項集 序號 商品 [可樂] [大米] [牙膏] [豬肉] [啤酒] 1 可樂,大米,牙膏 可樂,豬肉,啤酒 2 3 4 可樂,豬肉,啤酒,牙膏 豬肉,啤酒 . . . . i . . z . t . t z i j i j z 究 5.3.2 關(guān)聯(lián)分析 探 關(guān)聯(lián)分析 步驟二:計算每項數(shù)據(jù)的支持度,即數(shù)據(jù)出現(xiàn)頻率次數(shù)/總數(shù) C1項集 [可樂] [大米] 支持度 序號 商品 3/4=0.75 1/4=0.25 1 可樂,大米,牙膏 2 3 4 可樂,豬肉,啤酒 可樂,豬肉,啤酒,牙膏 豬肉,啤酒 [牙膏] 2/4=0.50 [豬肉] [啤酒] 3/4=0.75 3/4=0.75 . . . . i . . z . t . t z i j i j z 5.3.2 關(guān)聯(lián)分析 究 探 關(guān)聯(lián)分析 步驟三:對項集的支持度進(jìn)行篩選,設(shè)置最小支持度=0.4 C1項集 [可樂] [大米] 支持度 L1項集 [可樂] [牙膏] 3/4=0.75 1/4=0.25 [牙膏] 2/4=0.50 [豬肉] [啤酒] [豬肉] [啤酒] 3/4=0.75 3/4=0.75 . . . . i . . z . t . t z i j i j z 究 5.3.2 關(guān)聯(lián)分析 探 步驟四:將L1中的數(shù)據(jù)兩兩拼接,得C2。 C2項集 支持度 C1項集 支持度 [可樂,牙膏] 2/4=0.50 [可樂,豬肉] 2/4=0.50 [可樂,啤酒] 2/4=0.50 [牙膏,豬肉] 1/4=0.25 [牙膏,啤酒] 1/4=0.25 [豬肉,啤酒] 3/4=0.75 [可樂] 3/4=0.75 [大米] 1/4=0.25 [牙膏] 2/4=0.50 [豬肉] 3/4=0.75 [啤酒] 3/4=0.75 頻 繁 項 集 L1 頻 繁 項 集 L2 [可 樂] [ 牙膏 ] [豬肉] [啤酒] [可樂,牙膏] [可樂,豬肉] [可樂,啤酒] [豬肉,啤酒] . . . . i . . z . t . t z i j i j z 究 5.3.2 關(guān)聯(lián)分析 探 步驟五:將L2中的數(shù)據(jù)兩兩拼接,得C3。 C2項集 支持度 C1項集 支持度 [可樂,牙膏] 2/4=0.50 [可樂,豬肉] 2/4=0.50 [可樂,啤酒] 2/4=0.50 [牙膏,豬肉] 1/4=0.25 [牙膏,啤酒] 1/4=0.25 [豬肉,啤酒] 3/4=0.75 [可樂] 3/4=0.75 [大米] 1/4=0.25 [牙膏] 2/4=0.50 [豬肉] 3/4=0.75 [啤酒] 3/4=0.75 C3項集 支持度 [可樂,牙膏,豬肉] 1/4=0.25 [可樂,牙膏,啤酒] 1/4=0.25 [可樂,豬肉,啤酒] 2/4=0.50 頻 繁 項 集 L1 頻 繁 項 集 L2 頻 繁 項 集 L3 [可 樂] [ 牙膏 ] [豬肉] [ 可樂,牙膏] [可樂,豬肉] [可樂,啤酒] [豬肉,啤酒] [可樂,豬肉,啤酒 ] …… Lk [啤酒] . . . . i . . z . t . t z i j i j z 結(jié) 5.3.2 關(guān)聯(lián)分析 總 關(guān)聯(lián)分析 就是分析并發(fā)現(xiàn)存在于大量數(shù)據(jù)之間的關(guān)聯(lián)性或相關(guān)性,從而描 述 一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式。 . . . . i . . z . t . t z i j i j z 5.3.2 關(guān)聯(lián)分析 結(jié) 總 關(guān)聯(lián)分析的基本算法是: 1. 掃描歷史數(shù)據(jù),并對每項數(shù)據(jù)進(jìn)行頻率次數(shù)統(tǒng)計。 2. 構(gòu)建候選項集C1,并計算其支持度,即數(shù)據(jù)出現(xiàn)頻率次數(shù)與總數(shù)的比。 3. 對候選項集的支持度進(jìn)行篩選,篩選的數(shù)據(jù)項支持度應(yīng)當(dāng)不小于最小 支持度,從而形成頻繁項集L1。 4. 對頻繁項集L2進(jìn)行連接生成候選項集C2,重復(fù)以上步驟,最終形成 頻 繁K項集或者最大頻繁項集。 . . . . i . . z . t . t z i j i j z 5.3 數(shù)據(jù)的分析 3 聚 類 分 析 29 究 5.3.3 聚類分析 探 1. 觀看微課視頻“聚類分析程序介紹”; 2. 查找資料,研討 K-平均算法; 3. 運行“程序5-6-1 聚類分析(教材范例).py”代碼,對采集到的商品銷售 數(shù)據(jù)”data_sample.csv”進(jìn)行聚類分析,觀察數(shù)據(jù)分析結(jié)果; 4. 歸納、總結(jié)聚類分析的方法和基本算法。填寫《5.3 學(xué)習(xí)項目活動記錄表 》 “活動4”的內(nèi)容。 . . . . i . . z . t . t z i j i j z 流 5.3.3 聚類分析 交 K-平均算法是一種經(jīng)典的自下而上的聚類分析方法。它的基本思想就是在 空間N個點中,初始選擇K個點作為中心聚類點,然后將N個點分別與K個 點計算距離,選擇自己最近的點作為自己的中心點,再不斷更新中心聚集 點,以達(dá)到“物以類聚,人以群分”的效果。 . . . . i . . z . t . t z i j i j z 5.3.3 聚類分析 踐 實 聚類分析程序關(guān)鍵代碼 可視化圖形(截圖) #年齡-消費金額圖,消費時間-消費金額圖,年齡-消費時間圖 for i in range(0,len(y)): if(y[i]==0): print(str(i)+"->0") pyl.subplot(2,3,1) #年齡-消費金額圖 pyl.plot(x[i:i+1,0:1],x[i:i+1,1:2],"*r") pyl.subplot(2,3,2) #消費時間-消費金額圖 pyl.plot(x[i:i+1,2:3],x[i:i+1,1:2],"*r") pyl.subplot(2,3,3) #年齡-消費時間圖 pyl.plot(x[i:i+1,0:1],x[i:i+1,2:3],"*r") 分析結(jié)果 左圖為年齡與消費額的關(guān)系;中圖為消費周期與消費金額的關(guān)系;右圖為年齡與消費周期的關(guān)系。 . . . . i . . z . t . t z i j i j z 5.3.3 聚類分析 踐 實 聚類分析程序關(guān)鍵代碼 可視化圖形(截圖) from sklearn.cluster import KMeans #導(dǎo)入商品樣本數(shù)據(jù) fname="data_sample.csv" dataf=pda.read_csv(fname,encoding="gbk") x=dataf.as_matrix() #聚類分析 kms=KMeans(n_clusters=3) y=kms.fit_predict(x) print(y) 分析結(jié)果 程序按照提供的數(shù)據(jù)樣本,自動將商品分成了三類。 . . . . i . . z . t . t z i j i j z 5.3.3 聚類分析 結(jié) 總 聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個 分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進(jìn)行分類。 . . . . i . . z . t . t z i j i j z 結(jié) 5.3.3 聚類分析 總 聚類分析的基本算法: 1. 從數(shù)據(jù)點集合中隨機(jī)選擇K個點作為初始的聚集中心,每個中心代表著每個聚 集中心的平均值。 2. 對其余的每個數(shù)據(jù)點,依次判斷其與K個中心點的距離,距離最近的表明它屬 于這項聚類。 3. 重新計算新的聚簇集合的平均值即中心點。整個過程不斷迭代計算,直到達(dá) 到預(yù)先設(shè)定的迭代次數(shù)或中心點不再頻繁波動。 . . . . i . . z . t . t z i j i j z 5.3 數(shù)據(jù)的分析 4 數(shù) 據(jù) 分 類 36 例 5.3.4 數(shù)據(jù)分類 實 分 類 動 物 植 物 人 體 成 語 多如牛毛 狐假虎威 畫蛇添足 風(fēng)吹草動 胸有成竹 曇花一現(xiàn) 耳聞目睹 腹背受敵 頭重腳輕 . . . . i . . z . t . t z i j i j z 5.3.4 數(shù)據(jù)分類 究 探 1. 觀看微課視頻“數(shù)據(jù)分類程序介紹”; 2. 查找資料,研討貝葉斯分類; 3. 討論幻燈片中的問題,嘗試著用貝葉斯分類技術(shù)解決; 4. 總結(jié)、歸納數(shù)據(jù)分類的方法和基本算法。填寫《5.3 學(xué)習(xí)項目活動記錄 表》“活動5”的內(nèi)容。 . . . . i . . z . t . t z i j i j z 5.3.4 數(shù)據(jù)分類 究 探 貝葉斯分類技術(shù)在眾多分類技術(shù)中占有重要地位,也屬于統(tǒng)計學(xué)分類的范疇,是一種非 規(guī)則的分類方法。貝葉斯分類技術(shù)通過對已分類的樣本子集進(jìn)行訓(xùn)練,學(xué)習(xí)歸納出分類 函數(shù)(對離散變量的預(yù)測稱作分類,對連續(xù)變量的分類稱為回歸),利用訓(xùn)練得到的分類 器實現(xiàn)對未分類數(shù)據(jù)的分類。 貝葉斯定理 : . . . . i . . z . t . t z i j i j z 5.3.4 數(shù)據(jù)分類 究 探 例如,假設(shè)有一個數(shù)據(jù)集,由兩類組成,且已知每個樣本的分類,數(shù)據(jù)分布如下 圖所示。用 p1(x,y) 表示數(shù)據(jù)點 (x,y) 屬于紅色一類的概率,用 p2(x,y)表示數(shù) 據(jù)點 (x,y) 屬于藍(lán)色一類的概率。 . . . . i . . z . t . t z i j i j z 5.3.4 數(shù)據(jù)分類 究 探 那么如何判斷對于一個新的點 C(x,y)屬于紅色還是屬于藍(lán)色類別呢 ? 通常人們會按以下步驟解答這個問題: (1)求新的點 C(x,y)屬于紅色一類的概率 p1(x,y)。 (2)求新的點 C(x,y)屬于藍(lán)色一類的概率 p2(x,y)。 (3)選擇概率高的一類作為新點 C(x,y)的分類。即 如果 p1(x,y)>p2(x,y),則 C(x,y)為紅色一類; 如果 p1(x,y). . . . i . . z . t . t z i j i j z 5.3.4 數(shù)據(jù)分類 題 問 如表所示是某網(wǎng)絡(luò)商城客戶購物行為特征的一組統(tǒng)計資料。已知某客戶購物行為特征A為 數(shù)值182.8,特征B為數(shù)值58.9,特征C為數(shù)值26,請問這人是重要客戶還是普通客戶? 客戶 特征A 182.8 180.4 170.0 180.4 152.4 167.6 165.2 175.2 特征B 81.6 86.1 77.1 74.8 45.3 68.0 58.9 68.0 特征C 30 重要客戶 重要客戶 重要客戶 重要客戶 普通客戶 普通客戶 普通客戶 普通客戶 29 30 28 24 26 25 27 . . . . i . . z . t . t z i j i j z 題 問 根據(jù)表中的資料,得到一個已分類的樣本子集: X=[[182.8,81.6,30],[180.4,86.1,29],[170.0,77.1,30], [180.4,74.8,28],[152.4,45.3,24],[167.6,68.0,26], [165.2,58.9,25],[175.2,68.0,27]] 和 Y=[1,1,1,1,0,0,0,0](1代表重要客戶,0代表普通客戶) . . . . i . . z . t . t z i j i j z 題 問 5.3.4 數(shù)據(jù)分類 把已分類的樣本子集(X,Y ) 和測試樣本[182.8,58,9,26] 輸入到程序中,具體如 下: import?numpy?as?np X=np.array([ [182.8,81.6,30],[180.4,86.1,29],[170.0,77.1,30],[180.4,74.8,28], [152.4,45.3,24],[167.6,68.0,26],[165.2,58.9,25],[175.2,68.0,27]]) Y=np.array([1,1,1,1,0,0,0,0]) from?sklearn.naive_bayes?import?GaussianNB clf=GaussianNB().fit(X,Y) print(clf.predict([[182.8,58,9,26]])) . . . . i . . z . t . t z i j i j z 題 5.3.4 數(shù)據(jù)分類 問 程序結(jié)果為:[0] 表示這位客戶為:普通客戶 . . . . i . . z . t . t z i j i j z 結(jié) 5.3.4 數(shù)據(jù)分類 總 數(shù)據(jù)分類 是數(shù)據(jù)分析處理中最基本的方法。數(shù)據(jù)分類的通常做法是,基于樣 本數(shù)據(jù)先訓(xùn)練構(gòu)建分類函數(shù)或分類模型,該分類器具有將待分類數(shù)據(jù)映射到 某一特點類別的功能。 . . . . i . . z . t . t z i j i j z 習(xí) 練 1.特征探索的主要任務(wù)是( )。 A.采集數(shù)據(jù) B.數(shù)據(jù)預(yù)處理 C.存儲數(shù)據(jù) D.保護(hù)數(shù)據(jù) . . . . i . . z . t . t z i j i j z 習(xí) 練 2.關(guān)聯(lián)分析最主要的任務(wù)是( )。 A.繪制直方圖 B.求最大值、最小值、極差 C.分析并發(fā)現(xiàn)大量數(shù)據(jù)間的關(guān)聯(lián)性或相關(guān)性 D.發(fā)現(xiàn)和處理缺失值、異常數(shù)據(jù) . . . . i . . z . t . t z i j i j z 習(xí) 練 3.聚類分析中經(jīng)典的自下而上的方法( )。 A.特征探索 B.數(shù)據(jù)分類 C.K-平均算法 D.貝葉斯分類 . . . . i . . z . t . t z i j i j z 習(xí) 練 4.數(shù)據(jù)分析處理中最基本的方法( )。 A.特征探索 B.數(shù)據(jù)分類 C.K-平均算法 D.貝葉斯分類 . . . . i . . z . t . t z i j i j z 5.3 數(shù)據(jù)的分析 務(wù) 任 請各學(xué)習(xí)小組完善本小組的《5.3 項目學(xué)習(xí)活動記錄表》 51 5.3 數(shù)據(jù)的分析 結(jié) 總 1.特征探索 數(shù)據(jù)預(yù)處理 找出關(guān)聯(lián) 發(fā)現(xiàn)規(guī)律 2.關(guān)聯(lián)分析 3.聚類分析 數(shù)據(jù)分析 K-平均算法 4.數(shù)據(jù)分類 貝葉斯分類 謝 謝 THANK YOU 53 展開更多...... 收起↑ 資源預(yù)覽 縮略圖、資源來源于二一教育資源庫