資源簡介 (共28張PPT)5.3數據的分析特征探索01關聯分析02聚類分析03目錄04數據分類中國網民數量:7.51億半年增長率:2.7%中國注冊網站數量:344.3萬個手機網民:7.236億占網民總數:96.3%月均網絡交易:16億筆每日新發微博數量:1億+條注冊微博用戶數:2.9071億發布的網頁數量:866億頁年增速:~40%網絡直播用戶:3.43億占網民總數:47.1%數據分析就是在一大批雜亂無章的數據中,運用數字化工具和技術,探索數據內在的結構和規律,構建數學模型,并進行可視化表達,通過驗證將模型轉化為知識,為診斷過去、預測未來發揮作用。一、特征探索數據特征探索的主要任務是對數據進行預處理,發現和處理缺失值、異常數據,繪制直方圖,觀察分析數據的分布特征,求最大值、最小值、極差等描述性統計量。實踐:打開并運行配套學習資源包“第五章\課本素材\程序5---3數據預處理”,觀察數據預處理結果.(1)數據清洗,發現缺失值x=0data["price"][(data["price"]==0)]=Noneforiindata.columns:forjinrange(len(data)):if(data[i].isnull())[j]:data[i][j]="64"x+=1print(x)(2)異常值處理中,利用畫散點圖發現異常值部分.data2=data.Tprice=data2.values[2]comt=data2.values[3]pyl.plot(price,comt,"o")pyl.show()(3)求最大值和最小值.pricemax=da2[2].max()pricemin=da2[2].min()commentmax=da2[3].max()commentmin=da2[3].min()利用數學計算(非程序5-3)得到極差的例子(4)求極差,程序5--3pricerg=pricemax-pricemincommentrg=commentmax-commentmin(5)求組距,程序5-3pricedst=pricerg/13commentdst=commentrg/13(6)繪制價格直方圖,程序5-3pricesty=npy.arange(pricemin,pricemax,pricedst)pyl.hist(da2[2],pricesty)pyl.show()(7)繪制評論數直方圖commentsty=npy.arange(commentmin,commentmax,commentdst)pyl.hist(da2[2],commentsty)pyl.show()二、關聯分析關聯分析就是分析并發現存在于大量數據之間的關聯性或相關性,從而描述一個事物中某些屬性同時出現的規律和模式。關聯分析又稱關聯挖掘,就是在交易數據、關系數據或其他信息載體中,查找存在于項目集合或對象集合之間的頻繁模式、關聯、相關性或因果結構。或者說,關聯分析是發現交易數據庫中不同商品(項)之間的聯系。購買面包的顧客中80%會購買牛奶。面包和牛奶作為一種早餐的搭配是大家所接受的,二者沒有共同屬性,但是二者搭配后就是一頓美味早餐。商場購買時如果你把這兩樣擺在一起時就會刺激顧客的潛意識聯系了二者的關系,并刺激購買。這是一種簡單的關聯關系。關聯分析研究的關系有兩種:簡單關聯關系和序列關聯關系。簡單關聯關系關聯分析研究的關系有兩種:簡單關聯關系和序列關聯關系。序列關聯關系比如買了iphone手機的顧客中80%會選擇購買iphone手機保護殼,這就是序列關聯關系,一般沒人先去買個保護殼再去買手機。這是存在先后的時間上的順序的。(1)掃描歷史數據,并對每項數據進行頻率次數統計。(2)構建候選項集C1,并計算其支持度,即數據出現頻率次數與總數的比。(3)對候選項集的支持度進行篩選,篩選的數據項支持度應當不小于最小支持度,從而形成頻繁項集L1。(4)對頻繁項集L2進行連接生成候選項集C2,重復上述步驟,最終形成頻繁K項集或者最大頻繁項集。關聯分析的基本算法:三、聚類分析K-平均算法是一種經典的自下而上的聚類分析方法.K-平均算法的基本思想就是在空間N個點中,初始選擇K個點作為中心聚點,然后將N個點分別與K個點計算距離,選擇自己最近的點作為自己的中心點,再不斷更新中心聚焦點,以達到”物以類聚,人以群分”的效果.優點:算法簡單適用于球形簇二分k均值等變種算法運行良好,不受初始化問題的影響。缺點:不能處理非球形簇、不同尺寸和不同密度的簇對離群點、噪聲敏感聚類分析的基本算法(1)從數據點集合中隨機選擇K個點作為初始的聚集中心,每個中心點代表著每個聚集中心的平均值。(2)對其余的每個數據點,依次判斷其與K個中心點的距離,距離最近的表明它屬于這項聚類。(3)重新計算新的聚簇集合的平均值即中心點。整個過程不斷迭代計算,直到達到預先設定的迭代次數或中心點不再頻繁波動。四、數據分類數據分類是數據分析處理中最基本的方法。數據分類通常的做法是,基于樣本數據先訓練構建分類函數或者分類模型(也稱為分類器),該分類器具有將待分類數據項映射到某一特點類別的功能。數據分類和回歸分析都可用于預測,預測是指從基于樣本數據記錄,根據分類準則自動給出對未知數據的推廣描述,從而實現對未知數據進行預測。貝葉斯分類技術在眾多分類技術中占有重要地位,也屬于統計學分類的范疇,是一種非規則的分類方法。貝葉斯分類技術通過對已分類的樣本子集進行訓練,學習歸納出分類函數利用訓練得到的分類器實現對未分類數據的分類。對離散變量的預測稱作分類,對連續變量的分類稱為回歸如下表所示是某網絡商城客戶購物行為特征的一組統計資料。已知某客戶購物行為特征A的數值為182.8,特征B為數值58.9,特征C為數值26,請問這是是重要客戶還是普通客戶?客戶特征A特征B特征C重要客戶182.881.630重要客戶180.486.129重要客戶170.077.130重要客戶180.474.828普通客戶152.445.324普通客戶167.668.026普通客戶165.258.925普通客戶175.268.027根據表5-4的資料,得到一個已分類的樣本子集:X=[[182.8,81.6,30],[180.4,86.1,29],[170.0,77.1,30],[180.4,74.8,28],[152.4,45.3,24],[167.6,68.0,26],[165.2,58.9,25],[175.2,68.0,27]]Y=[1,1,1,1,0,0,0,0](1代表重要客戶,0代表普通客戶)。四、數據分類import?numpy?as?npX=np.array([[182.8,81.6,30],[180.4,86.1,29],[170.0,77.1,30],[180.4,74.8,28],[152.4,45.3,24],[167.6,68.0,26],[165.2,58.9,25],[175.2,68.0,27]])Y=np.array([1,1,1,1,0,0,0,0])from?sklearn.naive_bayes?import?GaussianNBclf=GaussianNB().fit(X,Y)print(clf.predict([[182.8,58,9,26]]))四、數據分類程序結果為:[0],所以這人為普通客戶。謝謝!5.3數據的分析練習題一、選擇題(單選)1、數據清洗的方法不包括(?D)。A:缺失值處理B:噪聲數據清除C:一致性檢查D:重復數據記錄處理2、下列關于數據重組的說法中,錯誤的是(?A)。A:數據重組是數據的重新生產和重新采集B:數據重組能夠使數據煥發新的光芒C:數據重組實現的關鍵在于多源數據融合和數據集成D:數據重組有利于實現新穎的數據模式創新3、下列關于聚類挖掘技術的說法中,錯誤的是(B?)。A:不預先設定數據歸類類目,完全根據數據本身性質將數據聚合成不同類別B:要求同類數據的內容相似度盡可能小C:要求不同類數據的內容相似度盡可能小?4、下列國家的大數據發展行動中,集中體現“重視基礎、首都先行”的國家是(?D)。A:美國B:日本C:中國D:韓國5、下列關于大數據的分析理念的說法中,錯誤的是(D?)。A:在數據基礎上傾向于全體數據而不是抽樣數據B:在分析方法上更注重相關分析而不是因果分析C:在分析效果上更追究效率而不是絕對精確D:在數據規模上強調相對數據而不是絕對數據6、按照涉及自變量的多少,可以將回歸分析分為(CD?)。(多選題)A:線性回歸分析B:非線性回歸分析C:一元回歸分析D:多元回歸分析E:綜合回歸分析7、大數據人才整體上需要具備(ABE?)等核心知識。A:數學與統計知識B:計算機相關知識C:馬克思主義哲學知識D:市場運營管理知識E:在特定業務領域的知識下面關于關聯分析的基本算法錯誤的是(C)A:掃描歷史數據,并對每項數據進行頻率次數統計。B:構建候選項集C1,并計算其支持度,即數據出現頻率次數與總數的比。C:對候選項集的支持度進行篩選,篩選的數據項支持度應當小于最小支持度,從而形成頻繁項集L1。D:對頻繁項集L2進行連接生成候選項集C2,重復上述步驟,最終形成頻繁K項集或者最大頻繁項集。 展開更多...... 收起↑ 資源列表 5.3數據的分析-【新教材】粵教版(2019)高中信息技術必修一課練習.docx 5.3數據的分析-【新教材】粵教版(2019)高中信息技術必修一課課件28.pptx 縮略圖、資源來源于二一教育資源庫