資源簡介 (共27張PPT)數(shù)據(jù)的分析與可視化表達目 錄CONTENT0102數(shù)據(jù)的分析數(shù)據(jù)的可視化表達目 錄CONTENT0102數(shù)據(jù)的分析數(shù)據(jù)的可視化表達特征探索關聯(lián)分析聚類分析數(shù)據(jù)分類數(shù)據(jù)的分析01運用數(shù)字化工具和技術,探索數(shù)據(jù)內(nèi)在的結(jié)構(gòu)和規(guī)律數(shù)據(jù)進行預測做出決策采集存儲保護分析可視化表達數(shù)據(jù)的分析01特征探索關聯(lián)分析數(shù)據(jù)分類01030204預處理分布特征描述性統(tǒng)計量分析并發(fā)現(xiàn)存在于大量數(shù)據(jù)之間的關聯(lián)性或相關性從樣本數(shù)據(jù)出發(fā),自動進行分類K-平均算法基于樣本數(shù)據(jù)先訓練構(gòu)建分類函數(shù)或者分類模型(分類器),再根據(jù)分類器具進行預測。聚類分析數(shù)據(jù)的分析01特征探索預處理分布特征描述性統(tǒng)計量檢查數(shù)據(jù)是否缺失,是否有異常數(shù)據(jù)的分析01特征探索關聯(lián)分析數(shù)據(jù)分類01030204預處理分布特征描述性統(tǒng)計量分析并發(fā)現(xiàn)存在于大量數(shù)據(jù)之間的關聯(lián)性或相關性從樣本數(shù)據(jù)出發(fā),自動進行分類K-平均算法基于樣本數(shù)據(jù)先訓練構(gòu)建分類函數(shù)或者分類模型(分類器),再根據(jù)分類器具進行預測。聚類分析數(shù)據(jù)的分析01關聯(lián)分析分析并發(fā)現(xiàn)存在于大量數(shù)據(jù)之間的關聯(lián)性或相關性全國零售業(yè)巨頭沃爾瑪再對消費者購物行為分析時,發(fā)現(xiàn):男性顧客在購買尿布時,常常會順便搭幾瓶啤酒來犒勞自己。數(shù)據(jù)的分析01訂單編號商品1商品2商品3商品4商品5商品61啤酒蘋果奶酪2奶酪薯片3薯片面包蘋果牛奶4薯片面包牛奶香蕉5面包6奶酪蘋果牛奶薯片7牛奶奶酪香蕉面包啤酒8薯片奶酪香蕉啤酒牛奶9面包薯片奶酪蘋果香蕉10薯片面包香蕉牛奶啤酒蘋果數(shù)據(jù)的分析01支持度:某商品(或組合)在所有訂單中出現(xiàn)的頻率。訂單編號商品1商品2商品3商品4商品5商品61啤酒蘋果奶酪2奶酪薯片3薯片面包蘋果牛奶4薯片面包牛奶香蕉5面包6奶酪蘋果牛奶薯片7牛奶奶酪香蕉面包啤酒8薯片奶酪香蕉啤酒牛奶9面包薯片奶酪蘋果香蕉10薯片面包香蕉牛奶啤酒蘋果支持度(面包 牛奶) =(面包+牛奶)/記錄總數(shù)= 4/10置信度:在所有包含A的訂單中出現(xiàn)B商品的概率。置信度(面包 牛奶) =(面包+牛奶)/面包= 4/6提升度:銷售A商品對B商品帶來的提升率。提升度(面包 牛奶) =(面包+牛奶)/有牛奶無面包= 4/10頻繁項集:支持度大于或等于某個閾值的項集。項集:包含一個或多個商品的組合。寫作:A B數(shù)據(jù)的分析01支持度:某商品(或組合)在所有訂單中出現(xiàn)的頻率。支持度(面包 牛奶) =(面包+牛奶)/記錄總數(shù)= 4/10置信度:在所有包含A的訂單中出現(xiàn)B商品的概率。置信度(面包 牛奶) =(面包+牛奶)/面包= 4/6提升度:銷售A商品對B商品帶來的提升率。提升度(面包 牛奶) =(面包+牛奶)/有牛奶無面包= 4/10頻繁項集:支持度大于或等于某個閾值的項集。項集:包含一個或多個商品的組合。寫作:A B找出頻繁項集(即一個商品組合):按照“支持度≥最小支持度”的標準篩選出頻繁項集。找出強關聯(lián)原則:在所有的銷售記錄中,找出所有的強關聯(lián)原則。數(shù)據(jù)的分析01特征探索關聯(lián)分析數(shù)據(jù)分類01030204預處理分布特征描述性統(tǒng)計量分析并發(fā)現(xiàn)存在于大量數(shù)據(jù)之間的關聯(lián)性或相關性從樣本數(shù)據(jù)出發(fā),自動進行分類K-平均算法基于樣本數(shù)據(jù)先訓練構(gòu)建分類函數(shù)或者分類模型(分類器),再根據(jù)分類器具進行預測。聚類分析數(shù)據(jù)的分析01聚類分析從樣本數(shù)據(jù)出發(fā),自動進行分類K-平均算法132456數(shù)據(jù)的分析01聚類分析從樣本數(shù)據(jù)出發(fā),自動進行分類K-平均算法132456數(shù)據(jù)的分析01聚類分析從樣本數(shù)據(jù)出發(fā),自動進行分類K-平均算法132456數(shù)據(jù)的分析01K-平均算法步驟隨機選取K個點作為質(zhì)心;計算每個點到K個質(zhì)心的距離,分成K個簇;計算K個簇樣本的平均值作為新的質(zhì)心;循環(huán) ;位置不變或者達到迭代次數(shù),聚類完成。132456數(shù)據(jù)的分析01特征探索關聯(lián)分析數(shù)據(jù)分類01030204預處理分布特征描述性統(tǒng)計量分析并發(fā)現(xiàn)存在于大量數(shù)據(jù)之間的關聯(lián)性或相關性從樣本數(shù)據(jù)出發(fā),自動進行分類K-平均算法基于樣本數(shù)據(jù)先訓練構(gòu)建分類函數(shù)或者分類模型(分類器),再根據(jù)分類器具進行預測。聚類分析數(shù)據(jù)的分析01數(shù)據(jù)分類基于樣本數(shù)據(jù)先訓練構(gòu)建分類函數(shù)或者分類模型(分類器),再根據(jù)分類器具進行預測。待分類數(shù)據(jù)分類器某一類別樣本數(shù)據(jù)訓練數(shù)據(jù)的分析01貝葉斯分類垃圾郵件7封5封郵件包含“發(fā)票”4封郵件包含“便宜”正常郵件3封1封郵件包含“發(fā)票”1封郵件包含“便宜”P(正常|發(fā)票)=P(發(fā)票|正常)P(正常)P(發(fā)票)=1/3×3/106/10=1/6P(垃圾|發(fā)票)=P(發(fā)票|垃圾)P(垃圾)P(發(fā)票)=5/7×7/106/10=5/6“發(fā)票”數(shù)據(jù)的分析01貝葉斯分類垃圾郵件7封5封郵件包含“發(fā)票”4封郵件包含“便宜”正常郵件3封1封郵件包含“發(fā)票”1封郵件包含“便宜”P(正常|發(fā)票)=P(發(fā)票|正常)P(正常)P(發(fā)票)=1/3×3/106/10=1/6P(垃圾|發(fā)票)=P(發(fā)票|垃圾)P(垃圾)P(發(fā)票)=5/7×7/106/10=5/6垃圾郵件數(shù)據(jù)的可視化表達02視覺沖擊力數(shù)據(jù)的可視化表達02以圖形、圖像、地圖、動畫等生動、易于理解的方式展示數(shù)據(jù)和詮釋數(shù)據(jù)之間的關系、趨勢和規(guī)律等,以便更好地理解數(shù)據(jù)。數(shù)據(jù)的可視化表達02有關趨勢的分析數(shù)據(jù)的可視化表達02有關比例的分析數(shù)據(jù)的可視化表達02有關邏輯關系的分析數(shù)據(jù)的可視化表達02有關空間關系的分析謝謝觀賞Thanks for watching 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫