資源簡介 (共48張PPT)BIG DATA5.3 數據的分析第五章SHU · JU · DE · CAI · JI”授課人:XXX知識回顧新授處理數據的一般過程:數據采集數據分析數據可視化表達新授處理數據的一般過程:數據采集數據分析數據可視化表達特征探索關聯分析聚類分析數據分類運用數字化工具和技術探索數據內在的結構和規律診斷過去、預測未來什么是數據分析數據分析:數據分析就是在一大批雜亂無章的數據中,運用數字化工具和技術,探索數據內在的結構和規律,構建數學模型,并進行可視化表達,通過驗證將模型轉化為知識,為診斷過去、預測未來發揮作用。什么是數據分析數據分析:數據分析就是在一大批雜亂無章的數據中,運用數字化工具和技術,探索數據內在的結構和規律,構建數學模型,并進行可視化表達,通過驗證將模型轉化為知識,為診斷過去、預測未來發揮作用。運用數字化工具和技術探索數據內在的結構和規律診斷過去、預測未來ONE特征探索01對數據進行預處理發現和處理缺失值、異常數據特征探索數據特征探索:主要任務是對數據進行預處理,發現和處理缺失值、異常數據,繪制直方圖,觀察分析數據的分布特征,求最大值、最小值、極差等描述性統計量。特征探索數據特征探索:主要任務是對數據進行預處理,發現和處理缺失值、異常數據,繪制直方圖,觀察分析數據的分布特征,求最大值、最小值、極差等描述性統計量。對數據進行預處理發現和處理缺失值、異常數據補全特征探索學號 體溫(℃)001 36.9002003 37.3004 47.6005 37.2缺失異常請觀察表格,其中的數據存在哪些問題?需要做哪些處理?修正特征探索學號 體溫(℃)001 36.9002003 37.3004 47.6005 37.2缺失異常請觀察表格,其中的數據存在哪些問題?需要做哪些處理?補全特征探索學號 體溫(℃)001 36.9002003 37.3004 47.6005 37.2缺失異常請觀察表格,其中的數據存在哪些問題?需要做哪些處理?補全修正特征探索學號 體溫(℃)001 36.9002003 37.3004005 37.2請觀察表格,其中的數據存在哪些問題?需要做哪些處理?37.137.1取平均值特征探索散點圖發現異常值觀察數據的分布情況特征探索直方圖觀察數據的分布特征特征探索特征探索的步驟:數據清洗繪制散點圖計算數據分布特征繪制直方圖處理缺失值處理異常值TWO關聯分析02發現數據之間的關聯性同時出現的規律關聯分析關聯分析:就是分析并發現存在于大量數據之間的關聯性或相關性,從而描述一個事物中某些屬性同時出現的規律和模式。關聯分析關聯分析:就是分析并發現存在于大量數據之間的關聯性或相關性,從而描述一個事物中某些屬性同時出現的規律和模式。發現數據之間的關聯性事物同時出現的規律對數據進行預處理發現和處理缺失值、異常數據關聯分析典型應用:購物籃分析指導商品擺放01制定促銷策略02尋找潛在用戶03對數據進行預處理發現和處理缺失值、異常數據關聯分析例:尿布與啤酒對數據進行預處理發現和處理缺失值、異常數據關聯分析如何進行關聯分析?序號 商品1 可樂,雞蛋,火腿2 可樂,尿布,啤酒3 可樂,尿布,啤酒,火腿4 尿布,啤酒對數據進行預處理發現和處理缺失值、異常數據關聯分析步驟一:掃描數據,建立項集,統計頻率次數序號 商品1 可樂,雞蛋,火腿2 可樂,尿布,啤酒3 可樂,尿布,啤酒,火腿4 尿布,啤酒C1項集 出現頻率次數[可樂][雞蛋][火腿][尿布][啤酒]31233關聯分析步驟二:計算各個集合的支持度序號 商品1 可樂,雞蛋,火腿2 可樂,尿布,啤酒3 可樂,尿布,啤酒,火腿4 尿布,啤酒C1項集 出現 頻率次數 支持度[可樂] 3[雞蛋] 1[火腿] 2[尿布] 3[啤酒] 3支持度=3/4=0.751/4=0.252/4=0.53/4=0.753/4=0.75關聯分析步驟三:設置最小支持度=0.4,篩選出支持度不小于最小支持度的數據項,形成頻繁項集L1C1項集 出現 頻率次數 支持度[可樂] 3 0.75[雞蛋] 1 0.25[火腿] 2 0.5[尿布] 3 0.75[啤酒] 3 0.75頻繁項集L1[可樂][火腿][尿布][啤酒]關聯分析步驟四:將L1中的數據兩兩拼接,先形成候選項集C2,再形成頻繁項集L2頻繁項集L1[可樂][火腿][尿布][啤酒]候選項集C2 支持度[可樂,火腿] 2/4=0.5[可樂,尿布] 2/4=0.5[可樂,啤酒] 2/4=0.5[火腿,尿布] 1/4=0.25[火腿,啤酒] 1/4=0.25[尿布,啤酒] 3/4=0.75頻繁項集L2[可樂,火腿][可樂,尿布][可樂,啤酒][尿布,啤酒]關聯分析步驟五:重復前面的步驟,繼續將數據進行拼接,直到形成最終頻繁項集頻繁項集L2[可樂,火腿][可樂,尿布][可樂,啤酒][尿布,啤酒]候選項集C3 支持度[可樂,火腿,尿布] 1/4=0.25[可樂,火腿,啤酒] 1/4=0.25[可樂,尿布,啤酒] 2/4=0.5頻繁項集L3[可樂,尿布,啤酒]關聯分析主要步驟:1.掃描數據,建立項集,統計頻率次數2.計算各個集合的支持度3.設置最小支持度=0.4,篩選出支持度不小于最小支持度的數據項,形成頻繁項集L14.將L1中的數據兩兩拼接,先形成候選項集C2,再形成頻繁項集L25.重復前面的步驟,繼續將數據進行拼接,直到形成最終頻繁項集6.計算最終頻繁項集中所含物品之間的置信度,過濾掉小于最小置信度的項集7.根據步驟6的結果生成關聯規則THREE聚類分析03聚類分析聚類:利用事物(樣本)之間的相似性,將相似的事物(樣本)劃分為一簇(組)。距離相似性角度相似性聚類分析聚類分析:是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。不必事先給出一個分類的標準聚類分析聚類分析:是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。不必事先給出一個分類的標準聚類分析經典聚類分析方法:K-平均算法(K-means算法)問題:1.怎樣選擇初始的K個中心點?2.怎么判斷其余的數據點屬于哪一類 聚類分析觀看視頻,了解K-平均算法(K-means算法)聚類分析問題:1.怎樣選擇初始的K個中心點?2.怎么判斷其余的數據點屬于哪一類 隨機選擇依次判斷數據點與K個中心點的距離, 選擇離得最近的中心點作為同類聚類分析聚類分析的基本算法聚類分析聚類分析的基本算法:1.從數據點集合中隨機選擇K個點作為初始的聚集中心 。2.對其余的每個數據點,依次判斷其與K個中心點的距離, 距離最近的表明它屬于這項聚類。3.重新計算新的聚族集合的平均值即中心點。整個過程不斷迭代計算,直到達到預先設定的造代次數或中心點不再頓繁波動。FOUR數據分類04要先訓練構建分類函數或者分類模型數據分類數據分類:數據分析處理中最基本的方法。數據分類通常的做法是,基于樣本數據先訓練構建分類函數或者分類模型(也稱為分類器),該分類器具有將待分類數據項映射到某一特點類別的功能。數據分類數據分類:數據分析處理中最基本的方法。數據分類通常的做法是,基于樣本數據先訓練構建分類函數或者分類模型(也稱為分類器),該分類器具有將待分類數據項映射到某一特點類別的功能。要先訓練構建分類函數或者分類模型課堂小結課堂練習1.大數據( )能從規模巨大的數據中,分析并提取出有潛在價值的信息。A.采集技術 B.分析與挖掘技術C.預處理技術 D.可視化與應用技術B.分析與挖掘技術B課堂練習2.對疫情數據分析之前,一般要先對數據進行預處理,以下不屬于預處理的是( )。A.補全缺失數據 B.處理異常數據C.校正錯誤數據 D.處理數據關系D.處理數據關系D課堂練習3.某超市曾經研究銷售數據,發現購買方便面的顧客購買火腿腸、鹵蛋等商品的概率很大,進而調整商品擺放位置。這種數據分析方法是( )A.聚類分析 B.分類分析C.關聯分析 D. 回歸分析C.關聯分析C課堂練習4. K-平均算法是一種經典的( )算法。A.關聯分析 B.數據分類C.聚類分析 D.數據可視化C.聚類分析C課堂練習5. 數據聚類分析的主要任務是( )A.對數據進行預處理,發現和處理缺失值,是常數據、繪制直方圖,觀察數據分布的特征,求最大值,最小值、極差等描述性統計量B.分析發現存在于大量數據之間的關聯性和相關性,從而描述一個事物的共同規律和模式。C.是一種探索性的分析。不必事先給出一個分類標準,而是讓其自動分類。D.是數據分析中最基本的方法,先基于樣本數據構建分類器,然后進行預測。C.是一種探索性的分析。不必事先給出一個分類標準,而是讓其自動分類。CBIG DATA那就下次再聊吧~第五章授課人:XXX 展開更多...... 收起↑ 資源列表 5.3 數據的分析1.0.pptx KMeans聚類原理 動畫演示 - .mp4 什么是 K-Means(K均值聚類)?.mp4 縮略圖、資源來源于二一教育資源庫