中文字幕精品无码一区二区,成全视频在线播放观看方法,大伊人青草狠狠久久,亚洲一区影音先锋色资源

5.3 數據的分析 課件 2022-2023學年粵教版(2019)高中信息技術必修1(48張PPT)

資源下載
  1. 二一教育資源

5.3 數據的分析 課件 2022-2023學年粵教版(2019)高中信息技術必修1(48張PPT)

資源簡介

(共48張PPT)
BIG DATA
5.3 數據的分析
第五章
SHU · JU · DE · CAI · JI

授課人:XXX
知識回顧
新授
處理數據的一般過程:
數據采集
數據分析
數據可視化表達
新授
處理數據的一般過程:
數據采集
數據分析
數據可視化表達
特征探索
關聯分析
聚類分析
數據分類
運用數字化工具和技術
探索數據內在的結構和規律
診斷過去、預測未來
什么是數據分析
數據分析:數據分析就是在一大批雜亂無章的數據中,運用數字化工具和技術,探索數據內在的結構和規律,構建數學模型,并進行可視化表達,通過驗證將模型轉化為知識,為診斷過去、預測未來發揮作用。
什么是數據分析
數據分析:數據分析就是在一大批雜亂無章的數據中,運用數字化工具和技術,探索數據內在的結構和規律,構建數學模型,并進行可視化表達,通過驗證將模型轉化為知識,為診斷過去、預測未來發揮作用。
運用數字化工具和技術
探索數據內在的結構和規律
診斷過去、預測未來
ONE
特征探索
01
對數據進行預處理
發現和處理缺失值、異常數據
特征探索
數據特征探索:主要任務是對數據進行預處理,發現和處理缺失值、異常數據,繪制直方圖,觀察分析數據的分布特征,求最大值、最小值、極差等描述性統計量。
特征探索
數據特征探索:主要任務是對數據進行預處理,發現和處理缺失值、異常數據,繪制直方圖,觀察分析數據的分布特征,求最大值、最小值、極差等描述性統計量。
對數據進行預處理
發現和處理缺失值、異常數據
補全
特征探索
學號 體溫(℃)
001 36.9
002
003 37.3
004 47.6
005 37.2
缺失
異常
請觀察表格,其中的數據存在哪些問題?需要做哪些處理?
修正
特征探索
學號 體溫(℃)
001 36.9
002
003 37.3
004 47.6
005 37.2
缺失
異常
請觀察表格,其中的數據存在哪些問題?需要做哪些處理?
補全
特征探索
學號 體溫(℃)
001 36.9
002
003 37.3
004 47.6
005 37.2
缺失
異常
請觀察表格,其中的數據存在哪些問題?需要做哪些處理?
補全
修正
特征探索
學號 體溫(℃)
001 36.9
002
003 37.3
004
005 37.2
請觀察表格,其中的數據存在哪些問題?需要做哪些處理?
37.1
37.1
取平均值
特征探索
散點圖
發現異常值
觀察數據的分布情況
特征探索
直方圖
觀察數據的分布特征
特征探索
特征探索的步驟:
數據清洗
繪制散點圖
計算數據分布特征
繪制直方圖
處理缺失值
處理異常值
TWO
關聯分析
02
發現數據之間的關聯性
同時出現的規律
關聯分析
關聯分析:就是分析并發現存在于大量數據之間的關聯性或相關性,從而描述一個事物中某些屬性同時出現的規律和模式。
關聯分析
關聯分析:就是分析并發現存在于大量數據之間的關聯性或相關性,從而描述一個事物中某些屬性同時出現的規律和模式。
發現數據之間的關聯性
事物同時出現的規律
對數據進行預處理
發現和處理缺失值、異常數據
關聯分析
典型應用:購物籃分析
指導
商品擺放
01
制定
促銷策略
02
尋找
潛在用戶
03
對數據進行預處理
發現和處理缺失值、異常數據
關聯分析
例:尿布與啤酒
對數據進行預處理
發現和處理缺失值、異常數據
關聯分析
如何進行關聯分析?
序號 商品
1 可樂,雞蛋,火腿
2 可樂,尿布,啤酒
3 可樂,尿布,啤酒,火腿
4 尿布,啤酒
對數據進行預處理
發現和處理缺失值、異常數據
關聯分析
步驟一:掃描數據,建立項集,統計頻率次數
序號 商品
1 可樂,雞蛋,火腿
2 可樂,尿布,啤酒
3 可樂,尿布,啤酒,火腿
4 尿布,啤酒
C1項集 出現
頻率次數
[可樂]
[雞蛋]
[火腿]
[尿布]
[啤酒]
3
1
2
3
3
關聯分析
步驟二:計算各個集合的支持度
序號 商品
1 可樂,雞蛋,火腿
2 可樂,尿布,啤酒
3 可樂,尿布,啤酒,火腿
4 尿布,啤酒
C1項集 出現 頻率次數 支持度
[可樂] 3
[雞蛋] 1
[火腿] 2
[尿布] 3
[啤酒] 3
支持度=
3/4=0.75
1/4=0.25
2/4=0.5
3/4=0.75
3/4=0.75
關聯分析
步驟三:設置最小支持度=0.4,篩選出支持度不小于最小支持度的數據項,形成頻繁項集L1
C1項集 出現 頻率次數 支持度
[可樂] 3 0.75
[雞蛋] 1 0.25
[火腿] 2 0.5
[尿布] 3 0.75
[啤酒] 3 0.75
頻繁項集L1
[可樂]
[火腿]
[尿布]
[啤酒]
關聯分析
步驟四:將L1中的數據兩兩拼接,先形成候選項集C2,再形成頻繁項集L2
頻繁項集L1
[可樂]
[火腿]
[尿布]
[啤酒]
候選項集C2 支持度
[可樂,火腿] 2/4=0.5
[可樂,尿布] 2/4=0.5
[可樂,啤酒] 2/4=0.5
[火腿,尿布] 1/4=0.25
[火腿,啤酒] 1/4=0.25
[尿布,啤酒] 3/4=0.75
頻繁項集L2
[可樂,火腿]
[可樂,尿布]
[可樂,啤酒]
[尿布,啤酒]
關聯分析
步驟五:重復前面的步驟,繼續將數據進行拼接,直到形成最終頻繁項集
頻繁項集L2
[可樂,火腿]
[可樂,尿布]
[可樂,啤酒]
[尿布,啤酒]
候選項集C3 支持度
[可樂,火腿,尿布] 1/4=0.25
[可樂,火腿,啤酒] 1/4=0.25
[可樂,尿布,啤酒] 2/4=0.5
頻繁項集L3
[可樂,尿布,啤酒]
關聯分析
主要步驟:
1.掃描數據,建立項集,統計頻率次數
2.計算各個集合的支持度
3.設置最小支持度=0.4,篩選出支持度不小于最小支持度的數據項,形成頻繁項集L1
4.將L1中的數據兩兩拼接,先形成候選項集C2,再形成頻繁項集L2
5.重復前面的步驟,繼續將數據進行拼接,直到形成最終頻繁項集
6.計算最終頻繁項集中所含物品之間的置信度,過濾掉小于最小置信度的項集
7.根據步驟6的結果生成關聯規則
THREE
聚類分析
03
聚類分析
聚類:利用事物(樣本)之間的相似性,將相似的事物(樣本)劃分為一簇(組)。
距離相似性
角度相似性
聚類分析
聚類分析:是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。
不必事先給出一個分類的標準
聚類分析
聚類分析:是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。
不必事先給出一個分類的標準
聚類分析
經典聚類分析方法:K-平均算法(K-means算法)
問題:
1.怎樣選擇初始的K個中心點?
2.怎么判斷其余的數據點屬于哪一類
聚類分析
觀看視頻,了解K-平均算法(K-means算法)
聚類分析
問題:
1.怎樣選擇初始的K個中心點?
2.怎么判斷其余的數據點屬于哪一類
隨機選擇
依次判斷數據點與K個中心點的距離, 選擇離得最近的中心點作為同類
聚類分析
聚類分析的基本算法
聚類分析
聚類分析的基本算法:
1.從數據點集合中隨機選擇K個點作為初始的聚集中心 。
2.對其余的每個數據點,依次判斷其與K個中心點的距離, 距離最近的表明它屬于這項聚類。
3.重新計算新的聚族集合的平均值即中心點。整個過程不斷迭代計算,直到達到預先設定的造代次數或中心點不再頓繁波動。
FOUR
數據分類
04
要先訓練構建分類函數或者分類模型
數據分類
數據分類:數據分析處理中最基本的方法。
數據分類通常的做法是,基于樣本數據先訓練構建分類函數或者分類模型(也稱為分類器),該分類器具有將待分類數據項映射到某一特點類別的功能。
數據分類
數據分類:數據分析處理中最基本的方法。
數據分類通常的做法是,基于樣本數據先訓練構建分類函數或者分類模型(也稱為分類器),該分類器具有將待分類數據項映射到某一特點類別的功能。
要先訓練構建分類函數或者分類模型
課堂小結
課堂練習
1.大數據( )能從規模巨大的數據中,分析并提取出有潛在價值的信息。
A.采集技術 B.分析與挖掘技術
C.預處理技術 D.可視化與應用技術
B.分析與挖掘技術
B
課堂練習
2.對疫情數據分析之前,一般要先對數據進行預處理,以下不屬于預處理的是( )。
A.補全缺失數據 B.處理異常數據
C.校正錯誤數據 D.處理數據關系
D.處理數據關系
D
課堂練習
3.某超市曾經研究銷售數據,發現購買方便面的顧客購買火腿腸、鹵蛋等商品的概率很大,進而調整商品擺放位置。這種數據分析方法是( )
A.聚類分析 B.分類分析
C.關聯分析 D. 回歸分析
C.關聯分析
C
課堂練習
4. K-平均算法是一種經典的( )算法。
A.關聯分析 B.數據分類
C.聚類分析 D.數據可視化
C.聚類分析
C
課堂練習
5. 數據聚類分析的主要任務是( )
A.對數據進行預處理,發現和處理缺失值,是常數據、繪制直方圖,觀察數據分布的特征,求最大值,最小值、極差等描述性統計量
B.分析發現存在于大量數據之間的關聯性和相關性,從而描述一個事物的共同規律和模式。
C.是一種探索性的分析。不必事先給出一個分類標準,而是讓其自動分類。
D.是數據分析中最基本的方法,先基于樣本數據構建分類器,然后進行預測。
C.是一種探索性的分析。不必事先給出一個分類標準,而是讓其自動分類。
C
BIG DATA
那就下次再聊吧~
第五章
授課人:XXX

展開更多......

收起↑

資源列表

<pre id="tfb94"><li id="tfb94"></li></pre>

<bdo id="tfb94"><rt id="tfb94"></rt></bdo>
  • <menu id="tfb94"><dl id="tfb94"></dl></menu><i id="tfb94"><acronym id="tfb94"><sub id="tfb94"></sub></acronym></i>

    1. 主站蜘蛛池模板: 枞阳县| 社旗县| 丹阳市| 吕梁市| 武平县| 岢岚县| 克什克腾旗| 宝应县| 新余市| 祥云县| 西峡县| 静宁县| 进贤县| 突泉县| 田东县| 秀山| 泗洪县| 福州市| 晋宁县| 泽普县| 芮城县| 综艺| 讷河市| 大同县| 且末县| 龙川县| 扶余县| 安塞县| 云霄县| 巴林右旗| 栾城县| 鹤峰县| 张家川| 烟台市| 肥乡县| 二连浩特市| 双江| 陕西省| 凌云县| 晴隆县| 开平市|