資源簡介 (共15張PPT)信息技術(shù):數(shù)據(jù)處理和可視化表達(dá)DATADATA數(shù)據(jù)采集、分析、可視化05-1認(rèn)識 大數(shù)據(jù)大數(shù)據(jù)的定義大數(shù)據(jù)是指無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行高效捕捉、管理和處理的數(shù)據(jù)集合。(信息技術(shù)必修一 5.1 認(rèn)識大數(shù)據(jù))大數(shù)據(jù)是具有數(shù)量巨大、類型多樣、處理效率高、數(shù)據(jù)源可靠性保證度低等綜合屬性的海量數(shù)據(jù)集合。認(rèn)識 大數(shù)據(jù)大數(shù)據(jù)的特征分析角度 大數(shù)據(jù)產(chǎn)生 (重點(diǎn)) 互聯(lián)網(wǎng)思維 大數(shù)據(jù)存儲計(jì)算特征 大量(Volume) 樣本趨于整體 分布式存儲多樣(Variety) 精確讓位模糊 低價(jià)值密度(Value) 相關(guān)性重于因果 分布式并行計(jì)算高速(Velocity) 數(shù)據(jù)處理05-2數(shù)據(jù)處理的一般過程數(shù)據(jù)分析05-3數(shù)據(jù)分析特征探索:對數(shù)據(jù)進(jìn)行預(yù)處理發(fā)現(xiàn)和處理缺失值、異常值繪制直方圖觀察分析數(shù)據(jù)的分布特征求最大、最小值、極差等描述性統(tǒng)計(jì)值數(shù)據(jù)分析關(guān)聯(lián)分析:分析并發(fā)現(xiàn)存在于大量數(shù)據(jù)之間的關(guān)聯(lián)性或相關(guān)性,從而描述一個事物中的某些屬性同時(shí)出現(xiàn)的規(guī)律和模式。數(shù)據(jù)分析聚類分析:人們不需要事先給出分類標(biāo)準(zhǔn),聚類分析能從樣本數(shù)據(jù)出發(fā),自動分類。K-Means(K-平均)算法是經(jīng)典的自上而下的聚類分析算法。基本思想為:初始隨機(jī)選擇聚集點(diǎn),通過迭代計(jì)算距離,更新中心點(diǎn),直到達(dá)到迭代次數(shù)或中心點(diǎn)不再波動為止。以此達(dá)到“物以類聚,人以群分”的效果。數(shù)據(jù)分析數(shù)據(jù)分類:最基本的方法,與回歸分析一樣可用于預(yù)測。需要事先給出分類標(biāo)準(zhǔn),基于樣本數(shù)據(jù)訓(xùn)練分類器。貝葉斯分類技術(shù)數(shù)據(jù)可視化05-4數(shù)據(jù)可視化數(shù)據(jù)可視化:快速抓住要點(diǎn)信息。種類繁多,根據(jù)處理數(shù)據(jù)類型的不同,選擇合適的可視化呈現(xiàn)方式。數(shù)據(jù)可視化表達(dá)工具:繪圖工具:Matplolib統(tǒng)計(jì)模型可視化:Seaborn;交互式可視化:Bokeh.數(shù)據(jù)可視化總結(jié) 展開更多...... 收起↑ 資源預(yù)覽 縮略圖、資源來源于二一教育資源庫