資源簡介 (共21張PPT)項目回顧項目:典型城市空氣質量變化研究認識大數(shù)據數(shù)據的采集情境導入你能快速地從以下圖片中獲得有用的信息嗎?你能發(fā)現(xiàn)這些數(shù)據的內在結構和規(guī)律呢?數(shù)據分析特征探索索關聯(lián)分析聚類分析數(shù)據分類詞頻分析數(shù)據分析就是在一大批雜亂無章的數(shù)據中,運用數(shù)字化工具和技術,探索數(shù)據內在的結構和規(guī)律,建構數(shù)學模型,并進行可視化表達,通過驗證將模型轉化為知識,為診斷過去和預測未來發(fā)揮作用。數(shù)據分析上節(jié)課,我們采集到了2016~2021年的日空氣質量指數(shù),通過每日空氣質量指數(shù)很難說明問題,因此我們需要計算年平均空氣質量指數(shù),再通過對比才能發(fā)現(xiàn)空氣質量是不是逐年變好。數(shù)據分析特征探索數(shù)據的特征探索的主要任務是對數(shù)據進行預處理,發(fā)現(xiàn)和處理缺失值,異常數(shù)據,繪制直方圖,觀察數(shù)據的分布特征,求最大值、最小值、極差等描述性統(tǒng)計量。數(shù)據預處理特征探索特征值探索數(shù)據預處理數(shù)據預處理沒有標準的流程,通常會根據任務和數(shù)據集屬性的不同而有所差別。請同學們觀察圖片,你發(fā)現(xiàn)圖片中存在什么問題?本次數(shù)據預處理主要介紹去重復值和處理缺失值。數(shù)據預處理1、pandas 庫Pandas庫提供了快速便捷操作大型數(shù)據集的工具、函數(shù)和方法。其中包括讀寫多種文件數(shù)據的函數(shù)和方法,以及處理一位數(shù)組、二維數(shù)組等類似表格數(shù)據的函數(shù)和方法。2、math 庫math是Python提供的內置數(shù)學類函數(shù)庫。數(shù)據預處理#1、讀取原文件#2、去除重復行,保留第一行#3、保存目標文件數(shù)據預處理#1、讀取原文件#2、對列表中每一項進行判斷#若為空值,則替換為其他值#3、保存目標文件特征值探索特征值探索#讀取文件,獲取年份#新表格列標題# mean()函數(shù)逐年求平均值# 添加到列表data中#保存文件課堂活動請各小組參照老師文件中的學習任務單,根據所選城市完成相應活動。活動一:數(shù)據預處理活動二:特征值探索。展示展示運行的結果活動一:體驗數(shù)據預處理程序運后文件夾中多了哪兩個文件:__________________________對比這兩個文件中的數(shù)據與原始數(shù)據的區(qū)別是:______________活動二:體驗特征值探索程序運后文件夾中多了哪一個文件:____________________________通過這個文件內容說明空氣質量發(fā)生什么變化:_________________展示展示運行的結果合肥杭州太原拓展當我們采集的是數(shù)值型數(shù)據時我們可以通過特征探索來發(fā)現(xiàn)數(shù)據內在規(guī)律,但是我們的數(shù)據類型不僅僅是數(shù)值型。當我們采集的數(shù)據是文本數(shù)據是應該怎么分析呢?拓展詞頻分析詞頻分析是對文章正文中重要詞匯出現(xiàn)的次數(shù)進行統(tǒng)計與分析,是文本挖掘的重要手段。1、讀取文本文件2、利用jieba庫進行分詞3、生成詞云圖4、保存為指定圖片文件拓展請同學們完成學習任務單中拓展活動:體驗詞頻分析觀察兩份文件生成的詞云圖有什么區(qū)別,為什么:___________________________________________________拓展觀察兩份文件生成的詞云圖有什么區(qū)別,為什么:課堂小結 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫