資源簡介 (共16張PPT)通過看電影這個主題,學習如何采集到合適的數據,通過分析這些數據,幫助我們更好地決策。第5課 電子表格數據的統計項目:為ta定制一份觀影報告,推薦3部電影被推薦人:媽媽推薦電影1:永不消逝的電波推薦指數:★★★★★推薦理由:愛看諜戰片的你絕對不能錯過這部致敬經典之作,更別說演藝形式是你最愛的舞劇,豆瓣評分高達9.4分哦!看看網友最優質的影評和評論的熱詞吧。“陰森肅穆的舞臺、明暗對比強烈的燈光、節奏緊張的音樂、線條優美的服裝、雙人舞的愛意縫綣、旗袍舞的婀娜多姿、特務的殺氣騰騰,讓人完全挪不開眼……”被推薦人:好友奇多推薦電影3:寶蓮燈推薦指數:★★★★推薦理由:國產動畫良心制作,1999年出品,古典傳說+中國畫風+明星聲優+少年冒險故事+流行歌主題曲……基本上各種成功因素都有了。“媽媽,我長大了!"張信哲的歌一響起,忍不住鼻酸。張信哲的聲音和如此唯美的畫面感覺特別相配,螢火蟲把寶蓮燈點得忽明忽暗的場景讓我永生難忘,太美了……互聯網公司為你推薦電影為你推薦Q:各種視頻平臺如何借助數據,為我們做推薦?APP推薦電影基本原理分析用戶分析電影偵探迷演員控畫面控二次元數據類型2:行為記錄如觀看內容、點贊、評論觀看時長數據類型1:基本信息數據類型2:日志信息:如點贊量、評論數據類型1:基本信息將用戶標簽與影片標簽用算法匹配后為用戶進行推薦本節課目標了解數據處理與應用的全流程用影評數據生成一部電影的標簽詞云圖項目后續3節課依據ta的喜好,采集幾十部相關電影數據,篩選出3部最適合電影,完成報告的撰寫APP推薦電影基本原理數據處理基本流程1234數據采集APP能夠直接獲取到用戶數據,我們需要借助爬蟲采集數據整理刪除掉缺失、重復、錯誤的數據數據分析提取有價值的信息數據可視化選擇適當的方式圖表進行呈現Q:我們從哪里采集影評數據?爬蟲是什么?如何用爬蟲采集數據?網絡爬蟲是什么?爬蟲就是一段程序代碼,幫助我們自動抓取網頁內容爬蟲工作的起點叫做種子,其實就是一個網址,程序訪問這個網址,按照設定的規則采集數據。https://movie.douban.com/subject/26794435/任務1:數據采集+整理1)查看學生文件夾中的《操作流程》,從豆瓣電影網站里選擇一部電影,打開douban_conment.py修改程序中的電影編碼和電影名稱2)修改python代碼,運行后采集短評數據3)查看excel文件采集的評論,刪除掉缺失,重復,錯誤數據任務1:數據采集+整理#使用循環,分次爬取第個頁面的短評數據for i in range(0,page_count):#1.組裝短評頁面的網址url=f'https://movie.douban.com/subject/{douban_id}/comments start={i*20}&limit=20&status=P&sort=new_score'#2.獲取頁面內容print(url)找到種子地址,編寫程序設定規則進行采集任務1:數據采集+整理是否存在缺失,重復,錯誤數據,完成糾錯?豆瓣電影這個數據源,采集到的數據較完整、準確。任務2:數據分析+可視化1)依據數據類型進行分析。統計短評數據中每個詞出現的次數,依據詞頻高低繪制詞云圖。2)完成任務單,思考現有標簽能否幫助我們了解電影的特征,存在什么問題,可以如何優化?項目 內容姓名分析的電影名稱短評詞云圖現有標簽能夠幫助你了解這部電影 的特征嗎?存在什么問題?可以從數據采集、整理、分析、可視化中哪些環節解決這些問題?嘗試提出1個解決方案。豆瓣電影數據統計與分析任務單分析結果與數據源、數據有緊密關系。分享時間Q:如何通過短評數據得出詞頻?jieba模塊幫忙完成文本分詞:Python Jieba[輸入文本]故宮的著名景點包括乾清宮、太和殿和黃琉璃瓦[精確模式]故宮/的/著名景點/包括/乾清宮/、/太和殿/和/黃/琉璃瓦任務2:數據分析+可視化1)依據數據類型進行分析。統計短評數據中每個詞出現的次數,依據詞頻高低繪制詞云圖。2)完成任務單,思考現有標簽能否幫助我們了解電影的特征,存在什么問題,可以如何優化?項目 內容姓名分析的電影名稱短評詞云圖現有標簽能夠幫助你了解這部電影 的特征嗎?存在什么問題?可以從數據采集、整理、分析、可視化中哪些環節解決這些問題?嘗試提出1個解決方案。豆瓣電影數據統計與分析任務單分析結果與數據源、數據有緊密關系。分享時間數據處理基本流程1234數據采集根據結果增加采集的數據量還可采集長評或其他數據源數據整理目前平臺無需清洗數據分析分詞時,合并同義詞按照有用值,給評論賦權重可設定jieba.只提取名詞數據可視化形式上要方便用戶提取高頻詞形成自己的價值判斷貢獻有價值的信息謝謝聆聽 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫