資源簡介 (共18張PPT)去哪兒旅游?——數據的采集必修一《數據與計算》第五章 數據處理和可視化表達長安北京中國是一個地域遼闊的,擁有豐富的旅游資源。從南到北,從東到西,都有不同的自然景觀和人文景觀。同時各具特色的美味佳肴更是讓你流連忘返。探究數據的來源廣泛(主要指互聯網和物聯網)、類型豐富、規模巨大。采集數據首先要明確數據應用項目的需求,圍繞選定的項目主體,制定數據采集的需求清單和內容大綱,再采用適當的方法和工具進行采集。數據的采集對于企業生產經營或科學研究等保密性要求較高的數據,可通過與企業或研究機構合作,使用特定系統接口等相關方式收集數據。其他數據采集法網絡數據采集是指通過網絡爬蟲或網站公開API等方式從網站上獲取數據信息。該方法可以將非結構化數據從網頁中抽取出來,將其存儲為統一的本地數據文件,并以結構化的方式存儲。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關聯。網絡數據采集法系統日志包括操作日志、應用程序和安全日志。通過日志服務器可以監視系統中發生的事件,可以檢查錯誤發生的原因,或者尋找受到攻擊時攻擊者留下的痕跡。系統日志采集法一、數據采集的方法任務一:體驗系統日志采集”去哪兒旅游“——數據的采集探究數據的采集——旅游數據網絡爬取”去哪兒旅游“——數據的采集任務二:采集旅游景點數據探究網絡數據的采集——爬蟲”去哪兒旅游“——數據的采集電影《孤注一擲》片段中提到“爬蟲”探究數據的采集——旅游數據網絡爬取”去哪兒旅游“——數據的采集在眾多的數據采集工具中,Python以其簡潔、開源和包容的特性在數據采集和分析領域獨樹一幟。由于Python可以安裝第三方擴展庫來擴展功能,因此使用Python進行網絡數據采集和分析顯得簡單易用。探究數據的采集——調用第三方擴展庫”去哪兒旅游“——數據的采集import module關鍵字 模塊名from module import name關鍵字 模塊名 關鍵字 方法名form import語句也是導入模塊的一種方法,是導入指定模塊內的指定函數方法。在Python模塊庫中有大量模塊可供使用,要想使用這些文件,就需要用import語句把指定模塊導入當前程序中。探究數據的采集——調用第三方擴展庫”去哪兒旅游“——數據的采集庫名 作用requests 是一個常用的 HTTP 請求庫,可以方便地向網站發送 HTTP 請求,并獲取響應結果。pyquery 是強大而又靈活的網頁解析庫time 是最基礎的時間處理庫pandas 是一個強大的分析結構化數據的工具集。用于數據挖掘和數據分析,同時也提供數據清洗功能。scipy 是一種專用于科學計算中常見問題的工具箱。如插值、積分、優化、圖像處理、統計、特殊函數等。任務三:安裝第三方庫探究二、數據的存儲”去哪兒旅游“——數據的采集存儲數據主要有兩種方式:本地存儲和第三方公共或私有云端存儲本地電腦硬盤存儲卡光盤數據存儲服務器私有云公共云混合云對于用戶而言,無須關注云存儲系統的具體運行,僅需獲取存儲空間,把自己的數據存儲進去。探究三、數據的保護”去哪兒旅游“——數據的采集威脅數據安全因素硬盤損壞操作失誤黑客入侵感染病毒自然災害磁盤陣列防火墻殺毒軟件異地容災數據備份主動防護提高數據安全加密/校驗MD5\CRC\SHA-1校驗方法校驗是為了保證數據完整性加密是為了保證數據保密性數據安全保護技術拷貝備份復制鏡像持續備份探究三、數據的保護”去哪兒旅游“——數據的采集數據隱私保護數據的隱私保護,形勢越發嚴峻。探究三、數據的保護”去哪兒旅游“——數據的采集數據隱私保護技術手段提高自身的保護意識對數據使用者進行道德和法律上的約束探究四、小結”去哪兒旅游“——數據的采集思考:對采集后的數據,采用什么方法進行分析? 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫