資源簡介 (共44張PPT)BIG DATA5.2 數(shù)據(jù)的采集第五章SHU · JU · DE · CAI · JI”授課人:xxx知識回顧新授處理數(shù)據(jù)的一般過程:數(shù)據(jù)采集數(shù)據(jù)分析數(shù)據(jù)可視化表達(dá)新授處理數(shù)據(jù)的一般過程:數(shù)據(jù)采集數(shù)據(jù)分析數(shù)據(jù)可視化表達(dá)數(shù)據(jù)采集的方法和工具數(shù)據(jù)的存儲和保護(hù)ONE數(shù)據(jù)采集的方法和工具01數(shù)據(jù)采集的方法和工具什么是數(shù)據(jù)采集1體驗(yàn)數(shù)據(jù)采集的過程2數(shù)據(jù)采集的方法和工具3”””什么是數(shù)據(jù)采集數(shù)據(jù)采集:根據(jù)需求采用適當(dāng)?shù)姆椒ê凸ぞ攉@取數(shù)據(jù)。如:將文字錄入電腦——鍵盤打字、掃描儀掃描記錄課堂活動——照相機(jī)拍照、攝像機(jī)攝像等記錄一段聲音——麥克風(fēng)錄音體驗(yàn)數(shù)據(jù)采集問:如何記錄全班同學(xué)當(dāng)前的體溫?需要獲取什么數(shù)據(jù)?溫度怎么獲???測溫儀/體溫計(jì)為什么能夠獲取?溫度傳感器/液體金屬熱脹冷縮如何記錄獲取到的數(shù)據(jù)?填紙質(zhì)表、問卷星登記等數(shù)據(jù)采集的過程明確數(shù)據(jù)應(yīng)用項(xiàng)目的需求圍繞選定的項(xiàng)目主題,制定數(shù)據(jù)采集的需求清單和內(nèi)容大綱01采用適當(dāng)?shù)姆椒ê凸ぞ?br/>針對不同的數(shù)據(jù)類型,選擇適當(dāng)?shù)墓ぞ吆头椒ǎ杉瘮?shù)據(jù)02數(shù)據(jù)的存儲和保護(hù)要選擇合適的存儲方式并注意數(shù)據(jù)安全03數(shù)據(jù)采集的方法和工具系統(tǒng)日志采集法數(shù)據(jù)采集的基本方法:網(wǎng)絡(luò)數(shù)據(jù)采集法其他數(shù)據(jù)采集法數(shù)據(jù)采集的方法和工具系統(tǒng)日志采集法1.什么是系統(tǒng)日志?2.系統(tǒng)日志采集數(shù)據(jù)的方法是怎樣的?數(shù)據(jù)采集的方法和工具系統(tǒng)日志采集法1.什么是系統(tǒng)日志?在信息系統(tǒng)中,系統(tǒng)日志是記錄系統(tǒng)中硬件、軟件和系統(tǒng)問題的信息文件。包括操作系統(tǒng)日志、應(yīng)用程序日志、安全日志。數(shù)據(jù)采集的方法和工具系統(tǒng)日志采集法2.系統(tǒng)日志采集數(shù)據(jù)的方法是怎樣的?在目標(biāo)主機(jī)安裝一個小程序,將其上的文本、應(yīng)用程序、數(shù)據(jù)庫等日志信息有選擇地定向推送到日志服務(wù)器上進(jìn)行存儲、監(jiān)控和管理。數(shù)據(jù)采集的方法和工具其他數(shù)據(jù)采集法如:傳感器采集數(shù)據(jù)手機(jī)、智能手環(huán)等內(nèi)置了多種傳感器數(shù)據(jù)采集的方法和工具網(wǎng)絡(luò)數(shù)據(jù)采集法指通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API(應(yīng)用程序接口)等方式從網(wǎng)站上獲取數(shù)據(jù)信息。網(wǎng)絡(luò)爬蟲數(shù)據(jù)采集的方法和工具網(wǎng)絡(luò)數(shù)據(jù)采集法指通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API(應(yīng)用程序接口)等方式從網(wǎng)站上獲取數(shù)據(jù)信息。網(wǎng)絡(luò)爬蟲數(shù)據(jù)采集的方法和工具請觀看視頻:《網(wǎng)絡(luò)爬蟲到底是什么,學(xué)這個真的是“從入門到入獄”嗎?》思考如下問題:1.什么是網(wǎng)絡(luò)爬蟲?2.網(wǎng)絡(luò)爬蟲的應(yīng)用有哪些?3.網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)的流程是怎樣的?4.Robots協(xié)議是什么?5.使用什么工具編寫爬蟲數(shù)據(jù)采集的方法和工具1.什么是網(wǎng)絡(luò)爬蟲?程序腳本可以用它來瀏覽網(wǎng)頁收集有用的數(shù)據(jù)數(shù)據(jù)采集的方法和工具1.什么是網(wǎng)絡(luò)爬蟲?網(wǎng)絡(luò)爬蟲:又稱網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)螞蟻、網(wǎng)絡(luò)機(jī)器人等。按照人們事先制定的爬取規(guī)則,可以代替人們自動地在互聯(lián)網(wǎng)中進(jìn)行數(shù)據(jù)的采集與整理。即:可以自動采集網(wǎng)絡(luò)數(shù)據(jù)的程序數(shù)據(jù)采集的方法和工具2.網(wǎng)絡(luò)爬蟲的應(yīng)用有哪些?數(shù)據(jù)采集的方法和工具3.網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)的流程是怎樣的?數(shù)據(jù)采集的方法和工具3.網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)的流程是怎樣的?獲取網(wǎng)頁的URL爬取網(wǎng)頁的內(nèi)容分析網(wǎng)頁的內(nèi)容提取有用的數(shù)據(jù)獲取其他的URL,重復(fù)前面的步驟,直到滿足停止條件數(shù)據(jù)采集的方法和工具4.Robots協(xié)議是什么?規(guī)定了:哪些數(shù)據(jù)可爬取哪些不可以數(shù)據(jù)采集的方法和工具注意:網(wǎng)絡(luò)爬蟲的合法性若采集的數(shù)據(jù)是個人使用,不違法若采集的數(shù)據(jù)使用時涉及商業(yè)盈利范疇,可能違法數(shù)據(jù)采集的方法和工具5.使用什么工具編寫爬蟲?數(shù)據(jù)采集的方法和工具5.使用什么工具編寫爬蟲?使用Python語言的第三方庫來實(shí)現(xiàn)爬蟲編寫使用到的庫:requests庫——獲取網(wǎng)頁信息bs4庫(beautifulsoup)——解析HTML頁面xlwt庫——調(diào)用Excel模塊,將獲取的有用信息寫入表格文件保存數(shù)據(jù)采集的方法和工具演示:使用Python語言的第三方庫來實(shí)現(xiàn)爬蟲編寫數(shù)據(jù)采集的方法和工具網(wǎng)絡(luò)爬蟲工具采集器:八爪魚采集器火車采集器后羿采集器TWO數(shù)據(jù)的存儲和保護(hù)02數(shù)據(jù)的存儲和保護(hù)數(shù)據(jù)的存儲1數(shù)據(jù)的保護(hù)2””數(shù)據(jù)的存儲本地存儲云存儲兩種方式數(shù)據(jù)的保護(hù)數(shù)據(jù)的安全隱患無處不在,一旦泄露或丟失,造成的損失和影響將是巨大的。數(shù)據(jù)的保護(hù)數(shù)據(jù)安全保護(hù)技術(shù)保護(hù)數(shù)據(jù)的方法:數(shù)據(jù)的隱私保護(hù)數(shù)據(jù)的保護(hù)數(shù)據(jù)備份拷貝/FTP備份復(fù)制技術(shù)鏡像技術(shù)持續(xù)備份數(shù)據(jù)加密對稱式加密非對稱式加密”數(shù)據(jù)安全保護(hù)技術(shù)數(shù)據(jù)的保護(hù)數(shù)據(jù)的隱私保護(hù)技術(shù)手段數(shù)據(jù)采集時進(jìn)行數(shù)據(jù)精度處理數(shù)據(jù)共享時進(jìn)行訪問控制數(shù)據(jù)發(fā)布時進(jìn)行人工干擾數(shù)據(jù)分析時進(jìn)行匿名處理等提高自身的保護(hù)意識對數(shù)據(jù)使用者進(jìn)行道德和法律上的約束課堂小結(jié)課堂練習(xí)1.因疫情防控需要,學(xué)校要求學(xué)生家長及時上報(bào)體溫、行程等數(shù)據(jù),匯總后上報(bào)上級防控部門,采集上述數(shù)據(jù)最為高效的方法是( )。A.填寫在線收集表 B.填寫紙質(zhì)表格C.發(fā)送電子郵件 D.打電話上報(bào)A.填寫在線收集表A課堂練習(xí)2.數(shù)據(jù)來源廣泛,采集方式也多種多樣。以下不屬于數(shù)據(jù)采集過程的是( )。A.計(jì)算機(jī)服務(wù)器自動保存運(yùn)行日志,方便故障排查、入侵檢測B.利用電子表格數(shù)據(jù)透表對比網(wǎng)店商品銷售情況C.企業(yè)網(wǎng)站調(diào)用中國天氣網(wǎng)開放API(應(yīng)用程序接口)獲取天氣數(shù)據(jù)D.用紅外測溫槍測量體溫B.利用電子表格數(shù)據(jù)透表對比網(wǎng)店商品銷售情況B課堂練習(xí)3.在大數(shù)據(jù)時代,網(wǎng)絡(luò)信息的采集是一項(xiàng)重要的工作,如果單純靠人力進(jìn)行網(wǎng)絡(luò)信息采集,不僅低效繁瑣,搜集的成本也會提高。此時,我們可以合法使用( )對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行自動采集。A.系統(tǒng)日志 B.網(wǎng)絡(luò)爬蟲C.傳感器 D. 問卷調(diào)查B.網(wǎng)絡(luò)爬蟲B課堂練習(xí)4.通過爬蟲程序可以采集某音樂平臺上歌曲的評論內(nèi)容。關(guān)于爬蟲程序,以下說法錯誤的是( )。A.爬蟲程序,可以采集網(wǎng)絡(luò)數(shù)據(jù)B.只要是你想要的網(wǎng)絡(luò)數(shù)據(jù),都可以用爬蟲程序去采集C.爬蟲程序開始執(zhí)行時,需要一個URL列表作為起始位置D.爬蟲程序采集到的數(shù)據(jù),可以保存為多種格式,如xls、csv等B.只要是你想要的網(wǎng)絡(luò)數(shù)據(jù),都可以用爬蟲程序去采集B課堂練習(xí)5.某品牌智能手環(huán)收集了大量用戶運(yùn)動、健康的數(shù)據(jù)。以下相關(guān)描述錯誤的是( )。A.在大數(shù)據(jù)時代,我們的個人信息時刻存在泄露的風(fēng)險(xiǎn)B.大數(shù)據(jù)時代的海量數(shù)據(jù),使信息、機(jī)密、財(cái)富之間產(chǎn)生緊密關(guān)聯(lián),從而構(gòu)成信息安全的重要因素C.數(shù)據(jù)因素是造成信息安全的風(fēng)險(xiǎn)之一D.隱私泄露的問題是大數(shù)據(jù)時代特有的D.隱私泄露的問題是大數(shù)據(jù)時代特有的D課堂練習(xí)5.(判斷)數(shù)據(jù)在采集、存儲、管理與使用的過程中面臨諸多安全風(fēng)險(xiǎn),為避免風(fēng)險(xiǎn),通常需要進(jìn)行數(shù)據(jù)備份。( )√6. (判斷)網(wǎng)絡(luò)數(shù)采集法,主要通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API的方式獲取,網(wǎng)絡(luò)爬蟲從網(wǎng)頁的HTML開始獲取。( )×BIG DATA那就下次再聊吧~第五章授課人:xxx 展開更多...... 收起↑ 資源列表 5.2 數(shù)據(jù)的采集 課件1.0.pptx 演示 網(wǎng)絡(luò)爬蟲爬取數(shù)據(jù) .mp4 網(wǎng)絡(luò)爬蟲到底是什么? .mp4 縮略圖、資源來源于二一教育資源庫