資源簡介 課程基本信息課題數(shù)據(jù)采集教科書書名:信息技術(shù)必修1數(shù)據(jù)與計算出版社:人民教育出版社&中國地圖出版社出版日期:2019年6月教學(xué)目標教學(xué)目標:了解數(shù)據(jù)采集的三個環(huán)節(jié)。掌握數(shù)據(jù)采集通過網(wǎng)絡(luò)和傳感器采集數(shù)據(jù)的基本方法,根據(jù)需求選擇恰當?shù)牟杉椒ú杉瘮?shù)據(jù)。理解搜索引擎和爬蟲采集數(shù)據(jù)的基本原理、通過實踐活動體驗爬蟲采集數(shù)據(jù)的過程。了解網(wǎng)絡(luò)爬蟲的基本安全規(guī)則。教學(xué)重點:數(shù)據(jù)采集的兩種基本方法。教學(xué)難點:使用網(wǎng)絡(luò)爬蟲采集數(shù)據(jù)的過程和原理。教學(xué)過程時間教學(xué)環(huán)節(jié)主要師生活動1分鐘22分鐘2分鐘引入講授新知課堂小結(jié)1、課堂回顧教師:回顧數(shù)據(jù)處理的一般過程。新知識學(xué)習(xí)2.1數(shù)據(jù)采集概念教師:在數(shù)據(jù)處理過程中,數(shù)據(jù)采集是第一步。那么什么叫做數(shù)據(jù)采集?數(shù)據(jù)采集是指根據(jù)需求采用恰當?shù)姆椒ê凸ぞ攉@取所需要的數(shù)據(jù)。那么數(shù)據(jù)采集有哪些方法和工具?這就是本節(jié)課我們要學(xué)習(xí)的內(nèi)容。2.2課堂活動1——體驗采集【體驗采集】教師:數(shù)據(jù)采集理解很簡單,那我們來一起實踐一下吧!各位同學(xué),如果老師問你現(xiàn)在的精確位置是什么?你需要采集什么數(shù)據(jù)才能解答這個問題呢?我想大家都猜出來了,那我們可以獲取下自身所在的經(jīng)緯度啊。教師:第一步,我們確定了自己需要的數(shù)據(jù)是經(jīng)緯度。那么,去那兒找到當前自己位置的經(jīng)緯度呢?請大家思考一下。我想同學(xué)們一定有了自己的答案。我們可以通過手機導(dǎo)航軟件、或者一些其他的手機APP來獲取自己的衛(wèi)星定位,也就知道對應(yīng)的經(jīng)緯度數(shù)據(jù)了。教師:第二步,我們確定了去哪兒獲取經(jīng)緯度數(shù)據(jù)——也就是手機中的一些APP。那么,第三步,這些APP是怎樣獲取到經(jīng)緯度數(shù)據(jù)的呢?請大家猜一猜。我想許多同學(xué)都猜到了,手機有衛(wèi)星定位啊。沒錯,手機中的定位傳感器可以從衛(wèi)星獲取到當前我們手機的經(jīng)緯度數(shù)據(jù),從而確定我們的精確位置。教師:下面,請同學(xué)們一起體驗一下采集自己所在位置的經(jīng)緯度。請大家在應(yīng)用市場尋找一個有定位功能的APP。例如,豆豆指南針。通過這類APP軟件,采集到自己的位置經(jīng)緯度,填寫在任務(wù)單中任務(wù)1的表格里。請大家暫停視頻,開始完成。學(xué)生:下載APP,體驗采集經(jīng)緯度的過程。填寫任務(wù)單。【明確采集經(jīng)歷的環(huán)節(jié)】教師:各位同學(xué),你的精確位置,通過剛才的活動,都獲取到了吧?讓我們一起回顧一下這個活動,我們第一步明確了數(shù)據(jù)需求——經(jīng)緯度,然后確定了數(shù)據(jù)來源——手機APP,最后選擇了采集方法——手機定位傳感器獲取到的定位數(shù)據(jù)。這個過程就是數(shù)據(jù)采集的主要環(huán)節(jié)。2.3傳感器采集教師:剛才我們一直在說定位傳感器,那么什么是傳感器呢?傳感器是能檢測、采集物理世界的各種信息,并將信息轉(zhuǎn)換為電信號形式表示的數(shù)據(jù)采集設(shè)備。2.3.1課堂活動2——生活中的傳感器教師:我們生活中有很多設(shè)備通過傳感器采集數(shù)據(jù)。比如話筒——采集聲音信息,小度音箱——采集語音指令和人交互,智能手環(huán)——采集心跳、運動步數(shù)等數(shù)據(jù),智能門鎖——能夠采集開門人的指紋或者采集門禁卡的信息。那么生活中還有哪些設(shè)備是通過傳感器來采集數(shù)據(jù)的呢?請大家想一想,暫停視頻,完成任務(wù)單中任務(wù)2的表格。將你觀察到的物品名稱寫下來吧!學(xué)生:完成任務(wù)單-任務(wù)2。教師:在剛才的活動中,我相信很多同學(xué)都寫了手機。沒錯,手機中內(nèi)置了豐富的傳感器,所以我們才可以通過導(dǎo)航確定位置、通過搖一搖來網(wǎng)絡(luò)社交、通過指紋識別或人臉識別保護手機中的隱私。教師:那么手機中具體包含了哪些傳感器?還有哪些常見的功能是通過傳感器實現(xiàn)的?我們一起通過一個短片了解下。【播放視頻】2.3.2課堂活動3——手機中的傳感器教師:剛才,視頻中提到了好幾種傳感器和手機的功能。原來手機很多方便的功能都是通過傳感器來實現(xiàn)的。下面,請同學(xué)們閱讀任務(wù)單中的閱讀材料,了解一下手機中各種傳感器的功能吧!請暫停視頻,開始閱讀吧!學(xué)生:閱讀閱讀材料,了解手機中傳感器的功能。教師:通過剛才的閱讀材料,我們對手機中的傳感器有哪些功能有了基本的了解。那么請大家打開手機,觀察并思考一下,手機中的游戲或者APP,有哪些功能通過傳感器實現(xiàn)的?這些傳感器采集了什么數(shù)據(jù)實現(xiàn)了這些功能?請大家好好想一想,然后填寫在任務(wù)單-任務(wù)3的表格中。現(xiàn)在請大家暫停視頻,開始填表吧。學(xué)生:完成任務(wù)單-任務(wù)3。2.4網(wǎng)絡(luò)采集方法——搜索引擎教師:傳感器幫助手機實現(xiàn)了很多豐富的功能。如果我想了解北京現(xiàn)在的天氣情況來確定自己的出行計劃,那么手機能幫我嗎?手機有什么傳感器可以直接獲取天氣情況嗎?貌似不可以啊。那么大家想一想,我們怎么解決這個問題呢?沒錯,大家一定想到了——利用搜索引擎搜一下天氣預(yù)報,或者查看一下手機里的天氣預(yù)報APP。教師:搜索引擎是一種通過網(wǎng)絡(luò)采集數(shù)據(jù)的方式。也是我們慣常使用的工具。那么搜索引擎是怎樣找到這么多信息的呢?它背后的原理是怎樣的?教師:搜索引擎是在浩瀚網(wǎng)絡(luò)數(shù)據(jù)中查找數(shù)據(jù)的重要方式。搜索引擎是怎樣幫我們查到這些數(shù)據(jù)的?它的工作原理是什么?我們一起來了解一下。教師:搜索引擎其實是一種叫做SPIDER,也就是蜘蛛爬蟲的程序。互聯(lián)網(wǎng)的網(wǎng)頁信息通過超級鏈接相互連接的,有點像一張互相連接的大型蜘蛛網(wǎng)。搜索引擎會在互聯(lián)網(wǎng)上通過超級鏈接爬取能夠訪問的所有網(wǎng)頁信息。然后將這些網(wǎng)頁信息進行關(guān)鍵詞的識別、緩存,最后生成自己的索引,存到索引庫。當用戶在搜索欄鍵入自己的搜索關(guān)鍵詞時,搜索引擎程序會訪問自己的索引庫,按照一定的標準檢索出結(jié)果,并將結(jié)果呈現(xiàn)給用戶。教師:所以,搜索引擎對數(shù)據(jù)的處理過程是爬取數(shù)據(jù)、緩存數(shù)據(jù)、檢索查詢、呈現(xiàn)結(jié)果。這類搜索引擎爬蟲能夠爬取各式各樣的網(wǎng)頁內(nèi)容,將包含關(guān)鍵詞的結(jié)果呈現(xiàn)給用戶。這種所有網(wǎng)頁都可以爬取的爬蟲程序,也叫作通用爬蟲。教師:搜索引擎給出的檢索結(jié)果通常非常多。在眾多的結(jié)果中,我們應(yīng)當怎樣選擇才能獲取到最權(quán)威、最準確可信的數(shù)據(jù)呢?比如這里這個需求,分析北京市空氣污染指數(shù)在2015-2020年的變化情況。需要我們獲取這個時間段的空氣質(zhì)量數(shù)據(jù)。在中華人民共和國生態(tài)環(huán)境部和一個個人搭建的天氣歷史數(shù)據(jù)網(wǎng)站都可以找到。那么你會選擇哪一個網(wǎng)站的數(shù)據(jù)呢?我相信同學(xué)們一定會選擇官方的數(shù)據(jù)來源。更權(quán)威、更可靠的數(shù)據(jù)來源可以確保數(shù)據(jù)的真實性、可靠性。2.5網(wǎng)絡(luò)采集——爬蟲(聚焦爬蟲)教師:回到我們的問題中來,如果我們想了解北京的天氣情況來確定出行,手機能幫到我們嗎?我們剛才提到了可以通過手機APP來獲取天氣預(yù)報。那么手機APP中的天氣數(shù)據(jù)是從哪里來的呢?其實,一般網(wǎng)站、手機APP中的天氣信息,都是從氣象局發(fā)布數(shù)據(jù)的網(wǎng)站爬取的。這種從特定網(wǎng)站抓取特定內(nèi)容的爬蟲,叫做聚焦爬蟲。教師:爬蟲也是通過網(wǎng)絡(luò)采集數(shù)據(jù)的方法之一。聚焦爬蟲采集數(shù)據(jù)的步驟通常第一步分析網(wǎng)頁(也就是找到數(shù)據(jù)所在的網(wǎng)頁,分析網(wǎng)頁特點,找到數(shù)據(jù)在網(wǎng)頁中的位置),第二步,抓取網(wǎng)頁(將包含數(shù)據(jù)的網(wǎng)頁內(nèi)容爬取下來),第三步,過濾數(shù)據(jù)(從網(wǎng)頁的眾多數(shù)據(jù)中篩選出目標數(shù)據(jù)),第四步,保存數(shù)據(jù)(將目標數(shù)據(jù)保存下來,以便使用)2.5.1課堂活動4——體驗爬蟲程序教師:下面,我們一起來體驗下利用爬蟲程序在中國天氣網(wǎng)爬取本地最近天氣預(yù)報的數(shù)據(jù),并將采集的數(shù)據(jù)保存為一個CSV文件的整個過程。教師:首先,請大家下載資源包中的抓取天氣.py文件,開始運行程序。運行結(jié)束,程序所在目錄會生成抓取到的數(shù)據(jù)文件weather.csv。這里默認城市是北京市。請大家暫停視頻,開始嘗試吧!學(xué)生:下載代碼、運行程序,體驗爬取過程和結(jié)果。教師:大家應(yīng)該都看到運行結(jié)果啦!可是這段程序是怎么實現(xiàn)爬取數(shù)據(jù)的呢?我們一起把過程完整地梳理一遍吧!第一步,我們要分析網(wǎng)頁,打開中國天氣網(wǎng)北京市7天天氣情況的網(wǎng)頁,我們可以看到要抓取的內(nèi)容。教師:如果按下F12鍵,通過瀏覽器的調(diào)試模式查看網(wǎng)頁源碼,我們會發(fā)現(xiàn)我們需要的數(shù)據(jù)都對應(yīng)在html的不同標簽里,而且存在一定規(guī)律,比如13日的數(shù)據(jù)和14日的數(shù)據(jù)所在標簽是相同的。那么我們只要找到這些html的標簽,就可以取到其中的數(shù)據(jù)內(nèi)容了。教師:在分析好頁面之后,就該抓取網(wǎng)頁了。我們看一下代碼中的自定義函數(shù)get_content函數(shù)。這個函數(shù)實現(xiàn)的功能就是對參數(shù)url指定的網(wǎng)頁地址進行訪問,把訪問到的html內(nèi)容完全抓取下來。教師:數(shù)據(jù)抓好之后,下一步就是過濾數(shù)據(jù)了。我們看代碼中的自定義函數(shù)get_data就是把參數(shù)給的內(nèi)容進行過濾,篩選出來留下指定標簽容器里的數(shù)據(jù)。教師:數(shù)據(jù)篩選好之后,我們就要保存數(shù)據(jù)了。請看代碼中的自定義函數(shù)write_data,這個函數(shù)實現(xiàn)了將參數(shù)data中的內(nèi)容保存到指定名稱的文件里,也就是name參數(shù)指定的文件名。教師:最后我們就要把幾步的過程挨個執(zhí)行了。在程序的主函數(shù)部分,我們看到url變量指定了北京市最近7天的天氣預(yù)報網(wǎng)頁地址。下面是分別調(diào)用三個函數(shù)的過程。請大家在中國天氣網(wǎng)找到你所在城市或地區(qū)的7天天氣情況的網(wǎng)頁地址,將其賦值給url,嘗試抓取你指定城市或地區(qū)的天氣數(shù)據(jù)。下面,請大家暫停視頻,開始嘗試吧!教師:剛才老師講解的代碼中,頻繁提到了自定義函數(shù)。大家還記得什么是函數(shù)嗎?請參考必修一教科書的60頁,復(fù)習(xí)關(guān)于函數(shù)的內(nèi)容。其實函數(shù)就是一段邏輯相對獨立、功能相對單一的代碼塊。需要的時候,通過函數(shù)名和參數(shù)來調(diào)用,不需要重復(fù)編寫。這樣提高了代碼的可重用性。通常代碼有0個或n個參數(shù),返回0個或n個結(jié)果。比如右側(cè)的代碼示例。我們通過關(guān)鍵詞def定義了一個函數(shù)add,并且add函數(shù)有2個參數(shù),就是兩個被加數(shù),函數(shù)體內(nèi)定義了這個函數(shù)的功能代碼,也就是將兩個被加數(shù)求和后返回。使用自定義函數(shù)和使用原生函數(shù)的方法是一樣的,我相信大家很熟悉。2.5.2課堂活動5——體驗爬蟲軟件教師:通過剛才的體驗活動,可能有的同學(xué)感到爬蟲程序?qū)懫饋砗脧?fù)雜。的確,爬蟲的門檻較高,自行編寫需要一定的編程基礎(chǔ)。那么是否有更方便的爬取工具呢?的確有。那就是可視化的爬蟲軟件,比如市面上常見的搜集客、八爪魚、后羿采集器等。他們都可以通過鼠標點擊、建立爬取規(guī)則,對包含規(guī)律的網(wǎng)頁數(shù)據(jù)進行采集,然后以文件形式保存。教師:下面我們通過后羿采集器來一起體驗下快速方便的爬取過程。2019年流浪地球這部電影很火熱。那么大家的評價如何?我們可以通過影視評價來做出初步的判斷。請大家參考學(xué)習(xí)資料中的操作流程,在豆瓣電影網(wǎng)站找到流浪地球的影評頁面,利用后羿采集器采集100條影評信息,并保存為xls文件?,F(xiàn)在,請暫停視頻,開始嘗試吧!學(xué)生:閱讀后羿采集器的使用說明,采集數(shù)據(jù)。2.5.3爬蟲使用規(guī)范教師:通過剛才的兩個活動,大家嘗試了兩種爬蟲。爬蟲使用起來很方便,可以幫助我們快速從互聯(lián)網(wǎng)山獲取大量數(shù)據(jù),這是否意味著我們可以隨意通過爬蟲爬取想要的數(shù)據(jù)呢?答案是NO。教師:使用爬蟲,我們需要遵守robots.txt協(xié)議,比如豆瓣電影的根目錄下會存放這個該網(wǎng)站的協(xié)議內(nèi)容。我們打開,就可以看到,這里定義了很多目錄不允許爬蟲爬取。另外,還干脆定義了一些爬蟲不允許爬取整個網(wǎng)站的任何內(nèi)容。除了robots.txt協(xié)議,我們使用爬蟲不能對網(wǎng)站惡意爬取,也就是頻繁爬取,耗費網(wǎng)站服務(wù)器的資源,這樣會導(dǎo)致正常訪問受到影響。另外,爬取的數(shù)據(jù)不能侵犯個人隱私、也不能爬取用于不正當競爭的數(shù)據(jù)、爬取到的數(shù)據(jù)不能侵犯商業(yè)秘密等。教師:另外,各位同學(xué)一定需要了解的是,根據(jù)《中華人民共和國網(wǎng)絡(luò)安全法》以及最新刑事司法解釋,非法提供和非法獲取公民個人信息構(gòu)成犯罪的都可以入刑。所以我們使用爬蟲,也一定要遵守相關(guān)法律法規(guī)。2.6網(wǎng)絡(luò)采集——問卷調(diào)查教師:剛才我們學(xué)習(xí)到網(wǎng)絡(luò)采集方法有搜索引擎和爬蟲。這些都是采集網(wǎng)絡(luò)上現(xiàn)有的數(shù)據(jù),那么如果網(wǎng)絡(luò)上沒有的數(shù)據(jù),比如和人相關(guān)的數(shù)據(jù)。我們該如何采集?例如,你所在學(xué)校同學(xué)們的課外時間是怎樣分配的?課外娛樂項目、娛樂時長、課外學(xué)業(yè)負擔、做作業(yè)的時長等,這種數(shù)據(jù)我們可以通過調(diào)查問卷的形式采集。教師:在線調(diào)查問卷有很多現(xiàn)成的、免費的工具。比如問卷星、問卷網(wǎng)、騰訊問卷等。2.7課后作業(yè)教師:下面就給大家安排一個線下的課后作業(yè)。請大家了解下身邊的高中生門課余時間是怎樣規(guī)劃的?這里請大家參考學(xué)習(xí)資料包中關(guān)于在線調(diào)查問卷的說明,設(shè)計一個在線調(diào)查問卷。調(diào)查問題可參考下表,也可以自行規(guī)劃。學(xué)生:課后實施調(diào)查問卷規(guī)劃和數(shù)據(jù)采集。3、課堂小結(jié)教師:下面,我們一起回顧下這節(jié)課的內(nèi)容。這節(jié)課,我們了解了什么是數(shù)據(jù)采集,數(shù)據(jù)采集的步驟。數(shù)據(jù)采集首先要明確數(shù)據(jù)需求,也就是知道自己要找什么數(shù)據(jù)。接著,要確定數(shù)據(jù)來源,也就是明確去哪兒找數(shù)據(jù)。最后,需要選擇采集方法,也就是確定怎么找到數(shù)據(jù)。教師:我們了解了常見的數(shù)據(jù)采集方法。第一種是通過傳感器采集,這種方法可以采集物理世界的數(shù)據(jù)。第二種是網(wǎng)絡(luò)采集,網(wǎng)絡(luò)采集有三種具體方式。搜索引擎可以采集網(wǎng)絡(luò)中已有的網(wǎng)頁數(shù)據(jù),數(shù)據(jù)繁多,但是不夠精確。還需要我們在搜索結(jié)果中篩選。爬蟲程序可以幫我們精確抓取特定網(wǎng)站的特定數(shù)據(jù),特點是精確。調(diào)查問卷可以幫我們采集網(wǎng)絡(luò)上沒有的、需要人提供的數(shù)據(jù)。今天我們的學(xué)習(xí)就到這里,謝謝大家!(共40張PPT)數(shù)據(jù)采集(第二十二課時)回顧數(shù)據(jù)處理一般過程數(shù)據(jù)采集數(shù)據(jù)整理數(shù)據(jù)分析數(shù)據(jù)呈現(xiàn)什么是數(shù)據(jù)采集數(shù)據(jù)獲取的過程——數(shù)據(jù)采集數(shù)據(jù)采集指根據(jù)需求采用適當?shù)姆椒ê凸ぞ攉@取所需要的數(shù)據(jù)。課堂活動1:體驗采集你知道自己現(xiàn)在的精確位置嗎?思考:需要采集什么數(shù)據(jù)?經(jīng)緯度課堂活動1:體驗采集你知道自己現(xiàn)在位置的精確位置嗎?思考:去哪兒找到當前經(jīng)緯度?手機導(dǎo)航、手機APP課堂活動1:體驗采集你知道自己現(xiàn)在位置的精確位置嗎?思考:APP怎么獲取到經(jīng)緯度數(shù)據(jù)?手機定位傳感器課堂活動1:體驗采集活動內(nèi)容:下載一個定位APP,確定自己的經(jīng)緯度。例如:豆豆指南針暫停視頻,填寫任務(wù)單-任務(wù)1中的表格活動回顧手機是怎樣實現(xiàn)定位我們的精確位置的?找什么——明確數(shù)據(jù)需求——經(jīng)緯度去哪兒找——確定數(shù)據(jù)來源——手機APP怎么找——選擇采集方法——手機定位傳感器傳感器采集傳感器是能檢測、采集物理世界的各種信息,并將信息轉(zhuǎn)換為電信號形式表示的數(shù)據(jù)采集設(shè)備。課堂活動2:尋找傳感器我們生活中還有哪些通過傳感器采集數(shù)據(jù)的物品呢?(任務(wù)單-任務(wù)2)課堂活動2:尋找傳感器手機中的傳感器手機中的傳感器陀螺儀重力傳感器加速度傳感器指紋傳感器攝像頭電磁傳感器距離傳感器光線傳感器暫停視頻請閱讀任務(wù)單中閱讀材料,了解手機中的傳感器的功能。GPS傳感器溫度傳感器麥克風(fēng)氣壓傳感器課堂活動3:手機中的傳感器打開手機,觀察思考,你手機中的游戲或應(yīng)用app,思考:1、APP中有哪些功能?2、該功能運用了什么傳感器?3、該傳感器采集什么數(shù)據(jù)實現(xiàn)了該功能?試一試:你能舉出3個例子嗎?填在表格中(任務(wù)單-任務(wù)3)新問題傳感器幫助手機實現(xiàn)了很多功能。如果我想了解北京今天的天氣情況來確定出行,手機能幫到我嗎?通過搜索引擎、天氣類APP查找天氣情況。網(wǎng)絡(luò)采集方法——搜索引擎網(wǎng)絡(luò)采集方法——搜索引擎網(wǎng)絡(luò)采集方法——搜索引擎搜索引擎spider——通用爬蟲爬取數(shù)據(jù)檢索查詢緩存數(shù)據(jù)呈現(xiàn)結(jié)果STEP1STEP3STEP2STEP4網(wǎng)絡(luò)采集方法——搜索引擎搜索引擎給出的數(shù)據(jù)檢索結(jié)果非常多。怎樣選擇才能獲取最有權(quán)威、最準確的數(shù)據(jù)呢?需求:分析北京市空氣污染指數(shù)2015-2020年的變化情況這些空氣質(zhì)量數(shù)據(jù)在這2個網(wǎng)站都可以找到?如何選擇?網(wǎng)絡(luò)采集方法——爬蟲手機APP里的天氣數(shù)據(jù)從哪來來的?一般網(wǎng)站、手機APP中的天氣信息,都是從氣象網(wǎng)站爬取的聚焦爬蟲網(wǎng)絡(luò)采集方法——爬蟲聚焦爬蟲采集的數(shù)據(jù)過程04020103分析網(wǎng)頁抓取網(wǎng)頁過濾數(shù)據(jù)保存數(shù)據(jù)課堂活動4:體驗爬蟲在中國天氣網(wǎng)爬取本地最近的天氣預(yù)報,將抓取的最近7天天氣數(shù)據(jù)存入一個csv文件。課堂活動4:體驗爬蟲活動說明:1、下載抓取天氣.py2、運行代碼在程序所在目錄會生成抓取到的數(shù)據(jù)文件weather.csv默認城市是北京市。SETP1:分析網(wǎng)頁SETP1:分析網(wǎng)頁STEP2:抓取網(wǎng)頁抓取網(wǎng)頁html——get_content函數(shù)STEP3:過濾數(shù)據(jù)過濾html中的目標數(shù)據(jù)——get_data函數(shù)SETP4:保存數(shù)據(jù)將過濾后的數(shù)據(jù)保存為csv文件——write_data函數(shù)STEP5:實施采集直接運行程序,在指定的url抓取網(wǎng)頁、過濾數(shù)據(jù)、保存數(shù)據(jù)提示:修改爬取的url,嘗試抓取中國天氣網(wǎng)上其他城市的7天天氣情況。知識補充——函數(shù)函數(shù)是邏輯相對獨立、功能相對單一的代碼塊。需要時直接調(diào)用,不必重寫,提高代碼可重用性。(參考教材P60關(guān)于函數(shù)的定義)通常函數(shù)有0-N個參數(shù),返回0-N個結(jié)果爬蟲軟件可視化爬蟲軟件集搜客八爪魚后羿采集器課堂任務(wù)5:體驗爬蟲軟件這部國產(chǎn)科幻片反響如何?下載安裝軟件——后羿采集器在豆瓣電影找到流浪地球電影參考學(xué)習(xí)資料中的操作流程,實現(xiàn)采集100條影評數(shù)據(jù)爬蟲使用規(guī)范爬蟲使用起來很方便可以快速從互聯(lián)網(wǎng)上獲取到大量數(shù)據(jù)是否我們可以隨意爬取想要的數(shù)據(jù)呢?爬蟲使用規(guī)范遵守robots.txt協(xié)議禁止:惡意爬取侵犯個人隱私爬取信息用于不正當競爭侵犯商業(yè)秘密遵守相關(guān)法律法規(guī)根據(jù)《中華人民共和國網(wǎng)絡(luò)安全法》以及最新刑事司法解釋規(guī)定“非法提供”和“非法獲取”公民個人信息構(gòu)成犯罪的都可以入刑。網(wǎng)絡(luò)爬蟲功能強大便捷,但是我們使用時,一定要遵守相關(guān)法律法規(guī)。網(wǎng)絡(luò)采集方法:調(diào)查問卷網(wǎng)上有的數(shù)據(jù),我們可以通過搜索引擎查找、爬蟲爬取。如果網(wǎng)上沒有的數(shù)據(jù)呢?例如:你所在學(xué)校同學(xué)們的課外時間分配情況,課外娛樂時長和課外學(xué)業(yè)負擔如何?這種數(shù)據(jù)我們可以通過調(diào)查問卷形式采集。網(wǎng)絡(luò)采集方法:調(diào)查問卷在線調(diào)查問卷工具問卷星、問卷網(wǎng)、騰訊問卷、問卷小程序等。課后作業(yè)你身邊的高中生課余時間是怎樣規(guī)劃安排的?學(xué)業(yè)負擔重嗎?都有哪些娛樂?請參考資源包關(guān)于在線調(diào)查問卷的說明,設(shè)計一個在線調(diào)查,了解身邊同學(xué)課余時間安排,可參考下表,也可自行規(guī)劃調(diào)查內(nèi)容。課后時間調(diào)查表(單位:分鐘)序號姓名寫作業(yè)戶外活動玩手機/上網(wǎng)看電視……1小明60120150302課堂小結(jié)找什么去哪兒找怎么找明確數(shù)據(jù)需求確定數(shù)據(jù)來源選擇采集方法數(shù)據(jù)采集步驟課堂小結(jié)數(shù)據(jù)采集方法傳感器采集網(wǎng)絡(luò)采集搜索引擎爬蟲調(diào)查問卷采集已有網(wǎng)頁數(shù)據(jù)精確抓取網(wǎng)絡(luò)數(shù)據(jù)需要人提供的數(shù)據(jù)采集物理世界的數(shù)據(jù)課程基本信息課題數(shù)據(jù)采集教科書書名:信息技術(shù)必修1數(shù)據(jù)與計算出版社:人民教育出版社&中國地圖出版社出版日期:2019年6月學(xué)生信息姓名學(xué)校班級學(xué)號課后練習(xí)你身邊的高中生課余時間是怎樣規(guī)劃安排的?學(xué)業(yè)負擔重嗎?都有哪些娛樂?請參考資源包關(guān)于在線調(diào)查問卷的說明,設(shè)計一個在線調(diào)查,了解身邊同學(xué)課余時間安排,可參考下表,也可自行規(guī)劃調(diào)查內(nèi)容。提示:在線調(diào)查問卷工具有很多,如問卷星、問卷網(wǎng)、騰訊問卷等。請同學(xué)們自行注冊、熟悉選中的在線調(diào)查工具如何使用,并利用工具現(xiàn)有功能完成課后練習(xí)。課后時間調(diào)查表(單位:分鐘)序號姓名寫作業(yè)戶外活動玩手機/上網(wǎng)看電視小明6012015030自主學(xué)習(xí)任務(wù)單學(xué)習(xí)指南課題名稱:數(shù)據(jù)采集學(xué)習(xí)目標:了解數(shù)據(jù)采集的基本環(huán)節(jié);理解數(shù)據(jù)采集的兩種基本方式;了解搜索引擎和爬蟲程序的工作原理;了解爬蟲使用應(yīng)遵循的規(guī)范和法律規(guī)則。本節(jié)知識點思維導(dǎo)圖:學(xué)習(xí)任務(wù)課前測驗:常用搜索引擎有:請列舉一個調(diào)查問卷工具:能夠計步的工具有:任務(wù)1:你能知道自己當前的精確位置嗎?嘗試下載一個指南針類的手機APP,例如豆豆指南針,找到自己位置的經(jīng)緯度。安裝的APP我的經(jīng)度我的維度拓展思考:經(jīng)緯度這個數(shù)據(jù)可以實現(xiàn)哪些實用的功能?任務(wù)2:生活中有哪些物品或設(shè)備是利用傳感器來采集數(shù)據(jù)的?請舉3個例子。設(shè)備1設(shè)備2設(shè)備3任務(wù)3:閱讀拓展材料,了解手機中的傳感器功能。打開手機,觀察思考,你手機中的游戲、應(yīng)用中都有哪些功能?運用了什么傳感器?采集了什么數(shù)據(jù)?你能舉出3個例子嗎?(例如微信搖一搖找朋友的功能,利用重力傳感器和加速度傳感器、GPS傳感器,采集了GPS定位、手機搖晃的動作數(shù)據(jù)。)應(yīng)用中的功能使用到的傳感器采集到的數(shù)據(jù)任務(wù)4:觀看網(wǎng)課,體驗爬蟲,爬取中國天氣網(wǎng)上北京市最近的天氣和氣溫情況,存入一個csv文件保存爬取結(jié)果。修改程序url,將北京市改為另一個城市,抓取該城市的天氣和氣溫情況。操作結(jié)果:(成功/失敗)任務(wù)5:下載安裝軟件——后羿采集器。在豆瓣電影找到流浪地球電影。參考學(xué)習(xí)資料中的操作流程,實現(xiàn)采集100條影評數(shù)據(jù)。操作結(jié)果:(成功/失敗)拓展閱讀資料手機傳感器傳感器名稱功能GPS位置傳感器通過天線來接收到衛(wèi)星的坐標信息幫用戶定位距離傳感器距離傳感器通常安放在手機聽筒旁邊,用來檢測手機正面與其他物體的距離。如果距離達到一個閾值,就會自動關(guān)閉屏幕,一則省電,二則防止手機觸摸屏被誤操作。氣壓傳感器一般GPS能計算出你的位置,但對于一些高度上的變化是需要氣壓傳感器來測算。安裝了這種傳感器的手機能測算你一天上了多少個樓層,或是用于室內(nèi)定位等,而內(nèi)部的氣壓傳感器主要是測試設(shè)備封閉程度。光線傳感器光線傳感器就是用來感受周圍光線強弱,可以實現(xiàn)手機屏幕亮度的自動調(diào)節(jié)。溫度傳感器許多智能手機都配置有溫度傳感器,有的還不止一個。區(qū)別就在于它們的目的是監(jiān)測手機內(nèi)部以及電池的溫度。如果發(fā)現(xiàn)某一部件溫度過高,手機就會關(guān)機,防止手機損壞。擴展功能方面,溫度傳感器也能檢測外界空氣中的溫度變化,甚至是用戶當前的體溫。紫外線傳感器某些半導(dǎo)體、金屬或金屬化合物的光電發(fā)射效應(yīng),在紫外線照射下會釋放出大量電子,透過檢測這種放電效應(yīng)可計算出紫外線強度。主要用途也在運動與健康領(lǐng)域。陀螺儀繞一個支點高速轉(zhuǎn)動的剛體稱為陀螺(top)。通常所說的陀螺是特指對稱陀螺,它是一個質(zhì)量均勻分布的、具有軸對稱形狀的剛體,其幾何對稱軸就是它的自轉(zhuǎn)軸。由蒼蠅后翅(退化為平衡棒)仿生得來。傳感陀螺儀用于飛行體運動的自動控制系統(tǒng)中,作為水平、垂直、俯仰、航向和角速度傳感器。指示陀螺儀主要用于飛行狀態(tài)的指示,作為駕駛和領(lǐng)航儀表使用。傳統(tǒng)的慣性陀螺儀都是機械式的,它的精度不是很高,隨著技術(shù)的發(fā)展,現(xiàn)在更多的是利用芯片來實現(xiàn)陀螺儀的功能,一般用在航空航天,手機,導(dǎo)航等高精度,高靈敏度的領(lǐng)域,其結(jié)果也更加復(fù)雜。重力傳感器手機的bai重力傳感器采用彈性敏感du元件制成懸臂式位移器,與采用zhi彈性敏感元件制成的儲能彈簧來驅(qū)動dao電觸點,完成從重力變化到電信號的轉(zhuǎn)換。目前絕大多數(shù)中高端智能手機和平板電腦內(nèi)置了重力傳感器。重力傳感器在手機橫豎的時候屏幕會自動轉(zhuǎn),在玩游戲可以代替上下左右,比如說玩賽車游戲,可以不通過按鍵,將手機平放,左右搖擺就可以代替模擬機游戲的方向左右移動了。加速度傳感器加速度傳感器是一種能夠測量加速力的電子設(shè)備。加速度傳感器一般用在哪里通過測量由于重力引起的加速度,你可以計算出設(shè)備相對于水平面的傾斜角度。通過分析動態(tài)加速度,你可以分析出設(shè)備移動的方式。電磁傳感器測量電阻變化來確定磁場強度,使用時需要搖晃手機才能準確判斷,大多運用在指南針、地圖導(dǎo)航當中。GPS傳感器地球上方特定軌道上運行著24顆GPS衛(wèi)星,它們會不停的向全世界各地廣播自己的位置坐標與時間戳(timestamp,指格林威治奔1970年01月01日0000分00秒到現(xiàn)在為止的總秒數(shù)),手機中的GPS模塊透過衛(wèi)星的瞬間位置來起算,以衛(wèi)星發(fā)射坐標的時間戳與接收時的時間差來計算出手機與衛(wèi)星之間的距離??蛇\用在定位、測速、測量距離與導(dǎo)航等用途。指紋傳感器?目前主流的技術(shù)是電容式指紋傳感器,然而超音波指紋傳感器也有逐漸流行起來趨勢。電容式指紋傳感器作用時,手指是電容的一極、另一極則是硅芯片數(shù)組,透過人體帶有的微電場與電容傳感器之間產(chǎn)生的微電流,指紋的波峰波谷與傳感器之間的距離形成電容高低差,來描繪出指紋的圖形。而超音波指紋傳感器原理也類似,但不會受到汗水、油污的干擾,辨識速度也更為快速。運用在手機中可用來解鎖、加密、支付等等。(以上參考閱讀內(nèi)容來自網(wǎng)絡(luò)整理)【一個爬蟲引起的案件】(以下案例內(nèi)容摘自互聯(lián)網(wǎng)博客https://www.cnblogs.com/ityouknow/p/11684770.html)某一個知名互聯(lián)網(wǎng)公司,突然發(fā)現(xiàn)公司的服務(wù)器連續(xù)幾天壓力倍增,導(dǎo)致公司內(nèi)部系統(tǒng)崩潰不能訪問,公司領(lǐng)導(dǎo)責令技術(shù)部盡快解決。該公司系統(tǒng)平時訪問量一直比較平穩(wěn),但不知為何這幾天系統(tǒng)壓力突然大增,經(jīng)過技術(shù)人員幾天調(diào)查發(fā)現(xiàn)了一個驚人的真相,公司客戶信息被抓取,并且某個接口訪問量巨大。隨著技術(shù)人員的深入調(diào)查發(fā)現(xiàn)的現(xiàn)象更加震驚,入侵者利用這個入口已經(jīng)竊取了大量的客戶信息,并且所有的線索都指向了一家大數(shù)據(jù)公司。這家公司的主要業(yè)務(wù)就是,出售簡歷數(shù)據(jù)庫。經(jīng)核查該公司出售的簡歷數(shù)據(jù)中,就包含自己家客戶的簡歷信息。技術(shù)部上報領(lǐng)導(dǎo)之后,公司開會商議后決定報案。案發(fā)前一段時間,小明(化名)接到了技術(shù)部領(lǐng)導(dǎo)的需求,要求寫一段爬蟲批量從網(wǎng)上的一個接口抓取數(shù)據(jù),爬蟲開發(fā)完后測試沒有問題,小明就將程序上傳到了公司服務(wù)器。程序運行了一段時間后,也許是有了新的需求,也許是小明想對爬蟲程序進行進一步的優(yōu)化,將爬蟲的線程數(shù),由原來比較小的值調(diào)到一個比較大的值。完善后的程序上傳到服務(wù)器后,小明跟蹤了下爬蟲的進展,運行平穩(wěn)并且速度快了很多。提交之后像往常一樣,小明就把這件事情忘了。小明沒想到自己這次提交的爬蟲程序,竟然能把對方的服務(wù)搞掛了,也沒想到自己因為寫了一段代碼而坐牢。什么樣的爬蟲是違法的?如果爬蟲程序采集到公民的姓名、身份證件號碼、通信通訊聯(lián)系方式、住址、賬號密碼、財產(chǎn)狀況、行蹤軌跡等個人信息,并將之用于非法途徑的,則肯定構(gòu)成非法獲取公民個人信息的違法行為。除此之外,根據(jù)相關(guān)規(guī)定,對于違反國家有關(guān)規(guī)定,向他人出售或者提供公民個人信息,情節(jié)嚴重的,竊取或者以其他方法非法獲取公民個人信息的,均可構(gòu)成成“侵犯公民個人信息罪”,處三年以下有期徒刑或者拘役,并處或者單處罰金;情節(jié)特別嚴重的,處三年以上七年以下有期徒刑,并處罰金。重點關(guān)注:下列情況下,爬蟲有可能違法,嚴重的甚至構(gòu)成犯罪。1.爬蟲程序規(guī)避網(wǎng)站經(jīng)營者設(shè)置的反爬蟲措施或者破解服務(wù)器防抓取措施,非法獲取相關(guān)信息,情節(jié)嚴重的,有可能構(gòu)成“非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪”。2.爬蟲程序干擾被訪問的網(wǎng)站或系統(tǒng)正常運營,后果嚴重的,觸犯刑法,構(gòu)成“破壞計算機信息系統(tǒng)罪”。3.爬蟲采集的信息屬于公民個人信息的,有可能構(gòu)成非法獲取公民個人信息的違法行為,情節(jié)嚴重的,有可能構(gòu)成“侵犯公民個人信息罪”。評測反思知識小測:結(jié)合微課資源,完成以下題目:數(shù)據(jù)采集的主要環(huán)節(jié)為:、、。常見數(shù)據(jù)采集的兩種方法是:、學(xué)習(xí)評價:評價指標評價等級及分值得分優(yōu)秀9-10分良好5-8分一般3-4分自評互評老師評項目實踐完成度(50%)項目自主創(chuàng)新與個性化設(shè)計(10%)項目學(xué)習(xí)交流合作(20%)成果展示(20%)學(xué)習(xí)反思:通過本節(jié)課的學(xué)習(xí),你最大的收獲是什么?在實踐操作環(huán)節(jié),遇到了哪些困難?你是如何解決的?關(guān)于本節(jié)課的學(xué)習(xí)內(nèi)容,列出你最想進一步研究的內(nèi)容。 展開更多...... 收起↑ 資源列表 數(shù)據(jù)采集(第二十二課時-任務(wù)單.docx 數(shù)據(jù)采集(第二十二課時-教學(xué)設(shè)計.docx 數(shù)據(jù)采集(第二十二課時-課后練習(xí).docx 數(shù)據(jù)采集(第二十二課時)-課件.pptx 縮略圖、資源來源于二一教育資源庫