資源簡(jiǎn)介 5.2數(shù)據(jù)的采集練習(xí)題選擇題1、智能健康手環(huán)的應(yīng)用開發(fā),體現(xiàn)了( D)的數(shù)據(jù)采集技術(shù)的應(yīng)用。A:統(tǒng)計(jì)報(bào)表B:網(wǎng)絡(luò)爬蟲C:API接口D:傳感器2、當(dāng)前社會(huì)中,最為突出的大數(shù)據(jù)環(huán)境是(A )。A:互聯(lián)網(wǎng)B:物聯(lián)網(wǎng)C:綜合國力D:自然資源3、下列關(guān)于網(wǎng)絡(luò)用戶行為的說法中,錯(cuò)誤的是( C)。A:網(wǎng)絡(luò)公司能夠捕捉到用戶在其網(wǎng)站上的所有行為B:用戶離散的交互痕跡能夠?yàn)槠髽I(yè)提升服務(wù)質(zhì)量提供參考C:數(shù)字軌跡用完即自動(dòng)刪除D:用戶的隱私安全很難得以規(guī)范保護(hù)4、下列論據(jù)中,能夠支撐“大數(shù)據(jù)無所不能”的觀點(diǎn)的是( A)。A:互聯(lián)網(wǎng)金融打破了傳統(tǒng)的觀念和行為B:大數(shù)據(jù)存在泡沫C:大數(shù)據(jù)具有非常高的成本D:個(gè)人隱私泄露與信息安全擔(dān)憂5、在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為基礎(chǔ)的是(AB )。(多選題)A:深度優(yōu)先遍歷策略B:廣度優(yōu)先遍歷策略C:高度優(yōu)先遍歷策略D:反向鏈接策略E:大站優(yōu)先策略6、下列關(guān)于臟數(shù)據(jù)的說法中,正確的是( ABCDE)。(多選題)A:格式不規(guī)范B:編碼不統(tǒng)一C:意義不明確D:與實(shí)際業(yè)務(wù)關(guān)系不大E:數(shù)據(jù)不完整7、云計(jì)算的優(yōu)勢(shì)體現(xiàn)在以下哪些方面?(多選題)云計(jì)算服務(wù)更加安全可靠B.云計(jì)算可以真正實(shí)現(xiàn)按需服務(wù)C.云計(jì)算可以有效提高資源利用率D.云計(jì)算可以大大降低成本和能耗8、智慧城市的構(gòu)建,不包含( C)。 A:數(shù)字城市B:物聯(lián)網(wǎng)C:聯(lián)網(wǎng)監(jiān)控D:云計(jì)算9、支撐大數(shù)據(jù)業(yè)務(wù)的基礎(chǔ)是( B)。A:數(shù)據(jù)科學(xué)B:數(shù)據(jù)應(yīng)用C:數(shù)據(jù)硬件D:數(shù)據(jù)人才10、下列關(guān)于數(shù)據(jù)重組的說法中,錯(cuò)誤的是( A)。A:數(shù)據(jù)重組是數(shù)據(jù)的重新生產(chǎn)和重新采集B:數(shù)據(jù)重組能夠使數(shù)據(jù)煥發(fā)新的光芒C:數(shù)據(jù)重組實(shí)現(xiàn)的關(guān)鍵在于多源數(shù)據(jù)融合和數(shù)據(jù)集成D:數(shù)據(jù)重組有利于實(shí)現(xiàn)新穎的數(shù)據(jù)模式創(chuàng)新二、判斷題1、一般而言,分布式數(shù)據(jù)庫是指物理上分散在不同地點(diǎn),但在邏輯上是統(tǒng)一的數(shù)據(jù)庫。因此分布式數(shù)據(jù)庫具有物理上的獨(dú)立性、邏輯上的一體性、性能上的可擴(kuò)展性等特點(diǎn)。(True )2、云計(jì)算就是軟件在云端無所不在、無限強(qiáng)大的計(jì)算,也叫網(wǎng)絡(luò)化計(jì)算或網(wǎng)格計(jì)算。(True)5.2 數(shù)據(jù)的采集一、選擇題1、大數(shù)據(jù)時(shí)代,數(shù)據(jù)使用的關(guān)鍵是( )。 A、數(shù)據(jù)收集 B、數(shù)據(jù)存儲(chǔ) C、數(shù)據(jù)分析 D、數(shù)據(jù)再利用2、智能健康手環(huán)的應(yīng)用開發(fā),體現(xiàn)了( )的數(shù)據(jù)采集技術(shù)的應(yīng)用。 A、統(tǒng)計(jì)報(bào)表 B、網(wǎng)絡(luò)爬蟲 C、API接口 D、傳感器3、數(shù)據(jù)采集的基本方法包括( )、網(wǎng)絡(luò)數(shù)據(jù)采集法和其他數(shù)據(jù)采集法。A、數(shù)據(jù)庫采集法 B、訪問記錄采集法C、數(shù)據(jù)目錄采集法 D、系統(tǒng)日志采集法4、網(wǎng)絡(luò)數(shù)據(jù)采集法,主要通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API的方式獲取,網(wǎng)絡(luò)爬蟲從網(wǎng)頁的( )開始獲取。A、HTML B、WWW C、URL D、XML5、下列( )不屬于Python網(wǎng)絡(luò)數(shù)據(jù)采集程序使用的擴(kuò)展庫。A、System B、SciPy C、Pandas D、Matplotlib6、在Python模塊庫中有大量模塊可供使用,要想使用這些文件,就需要用( )語句把指定模塊導(dǎo)入當(dāng)前程序中。A、move B、in C、import D、print7、下列( )不是數(shù)據(jù)保護(hù)的有效方法。A、剪切 B、復(fù)制 C、拷貝 D、鏡像8、下列( )數(shù)據(jù)安全保護(hù)技術(shù)可以進(jìn)行遠(yuǎn)距離使用。 A、拷貝 B、備份 C、復(fù)制 D、鏡像9、下列( )不屬于隱私保護(hù)的手段。 A、數(shù)據(jù)收集時(shí)進(jìn)行數(shù)據(jù)精度處理B、數(shù)據(jù)共享時(shí)進(jìn)行訪問控制C、不使用任何智能化設(shè)備D、數(shù)據(jù)發(fā)布時(shí)進(jìn)行人工加擾10、我們一般說的cookies是( )。A、數(shù)據(jù)收集程序 B、數(shù)據(jù)應(yīng)用程序 C、數(shù)據(jù)存儲(chǔ)程序 D、數(shù)據(jù)處理程序二、判斷題1、要完成數(shù)據(jù)的采集工作,首先需要明確數(shù)據(jù)需求選定項(xiàng)目主題。( )2、網(wǎng)絡(luò)數(shù)據(jù)采集法:在目標(biāo)主機(jī)上安裝一個(gè)小程序,將目標(biāo)主機(jī)的文本、應(yīng)用程序、數(shù)據(jù)庫等日志信息有選擇地定向推送來進(jìn)行管理。( )3、只要?jiǎng)h除掉上網(wǎng)的瀏覽記錄就可以避免信息泄露。( )4、我們可以把數(shù)據(jù)放在第三方公共或公有的“云端”存儲(chǔ)。( )5、數(shù)據(jù)的存儲(chǔ)的方式:采用分布式文件存儲(chǔ)或NoSQL數(shù)據(jù)庫存儲(chǔ)。( )試題答案一、選擇題1 2 3 4 5 6 7 8 9 10D D D C A C A C C C解析:1、大數(shù)據(jù)時(shí)代,數(shù)據(jù)使用的關(guān)鍵是數(shù)據(jù)再利用。2、智能健康手環(huán)可以通過傳感器采集人的血壓、心跳、步數(shù)等數(shù)據(jù)采。3、數(shù)據(jù)采集的基本方法包括系統(tǒng)日志采集法、網(wǎng)絡(luò)數(shù)據(jù)采集法和其他數(shù)據(jù)采集法。4、網(wǎng)絡(luò)爬蟲從網(wǎng)頁的URL開始獲取,采集類型支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動(dòng)關(guān)聯(lián)。5、Python網(wǎng)絡(luò)數(shù)據(jù)采集程序使用的擴(kuò)展庫主要有:NumPy、SciPy、Pandas、Matplotlib。6、在Python模塊庫中有大量模塊可供使用,要想使用這些文件,就需要用import語句把指定模塊導(dǎo)入當(dāng)前程序中,格式:import module。7、數(shù)據(jù)保護(hù)的有效方法:拷貝、備份、復(fù)制、鏡像、持續(xù)備份。8、復(fù)制、持續(xù)備份遠(yuǎn)近皆可,拷貝、備份、鏡像主要是進(jìn)行近距離備份。9、常用的隱私保護(hù)有數(shù)據(jù)收集時(shí)進(jìn)行數(shù)據(jù)精度處理、數(shù)據(jù)共享時(shí)進(jìn)行訪問控制、數(shù)據(jù)發(fā)布時(shí)進(jìn)行人工加擾、數(shù)據(jù)分析時(shí)進(jìn)行數(shù)據(jù)匿名處理。10、Cookies是指用戶瀏覽網(wǎng)頁時(shí),網(wǎng)絡(luò)服務(wù)器以文本格式存儲(chǔ)在用戶電腦硬盤上的少量數(shù)據(jù)。二、判斷題1 2 3 4 5√ × × × √解析:1、數(shù)據(jù)采集的基本步驟:明確數(shù)據(jù)需求選定項(xiàng)目主題;制訂數(shù)據(jù)采集清單內(nèi)容大綱;適當(dāng)?shù)姆椒ê凸ぞ哌M(jìn)行采集。2、網(wǎng)絡(luò)數(shù)據(jù)采集法:指通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API(Application Programming Interface, 應(yīng)用程序接口)等方式從網(wǎng)站上獲取數(shù)據(jù)信息。系統(tǒng)日志采集法:在目標(biāo)主機(jī)上安裝一個(gè)小程序,將目標(biāo)主機(jī)的文本、應(yīng)用程序、數(shù)據(jù)庫等日志信息有選擇地定向推送到日志服務(wù)器進(jìn)行存儲(chǔ)、監(jiān)控和管理。3、信息泄露的途徑非常多,在上網(wǎng)訪問的同時(shí)我們的信息已經(jīng)被收集記錄,所以通過清除訪問記錄,并不能避免信息泄露,正確的做法是不要將敏感信息在不安全的網(wǎng)絡(luò)環(huán)境下傳播發(fā)送。4、我們可以把數(shù)據(jù)放在第三方公共或私有的“云端”存儲(chǔ),是私有的云存儲(chǔ),不是公有。5、數(shù)據(jù)的存儲(chǔ)的方式:采用分布式文件存儲(chǔ)或NoSQL數(shù)據(jù)庫存儲(chǔ)。 展開更多...... 收起↑ 資源列表 5.2數(shù)據(jù)的采集-【新教材】粵教版(2019)高中信息技術(shù)必修一練習(xí).docx 5.2數(shù)據(jù)的采集-【新教材】粵教版(2019)高中信息技術(shù)必修一課練習(xí).docx 縮略圖、資源來源于二一教育資源庫