資源簡(jiǎn)介 必修1數(shù)據(jù)與計(jì)算第五章 數(shù)據(jù)處理和可視化表達(dá)5.1認(rèn)識(shí)大數(shù)據(jù)5.1.1大數(shù)據(jù)大數(shù)據(jù)是指無(wú)法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行高效捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。5.1.2大數(shù)據(jù)的特征(1)從互聯(lián)網(wǎng)產(chǎn)生大數(shù)據(jù)的角度來(lái)看,大數(shù)據(jù)具有“4V”特征:大量(Volume)、多樣(Variety)、低價(jià)值密度(Value)、高速(Velocity)。第一,數(shù)據(jù)體量巨大。從TB級(jí)別躍升到PB級(jí)別。第二,數(shù)據(jù)類(lèi)型繁多。如網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等。第三,價(jià)值密度低。以視頻為例,在連續(xù)不間斷的監(jiān)控過(guò)程中,有用的數(shù)據(jù)可能僅僅一兩秒。第四,變化速度快。數(shù)據(jù)來(lái)自世界各地的網(wǎng)絡(luò)終端,且以秒為單位快速變化。(2)從互聯(lián)網(wǎng)思維的角度來(lái)看,大數(shù)據(jù)具有三個(gè)特征:樣本漸趨于總體,精確讓位于模糊,相關(guān)性重于因果。第一,在大數(shù)據(jù)時(shí)代強(qiáng)調(diào)數(shù)據(jù)要全量而不是抽樣,即強(qiáng)調(diào)數(shù)據(jù)規(guī)模全量,而不是強(qiáng)調(diào)數(shù)量巨大。大數(shù)據(jù)時(shí)代有了更好的數(shù)據(jù)采集手段,讓獲取全量數(shù)據(jù)成為可能。第二,大數(shù)據(jù)時(shí)代研究的數(shù)據(jù)如此之多,追求的不是精確性,而是模糊性。在大數(shù)據(jù)時(shí)代,只要掌握了大體的發(fā)展方向即可,適當(dāng)忽略微觀層面上的精確度,會(huì)讓我們?cè)诤暧^層面擁有更好的洞察力。第三,大數(shù)據(jù)時(shí)代不是因果關(guān)系,而是相關(guān)關(guān)系。在大數(shù)據(jù)時(shí)代,無(wú)須再緊盯事物之間的因果關(guān)系,而應(yīng)該尋找事物之間的相關(guān)關(guān)系;相關(guān)關(guān)系也許不能準(zhǔn)確地告訴我們某件事情為何會(huì)發(fā)生,但是會(huì)提醒我們這件事情正在發(fā)生。(3)從大數(shù)據(jù)存儲(chǔ)與計(jì)算的角度來(lái)看,大數(shù)據(jù)具有兩個(gè)特征:分布式存儲(chǔ)和分布式并行計(jì)算。第一,大數(shù)據(jù)存儲(chǔ)在互聯(lián)網(wǎng)不同的服務(wù)器與各客戶(hù)終端。第二,應(yīng)用分布式并行計(jì)算處理互聯(lián)網(wǎng)的大數(shù)據(jù)。5.1.3 大數(shù)據(jù)對(duì)日常生活的影響1.大數(shù)據(jù)使人們?nèi)粘I罡鼮楸憬荩悍奖阒Ц叮环奖愠鲂?;方便?gòu)物與產(chǎn)品推介;方便看病與診病。2.大數(shù)據(jù)對(duì)人們?nèi)粘I町a(chǎn)生的負(fù)面影響:個(gè)人信息泄露;信息傷害與詐騙。5.2數(shù)據(jù)的采集5.2.1數(shù)據(jù)采集的基本方法數(shù)據(jù)采集的基本方法包括:1.系統(tǒng)日志采集法;2.網(wǎng)絡(luò)數(shù)據(jù)采集法;3.其他數(shù)據(jù)采集法。拓展:Python網(wǎng)絡(luò)數(shù)據(jù)采集程序使用的擴(kuò)展庫(kù)(1)NumPy(NumericalPython)是構(gòu)建科學(xué)計(jì)算最基礎(chǔ)的軟件庫(kù);(2)SciPy是一個(gè)工程和科學(xué)軟件庫(kù),包含線性代數(shù)、優(yōu)化、集成和統(tǒng)計(jì)的模塊;(3)Pandas是一個(gè)Python包,旨在通過(guò)標(biāo)記(labeled)和關(guān)系(relational)數(shù)據(jù)進(jìn)行工作;(4)Matplotlib是Python的一個(gè)2D繪圖庫(kù)。在Python模塊庫(kù)中有大量模塊可供使用,要想使用這些文件,就需要用import語(yǔ)句把指定模塊導(dǎo)入當(dāng)前程序中。使用import語(yǔ)句導(dǎo)入模塊的語(yǔ)法如下:from import語(yǔ)句也是導(dǎo)入模塊的一種方法,是導(dǎo)入指定模塊內(nèi)的指定函數(shù)方法。使用from import語(yǔ)句導(dǎo)入模塊內(nèi)指定方法的語(yǔ)法如下:5.2.2 數(shù)據(jù)的存儲(chǔ)和保護(hù)1.數(shù)據(jù)的存儲(chǔ)一種是把數(shù)據(jù)存在本地內(nèi)部,另一種是把數(shù)據(jù)存在第三方公共或私有的“云端”存儲(chǔ)。2.數(shù)據(jù)的保護(hù)(1)數(shù)據(jù)安全保護(hù)技術(shù)。安裝殺毒軟件和防火墻只能防備數(shù)據(jù)安全隱患,而采用拷貝、備份、復(fù)制、鏡像、持續(xù)備份等技術(shù)進(jìn)行數(shù)據(jù)保護(hù)才是更為徹底、有效的方法。為了防止數(shù)據(jù)泄密,可采用對(duì)稱(chēng)式加密(加密、解密用同一密鑰)和非對(duì)稱(chēng)式加密(加密、解密用兩個(gè)不同的密鑰)。(2)數(shù)據(jù)的隱私保護(hù)。解決辦法有三個(gè):一是技術(shù)手段,常用的隱私保護(hù)有:①數(shù)據(jù)收集時(shí)進(jìn)行數(shù)據(jù)精度處理;②數(shù)據(jù)共享時(shí)進(jìn)行訪問(wèn)控制;③數(shù)據(jù)發(fā)布時(shí)進(jìn)行人工加擾;④數(shù)據(jù)分析時(shí)進(jìn)行數(shù)據(jù)匿名處理等。二是提高自身的保護(hù)意識(shí)。三是要對(duì)數(shù)據(jù)使用者進(jìn)行道德和法律上的約束。5.3數(shù)據(jù)的分析數(shù)據(jù)分析就是在一大批雜亂無(wú)章的數(shù)據(jù)中,運(yùn)用數(shù)字化工具和技術(shù),探索數(shù)據(jù)內(nèi)在的結(jié)構(gòu)和規(guī)律,構(gòu)建數(shù)學(xué)模型,并進(jìn)行可視化表達(dá),通過(guò)驗(yàn)證將模型轉(zhuǎn)化為知識(shí),為診斷過(guò)去、預(yù)測(cè)未來(lái)發(fā)揮作用。數(shù)據(jù)分析一般包括特征探索、關(guān)聯(lián)分析、聚類(lèi)與分類(lèi)、建立模型和模型評(píng)價(jià)等。5.3.1 特征探索特征探索的主要任務(wù)是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,發(fā)現(xiàn)和處理缺失值、異常數(shù)據(jù),繪制直方圖,觀察分析數(shù)據(jù)的分布特征,求最大值、最小值、極差等描述性統(tǒng)計(jì)量。5.3.2 關(guān)聯(lián)分析關(guān)聯(lián)分析就是分析并發(fā)現(xiàn)存在于大量數(shù)據(jù)之間的關(guān)聯(lián)性或相關(guān)性,從而描述一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式。5.3.3 聚類(lèi)分析聚類(lèi)分析是一種探索性的分析,在分類(lèi)的過(guò)程中,人們不必事先給出一個(gè)分類(lèi)的標(biāo)準(zhǔn),聚類(lèi)分析能夠從樣本數(shù)據(jù)出發(fā),自動(dòng)進(jìn)行分類(lèi)。K-平均算法是一種經(jīng)典的自下而上的聚類(lèi)分析方法。5.3.4 數(shù)據(jù)分類(lèi)數(shù)據(jù)分類(lèi)是數(shù)據(jù)分析處理中最基本的方法。數(shù)據(jù)分類(lèi)通常的做法是,基于樣本數(shù)據(jù)先訓(xùn)練構(gòu)建分類(lèi)函數(shù)或者分類(lèi)模型(也稱(chēng)為分類(lèi)器),該分類(lèi)器具有將待分類(lèi)數(shù)據(jù)項(xiàng)映射到某一特點(diǎn)類(lèi)別的功能。貝葉斯分類(lèi)技術(shù)在眾多分類(lèi)技術(shù)中占有重要地位。5.4數(shù)據(jù)的可視化表達(dá)數(shù)據(jù)的可視化可以把枯燥乏味的海量數(shù)據(jù)以豐富的視覺(jué)效果呈現(xiàn)數(shù)據(jù)所反映的本質(zhì)問(wèn)題,有效提升數(shù)據(jù)分析的效率。數(shù)據(jù)可視化是指以圖形、圖像、地圖、動(dòng)畫(huà)等生動(dòng)、易于理解的方式展示數(shù)據(jù)和詮釋數(shù)據(jù)之間的關(guān)系、趨勢(shì)與規(guī)律等,以便更好地理解數(shù)據(jù)。5.4.1 數(shù)據(jù)可視化表達(dá)方式(見(jiàn)下頁(yè)表5-5)5.4.2 數(shù)據(jù)可視化工具Python語(yǔ)言因其開(kāi)源和包容的特性,嵌入了大量數(shù)據(jù)可視化的工具,如繪圖工具模塊Matplotlib、Seaborn和Bokeh等。Seaborn主要關(guān)注統(tǒng)計(jì)模型的可視化。Bokeh也是一個(gè)很好的可視化庫(kù),可實(shí)現(xiàn)交互式可視化。第五章 數(shù)據(jù)處理和可視化表達(dá) 學(xué)業(yè)測(cè)試一、單選題1.從互聯(lián)網(wǎng)產(chǎn)生大數(shù)據(jù)的角度,大數(shù)據(jù)具有的特征( )A.4V特征:大量(Volume)、多樣(Variety)、低價(jià)值密度(Value)、高速(Velocity)B.樣本漸趨于總體,精確讓位于模糊,相關(guān)性重于因果C.分布式存儲(chǔ),分布式并行計(jì)算D.沒(méi)有特征【答案】:A【解析】:見(jiàn)教材P102,從互聯(lián)網(wǎng)產(chǎn)生大數(shù)的角度來(lái)看,大數(shù)據(jù)的4V特征。2.下列可以用于分析數(shù)據(jù)趨勢(shì)的是( )A.餅圖 B.折線圖 C.動(dòng)力熱力圖 D.詞云圖【答案】:B【解析】:見(jiàn)教材P119頁(yè),有關(guān)趨勢(shì)的分析為拆線圖,餅圖表示比例的分析,動(dòng)態(tài)熱力圖是關(guān)于空間關(guān)系的,詞云圖是邏輯關(guān)系分析。3.數(shù)據(jù)分析的方法不包括( )。A.線性分析 B.關(guān)聯(lián)分析 C.聚類(lèi)分析 D.?dāng)?shù)據(jù)分類(lèi)【答案】:A【解析】:見(jiàn)教材P111,數(shù)據(jù)分析一般包括特征探索、關(guān)聯(lián)分析、聚類(lèi)與分類(lèi)、建立模型和模型評(píng)價(jià),不含線性分析。4.下列關(guān)于大數(shù)據(jù)的特征,說(shuō)法正確的是( )A.?dāng)?shù)據(jù)價(jià)值密度高 B.?dāng)?shù)據(jù)類(lèi)型少 C.?dāng)?shù)據(jù)基本無(wú)變化 D.?dāng)?shù)據(jù)體量巨大【答案】:D【解析】:見(jiàn)教材P102,從互聯(lián)網(wǎng)產(chǎn)生大數(shù)的角度來(lái)看,大數(shù)據(jù)的4V特征是:數(shù)據(jù)體量巨大、數(shù)據(jù)類(lèi)型繁多、價(jià)值密度低、變化速度快。5.數(shù)據(jù)特征探索的主要任務(wù)是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,以下不屬于該過(guò)程的是( )A.?dāng)?shù)據(jù)清洗 B.異常數(shù)據(jù)處理 C.?dāng)?shù)據(jù)缺失處理 D.?dāng)?shù)據(jù)分類(lèi)處理【答案】:D【解析】:見(jiàn)教材P112,數(shù)據(jù)特征探索的預(yù)處理主要有數(shù)據(jù)清洗、發(fā)現(xiàn)缺失值、異常數(shù)據(jù)處理、求最大值和最小值、求極差、求組距、繪制價(jià)格直方圖、繪制評(píng)論數(shù)直方圖等。不含D項(xiàng)。6.海軍軍官通過(guò)對(duì)前人航海日志的分析,繪制了新的航海路線圖,標(biāo)明了大風(fēng)與洋流可能發(fā)生的地點(diǎn)。這體現(xiàn)了大數(shù)據(jù)分析理念中的( )A.在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)B.在分析方法上更注重相關(guān)分析而不是因果分析C.在分析效果上更追究效率而不是絕對(duì)精確D.在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對(duì)數(shù)據(jù)而不是絕對(duì)數(shù)據(jù)【答案】:B【解析】:見(jiàn)教材P102,A項(xiàng)強(qiáng)調(diào)數(shù)據(jù)規(guī)模;B項(xiàng)對(duì)前人航海數(shù)據(jù)的分析,不是分析為什么走某條航線,不是分析為什么會(huì)發(fā)生洋流,而是強(qiáng)調(diào)數(shù)據(jù)的相互聯(lián)系,注重?cái)?shù)據(jù)的相關(guān)性分析,所以選B項(xiàng);C項(xiàng)是講分析數(shù)據(jù)的走勢(shì)和發(fā)展方向,與題干不符;D項(xiàng)強(qiáng)調(diào)數(shù)據(jù)規(guī)模,題干中也未涉及。7.大數(shù)據(jù)時(shí)代已經(jīng)在悄悄地改變我們的日常生活,也使人們?nèi)粘I罡鼮楸憬?,如移?dòng)支付、網(wǎng)絡(luò)約車(chē)出行、網(wǎng)絡(luò)購(gòu)物、網(wǎng)絡(luò)預(yù)約掛號(hào)等。以下不屬于大數(shù)據(jù)分析的是( )A.特征探索 B.關(guān)聯(lián)分析 C.聚類(lèi)與分類(lèi) D.建模分析【答案】:D【解析】:見(jiàn)教材P111,數(shù)據(jù)分析一般包括特征探索、關(guān)聯(lián)分析、聚類(lèi)與分類(lèi)、建立模型和模型評(píng)價(jià),不含線性分析。不含D項(xiàng)。8.電子警察采用拍照的方式來(lái)約束車(chē)輛的行為,其拍照的過(guò)程屬于( )A.數(shù)據(jù)分析 B.數(shù)據(jù)采集 C.數(shù)據(jù)分類(lèi) D.數(shù)據(jù)可視化表達(dá)【答案】:B【解析】:拍照的過(guò)程屬于數(shù)據(jù)的采集,選B項(xiàng)。9.某超市曾經(jīng)研究銷(xiāo)售數(shù)據(jù),發(fā)現(xiàn)買(mǎi)商品A的人購(gòu)買(mǎi)商品B的概率很大,這種屬于數(shù)據(jù)的( )A.聚類(lèi)分析 B.關(guān)聯(lián)分析 C.分類(lèi)分析 D.回歸分析【答案】:B【解析】:見(jiàn)教材P113,關(guān)聯(lián)分析就是發(fā)現(xiàn)存在于大數(shù)據(jù)之間的關(guān)聯(lián)性或相關(guān)性,即A與B的相關(guān)性,符合題意。10.數(shù)據(jù)采集的基本方法包括( )、網(wǎng)絡(luò)數(shù)據(jù)采集法和其他數(shù)據(jù)采集法。A.?dāng)?shù)據(jù)庫(kù)采集法 B.訪問(wèn)記錄采集法 C.?dāng)?shù)據(jù)目錄采集法 D.系統(tǒng)日志采集法【答案】:D【解析】:數(shù)據(jù)采集的基本方法包括系統(tǒng)日志采集法、網(wǎng)絡(luò)數(shù)據(jù)采集法、其他數(shù)據(jù)采集法,所以選D項(xiàng)。11.下列關(guān)于聚類(lèi)分析的說(shuō)法,錯(cuò)誤的是( )A.可以從數(shù)據(jù)點(diǎn)集合中隨機(jī)選擇K個(gè)點(diǎn)作為初始的聚集中心B對(duì)其他的每個(gè)數(shù)據(jù)點(diǎn),以此判斷其與K個(gè)中心點(diǎn)的距離,距離最近的表明它屬于這項(xiàng)聚類(lèi)C.聚類(lèi)分析,必須先設(shè)定分類(lèi)的標(biāo)準(zhǔn),否則無(wú)法準(zhǔn)確分類(lèi)D.重新計(jì)算新的聚簇集合的平均值既中心點(diǎn)【答案】:C【解析】:見(jiàn)教材P115,K-平均算法中包括ABD,而明確指出聚類(lèi)分析不性事先給出一個(gè)分類(lèi)標(biāo)準(zhǔn)。12.K-平均算法屬于( )分析方法。A.聚類(lèi) B.關(guān)聯(lián) C.分類(lèi) D.回歸【答案】:A【解析】:見(jiàn)教材P115,K-平均算法是一種聚類(lèi)分析法。13.網(wǎng)絡(luò)數(shù)據(jù)采集法,主要通過(guò)網(wǎng)絡(luò)爬蟲(chóng)或網(wǎng)站公開(kāi)API的方式獲取,網(wǎng)絡(luò)爬蟲(chóng)從網(wǎng)頁(yè)的( )開(kāi)始獲取。 A.HTML B.WWW C.URL D.XML【答案】:C【解析】:見(jiàn)教材P104頁(yè),網(wǎng)絡(luò)爬蟲(chóng)從一個(gè)或若干網(wǎng)頁(yè)的URL開(kāi)始。14.大數(shù)據(jù)時(shí)代,數(shù)據(jù)應(yīng)用的關(guān)鍵是( )A.數(shù)據(jù)收集 B.數(shù)據(jù)存儲(chǔ) C.數(shù)據(jù)分析 D.數(shù)據(jù)再利用【答案】:D【解析】:大數(shù)據(jù)時(shí)代,數(shù)據(jù)隨時(shí)產(chǎn)生,隨時(shí)收集并存儲(chǔ),要利用大數(shù),必須分析出數(shù)據(jù)的相關(guān)性、發(fā)展方向等特征,才能對(duì)數(shù)據(jù)進(jìn)行利用,所以數(shù)據(jù)分析是關(guān)鍵。15.為了弘揚(yáng)和傳承中華民族勤儉節(jié)約的傳統(tǒng)美德,引導(dǎo)同學(xué)們進(jìn)一步深化節(jié)約糧食的意識(shí)和行為習(xí)慣,學(xué)生會(huì)開(kāi)展了“我為食堂提建議”的活動(dòng)。請(qǐng)根據(jù)學(xué)生會(huì)開(kāi)展該活動(dòng)的幾個(gè)步驟,排出最合理的順序( )①根據(jù)數(shù)據(jù)分析結(jié)果,撰寫(xiě)數(shù)據(jù)分析報(bào)告,對(duì)食堂提出合理化建議②學(xué)生會(huì)成員去學(xué)校食堂收集數(shù)據(jù),并制作調(diào)查問(wèn)卷的題目③利用圖表形式直觀展示分析數(shù)據(jù)④對(duì)問(wèn)卷進(jìn)行回收整理,將無(wú)效的問(wèn)卷進(jìn)行剔除⑤學(xué)生會(huì)成員對(duì)就餐同學(xué)們進(jìn)行問(wèn)卷調(diào)查⑥對(duì)調(diào)查數(shù)據(jù)和食堂數(shù)據(jù)進(jìn)行分析與處理A.②⑤④⑥③① B.②④⑤③⑥① C.⑤②④⑥③① D.⑤④②③⑥①【答案】:A【解析】:搞調(diào)查,寫(xiě)報(bào)告的合理邏輯應(yīng)為:確定活動(dòng)的主題,然后收集數(shù)據(jù),制作問(wèn)卷,發(fā)放問(wèn)卷,回收問(wèn)卷,錄入回收數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行分析,呈現(xiàn)分析結(jié)果,寫(xiě)出報(bào)告,所以A項(xiàng)符合題意。二、思考題1.若要求你對(duì)本班同學(xué)喜歡看的書(shū)籍進(jìn)行分類(lèi)統(tǒng)計(jì),并對(duì)其進(jìn)行數(shù)據(jù)分析,你會(huì)如何做?談?wù)勀愕南敕ā?br/>【答案】:(項(xiàng)目需求分析)分析書(shū)籍分類(lèi)統(tǒng)計(jì)的項(xiàng)目:書(shū)名、圖書(shū)類(lèi)別、出版時(shí)間、來(lái)源(網(wǎng)購(gòu)、書(shū)店購(gòu)買(mǎi)、圖書(shū)館借閱、向他人借閱)、同學(xué)姓名,性別等。(數(shù)據(jù)采集)能夠選擇合適的工具采集和保存信息:可使用文件共享或選擇協(xié)同辦公軟件采集書(shū)籍信息記錄(逐條統(tǒng)計(jì)),能夠使用硬盤(pán)存儲(chǔ)或云存儲(chǔ)方式保存數(shù)據(jù)。(數(shù)據(jù)分析與可視化表達(dá))能夠采用詞云圖、折線圖或餅圖等方式,按照?qǐng)D書(shū)類(lèi)別分析出本班同學(xué)的圖書(shū)喜好,能分析出某位同學(xué)的興趣愛(ài)好。【解析】:略2.大數(shù)據(jù)正在改變社會(huì)很多行業(yè)的工作方式,醫(yī)療大數(shù)據(jù)可以更好地為患者服務(wù)。請(qǐng)思考醫(yī)療大數(shù)據(jù)對(duì)醫(yī)療行業(yè)發(fā)展的作用。【答案】:來(lái)自數(shù)據(jù)的信息可以讓醫(yī)生做出更準(zhǔn)確的治療決策,提高治療成功率。優(yōu)化患者護(hù)理。醫(yī)生可以利用預(yù)測(cè)性數(shù)據(jù)和信息,最大程度上降低治療失敗的風(fēng)險(xiǎn),這些數(shù)據(jù)和信息可以幫助醫(yī)生正確地開(kāi)出處方、實(shí)施手術(shù)或康復(fù)治療,可降低醫(yī)療成本。讓用藥更有效,提高醫(yī)療安全性,促進(jìn)醫(yī)療行業(yè)信息共享。【解析】:略3.在智慧城市和智慧交通城市建設(shè)中,每天產(chǎn)生海量的交通大數(shù)據(jù),這些數(shù)據(jù)為城市、交通的管理提供決策支持。請(qǐng)從數(shù)據(jù)采集、數(shù)據(jù)分析、數(shù)據(jù)可視化表達(dá)三個(gè)方面,分析大數(shù)據(jù)在智慧城市和智慧交通建設(shè)中的實(shí)現(xiàn)方法。【答案】:智慧城市就是運(yùn)用信息和通信技術(shù)手段感測(cè)、分析、整合城市運(yùn)行核心系統(tǒng)的各項(xiàng)關(guān)鍵信息,從而對(duì)包括民生、環(huán)保、公共安全、城市服務(wù)、工商業(yè)活動(dòng)在內(nèi)的各種需求做出智能響應(yīng)。從技術(shù)發(fā)展的視角,智慧城市建設(shè)要求通過(guò)以移動(dòng)技術(shù)為代表的物聯(lián)網(wǎng)、云計(jì)算等新一代信息技術(shù)應(yīng)用實(shí)現(xiàn)全面感知、泛在互聯(lián)、普適計(jì)算與融合應(yīng)用。從社會(huì)發(fā)展的視角,智慧城市還要求通過(guò)維基、社交網(wǎng)絡(luò)、Fab Lab、Living Lab、綜合集成法等工具和方法的應(yīng)用,實(shí)現(xiàn)以用戶(hù)創(chuàng)新、開(kāi)放創(chuàng)新、大眾創(chuàng)新、協(xié)同創(chuàng)新為特征的知識(shí)社會(huì)環(huán)境下的可持續(xù)創(chuàng)新,強(qiáng)調(diào)通過(guò)價(jià)值創(chuàng)造,以人為本實(shí)現(xiàn)經(jīng)濟(jì)、社會(huì)、環(huán)境的全面可持續(xù)發(fā)展。【解析】:智慧城市就是運(yùn)用信息和通信技術(shù)手段感測(cè)、分析、整合城市運(yùn)行核心系統(tǒng)的各項(xiàng)關(guān)鍵信息,從而對(duì)包括民生、環(huán)保、公共安全、城市服務(wù)、工商業(yè)活動(dòng)在內(nèi)的各種需求做出智能響應(yīng)。從技術(shù)發(fā)展的視角,智慧城市建設(shè)要求通過(guò)以移動(dòng)技術(shù)為代表的物聯(lián)網(wǎng)、云計(jì)算等新一代信息技術(shù)應(yīng)用實(shí)現(xiàn)全面感知、泛在互聯(lián)、普適計(jì)算與融合應(yīng)用。從社會(huì)發(fā)展的視角,智慧城市還要求通過(guò)維基、社交網(wǎng)絡(luò)、Fab Lab、Living Lab、綜合集成法等工具和方法的應(yīng)用,實(shí)現(xiàn)以用戶(hù)創(chuàng)新、開(kāi)放創(chuàng)新、大眾創(chuàng)新、協(xié)同創(chuàng)新為特征的知識(shí)社會(huì)環(huán)境下的可持續(xù)創(chuàng)新,強(qiáng)調(diào)通過(guò)價(jià)值創(chuàng)造,以人為本實(shí)現(xiàn)經(jīng)濟(jì)、社會(huì)、環(huán)境的全面可持續(xù)發(fā)展。4.當(dāng)用戶(hù)登錄某網(wǎng)站購(gòu)買(mǎi)、瀏覽、收藏了某些書(shū)籍后,再次登錄該網(wǎng)站時(shí),會(huì)發(fā)現(xiàn)網(wǎng)頁(yè)上增加了“你可能感興趣的書(shū)”以及“購(gòu)買(mǎi)此商品的顧客也同時(shí)購(gòu)買(mǎi)”之類(lèi)的推送條目,如圖5-16所示。問(wèn)題1:網(wǎng)站給用戶(hù)自動(dòng)推薦商品的依據(jù)是什么?采用了什么分析方法?問(wèn)題2:網(wǎng)站數(shù)據(jù)可能對(duì)用戶(hù)產(chǎn)生哪些影響?【答案】:問(wèn)題1:網(wǎng)站給用戶(hù)自動(dòng)推薦商品的依據(jù)是用戶(hù)行為。用戶(hù)行為用戶(hù)行為也叫做用戶(hù)事件,是指用戶(hù)作用于產(chǎn)品或網(wǎng)站頁(yè)面的一系列行為。比如用戶(hù)在一個(gè)電商網(wǎng)站訪問(wèn)、注冊(cè)、登陸、搜索商品、瀏覽商品、對(duì)比商品、加入購(gòu)物車(chē)、提交訂單、支付訂單等具體的操作行為。采用了 聚類(lèi)分析,聚類(lèi)分析是一種探索性的分析,在分類(lèi)的過(guò)程中,人們不必事先給出一個(gè)分類(lèi)的標(biāo)準(zhǔn),聚類(lèi)分析能夠從樣本數(shù)據(jù)出發(fā)、自動(dòng)進(jìn)行分類(lèi)。問(wèn)題2:任何事物都有兩面性,我們上網(wǎng)瀏覽、出行、購(gòu)物都被記錄了,人人都成了數(shù)據(jù)的生成者和貢獻(xiàn)者。數(shù)據(jù)帶來(lái)的整體性變革,也使得數(shù)據(jù)的隱私保護(hù)的形勢(shì)顯得越發(fā)嚴(yán)峻。【解析】:問(wèn)題1:網(wǎng)站給用戶(hù)自動(dòng)推薦商品的依據(jù)是用戶(hù)行為。用戶(hù)行為用戶(hù)行為也叫做用戶(hù)事件,是指用戶(hù)作用于產(chǎn)品或網(wǎng)站頁(yè)面的一系列行為。比如用戶(hù)在一個(gè)電商網(wǎng)站訪問(wèn)、注冊(cè)、登陸、搜索商品、瀏覽商品、對(duì)比商品、加入購(gòu)物車(chē)、提交訂單、支付訂單等具體的操作行為。采用了 聚類(lèi)分析,聚類(lèi)分析是一中探索性的分析,在分類(lèi)的過(guò)程中,人們不必事先給出一個(gè)分類(lèi)的標(biāo)準(zhǔn),聚類(lèi)分析能夠從樣本數(shù)據(jù)出發(fā)、自動(dòng)進(jìn)行分類(lèi)。問(wèn)題2:任何事物都有兩面性,我們上網(wǎng)瀏覽、出行、購(gòu)物都被記錄了,人人都成了數(shù)據(jù)的生成者和貢獻(xiàn)者。數(shù)據(jù)帶來(lái)的整體性變革,也使得數(shù)據(jù)的隱私保護(hù)的形勢(shì)顯得越發(fā)嚴(yán)峻。5.某公司推出了嵌有多種傳感器、能夠測(cè)量生命體征數(shù)據(jù)的T恤,該公司稱(chēng)為“Fit衫”,從而使專(zhuān)業(yè)醫(yī)護(hù)人員能夠以低成本頻繁監(jiān)測(cè)患者體質(zhì),提供更加有效的預(yù)防性醫(yī)療保健?!癋it衫”利用內(nèi)嵌的各種傳感器測(cè)量或記錄用戶(hù)的數(shù)據(jù),例如利用體溫傳感器測(cè)量體溫,利用生物電傳感器收集心電、腦電數(shù)據(jù),利用熱通量傳感器監(jiān)測(cè)熱量消耗能力......“Fit衫”里的傳感器所測(cè)得的心率、活動(dòng)量以及心電圖等數(shù)據(jù)可顯示在平板電腦的顯示器上。問(wèn)題1:請(qǐng)你簡(jiǎn)單描述“Fit衫”主要是通用什么方法和工具來(lái)收集數(shù)據(jù)。問(wèn)題2:在收集數(shù)據(jù)的過(guò)程中,如何才能避免侵犯他人的知識(shí)產(chǎn)權(quán)和隱私,請(qǐng)談?wù)勀愕目捶ā?br/>6.學(xué)校使用“五能評(píng)價(jià)雷達(dá)圖”,讓每個(gè)同學(xué)們的道德素養(yǎng)、學(xué)能素養(yǎng)、創(chuàng)新素養(yǎng)、身體素養(yǎng)、心理素養(yǎng)的達(dá)成度一目了然。以下是李明同學(xué)的“五能評(píng)價(jià)雷達(dá)圖”,如圖5-17所示。請(qǐng)你對(duì)李明同學(xué)的綜合素質(zhì)發(fā)展情況進(jìn)行簡(jiǎn)述。【答案】:從“五能雷達(dá)圖”可看出,李明同學(xué)的“道德素養(yǎng)”得分20分,說(shuō)明他的思想品德方面需要大力加強(qiáng);“創(chuàng)新素養(yǎng)”得分低于20分,創(chuàng)新素養(yǎng)能力更是超低;“身體素養(yǎng)”得分50左右,說(shuō)明身體素質(zhì)不達(dá)到,有可能是運(yùn)動(dòng)能力不行,或者是比較肥胖等;心理素養(yǎng)得分60分,說(shuō)明心理比較健康,有可能休息不好,情緒不太穩(wěn)定;學(xué)能素養(yǎng)得分70左右,處于較好水平。綜上所述,李明同學(xué)五能評(píng)價(jià)整體較差,需要全面努力,老師也應(yīng)該多關(guān)心他,促進(jìn)他的成長(zhǎng)。7.由大數(shù)據(jù)產(chǎn)生的爭(zhēng)辯中,一部分人十分抵觸將私人行為暴露在公眾視野中,另一部分人卻認(rèn)為人類(lèi)行為數(shù)據(jù)就好比自然資源,應(yīng)該無(wú)私地提供給企業(yè)、政府和醫(yī)療單位等,從而革新服務(wù)和產(chǎn)品反哺人類(lèi)。請(qǐng)小組內(nèi)展開(kāi)討論,談?wù)勀銈兊挠^點(diǎn)。8.數(shù)據(jù)可視化表達(dá)的工具多種多樣,且各具特色,如何選擇一款適合的工具對(duì)提高學(xué)習(xí)效率至關(guān)重要。請(qǐng)小組內(nèi)展開(kāi)討論,思考并分享其中一款數(shù)據(jù)可視化表達(dá)工具的優(yōu)缺點(diǎn)。三、情境題1.智能手環(huán)作為一種智能可穿戴設(shè)備,可以記錄用戶(hù)日常生活中的鍛煉、睡眠、身體狀況等實(shí)時(shí)數(shù)據(jù),并利用數(shù)據(jù)給用戶(hù)提供健康建議。簡(jiǎn)要分析智能手環(huán)采集數(shù)據(jù)的過(guò)程,并分析智能手環(huán)是如何利用采集的數(shù)據(jù)給予用戶(hù)建議的。【答案】:以運(yùn)動(dòng)為例,通過(guò)手環(huán)中的加速度傳感器捕提到人體的各項(xiàng)數(shù)據(jù)。并暫時(shí)存儲(chǔ)在手環(huán)的存儲(chǔ)器中,有網(wǎng)絡(luò)時(shí)自動(dòng)上傳至服務(wù)器。【解析】:能回答運(yùn)動(dòng)時(shí)利用的加速度傳感器是三軸加速度傳感器,而且是通過(guò)捕捉人體三個(gè)維度的各項(xiàng)數(shù)據(jù),并上傳至服務(wù)端進(jìn)行統(tǒng)計(jì)分析?;蛘咴黾訉?shí)例,如利用手環(huán)檢測(cè)心率,主要是通過(guò)光感進(jìn)行,采用綠色搭配感光光電二極管實(shí)時(shí)檢測(cè)流經(jīng)手腕血液的流量來(lái)獲取心率信息。當(dāng)用戶(hù)的心臟跳動(dòng)時(shí),會(huì)有更多的血液流過(guò)用戶(hù)的手腕,綠光的吸收量也會(huì)越大;在心臟跳動(dòng)間隙,血液流量減少,綠光的吸收也會(huì)減少。2.改革開(kāi)放以來(lái),中國(guó)經(jīng)濟(jì)發(fā)展取得令人矚目的成就,但是中國(guó)各省發(fā)展差異大。如歷年各省的國(guó)內(nèi)生產(chǎn)總值(GDP)和人口數(shù)據(jù),我們可以發(fā)現(xiàn)經(jīng)濟(jì)發(fā)展和人口數(shù)據(jù)的變化規(guī)律。請(qǐng)采集有關(guān)數(shù)據(jù),并進(jìn)行數(shù)據(jù)分析,通過(guò)數(shù)據(jù)分析發(fā)現(xiàn)數(shù)據(jù)中的一些規(guī)律。第 9 頁(yè) 共 11 頁(yè)必修1數(shù)據(jù)與計(jì)算第五章 數(shù)據(jù)處理和可視化表達(dá)5.1認(rèn)識(shí)大數(shù)據(jù)5.1.1大數(shù)據(jù)大數(shù)據(jù)是指無(wú)法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行高效捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。5.1.2大數(shù)據(jù)的特征(1)從互聯(lián)網(wǎng)產(chǎn)生大數(shù)據(jù)的角度來(lái)看,大數(shù)據(jù)具有“4V”特征:大量(Volume)、多樣(Variety)、低價(jià)值密度(Value)、高速(Velocity)。第一,數(shù)據(jù)體量巨大。從TB級(jí)別躍升到PB級(jí)別。第二,數(shù)據(jù)類(lèi)型繁多。如網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等。第三,價(jià)值密度低。以視頻為例,在連續(xù)不間斷的監(jiān)控過(guò)程中,有用的數(shù)據(jù)可能僅僅一兩秒。第四,變化速度快。數(shù)據(jù)來(lái)自世界各地的網(wǎng)絡(luò)終端,且以秒為單位快速變化。(2)從互聯(lián)網(wǎng)思維的角度來(lái)看,大數(shù)據(jù)具有三個(gè)特征:樣本漸趨于總體,精確讓位于模糊,相關(guān)性重于因果。第一,在大數(shù)據(jù)時(shí)代強(qiáng)調(diào)數(shù)據(jù)要全量而不是抽樣,即強(qiáng)調(diào)數(shù)據(jù)規(guī)模全量,而不是強(qiáng)調(diào)數(shù)量巨大。大數(shù)據(jù)時(shí)代有了更好的數(shù)據(jù)采集手段,讓獲取全量數(shù)據(jù)成為可能。第二,大數(shù)據(jù)時(shí)代研究的數(shù)據(jù)如此之多,追求的不是精確性,而是模糊性。在大數(shù)據(jù)時(shí)代,只要掌握了大體的發(fā)展方向即可,適當(dāng)忽略微觀層面上的精確度,會(huì)讓我們?cè)诤暧^層面擁有更好的洞察力。第三,大數(shù)據(jù)時(shí)代不是因果關(guān)系,而是相關(guān)關(guān)系。在大數(shù)據(jù)時(shí)代,無(wú)須再緊盯事物之間的因果關(guān)系,而應(yīng)該尋找事物之間的相關(guān)關(guān)系;相關(guān)關(guān)系也許不能準(zhǔn)確地告訴我們某件事情為何會(huì)發(fā)生,但是會(huì)提醒我們這件事情正在發(fā)生。(3)從大數(shù)據(jù)存儲(chǔ)與計(jì)算的角度來(lái)看,大數(shù)據(jù)具有兩個(gè)特征:分布式存儲(chǔ)和分布式并行計(jì)算。第一,大數(shù)據(jù)存儲(chǔ)在互聯(lián)網(wǎng)不同的服務(wù)器與各客戶(hù)終端。第二,應(yīng)用分布式并行計(jì)算處理互聯(lián)網(wǎng)的大數(shù)據(jù)。5.1.3 大數(shù)據(jù)對(duì)日常生活的影響1.大數(shù)據(jù)使人們?nèi)粘I罡鼮楸憬荩悍奖阒Ц?;方便出行;方便?gòu)物與產(chǎn)品推介;方便看病與診病。2.大數(shù)據(jù)對(duì)人們?nèi)粘I町a(chǎn)生的負(fù)面影響:個(gè)人信息泄露;信息傷害與詐騙。5.2數(shù)據(jù)的采集5.2.1數(shù)據(jù)采集的基本方法數(shù)據(jù)采集的基本方法包括:1.系統(tǒng)日志采集法;2.網(wǎng)絡(luò)數(shù)據(jù)采集法;3.其他數(shù)據(jù)采集法。拓展:Python網(wǎng)絡(luò)數(shù)據(jù)采集程序使用的擴(kuò)展庫(kù)(1)NumPy(NumericalPython)是構(gòu)建科學(xué)計(jì)算最基礎(chǔ)的軟件庫(kù);(2)SciPy是一個(gè)工程和科學(xué)軟件庫(kù),包含線性代數(shù)、優(yōu)化、集成和統(tǒng)計(jì)的模塊;(3)Pandas是一個(gè)Python包,旨在通過(guò)標(biāo)記(labeled)和關(guān)系(relational)數(shù)據(jù)進(jìn)行工作;(4)Matplotlib是Python的一個(gè)2D繪圖庫(kù)。在Python模塊庫(kù)中有大量模塊可供使用,要想使用這些文件,就需要用import語(yǔ)句把指定模塊導(dǎo)入當(dāng)前程序中。使用import語(yǔ)句導(dǎo)入模塊的語(yǔ)法如下:from import語(yǔ)句也是導(dǎo)入模塊的一種方法,是導(dǎo)入指定模塊內(nèi)的指定函數(shù)方法。使用from import語(yǔ)句導(dǎo)入模塊內(nèi)指定方法的語(yǔ)法如下:5.2.2 數(shù)據(jù)的存儲(chǔ)和保護(hù)1.數(shù)據(jù)的存儲(chǔ)一種是把數(shù)據(jù)存在本地內(nèi)部,另一種是把數(shù)據(jù)存在第三方公共或私有的“云端”存儲(chǔ)。2.數(shù)據(jù)的保護(hù)(1)數(shù)據(jù)安全保護(hù)技術(shù)。安裝殺毒軟件和防火墻只能防備數(shù)據(jù)安全隱患,而采用拷貝、備份、復(fù)制、鏡像、持續(xù)備份等技術(shù)進(jìn)行數(shù)據(jù)保護(hù)才是更為徹底、有效的方法。為了防止數(shù)據(jù)泄密,可采用對(duì)稱(chēng)式加密(加密、解密用同一密鑰)和非對(duì)稱(chēng)式加密(加密、解密用兩個(gè)不同的密鑰)。(2)數(shù)據(jù)的隱私保護(hù)。解決辦法有三個(gè):一是技術(shù)手段,常用的隱私保護(hù)有:①數(shù)據(jù)收集時(shí)進(jìn)行數(shù)據(jù)精度處理;②數(shù)據(jù)共享時(shí)進(jìn)行訪問(wèn)控制;③數(shù)據(jù)發(fā)布時(shí)進(jìn)行人工加擾;④數(shù)據(jù)分析時(shí)進(jìn)行數(shù)據(jù)匿名處理等。二是提高自身的保護(hù)意識(shí)。三是要對(duì)數(shù)據(jù)使用者進(jìn)行道德和法律上的約束。5.3數(shù)據(jù)的分析數(shù)據(jù)分析就是在一大批雜亂無(wú)章的數(shù)據(jù)中,運(yùn)用數(shù)字化工具和技術(shù),探索數(shù)據(jù)內(nèi)在的結(jié)構(gòu)和規(guī)律,構(gòu)建數(shù)學(xué)模型,并進(jìn)行可視化表達(dá),通過(guò)驗(yàn)證將模型轉(zhuǎn)化為知識(shí),為診斷過(guò)去、預(yù)測(cè)未來(lái)發(fā)揮作用。數(shù)據(jù)分析一般包括特征探索、關(guān)聯(lián)分析、聚類(lèi)與分類(lèi)、建立模型和模型評(píng)價(jià)等。5.3.1 特征探索特征探索的主要任務(wù)是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,發(fā)現(xiàn)和處理缺失值、異常數(shù)據(jù),繪制直方圖,觀察分析數(shù)據(jù)的分布特征,求最大值、最小值、極差等描述性統(tǒng)計(jì)量。5.3.2 關(guān)聯(lián)分析關(guān)聯(lián)分析就是分析并發(fā)現(xiàn)存在于大量數(shù)據(jù)之間的關(guān)聯(lián)性或相關(guān)性,從而描述一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式。5.3.3 聚類(lèi)分析聚類(lèi)分析是一種探索性的分析,在分類(lèi)的過(guò)程中,人們不必事先給出一個(gè)分類(lèi)的標(biāo)準(zhǔn),聚類(lèi)分析能夠從樣本數(shù)據(jù)出發(fā),自動(dòng)進(jìn)行分類(lèi)。K-平均算法是一種經(jīng)典的自下而上的聚類(lèi)分析方法。5.3.4 數(shù)據(jù)分類(lèi)數(shù)據(jù)分類(lèi)是數(shù)據(jù)分析處理中最基本的方法。數(shù)據(jù)分類(lèi)通常的做法是,基于樣本數(shù)據(jù)先訓(xùn)練構(gòu)建分類(lèi)函數(shù)或者分類(lèi)模型(也稱(chēng)為分類(lèi)器),該分類(lèi)器具有將待分類(lèi)數(shù)據(jù)項(xiàng)映射到某一特點(diǎn)類(lèi)別的功能。貝葉斯分類(lèi)技術(shù)在眾多分類(lèi)技術(shù)中占有重要地位。5.4數(shù)據(jù)的可視化表達(dá)數(shù)據(jù)的可視化可以把枯燥乏味的海量數(shù)據(jù)以豐富的視覺(jué)效果呈現(xiàn)數(shù)據(jù)所反映的本質(zhì)問(wèn)題,有效提升數(shù)據(jù)分析的效率。數(shù)據(jù)可視化是指以圖形、圖像、地圖、動(dòng)畫(huà)等生動(dòng)、易于理解的方式展示數(shù)據(jù)和詮釋數(shù)據(jù)之間的關(guān)系、趨勢(shì)與規(guī)律等,以便更好地理解數(shù)據(jù)。5.4.1 數(shù)據(jù)可視化表達(dá)方式(見(jiàn)下頁(yè)表5-5)5.4.2 數(shù)據(jù)可視化工具Python語(yǔ)言因其開(kāi)源和包容的特性,嵌入了大量數(shù)據(jù)可視化的工具,如繪圖工具模塊Matplotlib、Seaborn和Bokeh等。Seaborn主要關(guān)注統(tǒng)計(jì)模型的可視化。Bokeh也是一個(gè)很好的可視化庫(kù),可實(shí)現(xiàn)交互式可視化。第五章 數(shù)據(jù)處理和可視化表達(dá) 學(xué)業(yè)測(cè)試一、單選題1.從互聯(lián)網(wǎng)產(chǎn)生大數(shù)據(jù)的角度,大數(shù)據(jù)具有的特征( )A.4V特征:大量(Volume)、多樣(Variety)、低價(jià)值密度(Value)、高速(Velocity)B.樣本漸趨于總體,精確讓位于模糊,相關(guān)性重于因果C.分布式存儲(chǔ),分布式并行計(jì)算D.沒(méi)有特征2.下列可以用于分析數(shù)據(jù)趨勢(shì)的是( )A.餅圖 B.折線圖 C.動(dòng)力熱力圖 D.詞云圖3.數(shù)據(jù)分析的方法不包括( )。A.線性分析 B.關(guān)聯(lián)分析 C.聚類(lèi)分析 D.?dāng)?shù)據(jù)分類(lèi)4.下列關(guān)于大數(shù)據(jù)的特征,說(shuō)法正確的是( )A.?dāng)?shù)據(jù)價(jià)值密度高 B.?dāng)?shù)據(jù)類(lèi)型少 C.?dāng)?shù)據(jù)基本無(wú)變化 D.?dāng)?shù)據(jù)體量巨大5.數(shù)據(jù)特征探索的主要任務(wù)是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,以下不屬于該過(guò)程的是( )A.?dāng)?shù)據(jù)清洗 B.異常數(shù)據(jù)處理 C.?dāng)?shù)據(jù)缺失處理 D.?dāng)?shù)據(jù)分類(lèi)處理6.海軍軍官通過(guò)對(duì)前人航海日志的分析,繪制了新的航海路線圖,標(biāo)明了大風(fēng)與洋流可能發(fā)生的地點(diǎn)。這體現(xiàn)了大數(shù)據(jù)分析理念中的( )A.在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)B.在分析方法上更注重相關(guān)分析而不是因果分析C.在分析效果上更追究效率而不是絕對(duì)精確D.在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對(duì)數(shù)據(jù)而不是絕對(duì)數(shù)據(jù)7.大數(shù)據(jù)時(shí)代已經(jīng)在悄悄地改變我們的日常生活,也使人們?nèi)粘I罡鼮楸憬荩缫苿?dòng)支付、網(wǎng)絡(luò)約車(chē)出行、網(wǎng)絡(luò)購(gòu)物、網(wǎng)絡(luò)預(yù)約掛號(hào)等。以下不屬于大數(shù)據(jù)分析的是( )A.特征探索 B.關(guān)聯(lián)分析 C.聚類(lèi)與分類(lèi) D.建模分析8.電子警察采用拍照的方式來(lái)約束車(chē)輛的行為,其拍照的過(guò)程屬于( )A.數(shù)據(jù)分析 B.數(shù)據(jù)采集 C.數(shù)據(jù)分類(lèi) D.數(shù)據(jù)可視化表達(dá)9.某超市曾經(jīng)研究銷(xiāo)售數(shù)據(jù),發(fā)現(xiàn)買(mǎi)商品A的人購(gòu)買(mǎi)商品B的概率很大,這種屬于數(shù)據(jù)的( )A.聚類(lèi)分析 B.關(guān)聯(lián)分析 C.分類(lèi)分析 D.回歸分析10.數(shù)據(jù)采集的基本方法包括( )、網(wǎng)絡(luò)數(shù)據(jù)采集法和其他數(shù)據(jù)采集法。A.?dāng)?shù)據(jù)庫(kù)采集法 B.訪問(wèn)記錄采集法 C.?dāng)?shù)據(jù)目錄采集法 D.系統(tǒng)日志采集法11.下列關(guān)于聚類(lèi)分析的說(shuō)法,錯(cuò)誤的是( )A.可以從數(shù)據(jù)點(diǎn)集合中隨機(jī)選擇K個(gè)點(diǎn)作為初始的聚集中心B對(duì)其他的每個(gè)數(shù)據(jù)點(diǎn),以此判斷其與K個(gè)中心點(diǎn)的距離,距離最近的表明它屬于這項(xiàng)聚類(lèi)C.聚類(lèi)分析,必須先設(shè)定分類(lèi)的標(biāo)準(zhǔn),否則無(wú)法準(zhǔn)確分類(lèi)D.重新計(jì)算新的聚簇集合的平均值既中心點(diǎn)12.K-平均算法屬于( )分析方法。A.聚類(lèi) B.關(guān)聯(lián) C.分類(lèi) D.回歸13.網(wǎng)絡(luò)數(shù)據(jù)采集法,主要通過(guò)網(wǎng)絡(luò)爬蟲(chóng)或網(wǎng)站公開(kāi)API的方式獲取,網(wǎng)絡(luò)爬蟲(chóng)從網(wǎng)頁(yè)的( )開(kāi)始獲取。 A.HTML B.WWW C.URL D.XML14.大數(shù)據(jù)時(shí)代,數(shù)據(jù)應(yīng)用的關(guān)鍵是( )A.數(shù)據(jù)收集 B.數(shù)據(jù)存儲(chǔ) C.數(shù)據(jù)分析 D.數(shù)據(jù)再利用15.為了弘揚(yáng)和傳承中華民族勤儉節(jié)約的傳統(tǒng)美德,引導(dǎo)同學(xué)們進(jìn)一步深化節(jié)約糧食的意識(shí)和行為習(xí)慣,學(xué)生會(huì)開(kāi)展了“我為食堂提建議”的活動(dòng)。請(qǐng)根據(jù)學(xué)生會(huì)開(kāi)展該活動(dòng)的幾個(gè)步驟,排出最合理的順序( )①根據(jù)數(shù)據(jù)分析結(jié)果,撰寫(xiě)數(shù)據(jù)分析報(bào)告,對(duì)食堂提出合理化建議②學(xué)生會(huì)成員去學(xué)校食堂收集數(shù)據(jù),并制作調(diào)查問(wèn)卷的題目③利用圖表形式直觀展示分析數(shù)據(jù)④對(duì)問(wèn)卷進(jìn)行回收整理,將無(wú)效的問(wèn)卷進(jìn)行剔除⑤學(xué)生會(huì)成員對(duì)就餐同學(xué)們進(jìn)行問(wèn)卷調(diào)查⑥對(duì)調(diào)查數(shù)據(jù)和食堂數(shù)據(jù)進(jìn)行分析與處理A.②⑤④⑥③① B.②④⑤③⑥① C.⑤②④⑥③① D.⑤④②③⑥①二、思考題1.若要求你對(duì)本班同學(xué)喜歡看的書(shū)籍進(jìn)行分類(lèi)統(tǒng)計(jì),并對(duì)其進(jìn)行數(shù)據(jù)分析,你會(huì)如何做?談?wù)勀愕南敕ā?br/>2.大數(shù)據(jù)正在改變社會(huì)很多行業(yè)的工作方式,醫(yī)療大數(shù)據(jù)可以更好地為患者服務(wù)。請(qǐng)思考醫(yī)療大數(shù)據(jù)對(duì)醫(yī)療行業(yè)發(fā)展的作用。3.在智慧城市和智慧交通城市建設(shè)中,每天產(chǎn)生海量的交通大數(shù)據(jù),這些數(shù)據(jù)為城市、交通的管理提供決策支持。請(qǐng)從數(shù)據(jù)采集、數(shù)據(jù)分析、數(shù)據(jù)可視化表達(dá)三個(gè)方面,分析大數(shù)據(jù)在智慧城市和智慧交通建設(shè)中的實(shí)現(xiàn)方法。4.當(dāng)用戶(hù)登錄某網(wǎng)站購(gòu)買(mǎi)、瀏覽、收藏了某些書(shū)籍后,再次登錄該網(wǎng)站時(shí),會(huì)發(fā)現(xiàn)網(wǎng)頁(yè)上增加了“你可能感興趣的書(shū)”以及“購(gòu)買(mǎi)此商品的顧客也同時(shí)購(gòu)買(mǎi)”之類(lèi)的推送條目,如圖5-16所示。問(wèn)題1:網(wǎng)站給用戶(hù)自動(dòng)推薦商品的依據(jù)是什么?采用了什么分析方法?問(wèn)題2:網(wǎng)站數(shù)據(jù)可能對(duì)用戶(hù)產(chǎn)生哪些影響?5.某公司推出了嵌有多種傳感器、能夠測(cè)量生命體征數(shù)據(jù)的T恤,該公司稱(chēng)為“Fit衫”,從而使專(zhuān)業(yè)醫(yī)護(hù)人員能夠以低成本頻繁監(jiān)測(cè)患者體質(zhì),提供更加有效的預(yù)防性醫(yī)療保健?!癋it衫”利用內(nèi)嵌的各種傳感器測(cè)量或記錄用戶(hù)的數(shù)據(jù),例如利用體溫傳感器測(cè)量體溫,利用生物電傳感器收集心電、腦電數(shù)據(jù),利用熱通量傳感器監(jiān)測(cè)熱量消耗能力......“Fit衫”里的傳感器所測(cè)得的心率、活動(dòng)量以及心電圖等數(shù)據(jù)可顯示在平板電腦的顯示器上。問(wèn)題1:請(qǐng)你簡(jiǎn)單描述“Fit衫”主要是通用什么方法和工具來(lái)收集數(shù)據(jù)。問(wèn)題2:在收集數(shù)據(jù)的過(guò)程中,如何才能避免侵犯他人的知識(shí)產(chǎn)權(quán)和隱私,請(qǐng)談?wù)勀愕目捶ā?br/>學(xué)校使用“五能評(píng)價(jià)雷達(dá)圖”,讓每個(gè)同學(xué)們的道德素養(yǎng)、學(xué)能素養(yǎng)、創(chuàng)新素養(yǎng)、身體素養(yǎng)、心理素養(yǎng)的達(dá)成度一目了然。以下是李明同學(xué)的“五能評(píng)價(jià)雷達(dá)圖”,如圖5-17所示。請(qǐng)你對(duì)李明同學(xué)的綜合素質(zhì)發(fā)展情況進(jìn)行簡(jiǎn)述。圖5-17 五能評(píng)價(jià)雷達(dá)圖7.由大數(shù)據(jù)產(chǎn)生的爭(zhēng)辯中,一部分人十分抵觸將私人行為暴露在公眾視野中,另一部分人卻認(rèn)為人類(lèi)行為數(shù)據(jù)就好比自然資源,應(yīng)該無(wú)私地提供給企業(yè)、政府和醫(yī)療單位等,從而革新服務(wù)和產(chǎn)品反哺人類(lèi)。請(qǐng)小組內(nèi)展開(kāi)討論,談?wù)勀銈兊挠^點(diǎn)。8.數(shù)據(jù)可視化表達(dá)的工具多種多樣,且各具特色,如何選擇一款適合的工具對(duì)提高學(xué)習(xí)效率至關(guān)重要。請(qǐng)小組內(nèi)展開(kāi)討論,思考并分享其中一款數(shù)據(jù)可視化表達(dá)工具的優(yōu)缺點(diǎn)。三、情境題1.智能手環(huán)作為一種智能可穿戴設(shè)備,可以記錄用戶(hù)日常生活中的鍛煉、睡眠、身體狀況等實(shí)時(shí)數(shù)據(jù),并利用數(shù)據(jù)給用戶(hù)提供健康建議。簡(jiǎn)要分析智能手環(huán)采集數(shù)據(jù)的過(guò)程,并分析智能手環(huán)是如何利用采集的數(shù)據(jù)給予用戶(hù)建議的。2.改革開(kāi)放以來(lái),中國(guó)經(jīng)濟(jì)發(fā)展取得令人矚目的成就,但是中國(guó)各省發(fā)展差異大。如歷年各省的國(guó)內(nèi)生產(chǎn)圖5-18智能手環(huán)總值(GDP)和人口數(shù)據(jù),我們可以發(fā)現(xiàn)經(jīng)濟(jì)發(fā)展和人口數(shù)據(jù)的變化規(guī)律。請(qǐng)采集有關(guān)數(shù)據(jù),并進(jìn)行數(shù)據(jù)分析,通過(guò)數(shù)據(jù)分析發(fā)現(xiàn)數(shù)據(jù)中的一些規(guī)律。第 7 頁(yè) 共 8 頁(yè) 展開(kāi)更多...... 收起↑ 資源列表 第五章 數(shù)據(jù)處理與可視化表達(dá)(原卷版).docx 第五章 數(shù)據(jù)處理與可視化表達(dá)(解析版).docx 縮略圖、資源來(lái)源于二一教育資源庫(kù)