資源簡介 第四章作業:《大數據處理的基本思想架構》班級: 學號: 姓名:1.大數據處理的分治思想分治就是把一個復雜的問題分成兩個或更多相同或相似的 ,找到求這幾個子問題的解法后,再找出合適的方法把它們組合成求整個問題的解法。如果這些子問題還難以解決,可以再把它們分成幾個更小的子問題,以此類推,直至可以直接求出解為止。2. 大數據處理類型(1)靜態數據:在處理時已收集完成、在計算時 的數據,一般采用 進行處理。(2) :不間斷地、持續地到達的實時數據,隨著時間的流逝,數據的價值也隨之降低,可采用________ 進行實時分析。(3)圖數據:現實世界中的許多數據,如社交網絡、道路交通等數據,可采用 進行處理。3.批處理計算Hadoop 是一個可運行于大規模計算機集群上的分布式系統基礎架構,適用于 的批處理計算。Hadoop 計算平臺主要包括Common 公共庫、 、 、______________________等多個模塊。(1)HDFS 將大規模海量數據以________的形式、用多個副本保存在不同的存儲節點中,并用分布式系統進行管理。HDFS 是一個高度容錯性的系統,適合部署在廉價的機器上。(2)HBase 建立在HDFS 提供的底層存儲基礎上,采用基于列的存儲方式,主要用來存儲 和___________________,可管理PB 級的大數據。(3)MapReduce:MapReduce 能夠處理大規模數據集的并行運算,主要由 和 2個函數構成。其核心處理思想是將任務分解 并分發到多個節點上進行處理,最后匯總輸出。4. 流計算流計算系統可以簡單、高效、可靠地實現實時數據的獲取、傳輸和存儲,在與數據庫、Hadoop、編程語言等整合后可開發出功能強大的實時計算與分析應用。5. 圖計算現實世界中的很多數據是以圖的形式呈現的,或者是可以轉換為圖以后再進行分析的,如社交網絡、網絡瀏覽與購買行為、傳染病的傳播路徑等。基 礎 訓 練下列關于流數據的描述,不正確的是( )A. 數據必須采集完成后處理B. 數據價值隨著時間的流逝降低C. 可以采用流計算進行實時分析D. 實時分析流數據可以得到更有價值的結果2. 下列應用中涉及流數據處理的是( )A. 統計店鋪的月交易量B. 實時更新導航線路C. 查詢歷史話費賬單D. 分析上年的地鐵客流數據3. 下列選項中,屬于分布式文件系統的是( )A. HDFS B. FAT32C. NTFS D. Ext44. 下列關于分布式數據庫HBase 的理解,不正確的是( )A.HBase 是谷歌BigTable數據庫的開源實現B. 建立在HDFS 提供的底層存儲基礎上C. 采用基于行的存儲方式,可管理PB 級的大數據D. 主要用于存儲非結構化數據和半結構化數據5. 下列屬于圖數據處理軟件的是( )A. MapReduce B. Twitter StormC. Yahoo! S4 D.Google Pregel6. 實時處理與批處理整合的優勢有( )①增加了系統開銷②有利于降低使用成本③可以在同一個平臺做批處理計算和流計算④縮短了批處理計算和流計算之間的切換延時A.①②③ B.①②④C.①③④ D.②③④7. 下列關于數據和信息的說法,正確的是( )A.數據的表現形式只能是文字和圖像 B.同一信息對所有人而言其價值是相同的C.計算機中保存的數據可以是未經數字化的 D.信息是數據經分析、解釋后得到的8. 下列關于大數據的說法,不正確的是 ( )A. Windows和Linux文件系統均不能滿足分布式文件的管理需求B. Hadoop分布式文件系統是谷歌文件系統的開源實現C. Twitter開源了其大數據處理系統Summingbird,該系統實現了批處理和圖計算在一個平臺架構下的整合D. MapReduce分布并行計算的思想是將任務分解并分發到多個節點上進行處理,最后匯總輸出9. 淘寶所使用的銀河流數據處理平臺,可以不間斷、持續到達的、具有時效性的給平臺提供數據參考,已知的實時更新的導航系統也具備同樣的特征,可以推測這兩種平臺實現上述功能采用的是()A. 對流數據的流計算 B. 對靜態數據的批處理計算C. 對圖數據的圖計算 D. 對靜態數據的圖計算10. 下列屬于Hadoop計算平臺包括的模塊的是( )①分布式并行計算模型 MapReduce ②Twitter Storm軟件系統 ③分布式文件系統HDFS ④分布式數據庫HBase ⑤Google Pregel系統A. ②④ B. ①②③ C. ①③④ D. ④⑤11. 下列應用中的數據不屬于圖計算處理的是 ( )A. 社交網絡圖 B. 傳染病的傳播途徑C. 實時更新的天氣預報信息 D. 臺風的移動軌跡12. 下列關于大數據處理方法和特征的說法,不正確的是( )A. 圖數據的處理方式為圖計算B. 流數據具有不間斷、持續到達的、具有時效性的特點C. 圖數據的處理平臺有Hadoop、Pregel等D. 靜態數據在處理時已收集完成,在計算時不會發生改變,處理平臺包括Spark等13. 應用“分治”思想,從某大型搜索引擎網站某天的訪問日志數據文件(大數據集)中提取出訪問該網站次數最多的IP。(1)IP地址是一個32位的二進制數,通常被分割為4個“8位二進制數”。IP 地址通常用“點分十進制”表示成a.b.c.d的形式,其中a,b,c,d均為0~255之間的十進制整數。 如:點分十進制 IP 地址100 .4 . 5 . 6,實際上是32位二進制數01100100.00000100.00000101.00000110。IP地址最多有 種取值。(2)IP日志數據量非常大,不能完全加載到內存中處理。可以采用“分治”思想,把 IP日志數據分別存儲到1024個小文件中,則每個小文件最多包含 個IP地址的數據。(3)同時統計每個小文件中出現次數最多的IP地址和出現次數。若小文件中IP地址數據格式如圖4-7所示,統計小文件中出現次數最多的IP地址的Python代碼如下,在方框中補充合適代碼,完善程序。file =open('1.log')ips =[]for line in file:ip=line.split()[0] #split()分割后,返回的列表中第一個值就是IP地址ips.append(ip)def showmax(list): #返回一個列表中出現次數最多的元素及其出現次數print(showmax(ips))(4)匯總每個小文件中出現次數最多的IP地址和出現次數數據,可以得到至少 個 IP地址。對這些IP地址按出現次數排序或求最大值,最終得到總體上出現次數最多的IP。【編程作業】給定一個正整數n,返回連續正整數滿足所有數字之和為n的組數。示例1:輸入:n=5輸出:2解釋:5=2+3,共有兩組連續整數([5],[2,3])求和后為5示例2:輸入:n=9輸出:3解釋:9=4+5=2+3+4示例3:輸入:n=15輸出:4解釋:15=7+8=4+5+6=1+2+3+4+5 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫