中文字幕精品无码一区二区,成全视频在线播放观看方法,大伊人青草狠狠久久,亚洲一区影音先锋色资源

4.2.1 大數據處理基本思想與架構-作業(Word版,無答案) 2023—2024學年浙教版(2019)高中信息技術必修1

資源下載
  1. 二一教育資源

4.2.1 大數據處理基本思想與架構-作業(Word版,無答案) 2023—2024學年浙教版(2019)高中信息技術必修1

資源簡介

第四章作業:《大數據處理的基本思想架構》
班級: 學號: 姓名:
1.大數據處理的分治思想
分治就是把一個復雜的問題分成兩個或更多相同或相似的 ,找到求這幾個子問題的解法后,再找出合適的方法把它們組合成求整個問題的解法。如果這些子問題還難以解決,可以再把它們分成幾個更小的子問題,以此類推,直至可以直接求出解為止。
2. 大數據處理類型
(1)靜態數據:在處理時已收集完成、在計算時 的數據,一般采用 進行處理。
(2) :不間斷地、持續地到達的實時數據,隨著時間的流逝,數據的價值也隨之降低,可采用________ 進行實時分析。
(3)圖數據:現實世界中的許多數據,如社交網絡、道路交通等數據,可采用 進行處理。
3.批處理計算
Hadoop 是一個可運行于大規模計算機集群上的分布式系統基礎架構,適用于 的批處理計算。Hadoop 計算平臺主要包括Common 公共庫、 、 、______________________等多個模塊。
(1)HDFS 將大規模海量數據以________的形式、用多個副本保存在不同的存儲節點中,并用分布式系統進行管理。HDFS 是一個高度容錯性的系統,適合部署在廉價的機器上。
(2)HBase 建立在HDFS 提供的底層存儲基礎上,采用基于列的存儲方式,主要用來存儲 和___________________,可管理PB 級的大數據。
(3)MapReduce:MapReduce 能夠處理大規模數據集的并行運算,主要由 和 2個函數構成。其核心處理思想是將任務分解 并分發到多個節點上進行處理,最后匯總輸出。
4. 流計算
流計算系統可以簡單、高效、可靠地實現實時數據的獲取、傳輸和存儲,在與數據庫、Hadoop、編程語言等整合后可開發出功能強大的實時計算與分析應用。
5. 圖計算
現實世界中的很多數據是以圖的形式呈現的,或者是可以轉換為圖以后再進行分析的,
如社交網絡、網絡瀏覽與購買行為、傳染病的傳播路徑等。
基 礎 訓 練
下列關于流數據的描述,不正確的是( )
A. 數據必須采集完成后處理
B. 數據價值隨著時間的流逝降低
C. 可以采用流計算進行實時分析
D. 實時分析流數據可以得到更有價值的結果
2. 下列應用中涉及流數據處理的是( )
A. 統計店鋪的月交易量
B. 實時更新導航線路
C. 查詢歷史話費賬單
D. 分析上年的地鐵客流數據
3. 下列選項中,屬于分布式文件系統的是( )
A. HDFS B. FAT32
C. NTFS D. Ext4
4. 下列關于分布式數據庫HBase 的理解,不正確的是( )
A.HBase 是谷歌BigTable數據庫的開源實現
B. 建立在HDFS 提供的底層存儲基礎上
C. 采用基于行的存儲方式,可管理PB 級的大數據
D. 主要用于存儲非結構化數據和半結構化數據
5. 下列屬于圖數據處理軟件的是( )
A. MapReduce B. Twitter Storm
C. Yahoo! S4 D.Google Pregel
6. 實時處理與批處理整合的優勢有( )
①增加了系統開銷
②有利于降低使用成本
③可以在同一個平臺做批處理計算和流計算
④縮短了批處理計算和流計算之間的切換延時
A.①②③ B.①②④
C.①③④ D.②③④
7. 下列關于數據和信息的說法,正確的是( )
A.數據的表現形式只能是文字和圖像 B.同一信息對所有人而言其價值是相同的
C.計算機中保存的數據可以是未經數字化的 D.信息是數據經分析、解釋后得到的
8. 下列關于大數據的說法,不正確的是 ( )
A. Windows和Linux文件系統均不能滿足分布式文件的管理需求
B. Hadoop分布式文件系統是谷歌文件系統的開源實現
C. Twitter開源了其大數據處理系統Summingbird,該系統實現了批處理和圖計算在一個平臺架構下的整合
D. MapReduce分布并行計算的思想是將任務分解并分發到多個節點上進行處理,最后匯總輸出
9. 淘寶所使用的銀河流數據處理平臺,可以不間斷、持續到達的、具有時效性的給平臺提供數據參考,已知的實時更新的導航系統也具備同樣的特征,可以推測這兩種平臺實現上述功能采用的是()
A. 對流數據的流計算 B. 對靜態數據的批處理計算
C. 對圖數據的圖計算 D. 對靜態數據的圖計算
10. 下列屬于Hadoop計算平臺包括的模塊的是( )
①分布式并行計算模型 MapReduce ②Twitter Storm軟件系統 ③分布式文件系統HDFS ④分布式數據庫HBase ⑤Google Pregel系統
A. ②④ B. ①②③ C. ①③④ D. ④⑤
11. 下列應用中的數據不屬于圖計算處理的是 ( )
A. 社交網絡圖 B. 傳染病的傳播途徑
C. 實時更新的天氣預報信息 D. 臺風的移動軌跡
12. 下列關于大數據處理方法和特征的說法,不正確的是( )
A. 圖數據的處理方式為圖計算
B. 流數據具有不間斷、持續到達的、具有時效性的特點
C. 圖數據的處理平臺有Hadoop、Pregel等
D. 靜態數據在處理時已收集完成,在計算時不會發生改變,處理平臺包括Spark等
13. 應用“分治”思想,從某大型搜索引擎網站某天的訪問日志數據文件(大數據集)中提取出訪問該網站次數最多的IP。
(1)IP地址是一個32位的二進制數,通常被分割為4個“8位二進制數”。IP 地址通常用“點分十進制”表示成a.b.c.d的形式,其中a,b,c,d均為0~255之間的十進制整數。 如:點分十進制 IP 地址100 .4 . 5 . 6,實際上是32位二進制數01100100.00000100.00000101.00000110。IP地址最多有 種取值。
(2)IP日志數據量非常大,不能完全加載到內存中處理。可以采用“分治”思想,把 IP日志數據分別存儲到1024個小文件中,則每個小文件最多包含 個IP地址的數據。
(3)同時統計每個小文件中出現次數最多的IP地址和出現次數。若小文件中IP地址數據格式如圖4-7所示,統計小文件中出現次數最多的IP地址的Python代碼如下,在方框中補充合適代碼,完善程序。
file =open('1.log')
ips =[]
for line in file:
ip=line.split()[0] #split()分割后,返回的列表中第一個值就是IP地址
ips.append(ip)
def showmax(list): #返回一個列表中出現次數最多的元素及其出現次數
print(showmax(ips))
(4)匯總每個小文件中出現次數最多的IP地址和出現次數數據,可以得到至少 個 IP地址。對這些IP地址按出現次數排序或求最大值,最終得到總體上出現次數最多的IP。
【編程作業】
給定一個正整數n,返回連續正整數滿足所有數字之和為n的組數。
示例1:
輸入:n=5
輸出:2
解釋:5=2+3,共有兩組連續整數([5],[2,3])求和后為5
示例2:
輸入:n=9
輸出:3
解釋:9=4+5=2+3+4
示例3:
輸入:n=15
輸出:4
解釋:15=7+8=4+5+6=1+2+3+4+5

展開更多......

收起↑

資源預覽

<pre id="tfb94"><li id="tfb94"></li></pre>

<bdo id="tfb94"><rt id="tfb94"></rt></bdo>
  • <menu id="tfb94"><dl id="tfb94"></dl></menu><i id="tfb94"><acronym id="tfb94"><sub id="tfb94"></sub></acronym></i>

    1. 主站蜘蛛池模板: 屯门区| 蓝田县| 合江县| 古浪县| 庆云县| 九龙城区| 嘉禾县| 上蔡县| 瑞丽市| 年辖:市辖区| 隆回县| 松滋市| 鞍山市| 油尖旺区| 潮安县| 汝城县| 北京市| 鹤岗市| 新晃| 孙吴县| 珠海市| 台山市| 台中市| 巴林左旗| 攀枝花市| 肃南| 应用必备| 屏东市| 友谊县| 铁力市| 霍州市| 达拉特旗| 汽车| 咸宁市| 抚松县| 新丰县| 车险| 荥阳市| 永平县| 台湾省| 凉城县|