中文字幕精品无码一区二区,成全视频在线播放观看方法,大伊人青草狠狠久久,亚洲一区影音先锋色资源

<i id="o08ym"><dl id="o08ym"><sub id="o08ym"></sub></dl></i><menuitem id="o08ym"></menuitem>

<rp id="o08ym"><em id="o08ym"><small id="o08ym"></small></em></rp>

4.2.1 大數據處理基本思想與架構-作業（Word版，無答案） 2023—2024學年浙教版（2019）高中信息技術必修1

資源下載

資源下載

資源下載

資源簡介

第四章作業：《大數據處理的基本思想架構》
班級：學號：姓名：
1.大數據處理的分治思想
分治就是把一個復雜的問題分成兩個或更多相同或相似的，找到求這幾個子問題的解法后，再找出合適的方法把它們組合成求整個問題的解法。如果這些子問題還難以解決，可以再把它們分成幾個更小的子問題，以此類推，直至可以直接求出解為止。
2. 大數據處理類型
(1)靜態數據：在處理時已收集完成、在計算時的數據，一般采用進行處理。
(2) ：不間斷地、持續地到達的實時數據，隨著時間的流逝，數據的價值也隨之降低，可采用________ 進行實時分析。
(3)圖數據：現實世界中的許多數據，如社交網絡、道路交通等數據，可采用進行處理。
3.批處理計算
Hadoop 是一個可運行于大規模計算機集群上的分布式系統基礎架構，適用于的批處理計算。Hadoop 計算平臺主要包括Common 公共庫、、、______________________等多個模塊。
(1)HDFS 將大規模海量數據以________的形式、用多個副本保存在不同的存儲節點中，并用分布式系統進行管理。HDFS 是一個高度容錯性的系統，適合部署在廉價的機器上。
(2)HBase 建立在HDFS 提供的底層存儲基礎上，采用基于列的存儲方式，主要用來存儲和___________________，可管理PB 級的大數據。
(3)MapReduce:MapReduce 能夠處理大規模數據集的并行運算，主要由和 2個函數構成。其核心處理思想是將任務分解并分發到多個節點上進行處理，最后匯總輸出。
4. 流計算
流計算系統可以簡單、高效、可靠地實現實時數據的獲取、傳輸和存儲，在與數據庫、Hadoop、編程語言等整合后可開發出功能強大的實時計算與分析應用。
5. 圖計算
現實世界中的很多數據是以圖的形式呈現的，或者是可以轉換為圖以后再進行分析的，
如社交網絡、網絡瀏覽與購買行為、傳染病的傳播路徑等。
基礎訓練
下列關于流數據的描述，不正確的是( )
A. 數據必須采集完成后處理
B. 數據價值隨著時間的流逝降低
C. 可以采用流計算進行實時分析
D. 實時分析流數據可以得到更有價值的結果
2. 下列應用中涉及流數據處理的是( )
A. 統計店鋪的月交易量
B. 實時更新導航線路
C. 查詢歷史話費賬單
D. 分析上年的地鐵客流數據
3. 下列選項中，屬于分布式文件系統的是( )
A. HDFS B. FAT32
C. NTFS D. Ext4
4. 下列關于分布式數據庫HBase 的理解，不正確的是( )
A.HBase 是谷歌BigTable數據庫的開源實現
B. 建立在HDFS 提供的底層存儲基礎上
C. 采用基于行的存儲方式，可管理PB 級的大數據
D. 主要用于存儲非結構化數據和半結構化數據
5. 下列屬于圖數據處理軟件的是( )
A. MapReduce B. Twitter Storm
C. Yahoo! S4 D.Google Pregel
6. 實時處理與批處理整合的優勢有( )
①增加了系統開銷
②有利于降低使用成本
③可以在同一個平臺做批處理計算和流計算
④縮短了批處理計算和流計算之間的切換延時
A.①②③ B.①②④
C.①③④ D.②③④
7. 下列關于數據和信息的說法，正確的是( )
A.數據的表現形式只能是文字和圖像 B.同一信息對所有人而言其價值是相同的
C.計算機中保存的數據可以是未經數字化的 D.信息是數據經分析、解釋后得到的
8. 下列關于大數據的說法，不正確的是（）
A. Windows和Linux文件系統均不能滿足分布式文件的管理需求
B. Hadoop分布式文件系統是谷歌文件系統的開源實現
C. Twitter開源了其大數據處理系統Summingbird，該系統實現了批處理和圖計算在一個平臺架構下的整合
D. MapReduce分布并行計算的思想是將任務分解并分發到多個節點上進行處理，最后匯總輸出
9. 淘寶所使用的銀河流數據處理平臺，可以不間斷、持續到達的、具有時效性的給平臺提供數據參考，已知的實時更新的導航系統也具備同樣的特征，可以推測這兩種平臺實現上述功能采用的是（）
A. 對流數據的流計算 B. 對靜態數據的批處理計算
C. 對圖數據的圖計算 D. 對靜態數據的圖計算
10. 下列屬于Hadoop計算平臺包括的模塊的是（）
①分布式并行計算模型 MapReduce ②Twitter Storm軟件系統 ③分布式文件系統HDFS ④分布式數據庫HBase ⑤Google Pregel系統
A. ②④ B. ①②③ C. ①③④ D. ④⑤
11. 下列應用中的數據不屬于圖計算處理的是（）
A. 社交網絡圖 B. 傳染病的傳播途徑
C. 實時更新的天氣預報信息 D. 臺風的移動軌跡
12. 下列關于大數據處理方法和特征的說法，不正確的是（）
A. 圖數據的處理方式為圖計算
B. 流數據具有不間斷、持續到達的、具有時效性的特點
C. 圖數據的處理平臺有Hadoop、Pregel等
D. 靜態數據在處理時已收集完成，在計算時不會發生改變，處理平臺包括Spark等
13. 應用“分治”思想，從某大型搜索引擎網站某天的訪問日志數據文件(大數據集)中提取出訪問該網站次數最多的IP。
（1）IP地址是一個32位的二進制數，通常被分割為4個“8位二進制數”。IP 地址通常用“點分十進制”表示成a.b.c.d的形式，其中a,b,c,d均為0～255之間的十進制整數。如：點分十進制 IP 地址100 .4 . 5 . 6,實際上是32位二進制數01100100.00000100.00000101.00000110。IP地址最多有種取值。
（2）IP日志數據量非常大，不能完全加載到內存中處理。可以采用“分治”思想，把 IP日志數據分別存儲到1024個小文件中，則每個小文件最多包含個IP地址的數據。
（3）同時統計每個小文件中出現次數最多的IP地址和出現次數。若小文件中IP地址數據格式如圖4-7所示，統計小文件中出現次數最多的IP地址的Python代碼如下，在方框中補充合適代碼，完善程序。
file =open('1.log')
ips =[]
for line in file:
ip=line.split()[0] #split()分割后，返回的列表中第一個值就是IP地址
ips.append(ip)
def showmax(list): #返回一個列表中出現次數最多的元素及其出現次數
print(showmax(ips))
（4）匯總每個小文件中出現次數最多的IP地址和出現次數數據，可以得到至少個 IP地址。對這些IP地址按出現次數排序或求最大值，最終得到總體上出現次數最多的IP。
【編程作業】
給定一個正整數n，返回連續正整數滿足所有數字之和為n的組數。
示例1：
輸入：n=5
輸出：2
解釋：5=2+3，共有兩組連續整數（[5],[2,3]）求和后為5
示例2：
輸入：n=9
輸出：3
解釋：9=4+5=2+3+4
示例3：
輸入：n=15
輸出：4
解釋：15=7+8=4+5+6=1+2+3+4+5

展開更多......

收起↑

資源預覽

縮略圖、資源來源于二一教育資源庫

<label id="r4fhd"><center id="r4fhd"></center></label>

<track id="r4fhd"></track>

<pre id="r4fhd"><abbr id="r4fhd"><code id="r4fhd"></code></abbr></pre>

<ul id="r4fhd"></ul>

<menu id="r4fhd"></menu>

主站蜘蛛池模板：同仁县| 化州市| 北票市| 诸暨市| 葫芦岛市| 呼和浩特市| 巍山| 台州市| 高雄市| 贺兰县| 交口县| 武宣县| 香格里拉县| 富裕县| 米泉市| 元阳县| 九寨沟县| 武夷山市| 长海县| 电白县| 板桥市| 金寨县| 合山市| 昌吉市| 青龙| 聂荣县| 黄大仙区| 通辽市| 承德市| 涞源县| 微博| 呼伦贝尔市| 慈利县| 静安区| 阿鲁科尔沁旗| 灯塔市| 墨脱县| 原平市| 河池市| 股票| 凌海市|