資源簡介 (共84張PPT)高中信息技術必修一第四單元數據處理與應用1、數據錯誤類型2、excel處理數據3、python處理數據大數據具有數據量大、數據來源與類型多樣、處理速度快等特點,簡單的表格處理軟件已經無法滿足大數據的處理需求,同時,大數據技術、理論和處理方法也在不斷發展,為大數據的處理提供了越來越有力的支持。大數據特征1、數據體量大2、速度快3、數據類型多4、價值密度低(數據非常多,但有用的只有一小部分)靜態數據:在處理時已收集完成、在計算時不會發生改變的數據流數據:不間斷地、持續地達到的實時數據,隨著時間的流逝,流數據的價值也隨著降低。數據缺失數據重復數據異常邏輯錯誤格式不一序號 姓名 性別 語文 數學 英語 總分 日期1 小唐 男 98 120 125 343 2023-2-172 李好 5002354 78 112 125 315 2023-2-173 王小牛 女 100 98 2023-2-174 張三 女 170 100 200 470 2.175 麻花 女 96 52 68 216 2023-2-176 小唐 男 98 120 125 343 2023-2-17數據整理數據處理與應用1、數據錯誤類型2、excel處理數據3、python處理數據1、字母代表列、數字代表行。2、單元格用于表示數據位置。書寫方式:列在前,行在后。例如:A253、單元格區域書寫方式。A2:A11,A2:E54、運算符:^ <> &Excel表基礎常識Excel單元格、區域引用單元格引用:是用于標識工作表上的單元格或區域,并指明公式或函數使用數據所在的位置。通過引用,可以在函數或公式中使用工作表不同部分的數據,或在多個函數或公式中使用同一單元格的數值。A B C1 13 32 632 15 41 753 46 40 124 25 52 38B2=B2+B4=sum(A1:A4)相對引用:單元格或區域會相對變化,格式如:A1絕對引用:單元格或區域確定不變,需要鎖定,格式如:$A$1混合引用: 行不變則鎖行,列不變則鎖列。格式如$A1或A$1Excel單元格、區域引用黃色部分和綠色部分行、列怎么變化?A B C D F G1 選擇 判斷 填空 作文 總分 折算分2 15 41 75 55 186 933 46 40 12 764 45 32 78 235 25 52 38 566 44 25 62 437 折算率 0. 5=A1+B1+C1+D1=SUM(A1:D1)總分計算=(A1+B1+C1+D1)/$B$7=SUM(A1:D1) /$B$7折分計算依據實際情況,數據區域改變更合理該單元格行和列不變,所以需要鎖定各小組總分:=SUMIF( A 2: A 8 , I2 , F 2: F 8)各小組成員總分排名:=RANK(F2 , F 1: F 8 )數據計算——公式公式的格式: = 表達式其中表達式有運算符號,常量,單元格地址,函數以及括號組成。=B4+100=(A1+B1)/2=B4*A4=sum(A2:A6)/B4……例如:=A2+B2某班級約定,每周進行操行評定,分為4個項目,回答問題、作業提交,遲到和早退。回答問題正確加2分,作業提交獲得優加2分,遲到一次扣3分,早退一次扣5分。下表部分同學的操行評定情況。使用公式在F2單元格中,計算出操行總分求和求平均值求最小值求最大值SUM( )AVERAGE( )MIN( )MAX( )數據計算——函數格式: 函數名(參數1,參數2……)函數其實是一些預定義的公式,它們使用稱為參數的特定數值按特定的順序進行計算。例:=sum(A2:A16)求個數count( )條件返回真假if( )常用函數=if(條件判斷,“真值”,“假值”)一個數據區域Eg:=if(成績>90,“優秀”, “合格”)1、使用函數計算高一一班的總分,和400米的最高分2、求200米成績中,分數為0的班級個數3、 如果總分高于80分為優秀、否則良好COUNTIF( )指定區域中符合條件的單元格數目SUMIF( )指定區域中符合條件的值求和AVERAGEIF( )指定條件求平均值函數Rank( )大小排名、排序補充函數=rank(數值,數據區域,排序方式)=countif(計算區域,條件)=sumif(條件區域,條件,求和區域)=averageif(條件區域,條件,計算區域)RANK 函數:用來排名排序的函數Number(數值):給誰排序就填誰Ref(引用):參與排序的所有范圍排位方式:0或忽略為降序,非零值為升序A B C1 操作題 總分 排名2 50 503 50 504 48.3 48.35 48.1 48.16 47 477 46.5 46.58 46.5 46.5某學校高一年級一次月考結束后,老師用電子表格軟件對數據進行處理,如圖所示:課堂練習-非選擇題請回答以下問題:(1)該數據表是按照________科目進行________排列。(2)該數據表中第二位同學沒有總分,如果要用公式計算此同學的總分,公式為=________(3)已知該校高一年級共有 200 名學生都參加了考試,要對全年級學生按照總分進行排名(相同分數名次需相同) ,可用到Rank函數,則在H3單元格中應該輸入的Rank函數參數為________降序課堂練習數學D4+E4+F4+G4=Rank(C3,C$3:C$202)Countif函數:指定區域中符合條件的單元格計數格式:=countif(計算區域,條件)在2017年,在建設高等院校“211工程”和“985工程”的基礎上,國家推進“雙一流”大學的建設,如圖所示是西南三省211大學名單:課堂練習(1) 在電子表格軟件中,我們一般通過 COUNTIF 函數計算區域中滿足給定條件的單元格的個數。在上表的單元格F3 中,通過“COUNTIF(C3:C9,E3)”函數得到云南省的211 大學數量是1,COUNTIF函數中統計“云南省”211大學個數的數據區域是________(2)得到云南省的 211 大學數量后,張華通過自動填充的方式,得到四川省的211大學個數為4,結果與實際不符,應該將單元格F3的函數修改為________(3)如果要直觀地表示各個省份 211 大學數量,可以應用哪種圖表方式________C3:C9課堂練習=COUNTIF(C$3:C$9,E3)柱形圖格式:=SUMIF(條件區域,判斷條件,計算區域)sumif函數:按條件求和“注意:區域要鎖定”高二年級的10位同學參加數學競賽,成績如下:課堂練習73(1)在上表的G7單元格中,通過函數求出10 位同學的平均分是80.9,則應在該單元格輸入的函數是________(2) AVERAGEIF 是指定條件求平均值函數,上表所示的G3單元格就是通過 AVERAGEIF 函數求出指導教師是“王老師”的所有學生的平均成績。如果用該函數求出 “劉老師”指導學生的平均分,則函數第二個參數應該填________(3)如果要通過自動填充的方式得到G4和G5 單元格的值,則G3 單元格的函數式子應該改為: ________=AVERAGE(C3:C12)課堂練習F4=AVERAGEIF(D$3:D$12,F3, C$3:C$12)3. 高三年級的10位學生參加學校的物理競賽,成績如下:課堂練習94(1)通過觀察上表,獲得一等獎的判斷條件是:________(2)物理老師通過電子表格軟件的“IF函數”快速得到了學生的等級,那么“趙杰” 同學所獲得“等級”單元格的函數編輯欄內的函數應該是: ________(3)物理老師想把表中數據復制到新建數據表中進行編輯,但不想連同D列中的函數粘貼到新表,比較恰當的方式是: ________ (A.在新表中手動輸入;B、選擇性粘貼為數值C、選擇性粘貼為圖片)成績>=90分課堂練習=IF(C8>=90,“一等獎” ,“二等獎”)BP110 Excel表格圖表是用視覺形式向人們展示數據的一種方法。常見的圖表類型有柱形圖、折線圖、餅圖、雷達圖、散點圖、氣泡圖等。注意:數值——柱形圖;趨勢——折線圖;比例——餅圖項目較多——雷達圖圖表呈現數據處理與應用1、數據錯誤類型2、excel處理數據3、python處理數據python函數1.概念:是組織好的,可重復使用的,用來實現單一,或相關聯功能的代碼段。2.優點:提高應用的模塊性,代碼的重復利用率。3.類型:(1)內建函數:Python提供的函數,比如print()、input()、max()…(2)自定義函數:用戶自己創建函數。(3)標準函數庫(又稱模塊)和第三方庫:不是Python自帶的函數庫,需要導入后才可以使用庫中的函數。python模塊的小名兒import 還有更多詳細的用法,主要有以下兩種:導入整個模塊時,也可以為模塊指定別名。①import 模塊名1 [as 別名1]… ②from 模塊名 import 函數名1 [as 別名1],…import pandas as pd pd.series( ) from pandas import DataFrame as dfdf ( )python常用數據處理模塊1、pandas——用于數據處理分析。2、 Matplotlib——用于繪制圖表3、turtle——用于繪制圖形pandasMatplotlibturtle都要使用import導入pandas數據結構1. Series(序列)Series類似于一維數組,由一個數組的數據和一個與數據關聯的索引(index),索引值默認是從0起遞增的整數。import pandas as pdindex:表示索引pandas數據結構2. DataFrame(數據值,行標簽,列標簽)DataFrame是一種類似于關系表的表格型數據結構,DataFrame對象是一個二維表格,由1個索引列(index)和若干個數據列組成。其中,每列中的元素類型必須一致,而不同的列可以擁有不同的元素類型。15. Python 編程中的 pandas庫常用來對數據進行預處理,分析下面的 Python 程序:程序運行以后輸出的結果是 ( )。RangeIndex (start =0, stop=3, step=1)B. RangeIndex (start =0, stop=4, step=1)C. 1 3 5 okD. 1 3 5課堂練習P120 pandas模塊pandas數據結構常用繪制圖表函數plot( )繪制線形圖。bar( )繪制垂直柱形圖。barh( )繪制水平柱形圖。scatter( )繪制散點圖。title( ) 設置圖表的標題。show( )顯示創建的所有繪圖對象。Matplotlib——繪圖表turtle——繪圖形Import turtle as mypenFor x in range(40,0,-10):mypen.circle(x)Mypen.done( )Import turtle as mypenFor x in range(4):mypen.forward(50)mypen.left(90)Mypen.done( )Import turtle as mypenFor x in range(3):mypen.forward(50)mypen.left(120)Mypen.done( )數據處理與應用1、數據錯誤類型2、excel處理數據3、python處理數據4、其他考點橫向對比分析法:是指對同類的兩個或兩個以上的事物進行的比較(同一學期,小王和小明倆人的成績比較)數據分析方法縱向對比分析法: 比較同一事物在不同時期的形態,是指對一個事物的歷史、現狀,乃至未來進行的比較。(不同學期,小明的單科成績的比較)平均分析法:指應用平均數對經濟稅源、稅收現象進行比較分析的統計分析方法結構分析法:是指對經濟系統中各組成部分及其對比關系變動規律的分析1、典型的文本處理過程主要包括文本數據源→分詞→特征提取→數據分析→結果呈現等。2、中文分詞分為:基于詞典(對比)基于統計(頻率)基于規則(計算機模擬人的理解)3、文本數據分析與應用(1)標簽云(大小和顏色表示關鍵詞出現頻次)文本數據處理1.可視化的基本方法(1)有關時間趨勢的可視化:可以采用柱形圖、折線圖等。(2)有關比例的可視化:可以采用餅圖、環形圖(也稱面包圈圖)等。(3)有關關系的可視化:可以使用散點圖、氣泡圖等。(4)有關差異的可視化:可以采用雷達圖。(5)有關空間關系的可視化:運用不同顏色或圖表直接在地圖上進行展示。數據可視化 P1331.學習小組在調查同學的愛好情況,通過問卷收集了一些數據,小明負責去除數據中的重復部分,小明所做的工作是數據處理的哪一步( )A.數據收集B.數據整理C.數據分析D.數據呈現B課堂練習P108 數據處理1.學習小組在調查同學的愛好情況,通過問卷收集了一些數據,小明負責去除數據中的重復部分,小明所做的工作是數據處理的哪一步( )A.數據收集B.數據整理C.數據分析D.數據呈現B課堂練習P108 數據處理課堂練習2.如圖所示,某景區 2020 年某一周的人園游客數量圖表,根據圖表分析,下列結論錯誤的是( )。A.該圖表是折線圖B.該圖表是雷達圖C.周六的人園游客數量最多D.為了分散一周游客人園數量,可以在周三舉行門票打折活動BP134 可視化的基本方法B3. IF函數是電子表格軟件中用來做條件判斷的函數,單元格A2的值是90,如果在 A3 輸入“=IF (A2 >=90,“合格”,“不合格”)”,確定后得到的結果是( )。A.合格 B.不合格 C.90 D. NULLA課堂練習P110 函數語法4.在用電子表格軟件處理某地部分市場菜籃子價格數據,如圖所示。計算表中“平均值”列數據:選擇單元格輸入函數 (公式),然后用自動填充功能完成其他單元格平均值的計算。則I3 單元格中可使用的函數(公式)為( )A.=SUM(C3,H3)/6B. = (3.5+3+3+3+3+3)/6C.=C3+D3+E3+F3+G3+H3/6D.=AVERAGE(C3:H3)D課堂練習P110 函數語法5.某慈善總會接收抗擊新型冠狀病毒感染肺炎的捐贈物資,使用電子表格軟件進行數據處理,若要統計“分類捐助總量”的數據,統計“N95口罩”的總量可修改F4單元格中的公式,并對G4:H4進行自動填充,統計出“84消毒液”和“醫用防護服的總量,則F4單元格中的公式應修改為( )[提示:SUMIF函數用于對區域中滿足條件的單元格求和。例如:=SUMIF(B3: B3126,F3,C3:C3126)表示求 B3:B3126 區域中所有“N95 口罩”的總量]A.=SUMIF(B3:$B3126,F3,$C3:$C3126)B. =SUMIF(B$3:B$3126,F3,C$3:C$3126)C. =SUMIF($B3:$B3126,F3,C$3:C$3126)D. =SUMIF(B$3:B$3126,F3,$C3:$C3126)A課堂練習P110 函數語法課堂練習6.學校體育教師對某班級進行三個項目的測試,部分同學體育成績如下表:圖中數據存在的問題主要為( )。A. 數據缺失B. 數據重復C. 數據邏輯錯誤D. 數據格式不一致B課堂練習P108 常見數據問題7. 學校體育老師分別在8月3日和8月4 日對運動隊隊員進行體育測試,隊員的體育成績如下表:圖中數據存在的問題主要為( )。A.數據缺失B.數據重復C.數據格式不一致D.以上問題都存在C課堂練習P108 常見數據問題8. IBM副總裁Dietrich曾說過“可以利用社交平臺數據獲得用戶對每個產品的評價,但是往往上百條記錄中只有很少一部分真正討論這款產品”。這主要體現了大數據的( )特征A.數據體量大B.數據類型多C.數據變化速度快D. 價值密度低課堂練習P114 大數據處理D10.下列關于“大數據”與“傳統數據”的說法錯誤的是( )。A.大數據的種類繁多,有短信、微信、視頻、語音、電子郵件等產生的各種數據,也有各種傳感器在交通監測、安防監測等過程中產生的大量數據B.傳統數據很難做到全樣本數據的采集C.所有數據都適合通過“大數據技術”進行處理種分析屬D.采集到的大數據會存在“數據冗余”的現象課堂練習CP115 靜態數據、流數據11. 2020 年11月1日,正式開始第七次全國人口普查,普查信息除了普查員登記獲取外,還可以通過手機小程序自主填報獲取。后者的數據采集方式是( )。A.實驗數據采集B.傳感器采集C.網絡爬蟲D.網絡數據采集D課堂練習數據采集12. 小明想要查看云南省近三年的氣溫數據,下列哪種方式最合適( )A.百度搜索關鍵詞B.圖書館查閱資料C.咨詢地理老師D.訪問“國家氣象科學數據中心”網站查看D課堂練習數據采集13. 智能手環可以檢測使用者的心率、記錄運動步數等,那么智能手環的功能體現了( )數據采集的應用。A.統計報表B.網絡爬蟲C.傳感器D.實驗數據采集C課堂練習數據采集14. 下列關于數據整理的說法錯誤的是( )A.數據整理的目的是對數據進行校驗和標準化B.CSV 文件將數據表格存儲為純文本C. 采集的數據只能保存為 CSV 文件D.整理數據可以通過編寫程序實現C課堂練習P108 P126數據整理16.我們在用 Python 進行數據分析的時候,經常會用到 pandas 庫中的 DataFrame,這是類似于( )的數據結構。A.一維表格B.二維表格C.三維表格D.四維表格B課堂練習P121 DataFrame17. 在用 Python 編程對數據進行分析的時候,代碼 pandas. DataFrame. sum( )執行的操作是( )。A.返回所有列的和B.返回所有行的和C.返回所有數據中的最大值D.返回所有數據中的最小值A課堂練習P110 函數語法18. 自新冠病毒感染肺炎疫情暴發以來,網絡某大數據平臺通過可視化數據圖表實時更新全球疫情,如圖是2020 年某一天的全球確診病例情況。在對數據進行分析時,該種分析屬于( )。A.橫向對比分析法B.縱向對比分析法C.平均分析法D.結構分析法A課堂練習P13419.下列關于中文分詞方法的描述中,屬于基于詞典的分詞方法的是( )A.在分析句子時與詞典中的詞語進行對比,詞典中出現的就劃分為詞B.依據上下文中相鄰字出現的頻率,同時出現的次數越高就越可能組成一個詞C. 讓計算機模擬人的理解方式,根據大量的資料和規則進行學習,然后分詞D.依據詞語與詞語之間的空格進行分詞A課堂練習P129 中文分詞20. matplotlib庫中的 pyplot 子庫主要用來繪制圖表,其中用來繪制散點圖的函數是( )A. plot ()B. scatter()C. title ()D. show()B課堂練習P125 常用的繪圖函數21.學校籃球隊想給隊員做一個學期的訓練數據分析,數據包括了體能和技術中的8個小項,較為適合的數據圖表呈現方式是( )。A.折線圖B. 散點圖C. 熱力圖D.雷達圖D課堂練習P134 可視化基本方法22. 2020年10月29 日,黨的十九屆五中全會在北京閉幕,大會通過的公報文本的詞云圖如下,下列說法正確的是 ( )。A.對文本分詞后可直接創建詞云圖,無須特征提取B.詞云圖必須顯示該數據集包含的全部詞語C.通過詞云圖顯示,詞語“發展”比“體系”的出現頻率高D.最能表現文本特征的詞有“建設”“國家”“實力”C課堂練習P130 標簽云4. 在2017年,在建設高等院校“211工程”和“985工程”的基礎上,國家推進“雙一流”大學的建設,如圖所示是西南三省211大學名單:課堂練習(1) 在電子表格軟件中,我們一般通過 COUNTIF 函數計算區域中滿足給定條件的單元格的個數。在上表的單元格F3 中,通過“COUNTIF(C3:C9,E3)”函數得到云南省的211 大學數量是1,COUNTIF函數中統計“云南省”211大學個數的數據區域是________(2)得到云南省的 211 大學數量后,張華通過自動填充的方式,得到四川省的211大學個數為4,結果與實際不符,應該將單元格F3的函數修改為________(3)如果要直觀地表示各個省份 211 大學數量,可以應用哪種圖表方式________C3:C9課堂練習COUNTIF(C$3:C$9,E3)P110 Excel表格柱形圖5.現有5 名籃球隊員在聯賽中的比賽數據,如下圖所示。課堂練習(1)上圖右側所示的圖表類型是________ ;該圖表呈現了周旋岷、成果汝兩名隊員的數據。則系列1和系列2 分別是________ (A. 周旋岷和成果汝;B. 成果汝和周旋岷)。(2)通過電子表格軟件對數據進行分析,計算5 名隊員各項數據的平均值可以用到的函數是________(3)如果把隊員“高賢”的5. 項數據放在 Python 程序中的一個列表中,則代碼為“GX= [6.8,1.9,2.1,1.90.4]”,那么GX [3]的值為_______課堂練習P110 Excel表格雷達圖AAVERAGE1.96.學校的物理學習小組通過實驗,得到了5 組彈簧伸長度 ΔX 和拉力F的數據。他們想利用 Python 編程繪制數據圖進行相關結論的驗證。課堂練習ΔX/cm 0.5 1 1.5 2 2.5F /N 0.49 1.02 1.47 2.02 2.51(1)通過 Python 編程對上述得到的數據進行了圖形化表達,得到了如上圖所示的圖表,此圖表我們稱之為_______(2)得到上圖以后,同學們在程序第6 行加入了 pyplot.plot(ΔX,F)指令后,運行后將會出現什么效果_______(3)pyplot 庫中的函數常用來快速繪圖和設置圖表,則 pyplot 是哪一個庫的子庫: _______。(A. jieba;B. matplotlib; C. pandas)課堂練習P125 常用繪圖函數散點圖散點連線B7.高三5班畢業后,班長小明收集了同學們的信息后,做了一個班級通訊錄。通訊錄的內容包括:姓名、QQ、手機號、錄取大學、大學所在城市5 項內容。(1)小明是通過網絡問卷的方式收集同學們的信息,則這種數據采集方式屬于_______(2)小明將網絡問卷后臺的數據導出后生成了一張CSV表格,他將數據整理后直接發在了微信朋友圈,他的這種做法對嗎 請簡要分析原因。_______網絡數據采集法課堂練習P108 數據不對,包含個人信息的數據不應該直接公布,可以選擇郵箱或者私信發送(3)小明把同學們的“大學所在城市”這項數據導入詞云圖軟件中,生成一個詞云圖,根據詞云圖可以知道,小明的同學去哪個城市上大學的最多 _______北京課堂練習P130 標簽云8.詞云圖是目前常用的關鍵詞可視化數據表達方式,下圖是一個詞云圖示例。課堂練習P130 標簽云(1)詞云圖通常使用文字的_______和_______來表示關鍵詞出現的頻次示例詞云圖應該是對__________小說中人物出現頻次進行分析后的結果。(2)制作詞云的方法很多,我們常用Python編程進行詞云制作,則編寫程序的指令順序應該是__________ ( 分詞; 導人文本; 保存詞云圖片; 特征提取,數據分析)。 課堂練習P128 文本數據處理的過程P130 標簽云顏色大小三國演義9.在利用 Python 編程中,常常使用 matplotlib 庫進行函數繪制,下圖所示是通過8組數據繪制得到的曲線圖像及部分代碼。課堂練習P125 常用繪圖函數(1)繪制函數圖主要用到matplotlib 庫的子庫是______(2)上述 Python 程序的第9 行應該填寫的關鍵代碼是______(3)通過觀察這8 組數據的曲線變化趨勢,推測此圖像函數是______pyplot課堂練習plt.plot(x,y)Y=1/x10.利用 Python編程處理數據的時候,經常會用到pandas庫,其中一維數據結構是 Series,二維結構是 DataFrame。import pandass= pandas.Series([6,8,9])print(s[1])(1)根據給出的 Python代碼,運行結果是______(2)如果運行的結果是6,則第3行代碼應該是______(3)將第3 行代碼修改為 print(s.sum()),則運行結果是______8課堂練習P120 121 Series DataFrameprint(s[0]);2311.某地圖軟件公司通過收集用戶的定位數據,可以得到某一區域的人口流量大數據。如圖所示是云南石林景區某兩天的游客流量圖。課堂練習(1)游客流量大數據可以報據使用手機地圖軟件的游客進行實時更新,這主要體觀了大數據的___________________特征。(2)上述圖表我們稱為______(3)采集到國慶節放假前后兩天的數據,通過______分析法直觀呈現兩天游客流量的情況。數據變化速度快課堂練習折線圖P134 可視化的基本方法對比12.利用 Python 編程進行數據處理的時候,常用到pandas 庫。如下圖所示,通過調用pandas 庫進行城市用水量的整理。(1)上述代碼中的“years”變量的數據類型是______(2)上述代碼運行后的結果是______列表或list課堂練習A市2018年用水量:38(3)加入哪條指令后會得到以下結果______課堂練習BA.print (df. loc()); B. print (df); C. print (all) ;13. 利用 Python 編程進行數據處理的時候,常用到 pandas庫。如下圖所示,通過調用 pandas 庫進行成績的整理。課堂練習列表或list(1)上述代碼中的“name”變量的數據類型是______(2)在上述代碼中添加“print(df.loc ["張華","數學"])”指令可以輸出張的數學成績為88,如果添加代碼“print (df.loc["李明","英語"])”,則得到的結果是______(3)第一行程序的注釋可以寫為______96導入pandas庫 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫