資源簡介 數據處理與應用大單元——excel+pandas+matplotlib數據處理與應用綜合練習班級 姓名1.小張同學收集了某地區近五年(2015-2019)供水用水情況數據,用 Excel 軟件進行數據處理,如圖所示,請回答下列問題:(1)小張在 C10 單元格輸入公式后,又將 C10 單元格復制到 C12,并用自動填充功能完成C10:G10,D12:G12 單元格的數據計算,則 C12 單元格中顯示的結果是① (單選,填字母:A. # VALUE! / B.1266.27/ C. #DIV/0! / D. 14.32)(2)若要按照上述方法正確計算所有“占總用水量百分比(%)”,小張應修改 C10 單元格的公式為② 。(3)將農業、工業、生活、生態用水量單獨復制出來到"cs.xlsx"中,如下左圖所示,然后編寫python程序畫餅圖(如下右圖所示),請把下面的代碼補充完整。圖表函數參考:pyplot模塊中的pie(x, label="xxx")是以x(一維列表類數據)為依據,以label為標簽畫餅import pandas as pdimport matplotlib.pyplot as pltcs=③plt.rcParams['font.family']=['SimHei'] #漢字顯示plt.pie(④ ,labels=cs["指標"],autopct='%1.1f%%')plt.title("2019年用水占比情況")plt.show()2.小明從網站上收集了2018年主要城市氣候情況相關數據保存在“qihou.csv”文件中,格式如圖1 所示。為了分析主要城市氣候情況數據,小明利用 python 繪制反映各城市平均氣溫的柱形圖,如圖 2所示。(1)部分程序代碼如下所示,補全①②劃線處的代碼。import pandas as pdimport matplotlib.pyplot as pltfrom matplotlib.pyplot import MultipleLocator #MultipleLocator 類用于設置刻度間隔plt.rcParams["font.sans-serif"]=["simHei"] #漢字顯示df=pd.read_csv("qihou.csv",encoding="gbk") #讀取'qihou.csv'文件,,創建 DataFrame 對象#顯示年平均氣溫最高的城市df_sort=df.sort_values("年平均氣溫(。C)",ascending=False)print(df_sort.head(10)) #下劃線處df1=df_sort.head(10) #下劃線處plt.figure(figsize=(10,5))x=df1["地市"] ; y=df1["年平均氣溫(℃)"]①______________________ _#繪制柱形圖plt.title("年平均氣溫最高的城市的 10 個城市")plt.xlabel("地市")plt.ylabel("年平均氣溫(℃)")②______________________________#顯示圖例plt.show()(2)若要制作平均氣溫最低的10個城市的柱形圖,則程序下劃線處的代碼應該改為_______________(3)若要刪除df中的“City”列數據,則代碼可以為__________________________________3.如圖所示,小明從票房網上收集了 2014 年 2022 年的票房前 50 的數據。(1)小明收集的數據存在一些問題,需要進行數據整理,下列說法合理的是( )A.失值一般用任意值填充B.數據須直接刪除或忽略C.復數據可以直接刪除D.不一致的數據,需要進行格式轉換(2)RANK 函數是排名函數常用于求某一個數值在某一區域內的排名。例如:=RANK(E2,E2:E51)表示 E2 在 E2:E51 區域中的排名情況?,F在要求得票房排名,且 H3:H51 均由 H2 填充獲得,則 H2 單元格中的公式應修改為 。(3)用所學的 DataFrame 和 matplotlib 對票房數據進行了分析,最終算出了累計票房數前五的導演,并繪制了垂直柱形圖,請完成如下程序的填空。import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.family'] = ['sans-serif'] #中文顯示plt.rcParams['font.sans-serif'] = ['SimHei'] #中文顯示df1=pd.read_excel("票房.xlsx")daoyan=[] piaofang=[]for i in df1.values: #一部電影可能存在多名導演s=i[2].split("、") #按“、”分割導演名字for j in s:daoyan.append(j)①data={"daoyan":daoyan,"piaofang":piaofang} df2=pd.DataFrame(data)② #按導演姓名分組t=t.sum() t=t.sort_values("piaofang",ascending=False) t[0:5].plot(kind='bar',rot=0)plt.title("票房累計前五的導演(億)") plt.show()4.學校信息教師搜集某次考試本校學生的信息部分小題得分數據,部分界面如圖a所示。該次考試信息技術試卷題型及分值分布如下:試卷一共17小題,總分50分;第1-10題為單選題,每小題分值為2分;第11-14題為多選題,每小題分值為3分;第15-17題為非選擇題,其中第15小題5分,第16小題6分,第17小題7分。為了更精準開展教研活動,該教師編寫python程序對考試數據進行分析。(1)程序代碼及部分運行界面截圖如圖b和圖c所示,請在劃線處填入合適的代碼:import pandas as pdimport matplotlib.pyplot as pltplt.rcParams["font.sans-serif"] = ["SimHei"] #使圖形中的中文正常編碼顯示df = pd.read_excel("cj.xlsx")#為了數據的準確性,先排除0分考生df = ①#以下代碼作用為計算每道題的難度系數(難度系數 = 平均分 / 分值)danxuan = ["1","2","3","4","5","6","7","8","9","10"]duoxuan = ["11","12","13","14"]fz = {"單選":2,"多選":3,"15":5,"16":6,"17":7}dif = []for i in df.columns[3:]:if i in danxuan:key = "單選"elif i in duoxuan:key = "多選"else:key = idif.append(round( ② / fz[key],4))dic = {"題號":df.columns[3:],"難度系數":dif}df1 = pd.DataFrame(dic)df1.to_excel("難度系數.xlsx") #輸出文件"難度系數.xlsx"部分界面如下圖所示#以下代碼的作用為制作如上圖所示的圖表(難度系數越大代表題目越簡單)df1 = df1.sort_values("難度系數")plt.figure(figsize = (8,4))plt.title("難度最大的 10 道題對比圖")plt.xlabel("題號") ; plt.ylabel("難度系數")plt.show()(2)加框處的代碼可以的是下列選項中的 (單選,填字母)。A.plt.bar(df1.題號[:10],df1.難度系數[:10])B.plt.bar(df1.題號[-10:],df1.難度系數[-10:])C.plt.barh(df1.題號[:10],df1.難度系數[:10])D.df1[:10].plot(kind = "bar",rot = 0數據處理與應用大單元——excel+pandas+matplotlib數據處理與應用綜合練習班級 姓名1. 小張同學收集了某地區近五年(2015-2019)供水用水情況數據,用 Excel 軟件進行數據處理,如圖所示,請回答下列問題:(1)小張在C10單元格輸入公式后,又將C10單元格復制到C12,并用自動填充功能完成C10:G10,D12:G12 單元格的數據計算,則 C12 單元格中顯示的結果是① B (單選,填字母:A. # VALUE! / B.1266.27/ C. #DIV/0! / D. 14.32)(2)若要按照上述方法正確計算所有“占總用水量百分比(%)”,小張應修改C10單元格的公式為② =C9/C$8*100 。(3)將農業、工業、生活、生態用水量單獨復制出來到"cs.xlsx"中,如下左圖所示,然后編寫python程序畫餅圖(如下右圖所示),請把下面的代碼補充完整。圖表函數參考:pyplot模塊中的pie(x, label="xxx")是以x(一維列表類數據)為依據,以label為標簽畫餅import pandas as pdimport matplotlib.pyplot as pltcs=①pd.read_excel(' cs.xlsx ')plt.rcParams['font.family']=['SimHei'] #漢字顯示plt.pie(② cs["2019年"] ,labels=cs["指標"],autopct='%1.1f%%')plt.title("2019年用水占比情況")plt.show()2.小明從網站上收集了2018年主要城市氣候情況相關數據保存在“qihou.csv”文件中,格式如圖1 所示。為了分析主要城市氣候情況數據,小明利用 python 繪制反映各城市平均氣溫的柱形圖,如圖 2所示。(1)部分程序代碼如下所示,補全①②劃線處的代碼。import pandas as pdimport matplotlib.pyplot as pltfrom matplotlib.pyplot import MultipleLocator #MultipleLocator 類用于設置刻度間隔plt.rcParams["font.sans-serif"]=["simHei"] #漢字顯示df=pd.read_csv("qihou.csv",encoding="gbk") #讀取'qihou.csv'文件,,創建 DataFrame 對象#顯示年平均氣溫最高的城市df_sort=df.sort_values("年平均氣溫(。C)",ascending=False)print(df_sort.head(10)) #下劃線處df1=df_sort.head(10) #下劃線處plt.figure(figsize=(10,5))x=df1["地市"] ; y=df1["年平均氣溫(℃)"]①_plt.bar(x,y,label="年平均氣溫(℃)")或等價答案 _#繪制柱形圖plt.title("年平均氣溫最高的城市的 10 個城市")plt.xlabel("地市")plt.ylabel("年平均氣溫(℃)")②__plt.legend()_____________#顯示圖例plt.show()(2)若要制作平均氣溫最低的10個城市的柱形圖,則程序下劃線處的代碼應該改為___tail(10)_____(3)若要刪除df中的“City”列數據,則代碼可以為____df=df.drop(“City”,axis=1) 或等價答案________3.如圖所示,小明從票房網上收集了 2014 年 2022 年的票房前 50 的數據。(1)小明收集的數據存在一些問題,需要進行數據整理,下列說法合理的是( D )A.失值一般用任意值填充B.數據須直接刪除或忽略C.復數據可以直接刪除D.不一致的數據,需要進行格式轉換(2)RANK 函數是排名函數常用于求某一個數值在某一區域內的排名。例如:=RANK(E2,E2:E51)表示 E2 在 E2:E51 區域中的排名情況。現在要求得票房排名,且 H3:H51 均由 H2 填充獲得,則 H2 單元格中的公式應修改為 =RANK(E2,$E$2:$E$51) 或 =RANK(E2,E$2:E$51) 。(3)用所學的 DataFrame 和 matplotlib 對票房數據進行了分析,最終算出了累計票房數前五的導演,并繪制了垂直柱形圖,請完成如下程序的填空。import pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.family'] = ['sans-serif'] #中文顯示plt.rcParams['font.sans-serif'] = ['SimHei'] #中文顯示df1=pd.read_excel("票房.xlsx")daoyan=[] piaofang=[]for i in df1.values: #一部電影可能存在多名導演s=i[2].split("、") #按“、”分割導演名字for j in s:daoyan.append(j)① piaofang.append(i[4]/10000)data={"daoyan":daoyan,"piaofang":piaofang} df2=pd.DataFrame(data)② t=df2.groupby(“daoyan”) 或 t=df2.groupby(“daoyan”,as_index=True) #按導演姓名分組t=t.sum() t=t.sort_values("piaofang",ascending=False) t[0:5].plot(kind='bar',rot=0)plt.title("票房累計前五的導演(億)") plt.show()4.學校信息教師搜集某次考試本校學生的信息部分小題得分數據,部分界面如圖a所示。該次考試信息技術試卷題型及分值分布如下:試卷一共17小題,總分50分;第1-10題為單選題,每小題分值為2分;第11-14題為多選題,每小題分值為3分;第15-17題為非選擇題,其中第15小題5分,第16小題6分,第17小題7分。為了更精準開展教研活動,該教師編寫python程序對考試數據進行分析。(1)程序代碼及部分運行界面截圖如圖b和圖c所示,請在劃線處填入合適的代碼:import pandas as pdimport matplotlib.pyplot as pltplt.rcParams["font.sans-serif"] = ["SimHei"] #使圖形中的中文正常編碼顯示df = pd.read_excel("cj.xlsx")#為了數據的準確性,先排除0分考生df = ① df[df["信息"]>0] 或者df[df.信息>0]#以下代碼作用為計算每道題的難度系數(難度系數 = 平均分 / 分值)danxuan = ["1","2","3","4","5","6","7","8","9","10"]duoxuan = ["11","12","13","14"]fz = {"單選":2,"多選":3,"15":5,"16":6,"17":7}dif = []for i in df.columns[3:]:if i in danxuan:key = "單選"elif i in duoxuan:key = "多選"else:key = idif.append(round( ② df[i].mean() / fz[key],4))dic = {"題號":df.columns[3:],"難度系數":dif}df1 = pd.DataFrame(dic)df1.to_excel("難度系數.xlsx") #輸出文件"難度系數.xlsx"部分界面如下圖所示#以下代碼的作用為制作如上圖所示的圖表(難度系數越大代表題目越簡單)df1 = df1.sort_values("難度系數")plt.figure(figsize = (8,4))plt.title("難度最大的 10 道題對比圖")plt.xlabel("題號") ; plt.ylabel("難度系數")plt.show()(2)加框處的代碼可以的是下列選項中的 A (單選,填字母)。A.plt.bar(df1.題號[:10],df1.難度系數[:10])B.plt.bar(df1.題號[-10:],df1.難度系數[-10:])C.plt.barh(df1.題號[:10],df1.難度系數[:10])D.df1[:10].plot(kind = "bar",rot = 0) 展開更多...... 收起↑ 資源列表 浙教版新教材(2019)《數據與計算》選考一輪復習 學考復習配套練習——excel+pandas+matplotlib模塊數據處理與應用綜合練習.docx 浙教版新教材(2019)《數據與計算》選考一輪復習 學考復習配套練習——excel+pandas+matplotlib模塊數據處理與應用綜合練習答案.docx 縮略圖、資源來源于二一教育資源庫