資源簡介 (共26張PPT)第4章課時14 常用表格數據的處理、大數據處理信息技術要點導引·定錨點課標梳理·微知著教材重點 課標要求 學業質量水平常用表格數據的處理 1.能根據實際需求,對表格數據進行簡單整理、計算和可視化呈現2.能采用合適的方式分析數據和可視化呈現數據,并能從中提取有用信息、形成結論 2-1大數據處理 1.了解大數據處理架構和基本思路2.會使用Python進行簡單的數據處理,并能從中提取有用信息形成結論 1-1教材研析·固基礎☆數據處理的核心是數據,在數據分析、挖掘前通常先對數據進行整理。1數據整理(1)目的:數據整理的目的是檢測和修正錯漏的數據、整合數據資源、規整數據格式、提高數據質量。(2)常見的數據問題及處理方法數據問題 處理方法數據缺失問題 最簡單的處理辦法是忽略含有缺失值的實例和屬性。還可以采用平均值、中間值或概率統計值來填充缺失值數據重復問題 檢測數據集中的重復數據可以從字段和記錄兩個方面著手,檢查到重復數據,在審核后可進行合并或刪除等操作處理數據異常問題 異常數據指數據集中不符合一般規律的數據對象,它可能是要去掉的噪聲,也可能是含有重要信息的數據對象邏輯錯誤問題 數據集中的屬性值與實際值不符,或違背業務規則,或不符合邏輯格式不一致問題 對于不同來源的數據中存在格式不一致的情況,可根據后續分析和挖掘的需要進行數據轉換典例1 下列有關數據整理的說法錯誤的是( )A.采用平均值、中間值或概率統計值來填充缺失值B.檢查到重復數據,在審核后可進行合并或刪除操作C.異常數據不符合一般規律,可直接刪除D.對邏輯錯誤的數據進行判別和剔除,格式不一致的數據可進行數據轉換解析 異常數據可能是含有重要信息的數據對象,需要進行判別后再決定是否剔除。C2Excel數據計算1.常用表格數據處理和統計分析的工具:SPSS、SAS、MATLAB等,也可以通過R、Python、Java等計算機語言編程進行數據處理。2.Excel數據計算與分析常見操作:(1)公式計算步驟①選中結果單元格②輸入等號“=”或者單擊“插入函數”按鈕③編輯公式(公式顯示在編輯欄內)④回車確認(2)公式中可以引用函數、單元格、區域、數值、字符等。結果單元格內顯示計算結果,編輯欄上顯示公式。(3)常用函數①SUM求和例如“=SUM(B1,D2:E5)”,對B1單元格和D2:E5區域的數據求和②AVERAGE求平均例如“=AVERAGE(B2:C6,E8)”,對B2:C6區域和E8單元格的數據求平均③MAX求最大值例如“=MAX(B1,D2:E5)”,對B1單元格和D2:E5區域的數據求最大值④MIN求最小值例如“=MIN(B2:C6,E8)”,對B2:C6區域和E8單元格的數據求最小值(4)要點:“=”是公式計算的標志,公式必須以“=”開頭。沒有“=”,系統認為是普通的字符輸入,不予計算。(5)自動填充 相對引用&絕對引用①相對引用<1>被填充單元格和填充的樣板單元格公式在形式上保持一致。<2>填充時公式中行號或列號發生遞變,遞變值為被填充單元格行號或列號與樣板單元格行號或列號的差值。<3>系統默認在自動填充時發生相對引用②絕對引用某些情況下,自動填充時不希望行號或列號發生改變,而因為自動填充會默認發生相對引用的改變,則在不希望變化而實際上發生了變化的行號或列號前加上$鎖定不讓其發生改變。③總結規律<1>按列縱向填充,默認相對引用變化的是行號,若需某行號不變,則需要在樣板單元格(作為樣板進行自動填充的單元格)相應的行號前加絕對引用符號$進行鎖定。<2>按行橫向填充,默認相對引用變化的是列號,若需某列號不變,則需要在樣板單元格相應的列號前加絕對引用符號$進行鎖定。④以有公式計算的單元格為樣板單元格對其他單元格進行自動填充,則樣板單元格和被填充單元格的公式在形式上保持高度一致。⑤對有公式計算的單元格A進行“復制”操作,在別的單元格B執行“粘貼”操作,等同于A向B自動填充。3.用Excel軟件進行數據計算的一般方法(1)分析表格數據(2)抽象計算模型(3)計算(4)分析計算結果,描述其含義典例2 寫出下圖所示數據中結果單元格的公式。(1)F2單元格趙文昊同學的總分公式=SUM(C2:E2)(或=C2+D2+E2)(2)G2單元格趙文昊同學的平均分公式=AVERAGE(C2:E2)(或=F2/3)(3)C18單元格語文學科最高分的公式=MAX(C2:C16)(4)C19單元格語文學科最低分的公式=MIN(C2:C16)(5)C20單元格的語文“學科百分比(%)”【語文學科總分÷F17單元格中所有學科的總分×100】向右自動填充得到其他兩門學科的“學科百分比(%)”數據,求C20單元格的公式=C17/$F17 100解析 橫向自動填充,默認發生相對引用,被填充單元格的列號相對樣板單元格發生改變,而公式中的分母F17單元格不能變化,所以將分母F17單元格的列號F加上$鎖定不讓它發生改變。3數據圖表呈現1.用Excel軟件創建圖標呈現數據的一般方法:分析表格數據 選擇圖表類型 創建圖表 檢查圖表,表述數據特征。2.圖表類型:依據數據間的關系選擇相應的圖表類型。(圖表是用視覺形式向人們展示數據的一種方法。常見的圖表類型有柱形圖、折線圖、餅圖、雷達圖、氣泡圖等)圖表類型 作用 柱形圖 常常用來顯示一段時間內數據變化或比較各項數據之間的情況 雷達圖 可以用來表現一個周期內數值的變化,也可以用來表現多個對象/維度之間的關系 折線圖 常常用來顯示隨時間而變化的連續數據,因此非常適用于顯示在相等時間間隔下數據的趨勢 散點圖 用于表現2~3個變量之間的關系,以圓點的多少或疏密展示成對的數和它們所代表的趨勢之間的關系 餅圖 常用于顯示一個數據系列中各項的大小與各項總和的比例,也可以顯示出整個餅圖的百分比 氣泡圖 一次比較3~4個變量,X軸、Y軸各表示1個變量,第3個變量通過氣泡的面積大小表示,第4個變量通過氣泡的顏色來體現4大數據處理的基本思想與架構1.大數據處理的分治思想(1)把一個復雜的問題分成兩個或更多相同或相似的子問題,找到求這幾個子問題的解法后,再找出合適的方法把它們組合成求整個問題的解法。(2)若這些子問題還難以解決,可以再把它們分成幾個更小的子問題,以此類推,直至求出解為止。2.大數據處理類型(1)靜態數據:在處理時已收集完成,在計算時不會發生改變的數據,一般采用批處理計算進行處理。(2)流數據:不間斷地、持續地到達的實時數據,隨著時間的流逝,流數據的價值也隨之降低,可采用流計算進行實時分析。(3)圖數據:現實世界中的許多數據,如社交網絡、道路交通等數據,可采用圖計算進行處理。大數據處理類型3.批處理計算(1)Hadoop:一個可運行于大規模計算機集群上的分布式系統基礎架構,適用于靜態數據的批處理計算。(2)Hadoop計算平臺的組成①Common公共庫②分布式文件系統HDFS③分布式數據庫HBase④分布式并行計算模型MapReduce(3)分布式文件系統HDFS①主要功能是將大規模海量數據以文件的形式、用多個副本保存在不同的存儲節點中,并用分布式系統進行管理。②是一個高度容錯性系統,適合部署在廉價的機器上(云盤、網盤的底層一般采用HDFS)。(4)分布式數據庫HBase建立在HDFS提供的底層存儲基礎上,采用基于列的存儲方式,主要用來存儲非結構化數據和半結構化數據,可管理PB級的大數據。(5)分布式并行計算模型MapReduce①是一種分布式并行編程模型,能夠處理大規模數據集的并行運算,主要由Map(映射)和Reduce(歸納)2個函數構成。②核心處理思想:將任務分解并分發到多個節點上進行處理,最后匯總輸出。4.流計算:流計算系統可以簡單、高效、可靠地實現實時數據的獲取、傳輸和存儲,在與數據庫、Hadoop、編程語言等整合后可開發出功能強大的實時計算與分析應用。5.圖計算:現實世界中的很多數據是以圖的形式呈現的,或者是可以轉換為圖以后再進行分析的,如社交網絡、網絡瀏覽與購買行為、傳染病的傳播路徑等。6.實時處理與批處理的整合典例3 下列有關大數據處理的思想與框架的說法正確的是( )A.大數據采用“分治”思想處理B.對靜態數據進行實時處理C.Hadoop是對流數據進行批處理的架構D.實時處理和批處理不能并存解析 B.靜態數據適合進行批處理,流數據才需要實時處理;C.Hadoop是對靜態數據進行批處理的架構;D.實時處理和批處理可以并存。A典例4 下列關于流數據的描述,不正確的是( )A.數據必須采集完成后處理B.數據價值隨著時間的流逝降低C.可以采用流計算進行實時分析D.實時分析流數據可以得到更有價值的結果解析 在處理時已經采集完成的數據是靜態數據;流數據是不間斷地、持續地到達的實時數據,一般采用流計算進行實時分析。因此本題答案為A。A典例5 大數據按照類型和處理方式劃分,下列選項中錯誤的是( )A.靜態數據:批處理B.流數據:流計算C.圖數據:圖計算D.半結構化數據:電子表格解析 電子表格無法滿足大數據的處理。D(共34張PPT)第4章課時15 pandas處理數據信息技術課標梳理·微知著教材重點 課標要求 學業質量水平pandas數據處理 1.掌握Series數據結構、DataFrame數據結構和DataFrame常用函數2.能利用軟件工具或平臺準確而有序地對數據進行整理、組織、計算與呈現 2-2教材研析·固基礎1Python進行數據處理時常用的擴展模塊1.numpy:科學計算(隨機數、數組運算等)2.scipy:基于numpy構建。增強了高等數學、信號處理、圖像處理、統計等處理能力。3.matpoltlib:繪圖庫4.pandas:基于numpy實現,主要用于數據的處理和分析。(1)Pandas提供了Series和DataFrame兩種數據結構完成數據的整理、計算、統計、分析及簡單可視化。(2)導入pandas模塊:import pandas as pd(導入pandas模塊,pd為別名)典例1 下列擴展模塊中用于數據處理和分析的是( )A.NumpyB.scipyC.matpoltlibD.pandasD2SeriesSeries是一種一維數組的數據結構,由一個數組的數據和一個與數據關聯的索引(index),索引值默認是從0起遞增的整數。屬性 說明index Series的下標索引,其值默認是從0起遞增的整數values 存放Series值的一個數組①輸入數據及輸出代碼 結果import pandas as pd#導入pandas庫,別名為pds1=pd.Series([166,178,180])print(s1) 0________1661________1782________180s2=pd.Series([166,178,180],index=['s01','s02','s03'])print(s2) s01________166s02________178s03________180dtype:int64s2=pd.Series([166,178,180],\index=['s01','s02','s03'])print(s2.values)for i in s2.index:print(i) [166 178 180]s01s02s03#輸出具體索引號需要通過循環輸出②修改數據s2=pd.Series([166,178,\180],index=['s01','s02','s03'])s2[1]=188s2['s03']=222print(s2.values) [166 188 222]#可通過默認索引號或指定索引號修改其數據值典例2 編寫Python小程序建立字典存儲如圖所示Excel中的選手數據;并利用字典生成pandas的Series對象;輸出Series對象,并自動進入修改選手年齡的狀態(輸入選手的姓名、新的年齡值),當輸入為0時,退出修改狀態;然后輸出年齡審核通過(不超過15歲)的選手名單。程序運行界面和代碼如下,請在劃線處填上合適的代碼。import pandas as pddic={'姚佳云':15,'莊怡婷':16,'孫雁\婷':17,'馬能':16,'謝震宇':16,'傅懌成':\17,'沈雯雯':15,'王婧':16}inf=①_________________print(inf)while True:xm=input('請輸入需要修改年齡\的人名:')if ②_______________: breaknl=int(input('請輸入需要修改的\年齡值:'))③_________________pd.Series(dic)xm=='0'inf[xm]=nlprint(inf)ans=''for i in inf.index:if ④__________________: ans=ans+''+iprint('通過年齡審核的選手是:',ans)inf[i]<=15解析 ①用字典創建一維Series數據對象,參數為對象名。②當輸入的姓名xm為字符‘0’時,結束修改狀態。③修改Series對象值的格式為:對象名[index]=新值。④for i in inf.index:說明for遍歷Series對象inf的索引,i為每次循環遍歷到的index,與之相應的value為inf[i],年齡不能大于15歲。3DataFrame1.概念DataFrame是一種二維的數據結構,類似于關系表的表格型數據結構,由1個索引列(index)和若干個數據列組成,每個數據列可以是不同的類型。DataFrame可以看作是共享同一個index的Series的集合。其中,每列中的元素類型必須一致,而不同的列可以擁有不同的元素類型。創建DataFrame對象的方法很多,通常用一個相等長度的列表或字典來創建。2.DataFrame對象常用屬性屬性 說明index DataFrame的行索引columns 存放各列的列標題values 存放值的二維數據T 行列轉置3.常用函數函數名 函數功能 使用方法示例count() 返回非空(NaN)數據項的數量 df1.count() 每一列非空個數df1.count(axis=1) 每一行非空數df1['姓名'].count() “姓名”列非空個數sum() 求和,通過axis=0/1確定求和軸向(axis=0縱向求和,axis=1橫向求和) df1.sum() axis默認為0,縱向求和df1.sum(axis=1) 橫向求和df1.語文.sum() 僅語文列求和mean() 求平均值,通過axis=0/1確定行列 用法同上max() 返回最大值 用法同上min() 返回最小值 用法同上describe() 返回各列的基本描述統計值,包含非空項數、平均數、標準差、最大值、最小值及4分位差 df1.describe()df1.語文.describe()head() 返回DataFrame前n個數據記錄(若不設置n,則默認返回前5行) df1.head(2) 返回前2行df1.head() 返回前5行tail() 返回DataFrame后n個數據記錄 df1.tail(2) 返回后2行df1.tail() 返回后5行groupby() 對各列或各行中的數據進行分組,然后可對其中每一組數據進行不同的操作 df1.groupby(″性別″) 按性別分類df1.groupby(″性別″).mean()按性別求平均值sort_values() 排序,通過axis=0/1確定行列,默認為0(列)通過ascending=True/False設置升序還是降序,默認為True(升序) df1.sort_values(″語文″,ascending =False)按語文成績降序排序drop() 刪除數據,通過axis=0/1確定行列,默認為0(行)注意:不改變原有對象的數據 df2=df1.drop(2)刪除第3行df3=df1.drop(″性別″,axis=1)刪除“性別”列append() 在指定對象的結尾插入內容注意:不改變原有對象的數據 data1={'姓名':'李二','性別':'男','語文':143,'數學':133,'英語':136}df5=df1.append(data1,ignore_index=True)在結尾增加一行數據insert() 在指定位置插入列注意:改變原有對象的數據 df1.insert(loc=0,column='出生年份', value=[2003,2002,2001,2002])在第一列插入“出生年份”列rename() 修改列名或者索引注意:不改變原有對象的數據 df5=df1.rename(columns={″姓名″:″您的姓名″,″性別″:″您的性別″}) 改變列名df6=df1.rename(index={0:″a″,1:″b″})改變索引名4.主要操作①創建DataFrame對象方法1,使用相等長度列表的字典構建一個DataFrame對象。方法2,直接讀取二維數據文件創建DataFrame對象。pd.read_csv(filename) #從CSV文件導入數據pd.read_excel(filename) #從Excel文件導入數據df.to_csv(filename) #導出數據到CSV文件df.to_excel(filename) #導出數據到Excel文件②查看DataFrame數據屬性③查看DataFrame常用方法④axis(軸說明)及行列操作⑤分組計算典例3 (2023浙江7月學考)某省2022年全年氣象災害預警數據保存在文件“qxyj.xlsx”中,部分數據如圖所示,編寫Python程序,統計全年發布次數最多的5種氣象預警。import pandas as pddf=pd.read_excel(″qxyj.xlsx″) #讀文件中的數據df=df.drop([″預警發布單位″,″預警等\級″,″預警發布時間″],axis=1) #刪除列________________print(df_s[0:5])方框中代碼由下列語句中的部分語句組成:①df_g=df.groupby(″預警名稱″,as_index=False).sum() #分組求和②df_g=df_s.groupby(″次數″,as_index=False).sum()③df_s=df.sort_values(″次數″,ascending=True) #升序排序④df_s=df_g.sort_values(″次數″,ascending=False)要實現上述功能,下列選項中正確的是( )A.①④ B.①③C.②④ D.③②A解析 本題考查Pandas數據處理知識。根據題意,要求統計全年發布次數最多的5種氣象預警,因此在使用分組函數groupby()時,分組的依據肯定是“預警名稱”,而不是“次數”,故在①②中選擇①。從代碼print(df_s[0:5])可知,輸出的是最前面的五條記錄,從而可以判斷數據是按照“次數”降序排序的,sort_values函數的參數ascending=False表示降序,故在③④中選擇④。故選A。典例4 某DataFrame對象df,包含“商品編碼”“銷售價格”“銷售日期”等數據列。下列語句中,能將df對象中的數據以“商品編碼”為關鍵字降序排序的是( )A.df.sort_index(axis=1,ascending=True)B.df.sort_values('商品編碼',ascending=False)C.df.sort_values('商品編碼',ascending=True,inplace=True)D.df.sort_values('商品編碼',ascending=False,inplace=True)解析 分析題目,發現解決問題的關鍵在于將df對象中的數據按“商品編碼”從大到小排列。df對象中的數據采用DataFrame結構組織,因此可以使用sort_values()函數按“商品編碼”降序排列df對象中的數據。參數ascending=False為降序,inplace=True排序結果替換df中數據,因此本題答案為D。D典例5 小藍利用Excel收集了某次足球比賽各國球隊相關數據,并保存為“足球賽.xlsx”文件,如圖a所示。然后他利用pandas模塊進行數據處理,分析小組賽中各支球隊的表現。(提示:該比賽共分成8個小組,每個小組4支球隊,組內各隊之間進行一場比賽,每支球隊共比賽3場)圖a(1)(多選題)小藍在處理數據前,首先進行了數據整理,則下列步驟正確的是( )(注:全部選對的得2分,選對但不全的得1分,不選或錯選的得0分)A.E4單元格中的數據存在邏輯錯誤,需要改成3B.第7行和第8行兩行數據重復,直接刪除其中一行即可C.英格蘭隊的所在行存在數據缺失,故無法確定具體數值D.阿根廷所在小組的組別格式不一致,應當將其改成CAD(2)小藍利用pandas模塊處理圖a中的表格數據,其中部分Python程序代碼如下。在處理數據的過程中,小藍提出了以下三項要求。請根據他的要求在劃線處填入合適的代碼。①首先計算各球隊的小組賽積分。積分計算規則為:勝一場得3分,平局得1分,負一場得0分。②然后對各球隊進行小組排名。小組排名規則為:按積分降序排序。③最后統計各小組的平均進球數,并繪制成如圖b所示的圖表。圖bimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=\ ['SimSun']#設置字體為宋體df=pd.read_excel('足球賽.xlsx')df['積分']=①____________________________dfrank=df.sort_values(②_________,\ascending=False) print(dfrank)df2=df.groupby(″組別″).mean()plt.bar(③________________________,label=″平均\進球″) plt.legend()plt.show()df['勝'] * 3+df['平'](答案不唯一)'積分'df2.index,df2.進球(3)小藍要從df中篩選出積分至少為4分的球隊,下列①的操作可行的是________。(單選,填字母) A.df.積分>=4B.[df.積分>=4]C.df[df['積分']>=4]C解析 本題考查pandas數據處理知識。(1)每只球隊共比賽3場,E4單元格中的30違背規則,屬于邏輯錯誤,A正確;第7行和第8行的數據有重復部分,需要先合并,B錯誤;英格蘭隊所在的B組從比分可以看出,威爾士對伊朗,美國對英格蘭,從美國的得分可以得出英格蘭“平1負0”,C錯誤;阿根廷所在小組的組別格式不一致,應轉換為統一格式后再進行后續處理,D正確。(2)①首先需要按照小組積分規則計算每支隊伍的積分,創建積分列df['積分']=df['勝'] * 3+df['平'] * 1+df['負'] * 0或df['積分']=df['勝'] * 3+df['平'];②需要對各小組排名,排名根據積分列降序排序。③對各小組統計平均進球數時, groupby()默認分類匯總列成為索引。柱形圖的X軸組別需要從df2.index獲取,Y軸各小組平均進球數需要從df2.進球獲取。(3)條件篩選有“積分大于等于4”,一定要有中括號和對象,故C正確。(共40張PPT)第4章課時16 文本數據處理、數據可視化信息技術課標梳理·微知著教材重點 課標要求 學業質量水平文本數據處理、數據可視化 1.能從實際生活中發現大數據應用的價值,認識到有效數據處理對于提高數據價值的重要意義2.掌握文本處理方法、數據可視化 1-1教材研析·固基礎1利用matplotlib模塊繪圖1.概念:Matplotlib是一個繪圖庫,使用其中的pyplot子庫所提供的函數可以快速繪圖和設置圖表的坐標軸、坐標軸刻度、圖例等。2.matplotlib模塊常用繪圖函數函數 說明figure() 創建一個新的圖表對象,并設置為當前繪圖對象plot() 繪制線形圖bar() 繪制垂直柱形圖barh() 繪制水平柱形圖scatter() 繪制散點圖title() 設置圖表的標題xlim()、ylim() 設置X、Y軸的取值范圍xlabel()、ylabel() 設置X、Y軸的標簽legend() 顯示圖例show() 顯示創建的所有繪圖對象3.Python中引入matplotlib的pyplot子庫的方法import matplotlib.pyplot as plt典例1 (2023浙江十校聯盟)某校的圖書管理員想了解下學生的圖書閱讀情況,將數據庫中的數據表導出至“book.xlsx”文件中,讀取數據后,界面如圖a所示,統計學生圖書閱讀情況后,繪制圖表如圖b所示,部分程序代碼如下,請在劃線處填入合適的代碼。圖a圖bimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=\['SimHei'] #用來顯示中文標簽df=pd.read_excel(″book.xlsx″)df1=①______________________________#刪除“條形碼”列 df1=df1.groupby(″讀者姓名″,as_index=\False).書名.count()df1.rename(columns={″書名″:″借閱次\數″},inplace=True)df2=df1.sort_values(②______________________________).\head(10) #按統計次數進行降序排序 x=③__________________________________y=df2[″借閱次數″]plt.figure(figsize=(20,10))plt.bar(x,y)plt.title(″閱讀之星TOP10″)plt.show()df.drop(″條形碼″,axis=1)″借閱次數″,ascending=Falsedf2[″讀者姓名″](或df2.讀者姓名)解析 ①利用drop函數可刪除DataFrame對象的行和列,當刪除列時,drop函數第一個參數寫列名,第二個參數axis的值應為1(其默認值是0,為刪除行),故此處填df.drop(″條形碼″,axis=1)。②上文已利用rename函數將列名″書名″修改為″借閱次數″,故此處排序依據應為″借閱次數″,降序時, ascending值應為False(ascending默認值是True,為升序),故此處應填″借閱次數″,ascending=False。③根據圖b可知,橫坐標的值為″讀者姓名″,訪問DataFrame對象的數據列有字典方式和屬性方式兩種,故此處可填df2[″讀者姓名″]或df2.讀者姓名。2利用Python分析數據實踐1.步驟:分析數據 編制程序 查看結果2.讀取外部文件的數據(1)打開與當前程序相同路徑的文本文件(例如:a.txt),讀取文件中的數據,文件的編碼是UTF-8(如下圖所示),打開的文件描述為對象f。(2)語法格式:f=open('a.txt','r',encoding='utf-8')。(3)'r'代表以只讀方式打開當前文件對象,文件的指針將會放在文件的開頭,這是默認模式。(4)encoding用于指定當前所讀文件的編碼方式。(5)file.read([size]):從文件讀取指定的字節數(size),若未指定或為負則讀取所有。(6)file.readline([size]):讀取整行,包括 ″\n″ 字符。(7)file.readlines([sizeint]):讀取所有行并返回列表,若給定sizeint>0,則是設置一次讀多少字節,這是為了減輕讀取壓力。(8)file.close():關閉文件。關閉后文件不能再進行讀寫操作。3.strip()方法(1)作用:用于移除字符串頭尾指定的字符(默認為空格)或字符序列。注意:該方法只能刪除開頭或是結尾的字符,不能刪除中間部分的字符。(2)范例:去除字符串a頭尾的 號4.split()方法(1)格式:字符串.split('str',num)(2)作用:通過指定分隔符對字符串進行切片,如果參數 num 有指定值,則分隔 num+1 個子字符串(3)參數 str 分隔符,默認為所有的空字符,包括空格、換行(\n)、制表符(\t)等。 num 分割次數。默認為 -1,即分隔所有。(4)范例:將字符串a用空格作為分隔符切片。 a.split(' ') #第2參數num省略,分隔所有 a.split(' ',1) #第2參數num為1,在遇到第1個空格時切片,將字符串分隔為2部分。 a.split(' ',4) #第2參數num為4,字符串從左到右方向遍歷,遇到空格進行切片,切片次數為4,將字符串分隔5部分。典例2 有如圖a的Excel表格數據,用python程序創建一張反映各采價點紅富士價格的比較圖,如圖b所示。部分程序代碼如下,請在劃線處填入合適的代碼。地區 規格 單位 價格 采價點 采集時間北京市 紅富士一級 元/500克 2.98 北京沃爾瑪 3月中旬北京市 紅富士一級 元/500克 4.88 北京大潤發 3月中旬上海市 紅富士一級 元/500克 4 上海農貿市場 3月中旬石家莊市 紅富士一級 元/500克 3.98 石家莊沃爾瑪 3月中旬石家莊市 紅富士一級 元/500克 6 石家莊大潤發 3月中旬天津市 紅富士一級 元/500克 4.5 天津沃爾瑪 3月中旬天津市 紅富士一級 元/500克 5 天津大潤發 3月中旬圖a圖bimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltdf=pd.read_excel(″test.xlsx″)x=df[″采價點″]y=①________________plt.figure(figsize=(10,5))#設置圖表對象大小plt.②___________(x,y,color=″g″) plt.title(″紅富士一級價格對比表″)plt.xlabel(″價格點″)plt.ylabel(″價格″)plt.xticks(rotation=90)plt.③________________df[″價格″]barshow()解析 本題主要考查數據分析和繪圖的綜合應用。首先讀入excel數據到DataFrame類型的df對象中,X軸坐標值是df[″價格點″],y軸坐標值是df[″價格″]。垂直柱形圖用bar()函數,設置標題等選項,最后show()函數顯示圖表對象。5.繪圖類型(kind參數)☆bar(垂直柱形圖)☆barh(水平柱形圖)☆plot(線形圖)6.用Hadoop處理姓氏數據當xm.csv文件數據量至GB、TB時,需采用處理靜態大數據的Hadoop架構,編寫Map和Reduce函數處理。Map函數中統計每個分片數據中各個姓的人數,統計結果作為Reduce函數的輸入,在Reduce函數中匯總每個姓的總計人數。在Hadoop服務器中運行MapReduce任務,系統會自動把任務分配到各個計算機中運行。典例3 以下Python程序功能為:讀取外部文件“選手年齡信息.csv”中每位選手的年齡,輸出年齡列表中的最大值、最小值和平均值。外部文件的界面、程序界面和代碼如下,請在劃線處填上合適的代碼。#以讀取模式打開文件f=①________________________#list用于存放文件中讀取的當前行數據組成的列表([姓名,年齡])list1=[]s=0#for用于遍歷讀取文件后生成的列表f.readlines(),列表中的每個元素是從文件中讀取的一行數據(姓名和年齡之間用逗號分隔)for line in f.readlines():list=line.strip().split(②___) #列表list1用于存放讀取的年齡list1.append(③_________) s=s+④________________print('參賽選手年齡最大年齡為:',\max(list1),'歲,最小年齡為:',min(list1),'歲,\平均年齡為:',s/len(list1),'歲')⑤________________#關閉文件 open('選手年齡信息.csv','r')', 'list[1]int(list[1])f.close()解析 依照題意,split函數根據逗號分隔。當前行數據讀取時,根據逗號將姓名和年齡分隔成列表list 1的兩個元素,其中年齡對應的是第2個元素list[1]。將字符串中分離的年齡用int()轉換為整型,為后面年齡的累加做好準備。3文本數據處理1.文本數據處理目的是從大規模的文本數據中提取出符合需要的、感興趣的和隱藏的信息。目前,文本數據處理主要應用在搜索引擎、情報分析、自動摘要、自動校對、論文查重、文本分類、垃圾郵件過濾、機器翻譯、自動應答等方面。典型的文本處理過程主要包括:分詞、特征提取、數據分析、結果呈現等。(1)中文分詞①基于詞典的分詞方法,也稱作基于字符匹配的分詞方法,即在分析句子時與詞典中的詞語進行對比,詞典中出現的就劃分為詞。②基于統計的分詞方法,統計分詞的思想是依據上下文中相鄰字出現的頻率統計,同時出現的次數越高就越可能組成一個詞。在實際應用中,一般是將其與基于詞典的分詞方法結合使用。③基于規則的分詞方法,通過讓計算機模擬人的理解方式,根據大量的現有資料和規則進行學習,達到對文字進行分詞的效果。由于中文語言知識的籠統性、復雜性,這種分詞方法目前還處于試驗階段。(2)特征提取在中文文本分析中可以采用字、詞或短語作為表示文本的特征項。相比較而言,詞的切分難度比短語的切分難度小且更能表達文本的含義。目前,大多數中文文本分析中都采用詞作為特征項,這種詞稱作特征詞。2.文本數據分析與應用(1)標簽云標簽云用詞頻表現文本特征,將關鍵詞按照一定的順序和規律排列,如頻度遞減、字母順序等,并以文字大小的形式代表詞語的重要性。標簽云廣泛應用于報紙、雜志等傳統媒體和互聯網。(2)文本情感分析文本情感分析是指通過計算機技術對文本的主觀性、觀點、情緒、極性進行挖掘和分析,對文本的情感傾向做出分類判斷。文本情感分析作為一個多學科交叉的研究領域,涉及自然語言處理、信息檢索、機器學習、人工智能等領域。典例4 下列關于文本數據處理的說法錯誤的是( )A.文本內容是結構化數據B.標簽云是文本可視化的一種方式C.中文文本分析中多數采用詞作為特征項D.特征詞通常是用分詞算法和詞頻統計得出的結果解析 文本內容是非結構化數據。A典例5 下列數據處理中,不屬于文本數據處理的是( )A.對簡歷數據進行關鍵信息提取,構建人才畫像,精準匹配崗位B.分析消費者的意見數據,挖掘用戶觀點,輔助運營決策C.實時監測景區的人流數據,及時導流、限流D.解析大量合同文檔,有效監控風險條款,節省人力和時間成本解析 C選項主要應用了結構化數據,因此本題答案為C。C4數據可視化☆概念:是將數據以圖形、圖像等形式表示,直接呈現數據中蘊含信息的處理過程。1.可視化的作用(1)快捷觀察與追蹤數據(2)實時分析數據(3)增強數據的解釋力與吸引力2.可視化的基本方法☆不同的數據類型決定了可視化的表現形式(1)時間趨勢:展現隨時間的推移而變化數據可采用柱形圖、折線圖等。(2)比例:展現各部分的大小及其占總體比例關系的數據可以采用餅圖、環形圖(也稱面包圈圖)等。(3)關系:探究具有關聯性數據的分布關系,可以使用散點圖、氣泡圖等。(4)差異:探尋包含多種變量的對象與同類之間的差異和聯系,可以采用雷達圖。(5)空間關系:地理數據或者基于地理數據的分析結果可以運用不同顏色或圖表直接在地圖上進行展示。3.可視化的工具(1)常見的數據分析軟件中一般包含創建可視化圖表功能。主要用于數據可視化的工具有大數據魔鏡、Gephi、Tableau 等。(2)使用Python、R等編寫程序代碼實現數據的可視化。(3)可視化工具庫,如基于JavaScript的D3.js、Highcharts、Google Charts 等,基于Python 的matplotlib 等。 4.可視化的典型案例數據以可視化方式展現出來,用戶可以通過直觀、交互的方式瀏覽和觀察數據,發現數據中隱藏的特征、關系和模式。如“百度地圖”“百度指數”“航班飛行實時跟蹤地圖”等。典例6 下列不屬于數據可視化作用的是( )A.提高數據處理的智能化程度B.快捷觀察與追蹤數據C.實時分析數據D.增強數據的解釋力與吸引力A5大數據典型應用☆大數據應用領域:隨著大數據在各行業的應用,數據成為核心資產。目前,大數據廣泛應用于金融、交通、環境、醫療、能源、農業等行業,極大地促進了各行業的發展。1.智能交通(1)交通數據采集:GPS、卡口、視頻檢測、浮動車、地感線圈等產生的交通流監測數據、視頻監控數據、系統數據、服務數據等構筑了交通大數據。(2)智能交通服務智能交通主要通過交通信息服務、交通管理、公共交通、車輛控制、貨運管理、電子收費、緊急救援等服務子系統為用戶提供服務。其中三個子系統如下:①交通信息服務系統②交通管理系統③電子收費系統2.電子商務(1)數據來源:大型電商企業擁有大量用戶數據,同時,在交易、營銷、供應鏈、倉儲、配送和售后等環節也產生了大量數據。(2)主要服務:根據電商數據,電商企業的數據平臺為商戶和客戶提供精準營銷、供應鏈管理、智能網站等多種數據服務。典例7 下列關于大數據應用的說法錯誤的是( )A.大數據時代數據是核心資產B.促進了各行業的發展C.智能交通中“智能”的基礎是人工智能D.存在用戶隱私泄露等負面影響C典例8 對“三國簡介.txt”文本數據進行分析,輸出曹操出現次數的功能程序段如下,請補全代碼。import jiebaimport pandas as pdf=open(″三國簡介.txt″,″r″,encoding=\ ″utf-8″)txt=①___________words=jieba.lcut(txt)counts={}for name in words:if ②________________: #排除單個字符的分詞結果 counts[name]=counts.get(name,\0)+1 #出現次數為1f.close()print(″曹操出現次數為:{}″,format\(③________________)) f.read()len(name)!=1counts['曹操']解析 讀取文件并通過jieba分詞,用字典記錄各個詞出現的次數,最后輸出曹操的次數。(共15張PPT)第5章課時17 人工智能及應用信息技術要點導引·定錨點課標梳理·微知著教材重點 課標要求 學業質量水平人工智能的產生與發展 1.理解人工智能的概念,了解人工智能涉及的知識領域以及主要方法2.了解人工智能的發展歷史,初步產生進一步學習人工智能的興趣 1-1人工智能的應用 1.了解各類人工智能的特點2.了解各類人工智能的典型應用 1-1人工智能對社會的影響 能理性地看待人工智能技術的發展帶來的機遇與挑戰,認識到人工智能與人類的和諧共處的必要性 1-2教材研析·固基礎1人工智能的產生與發展1.人工智能:是指以機器(計算機)為載體,模仿、延伸和擴展人類智能,其與人類或其他動物所呈現的生物智能有著重要區別。2.AI是多學科廣泛交叉的前沿科學,除計算機科學外還涉及控制科學、認知科學、心理科學、腦及神經科學、生命科學、語言學、邏輯學、行為科學、教育科學、數理科學等眾多學科領域。3.人工智能的三種主要方法人工智能的三種方法 主要特征 典型實例符號主義(邏輯主義、心理學派) 認為學習或者其他的智能特征原則上均可以被符號精確地描述,從而被機器仿真。智能行為就是對符號的推理和運算。需要手工構造知識庫和推理引擎。缺點:可拓展性較弱,難以構建完備的知識庫和完善的推理方法 IBM公司的“沃森”、卡內基梅隆大學的NELL、專家系統聯結主義(仿生學派、生理學派) 通過模仿人類大腦中神經元之間的復雜交互來進行認知推理。需要使用大量數據進行訓練(基于數據驅動的深度學習)。優勢領域:自然語言處理、知識圖譜構建、圖像分類、語音識別、視頻運動提取等 谷歌公司的圍棋軟件AlphaGo行為主義(進化主義、控制論學派) 認為智能體可以在與環境的交互——反饋中不斷學習,從而提升自己的智能水平。問題引導下的試錯學習(強化學習) 家用掃地機器人、圍棋人工智能機器人AlphaGo Zero4.人工智能的發展歷程(1)從計算到智能測試①三種計算機制(20世紀30年代相繼提出)在性能上等效·原始遞歸函數·lambda演算·圖靈機②計算機的誕生促進了人工智能的發展。③圖靈測試(1950年,圖靈):測試機器是否具有智能的一種方法。并不能真正評估人工智能是否具有人的心智。(2)人工智能登上歷史舞臺①1955年8月,“人工智能達特茅斯夏季研討會”的項目申請書中首次提出了“人工智能”的術語。②1956 年,研討會在美國達特茅斯學院如期召開,這標志著人工智能作為一門新興學科正式誕生。典例1 下列有關人工智能產生與發展的說法錯誤的是( )A.簡稱AI,是多學科廣泛交叉的前沿科學B.經驗主義是實現AI的主要方式之一C.深度學習是典型的數據驅動的AI方法D.問題引導下的AI學習體現了自我學習的能力解析 實現AI的三種主要方式是符號主義、聯結主義和行為主義。B2人工智能的應用1.領域人工智能(1)定義:依賴于領域知識和數據的人工智能。(2)特點:具有強大的存儲、記憶和搜索能力。2.跨領域人工智能(1)定義:指智能系統從一個領域快速跨越到另外一個領域。(2)特點:不僅依賴于已有數據和已有規則,且專注于知識和技能的獲取,能舉一反三、觸類旁通,開展深度推理。(3)研究方向:從特殊技能到泛化技能、從單一知識到多源知識、從易到難,永不停息地學習。3.混合增強智能(1)定義:多種智能體的混合形式,它將人的作用或人的認知模型引入人工智能系統,形成“混合增強智能”的形態。(2)特點:在機器智能中以交互形式利用人的知識和智慧,最優地平衡人的智力和計算機的計算能力。(3)例子:人、機器、物聯網和互聯網可以結合成智能城市。(4)注意點:在智能疊加協調的回路中,人類智能是智能回路的總開關。典例2 (2022浙江7月學考)下列關于人工智能的說法,正確的是( )A.人工智能處理數據都采用分治思想B.神經網絡解決分類問題不需要訓練數據C.圖靈測試是測試機器是否具有智能的一種方法D.“專家系統”是一種典型的基于數據驅動的人工智能方法解析 處理大數據一般采用分治思想,不是人工智能,A錯誤;神經網絡模擬人腦神經元的處理方式,需要經過大量數據訓練,B錯誤;專家系統是基于知識庫和推理引擎的符號主義人工智能方法,基于數據驅動的人工智能方法典型案例是“深度學習”,D錯誤。故選C。C典例3 (2023浙江1月選考)下列關于人工智能的說法,不正確的是( )A.深度學習方法一般脫離數據進行學習B.采用行為主義方法的智能體通過與環境的交互學習提升智能C.符號主義人工智能的實現依賴對符號的推理和運算D.人工智能促進社會發展的同時也會帶來一定的社會擔憂解析 深度學習是基于數據驅動的人工智能,需要大量數據,因此不能脫離數據進行學習,故選項A錯誤。A3人工智能對社會的影響1.人工智能改善人類生活(1)概念:人工智能技術正快速融入人們的生活,使人們居家、出行、購物、醫療等日?;顒釉絹碓奖憬荨?br/>(2)應用①智能家居②智慧城市③智能出行④智能購物2.人工智能促進經濟發展(1)人工智能的發展可以為人類社會帶來巨大的經濟效益。(2)通過人工智能技術提高生產力、創造全新的產品和服務。(3)推動人工智能與實體經濟結合,是加快實體經濟轉型升級的必然發展方向。3.人工智能帶來的社會擔憂(1)人工智能技術將人類從繁復工作中解脫出來的同時,也會取代一些工作崗位。(2)人工智能技術在推動人類社會進步的同時,也可能威脅人類安全。典例4 (2023浙江7月學考)下列關于人工智能的說法,正確的是( )A.人臉識別和機器翻譯是常見的人工智能應用B.人工智能已經可以代替人類完成所有工作C.人工智能技術的發展無需依賴計算機技術D.符號主義人工智能采用問題引導下的試錯學習解析 到目前為止,人工智能還不能代替人類完成所有的工作,故選項B錯誤;人工智能技術的發展非常依賴計算機技術,故選項C錯誤;行為主義人工智能采用問題引導下的試錯學習,故選項D錯誤。本題選項A正確。A 展開更多...... 收起↑ 資源列表 高中信息技術學考復習第4章數據處理與應用課時14常用表格數據的處理、大數據處理課件.ppt 高中信息技術學考復習第4章數據處理與應用課時15pandas處理數據課件.ppt 高中信息技術學考復習第4章數據處理與應用課時16文本數據處理、數據可視化課件.ppt 高中信息技術學考復習第5章人工智能及應用課時17人工智能及應用課件.ppt 縮略圖、資源來源于二一教育資源庫