資源簡介 第四章 數(shù)據(jù)處理與應(yīng)用一、常用的表格數(shù)據(jù)處理1、數(shù)據(jù)整理的目的是檢測和修正錯漏的數(shù)據(jù)、整合數(shù)據(jù)資源、規(guī)整數(shù)據(jù)格式、提高數(shù)據(jù)質(zhì)量。2、日常簡單的數(shù)據(jù)處理可以使用Excel軟件完成, 專業(yè)的數(shù)據(jù)處理和統(tǒng)計分析工具有SPSS、SAS、MATLAB等,也可以通過R、Python、Java等計算機語言編程進行數(shù)據(jù)處理。3、在Excel軟件中,可以用公式或函數(shù)進行數(shù)據(jù)的計算。公式和函數(shù)都是以“=”開頭。4、單元格引用是指對工作表中的單元格或單元格區(qū)域的引用。默認(rèn)情況下,單元格引用是相對的,如A1;單元格絕對引用,如$A$1;連續(xù)的單元格區(qū)域引用,如A2:D5;不連續(xù)的單元格區(qū)域引用,如A2:A5,D2:D5。5、算術(shù)運算符有^、%、*、/、十、-,用于進行基本的數(shù)學(xué)運算。比較運算符有=、>、<、 >=、<=、<>,用于比較兩個值,結(jié)果為邏輯值TRUE或FALSE。文本連接運算符"&", 可以連接一個或多個文本字符串,生成一段文本。6、Excel內(nèi)置函數(shù)函數(shù)名 使用 說明SUM SUM(A1:A10) 求和AVERAGE AVERAGE(A1:A10) 求平均值MAX MAX(A1:A10) 求最大值MIN MIN(A1:A10) 求最小值COUNT COUNT(A1:A10) 求數(shù)量RANK RANK(A1,A1:A10) 求排名7、相對引用與絕對引用:Excel中對單元格的引用可以是相對的,也可以是絕對的,相對的例如A1:A10,絕對引用一般用$符號標(biāo)識,例如$A1就是鎖定列,在填充的時候A不會隨著單元格位置的變換而變換,同理A$1就是鎖定行,$A$1就是鎖定行列。8、圖表是用視覺形式向人們展示數(shù)據(jù)的一種方法。 常見的圖表類型有柱形圖(對比數(shù)據(jù)大小)、 折線圖(變化趨勢)、 餅圖(占比)、 雷達圖、 散點圖、 氣泡圖。9、生成圖表的步驟:先選取數(shù)據(jù)區(qū)域,再插入圖表,選擇圖表類型10、圖表數(shù)據(jù)區(qū)域:1)、在表格中找到圖表x軸對應(yīng)的數(shù)據(jù)2)、在表格中找到圖表y軸對應(yīng)的數(shù)據(jù)3)、在表格中找到圖例對應(yīng)的數(shù)據(jù)4)、高平齊長對正二、大數(shù)據(jù)處理架構(gòu)1、大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)來源與類型多樣、處理速度快等特點。2、處理大數(shù)據(jù)時,一般采用分治思想。3、處理大數(shù)據(jù)的基本方法有批處理計算(靜態(tài)數(shù)據(jù))、流計算(流數(shù)據(jù)或?qū)崟r數(shù)據(jù))、圖計算(圖數(shù)據(jù))三種。4、分布式計算 (Distributed Computing) 是把一個需要非常巨大的計算能力才能解決的問題 分成許多小部分, 然后把這些部分分配給許多計算機進行處理, 最后把這些計算結(jié)果綜合起來得到最終的結(jié)果。5、并行處理(Parallel Processing)是計算機系統(tǒng)中能同時執(zhí)行兩個或更多處理的一種計算方法。6、Windows的文件系統(tǒng)采用FAT32或 NTFS, Linux的文件系統(tǒng)為 Ext2/Ext3/Ext4。7、HBase是一個高可靠、高性能、 可伸縮、分布式的列式數(shù)據(jù)庫。8、Map Reduce是一種分布式并行編程模型, 能夠處理大規(guī)模數(shù)據(jù)集的并行運算。三、使用pandas處理數(shù)據(jù)1、pandas提供了Series和DataFrame兩種數(shù)據(jù)結(jié)構(gòu)。使用這兩種數(shù)據(jù)結(jié)構(gòu),可完成數(shù)據(jù)的整理、計算、統(tǒng)計、分析及簡單可視化。2、在Python中引入pandas模塊的方法:import pandas as pd3、Series是一種一維的數(shù)據(jù)結(jié)構(gòu),包含一個數(shù)組的數(shù)據(jù)和一個與數(shù)據(jù)關(guān)聯(lián)的索引 (index),索引值默認(rèn)是從0起遞增的整數(shù)。列表、字典等可以用來創(chuàng)建Series數(shù)據(jù)結(jié)構(gòu), 與列表不同的是,Series的索引可以指定,類型可以為字符串型。4、創(chuàng)建Series樣例如下圖5、通過索引可以選取Series對象中的值, 通過賦值語句可以修改Series對象中的值。如:s1[0]=168 、s2["s01 "]=168, 可將sl、s2對象中的“ 166"改為“ 168 ”。6、DataFrame是一種二維的數(shù)據(jù)結(jié)構(gòu)由1個索引列(index)和若干個數(shù)據(jù)列組成,每個數(shù)據(jù)列可以是不同的類型。 DataFrame可以看作是共享同一個index 的Series 的集合。 創(chuàng)建DataFrame對象的方法很多, 通常用一個相等長度的列表或字典來創(chuàng)建。如下圖7、Pandas也可以讀取Excel、csv等文件,使用read_excel函數(shù)和read_csv函數(shù)代碼如下圖8、訪問屬性:格式:對象名.屬性名如:df.index(訪問索引) df.columns(訪問列標(biāo)題)df.values(訪問值) df.T(行列轉(zhuǎn)置)9、選取列:使用列標(biāo)題(設(shè)列標(biāo)題為姓名)將列標(biāo)題當(dāng)成屬性:df.姓名將列表題當(dāng)成索引:df[“姓名”]10、選取行取滿足某些條件的行:df[df.語文>100]取前n行:df.head(n)取后n行:df.tail(n)取某幾行:df[m:n]取索引為m到n-1的行11、取值df.at[行標(biāo)簽,列標(biāo)簽]插入列df.insert(loc=1,column=”政治”,value=[78,98,60])#插入一個新的列,位置是第二列,列標(biāo)題為“政治”,值分別為78,98,60。若value=98,則說明這一列的每一個值都是98。插入行df.append({“姓名”:”小紅”,”語文”:105,”英語”:107},ignore_index=True)#插入一行,索引在df對象的索引上往后遞增一個。刪除刪除行:df.drop(0,axis=0)#刪除索引為0的行,axis=0表示行,默認(rèn)刪除列:df.drop(“姓名”,axis=1)#刪除姓名列,axis=1表示列注意:axis=1在排序和求和等函數(shù)使用時表示行,axis=0表示列排序按索引排序:sort_index(ascending=True) #ascending=True表示升序,默認(rèn)。按值排序:sort_values(“語文”,ascending=False)#按語文成績降序排序ascending=False表示降序。不改變原DataFrame對象的函數(shù):drop()、append()、sort_index()、sort_values()df.drop(0,axis=0,inplace=True)#inplace=True替換原DataFrame對象17、DataFrame常用函數(shù)sum() 求和 mean()求平均值 count()計數(shù) max()求最大值 min()求最小值describe()返回各列的計數(shù)、平均值、標(biāo)準(zhǔn)差、最大值、最小值等四、使用matplotlib繪圖1、matplotlib是一個繪圖庫 ,使用其中的pyplot子庫所提供的函數(shù)可以快速繪圖和設(shè)置圖 表的坐標(biāo)軸、 坐標(biāo)軸刻度、圖例等。常用繪圖函數(shù)如下表函數(shù) 說明figure() 創(chuàng)建一個新的圖表對象,并設(shè)置為當(dāng)前繪圖對象,會自動創(chuàng)建plot() 繪制線形圖scatter() 繪制散點圖bar() 繪制垂直柱形圖barh() 繪制水平柱形圖title() 設(shè)置圖表標(biāo)題xlim(),ylim() 設(shè)置XY軸取值范圍xlabel(),ylabel() 設(shè)置XY軸的標(biāo)簽legend() 顯示圖例,與label配合使用show() 顯示所有的圖表對象,必須要寫,否則圖表不顯示import matplotlib.pyplot as plt #導(dǎo)入matplotlib的pyplot子庫plt.plot(x,y,label=”英語”,color=”red”,linewidth=5)#label設(shè)置圖例上顯示的文字,和legend()配合起來使用。#color設(shè)置圖表顏色。#linewidth設(shè)置線條粗細,垂直柱形圖用width,水平柱形圖用height。2、調(diào)用DataFrame中自帶的plot函數(shù)生成圖表、df.plot(kind=”line”) #生成線形圖、df.plot(kind=”scatter”) #生成散點圖、df.plot(kind=”bar”) #生成垂直柱形圖、df.plot(kind=”barh”) #生成水平柱形圖5)、df[3:5].plot(x=”姓名”,y=”語文”,kind=”bar”) #選擇df對象的第4到5行數(shù)據(jù),取“姓名”列為x軸數(shù)據(jù),取“語文”列為y軸數(shù)據(jù),生成垂直柱形圖。四、文本數(shù)據(jù)處理及數(shù)據(jù)可視化1、文本數(shù)據(jù)處理是大數(shù)據(jù)處理的重要分支之一, 目的是從大規(guī)模的文本數(shù)據(jù)中提取出符合需要的、 感興趣的和隱藏的信息。 目前, 文本數(shù)據(jù)處理主要應(yīng)用在搜索引擎、 情報分析、 自動摘要、 自動校對、 論文查重、 文本分類、 垃圾郵件過濾、 機器翻譯、 自動應(yīng)答等方面。2、文本處理的一般步驟:文本內(nèi)容是非結(jié)構(gòu)化的數(shù)據(jù), 要從大量的文本中提取出有用的信息, 需要將文本從無結(jié)構(gòu)的原始狀態(tài)轉(zhuǎn)化為結(jié)構(gòu)化的、 便于計算機處理的數(shù)據(jù)。 典型的文本處理過程主要包括:分詞、 特征提取、 數(shù)據(jù)分析、 結(jié)果呈現(xiàn)。3、分詞的三種方法基于詞典的分詞方法(Python的jieba模塊)、基于統(tǒng)計的分詞方法、基于規(guī)則的分詞方法。4、標(biāo)簽云用詞頻表現(xiàn)文本特征, 將關(guān)鍵詞按照一定的順序和規(guī)律排列,如頻度遞減、字母順序等,并以文字大小的形式代表詞語的重要性。5、文本情感分析是指通過計算機技術(shù)對文本的主觀性、 觀點、 情緒、 極性進行挖掘和分析, 對文本的情感傾向做出分類判斷6、數(shù)據(jù)可視化的作用:快捷觀察與追蹤數(shù)據(jù)、實時分析數(shù)據(jù)、增強數(shù)據(jù)的解釋力與吸引力。7、數(shù)據(jù)可視化的基本方法:有關(guān)時間趨勢的可視化(折線圖、柱形圖)、有關(guān)比例的可視化(餅圖、環(huán)形圖)、有關(guān)關(guān)系的可視化(散點圖(2-3個變量)、氣泡圖(3-4個變量))、有關(guān)差異的可視化(雷達圖)、有關(guān)空間關(guān)系的可視化(地圖)。8、數(shù)據(jù)可視化的工具:用于數(shù)據(jù)可視化的工具有大數(shù)據(jù)魔鏡、Gephi、Tableau等,也可以使用Python、R等 計算機語言編寫程序?qū)崿F(xiàn)數(shù)據(jù)的可視化9、智慧交通包括:交通信息服務(wù)系統(tǒng)、交通管理系統(tǒng)、電子收費系統(tǒng)。10、大數(shù)據(jù)在電子商務(wù)的使用:精準(zhǔn)營銷、供應(yīng)鏈管理、智能網(wǎng)站。 展開更多...... 收起↑ 資源預(yù)覽 縮略圖、資源來源于二一教育資源庫