資源簡介 (共42張PPT)4.2.3 文本數據處理第四章第四章文本數據處理是大數據處理的重要分支之一,目的是從大規模的文本數據中提取出符合需要的、感興趣的和隱藏的信息。據資料表明,非結構化文本數據占文本數據總量的80%以上,而計算機只認識“符號語言”,并不能直接處理非結構化形式的“自然語言”。非結構化數據結構化數據什么是文本數據處理?百度搜索:高中信息技術難不難?文本數據處理論文查重垃圾郵件過濾搜索引擎情報分析自動摘要、自動校對論文查重、文本分類垃圾郵件過濾機器翻譯自動應答文本數據處理應用古代小故事有位書生到親戚家做客,談話間外面下起雨來,這時天色將晚,他只得打算住下來。但親戚卻不樂意,于是就在紙上寫了一句話:下雨天留客天留人不留。書生看了,明白親戚的意思,卻又不好明說,就心想一不做、二不休,干脆加了幾個標點:下雨天,留客天,留人不?留!親戚一看,這句話的意思完全反了。也就無話可說,只好給書生安排了住宿。下雨天留客天留人不留下雨,天留客,天留,人不留下雨天,留客天,留人不?留!這幅對聯是什么意思?人多病少財富養豬大如山老鼠頭頭死釀酒缸缸好造醋壇壇酸非結構化數據:各類的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像、音頻、視頻結構化:行數據,二維表結構,遵循數據格式與長度規范非結構化數據結構化數據分詞數據分析文本數據源特征提取結果呈現便于計算機處理文本數據處理的一般過程分詞:將連續的子序列按照一定的規范重新組合成詞序列的過程分詞基于字典的分詞方法(jieba):在分析句子時與詞典中的詞語進行對比,詞典中出現的就劃分為詞。基于統計的分詞方法:依據上下文中相鄰字出現的頻率統計,同時出現的次數越高就越有可能組成一個詞,一般與基于字典的分詞方法結合使用基于規則的分詞方法:模擬人的計算方式,根據大量的現有資料和規則進行學習,進而分詞,目前處于實驗階段字符匹配概率統計自主學習一般采用詞典法和統計法兩者結合名稱 簡介Jieba分詞 Python開源項目IKAnalyzer Java開源分詞工具包NLPIR 北京理工大學大數據搜索與挖掘實驗室,非商業應用免費語言云 哈爾濱工業大學社會計算與信息檢索研究中心,在線API接口調用BosonNLP 玻森中文語義開放平臺,在線API接口或庫調用分詞工具函數 對應模式cut 默認精確分詞模式:將句子最精確地切分開cut(s,cut_all=Ture) 全模式分詞:將句子中所有成詞的詞語都掃描出來jieba實例jieba實例s="我來到了西北皇家理工學院,發現這兒真不錯"seg_list=jieba.cut(s,cut_all=True)我/來到/了/西北/皇家/理工/理工學/理工學院/工學/工學院/學院/,/發現/這兒/真不/真不錯/不錯s="我來到了西北皇家理工學院,發現這兒真不錯"seg_list=jieba.cut(s,cut_all=False)我/來到/了/西北/皇家/理工學院/,/發現/這兒/真不錯import jieba #引入jieba分詞模塊sentence=input("請輸入文本:") #定義文本sent=jieba.cut(sentence,cut_all=True) #全模式分詞print(sent) #輸出結果import jiebasentence=open(‘文件名’,’r’).read()sent=jieba.cuts(sentence) #精準分詞模式print(sent)jieba實例中文文本可以采用字、詞或短語作為表示文本的特征項。目前,大多數中文文本分析中都采用詞作為特征項,這種詞稱作特征詞相比較而言詞的切分難度小且更能表達文本含義。通常可以直接用分詞算法和詞頻統計得出的結果作為特征詞,但若文本很大,特征詞會很多,用特征提取效率更高特征詞①根據專家知識庫挑選有價值的特征。②用數學建模的方法構造評估函數自動選取特征。目前大多采用評估函數進行特征提取的方式,評估函數大多是基于概率統計設計的,這就需要用龐大的訓練數據集才能獲得對分類起關鍵作用的特征。隨著深度學習、大數據分析等技術的發展,文本特征提取將更加準確、科學。特征提取的方式用詞頻表現文本特征,將關鍵詞按照一定的順序和規律排列,以文字的大小來代表詞語的重要性.字體大,則出現的頻率高、重要數據分析——標簽云數據分析:文本情感分析通過計算機技術對文本的主觀性、觀點、情緒等進行挖掘和分析,判斷文本的情感傾向。今天跟集美出去逛街啦,搞點神仙甜品778順便暴風吸入好喝到剁jiojio的加芋圓加布丁加椰果加芋泥加奧奧碎加脆啵啵加奶蓋加花生加燕麥加紅豆的奶茶最后緩緩口服一片v商購入的三無控糖片,還點了茶百道的分裝做了個隱藏甜品吃,茶百道yyds,小狗勾暴風吸入隱藏甜品后好吃到翹jiojio,真的絕絕子 ~今天跟集美也是在逃公主的一天。文本情感分析示例數據分析——標簽云請輸入標題粗粒度細粒度整篇文章級語句級詞語級主要應用于輿情監控、用戶評論分析與決策、信息預測,或用于判斷產品的口碑,進而幫助生產者改進產品文本情感分析依據數據分析:文本情感分析1.文本數據處理的一般過程不包括( )A.分詞 B.特征提取 C.數據分析 D.機器翻譯2.以下哪項不是中文分詞的一般方法( )A.基于詞典法 B.基于統計法C.基于阿爾法 D.基于規則法DC小試牛刀3.構造評估函數的特征提取法大多是基于( )設計的A.語義分析 B.情感分析 C.概率統計 D.專家知識4.標簽云主要是以( )為文本特征A.詞頻 B.詞義 C.詞句 D.詞序CA小試牛刀1、下列數據處理中,不屬于文本數據處理的是( )A.根據白名單和黑名單機制,進行垃圾郵件的識別B.在線客服通過自動應答技術回答問題C.實時監測景區的人流數據,控制過多的游客進入景區D.分析消費者的意見數據,挖掘用戶觀點,輔助運營決策c小試牛刀2、有關大數據的文本數據處理,下列說法正確的是( )A.jieba模塊的分詞算法屬于基于統計的分詞方法B.大數據文本情感分析是電腦將自己的情感表現出來C.文本處理過程中一般先進行數據分析,再分詞、提取特征,最后呈現結果D.標簽云一般根據詞頻表現文本特征,以文字大小代表詞語的重要性D小試牛刀3、文本數據處理的主要步驟由以下部分選項組成,正確的順序是( )①文本校對 ②特征抽取 ③數據分析 ④分詞 ⑤文本獲取 ⑥結果呈現A.⑤②④③⑥ B.⑤③④②⑥ C.⑤④②③⑥ D.⑤④①③②⑥C小試牛刀4、下列關于中文分詞方法的描述中,屬于基于詞典的分詞方法的是( )A.依據詞語與詞語之間的空格進行分詞B.依據上下文中相鄰字出現的頻率統計,同時出現的次數越高就越可能組成一個詞C.讓計算機模擬人的理解方式,根據大量的現有資料和規則進行學習,然后分詞D.在分析句子時與詞典中的詞語進行對比,詞典中出現的就劃分為詞D小試牛刀5、某研究小組對采集的省內微博數據進行了研究,用不同的顏色來表示心情,在區域地圖上展示了不同地區的人在不同時間的情緒變化,該研究小組所使用的文本數據分析是( )A.詞頻統計 B.標簽云 C.文本情感分析 D.文本挖掘C小試牛刀6、某文本數據集的標簽云如圖所示,下列說法正確的是( )A.對數據集中文本分詞后可直接創建標簽云,無須特征提取B.標簽云須顯示該數據集包含的全部詞語C.該數據集中,詞語“玩偶”比“注意力”的出現頻率高D.最能表現該數據集中文本特征的詞有“車頂”“玩偶”“路口”C小試牛刀數據可視化以圖形、圖像和動畫等方式更加直觀生動地呈現數據及數據分析結果,揭示數據之間的關系、趨勢和規律等表達方式。數據可視化可視化的作用1.快捷觀察與追蹤數據可視化的作用可視化的作用2. 實時分析數據可視化的作用3. 增強數據的解釋力與吸引力可視化的作用可視化的作用可視化的基本方法1. 有關時間趨勢的可視化(柱形圖、折線圖)數據可視的基本方法——時間趨勢可視化的基本方法2. 有關比例的可視化(餅圖、環形圖)數據可視的基本方法——比例3. 有關關系的可視化(散點圖、氣泡圖)可視化的基本方法數據可視的基本方法——關系可視化的基本方法數據可視的基本方法——差異4. 有關差異的可視化(雷達圖)可視化的基本方法5. 有關空間關系的可視化,帶有經緯度標簽的空間數據數據可視的基本方法——空間可視化的工具工具:大數據魔鏡 (免費的大數據可視化分析工具)Gephi(動態和分層圖的交互可視化與探測開源工具)Tableau(實時可視化分析)編程語言:PythonR (用于統計分析,圖形表示和報告的編程語言和軟件環境)可視化工具庫:D3.js (D3 是最流行的可視化庫之一)Highcharts (用純JavaScript編寫的一個圖表庫)Google Charts (提供的一項動態生成圖表的服務)。四、數據可視化工具五、數據可視化典型案例風、氣象、海洋狀況的全球地圖編程語言之間的影響力關系圖“雙十一”全網銷售直播圖航班飛行實時跟蹤地圖微博熱詞趨勢圖書P136——138,自主閱讀可視化的典型案例Thanks 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫