国产精品主播在线观看,久久婷婷一区二区三区,成全电影大全第二季免费观看

資源簡介

(共42張PPT)
4.2.3 文本數據處理
第四章
第四章
文本數據處理是大數據處理的重要分支之一，目的是從大規模的文本數據中提取出符合需要的、感興趣的和隱藏的信息。
據資料表明，非結構化文本數據占文本數據總量的80%以上，而計算機只認識“符號語言”，并不能直接處理非結構化形式的“自然語言”。
非結構化數據
結構化數據
什么是文本數據處理？
百度搜索：高中信息技術難不難？
文
本
數
據
處
理
論文查重
垃圾郵件過濾
搜索引擎
情報分析
自動摘要、自動校對
論文查重、文本分類
垃圾郵件過濾
機器翻譯
自動應答
文本數據處理應用
古代小故事
有位書生到親戚家做客，談話間外面下起雨來，這時天色將晚，他只得打算住下來。但親戚卻不樂意，于是就在紙上寫了一句話：
下雨天留客天留人不留。
書生看了，明白親戚的意思，卻又不好明說，就心想一不做、二不休，干脆加了幾個標點：下雨天，留客天，留人不？留！親戚一看，這句話的意思完全反了。也就無話可說，只好給書生安排了住宿。
下雨天留客天留人不留
下雨,天留客，天留,人不留
下雨天，留客天，留人不？留！
這幅對聯是什么意思？
人多病少財富
養豬大如山老鼠頭頭死
釀酒缸缸好造醋壇壇酸
非結構化數據：各類的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像、音頻、視頻
結構化：行數據，二維表結構，遵循數據格式與長度規范
非結構化數據
結構化數據
分詞
數據分析
文本數據源
特征提取
結果呈現
便于計算機處理
文本數據處理的一般過程
分詞：將連續的子序列按照一定的規范重新組合成詞序列的過程
分詞
基于字典的分詞方法（jieba）：
在分析句子時與詞典中的詞語進行對比，詞典中出現的就劃分為詞。
基于統計的分詞方法：
依據上下文中相鄰字出現的頻率統計，同時出現的次數越高就越有可能組成一個詞，一般與基于字典的分詞方法結合使用
基于規則的分詞方法：
模擬人的計算方式，根據大量的現有資料和規則進行學習，進而分詞,目前處于實驗階段
字符匹配
概率統計
自主學習
一般采用詞典法和統計法兩者結合
名稱簡介
Jieba分詞 Python開源項目
IKAnalyzer Java開源分詞工具包
NLPIR 北京理工大學大數據搜索與挖掘實驗室，非商業應用免費
語言云哈爾濱工業大學社會計算與信息檢索研究中心，在線API接口調用
BosonNLP 玻森中文語義開放平臺，在線API接口或庫調用
分詞工具
函數對應模式
cut 默認精確分詞模式：將句子最精確地切分開
cut(s,cut_all=Ture) 全模式分詞：將句子中所有成詞的詞語都掃描出來
jieba實例
jieba實例
s="我來到了西北皇家理工學院，發現這兒真不錯"
seg_list=jieba.cut(s,cut_all=True)
我/來到/了/西北/皇家/理工/理工學/理工學院/工學/工學院/學院/，/發現/這兒/真不/真不錯/不錯
s="我來到了西北皇家理工學院，發現這兒真不錯"
seg_list=jieba.cut(s,cut_all=False)
我/來到/了/西北/皇家/理工學院/，/發現/這兒/真不錯
import jieba #引入jieba分詞模塊
sentence=input("請輸入文本：") #定義文本
sent=jieba.cut(sentence,cut_all=True) #全模式分詞
print(sent) #輸出結果
import jieba
sentence=open(‘文件名’,’r’).read()
sent=jieba.cuts(sentence) #精準分詞模式
print(sent)
jieba實例
中文文本可以采用字、詞或短語作為表示文本的特征項。目前，大多數中文文本分析中都采用詞作為特征項，這種詞稱作特征詞
相比較而言詞的切分難度小且更能表達文本含義。
通常可以直接用分詞算法和詞頻統計得出的結果作為特征詞，但若文本很大，特征詞會很多，用特征提取效率更高
特征詞
①根據專家知識庫挑選有價值的特征。
②用數學建模的方法構造評估函數自動選取特征。
目前大多采用評估函數進行特征提取的方式，評估函數大多是基于概率統計設計的，這就需要用龐大的訓練數據集才能獲得對分類起關鍵作用的特征。隨著深度學習、大數據分析等技術的發展，文本特征提取將更加準確、科學。
特征提取的方式
用詞頻表現文本特征，將關鍵詞按照一定的順序和規律排列，以文字的大小來代表詞語的重要性.字體大，則出現的頻率高、重要
數據分析——標簽云
數據分析：文本情感分析
通過計算機技術對文本的主觀性、觀點、情緒等進行挖掘和分析，判斷文本的情感傾向。
今天跟集美出去逛街啦，搞點神仙甜品778順便暴風吸入好喝到剁jiojio的加芋圓加布丁加椰果加芋泥加奧奧碎加脆啵啵加奶蓋加花生加燕麥加紅豆的奶茶最后緩緩口服一片v商購入的三無控糖片，還點了茶百道的分裝做了個隱藏甜品吃，茶百道yyds，小狗勾暴風吸入隱藏甜品后好吃到翹jiojio，真的絕絕子～今天跟集美也是在逃公主的一天。
文本情感分析示例
數據分析——標簽云
請輸入標題
粗粒度
細粒度
整篇文章級
語句級
詞語級
主要應用于輿情監控、用戶評論分析與決策、信息預測，或用于判斷產品的口碑，進而幫助生產者改進產品
文本情感分析依據
數據分析：文本情感分析
1.文本數據處理的一般過程不包括（）
A.分詞 B.特征提取 C.數據分析 D.機器翻譯
2.以下哪項不是中文分詞的一般方法（）
A.基于詞典法 B.基于統計法
C.基于阿爾法 D.基于規則法
D
C
小試牛刀
3.構造評估函數的特征提取法大多是基于（）設計的
A.語義分析 B.情感分析 C.概率統計 D.專家知識
4.標簽云主要是以（）為文本特征
A.詞頻 B.詞義 C.詞句 D.詞序
C
A
小試牛刀
1、下列數據處理中，不屬于文本數據處理的是(　　)
A.根據白名單和黑名單機制，進行垃圾郵件的識別
B.在線客服通過自動應答技術回答問題
C.實時監測景區的人流數據，控制過多的游客進入景區
D.分析消費者的意見數據，挖掘用戶觀點，輔助運營決策
c
小試牛刀
2、有關大數據的文本數據處理，下列說法正確的是(　　)
A.jieba模塊的分詞算法屬于基于統計的分詞方法
B.大數據文本情感分析是電腦將自己的情感表現出來
C.文本處理過程中一般先進行數據分析，再分詞、提取特征，最后呈現結果
D.標簽云一般根據詞頻表現文本特征，以文字大小代表詞語的重要性
D
小試牛刀
3、文本數據處理的主要步驟由以下部分選項組成，正確的順序是(　　)
①文本校對　②特征抽取　③數據分析 ④分詞　⑤文本獲取　⑥結果呈現
A.⑤②④③⑥ B.⑤③④②⑥ C.⑤④②③⑥ D.⑤④①③②⑥
C
小試牛刀
4、下列關于中文分詞方法的描述中，屬于基于詞典的分詞方法的是(　　)
A.依據詞語與詞語之間的空格進行分詞
B.依據上下文中相鄰字出現的頻率統計，同時出現的次數越高就越可能組成一個詞
C.讓計算機模擬人的理解方式，根據大量的現有資料和規則進行學習，然后分詞
D.在分析句子時與詞典中的詞語進行對比，詞典中出現的就劃分為詞
D
小試牛刀
5、某研究小組對采集的省內微博數據進行了研究，用不同的顏色來表示心情，在區域地圖上展示了不同地區的人在不同時間的情緒變化，該研究小組所使用的文本數據分析是(　　)
A.詞頻統計 B.標簽云 C.文本情感分析 D.文本挖掘
C
小試牛刀
6、某文本數據集的標簽云如圖所示，下列說法正確的是（）
A.對數據集中文本分詞后可直接創建標簽云，無須特征提取
B.標簽云須顯示該數據集包含的全部詞語
C.該數據集中，詞語“玩偶”比“注意力”的出現頻率高
D.最能表現該數據集中文本特征的詞有“車頂”“玩偶”“路口”
C
小試牛刀
數據可視化
以圖形、圖像和動畫等方式更加直觀生動地呈現數據及數據分析結果，揭示數據之間的關系、趨勢和規律等表達方式。
數據可視化
可視化的作用
1.快捷觀察與追蹤數據
可視化的作用
可視化的作用
2. 實時分析數據
可視化的作用
3. 增強數據的解釋力與吸引力
可視化的作用
可視化的作用
可視化的基本方法
1. 有關時間趨勢的可視化（柱形圖、折線圖）
數據可視的基本方法——時間趨勢
可視化的基本方法
2. 有關比例的可視化（餅圖、環形圖）
數據可視的基本方法——比例
3. 有關關系的可視化（散點圖、氣泡圖）
可視化的基本方法
數據可視的基本方法——關系
可視化的基本方法
數據可視的基本方法——差異
4. 有關差異的可視化（雷達圖）
可視化的基本方法
5. 有關空間關系的可視化，帶有經緯度標簽的空間數據
數據可視的基本方法——空間
可視化的工具
工具：
大數據魔鏡 (免費的大數據可視化分析工具)
Gephi（動態和分層圖的交互可視化與探測開源工具）
Tableau（實時可視化分析）
編程語言：
Python
R (用于統計分析,圖形表示和報告的編程語言和軟件環境)
可視化工具庫：
D3.js (D3 是最流行的可視化庫之一)
Highcharts (用純JavaScript編寫的一個圖表庫)
Google Charts (提供的一項動態生成圖表的服務)。
四、數據可視化工具
五、數據可視化典型案例
風、氣象、海洋狀況的全球地圖
編程語言之間的影響力關系圖
“雙十一”全網銷售直播圖
航班飛行實時跟蹤地圖
微博熱詞趨勢圖
書P136——138，自主閱讀
可視化的典型案例
Thanks

展開更多......

收起↑

中文字幕精品无码一区二区,成全视频在线播放观看方法,大伊人青草狠狠久久,亚洲一区影音先锋色资源

4.2.3 文本數據處理課件(共42張PPT) 2023—-2024學年浙教版（2019）高中信息技術必修1

4.2.3 文本數據處理課件(共42張PPT) 2023—-2024學年浙教版（2019）高中信息技術必修1

中文字幕精品无码一区二区,成全视频在线播放观看方法,大伊人青草狠狠久久,亚洲一区影音先锋色资源

請用微信掃碼

4.2.3 文本數據處理 課件(共42張PPT) 2023—-2024學年浙教版（2019）高中信息技術必修1

4.2.3 文本數據處理 課件(共42張PPT) 2023—-2024學年浙教版（2019）高中信息技術必修1

4.2.3 文本數據處理課件(共42張PPT) 2023—-2024學年浙教版（2019）高中信息技術必修1

4.2.3 文本數據處理課件(共42張PPT) 2023—-2024學年浙教版（2019）高中信息技術必修1