中文字幕精品无码一区二区,成全视频在线播放观看方法,大伊人青草狠狠久久,亚洲一区影音先锋色资源

4.2.3 文本數據處理 4.2.4 數據可視化 課件(共27張PPT)-2023—2024學年浙教版(2019)高中信息技術必修1

資源下載
  1. 二一教育資源

4.2.3 文本數據處理 4.2.4 數據可視化 課件(共27張PPT)-2023—2024學年浙教版(2019)高中信息技術必修1

資源簡介

(共27張PPT)
第四章 數據處理與應用
4.2 大數據處理
4.2.3 文本數據處理
4.2.4 數據可視化
學習目標
了解文本處理應用領域及一般處理過程。
了解中文分詞常用算法及特征提取方式。
能使用常見分詞系統(如:jieba分詞)進行文本數據處理。
了解數據可視化的作用。
了解數據可視化相關工具及原理。
知識點一:文本數據處理
新課講授
文本數據處理是大數據處理的重要分支之一,目的是從大規模的文本數據中提取出符合需要的、感興趣的和隱藏的信息。目前,文本數據處理主要應用在搜索引擎、情報分析、自動摘要、自動校對、論文查重、文本分類、垃圾郵件過濾、機器翻譯、自動應答等方面。
1.文本數據處理的一般過程
(1)中文分詞(是中文文本信息處理的基礎)
①基于詞典的分詞方法(字符匹配)
②基于統計的分詞方法
③基于規則的分詞方法
①基于詞典的分詞方法
也稱作基于字符匹配的分詞方法,即在分析句子時與詞典中的詞語進行對比,詞典中出現的就劃分為詞。常見分詞系統有jieba分詞。
import jieba #引入jieba分詞模塊
text="文本數據處理的過程" #定義文本
seg_list1=jieba.cut(text,cut_all=True) #全模式分詞
print("全模式分詞:"+"/".join(seg_list1)) #文本/本數/數據/數據處理/處理/的/過程
seg_list2=jieba.cut(text) #默認是精確模式分詞
print("默認模式分詞:"+"/".join(seg_list2)) #文本/數據處理/的/過程
join():用于把序列中的所有元素放入一個字符串,元素是通過指定的分隔符進行分隔的。
cut_all=True全模式分詞:把句子中所有可以成詞的詞語都掃描出來,速度非常快,但是不能解決歧義。
cut_all=False精確模式分詞:試圖將句子最精確地切開,適合文本分析。
②基于統計的分詞方法
依據上下文中相鄰字出現的頻率統計,同時出現的次數越高就越可能組成一個詞。一般是將其與基于詞典的分詞方法結合使用。
③基于規則的分詞方法
通過讓計算機模擬人的理解方式,根據大量的現有資料和規則進行學習,達到對文字進行分詞的效果。這種分詞方法目前還處于試驗階段。
(2)特征提取
特征項:在中文文本分析中可以采用字、詞或短語作為表示文本的特征項。
特征詞:相比較而言,詞的切分難度小且更能表達文本的含義。目前,大多數中文文本分析中都采用詞作為特征項,這種詞稱作特征詞。通常可直接用分詞算法和詞頻統計得出的結果作為特征詞,但對于稍大一些的文本,提取出的特征詞數量將非常大,其計算處理過程的效率非常低,計算結果的準確性也很難令人滿意。
因此,必須找出最具代表性、最有效的文本特征,通常的辦法是通過特征提取來減少特征詞的數量,提高文本處理的速度和效率。
特征提取的方式:
根據專家的知識挑選有價值的特征;
用數學建模的方法構造評估函數自動選取特征(目前大多基于概率統計設計)。
2.文本數據分析與應用
在取得特征詞后,需要根據項目的需求,確定解決問題的路徑,選取合適的工具、設計算法抽取出文本中隱含的價值。
(1)標簽云
用詞頻表現文本特征,將關鍵詞按照一定的順序和規律排列,如頻度遞減、字母順序等,并以文字大小的形式代表詞語的重要性。是文本可視化的一種方式,廣泛應用于報紙、雜志等傳統媒體和互聯網。
(2)文本情感分析
通過計算機技術對文本的主觀性、觀點、情緒、極性進行挖掘和分析,對文本的情感傾向做出分類判斷。根據分析的粒度不同,分為詞語級、語句級、整篇文章級三類。主要應用于網絡輿情監控、用戶評論分析與決策、信息預測等眾多領域。
(2)文本情感分析
通過計算機技術對文本的主觀性、觀點、情緒、極性進行挖掘和分析,對文本的情感傾向做出分類判斷。主要應用于網絡輿情監控、用戶評論分析與決策、信息預測等眾多領域。
知識點二:數據可視化
將數據以圖形圖像等形式表示,直接呈現數據中蘊含信息的處理過程。
1、可視化的作用
(1)快捷觀察與追蹤數據
利用可視化技術,可以將處于不斷變化中的數據生成實時變化的可視化圖表,幫助人們快捷地發現各種數據的動態變化過程。如百度地圖提供的實時路況服務,中國天氣網提供的各地天氣實況。
(2)實時分析數據
利用可視化技術,可以實時將數據轉換為圖像呈現給用戶,幫助用戶分析數據的內涵和特征。如利用百度指數分析全國某段時間搜索關鍵詞“數據可視化”的情況,通過交互,用戶可以選擇從趨勢研究、需求圖譜、輿情洞察、人群畫像等多個角度進行分析。
(3)增強數據的解釋力與吸引力
利用數據圖表,直觀、動態地呈現新聞、研究報告等內容,可以幫助人們在短時間內了解內容、理解數據背后的含義,同時增強數據的吸引力,提高人們的閱讀興趣。
2、可視化的基本方法
分類 數據間關系的描述 可視化方法 案例
(1)有關時間趨勢的可視化 時間序列數據變化的過程和趨勢 折線圖、柱形圖等。 天氣、人口遷移、經濟發展
(2)有關比例的可視化 各部分的大小及其占總體比例的情況 餅圖、環形圖(面包圈圖)等。 衣服面料成分、投票結果
(3)有關關系的可視化 變量之間的關聯性和分布關系(根據某一已知指標預測另一指標) 散點圖(2-3)、氣泡圖(3-4)等。 身高與體重、用戶滿意度與收貨天數、
(4)有關差異的可視化 多種變量的對象與同類之間的差異和聯系(異常值) 雷達圖等。 同學間期中各科成績
(5)有關空間關系的可視化 分析和展示與地理數據相關的數據 地圖等。 騰訊地圖打車
3.可視化的工具
(1)主要用于數據可視化的工具有:大數據魔鏡、Gephi、Tableanu(主要用于實時可視化分析)等。
(2)使用Python、R等計算機語言編寫程序實現數據的可視化。
(3)可視化工具庫,如基于JavaScript的D3.js、Highcharts、GooleCharts等,基于Python的matplotlib等。
4.可視化的典型案例
1.文本數據處理的主要步驟包括:
①數據分析 ②特征提取 ③分詞 ④結果呈現 ⑤文本數據源
下列文本數據處理順序正確的是( )
A.①⑤②③④
B.②⑤③①④
C.⑤①③②④
D.⑤③②①④
隨堂練習
D
2.在中文文本分析中,一般不用做文本的特征項的是( )
A.字
B.詞
C.短語
D.段落
D

展開更多......

收起↑

資源預覽

<pre id="tfb94"><li id="tfb94"></li></pre>

<bdo id="tfb94"><rt id="tfb94"></rt></bdo>
  • <menu id="tfb94"><dl id="tfb94"></dl></menu><i id="tfb94"><acronym id="tfb94"><sub id="tfb94"></sub></acronym></i>

    1. 主站蜘蛛池模板: 赣州市| 德江县| 乌鲁木齐市| 大丰市| 历史| 都安| 上虞市| 镇远县| 桓仁| 南川市| 平远县| 岗巴县| 厦门市| 安化县| 仁化县| 虞城县| 政和县| 满洲里市| 方山县| 盐源县| 土默特左旗| 乌鲁木齐市| 福泉市| 静宁县| 乐东| 大姚县| 出国| 天津市| 武宁县| 鹤壁市| 祁阳县| 荔浦县| 英山县| 福鼎市| 云和县| 五家渠市| 德安县| 甘孜县| 皋兰县| 乌拉特中旗| 合山市|