中文字幕精品无码一区二区,成全视频在线播放观看方法,大伊人青草狠狠久久,亚洲一区影音先锋色资源

4.2.3文本數據處理 任務單(無答案) 2023—2024學年浙教版(2019)高中信息技術必修1

資源下載
  1. 二一教育資源

4.2.3文本數據處理 任務單(無答案) 2023—2024學年浙教版(2019)高中信息技術必修1

資源簡介

第四章作業:《文本數據處理》任務單
班級: 學號: 姓名:
【基礎知識】
1. 文本數據處理主要應用在 、情報分析、自動摘要、自動校對、 、文本分類、垃圾郵件過濾、 、自動應答等方面。
2. 典型的文本處理過程主要包括分詞、特征提取、數據分析、結果呈現等。
(1)分詞
分詞是將 的過程,就是將一個漢字序列切分成一個一個單獨的詞。
(2)特征提取
① 特征詞:在中文文本分析中可以采用字、詞或短語作為表示 。大多數中文文本分析中采用 作為特征項。
② 特征提取:通常用 作為特征詞;通過特征提取來找出最具代表性、最有效的文本特征。
③ :根據專家的知識挑選有價值的特征;用數學建模的方法構造評估函數自動選取特征。
(3)文本數據分析與應用
① 標簽云:文本可視化的一種方式,用 表現文本特征,將關鍵詞按照一定的順序和規律排列,如頻率遞減、字母順序等,并以 的形式代表詞語的重要性。
② 文本情感分析:通過計算機技術對文本的主觀性、觀點、情緒、極性進行挖掘和分析,對文本的_____________做出分類判斷。
課后練習
文本數據處理的主要應用有( )
①搜索引擎 ②自動摘要 ③論文查重 ④成績查詢 ⑤自動應答
A.①④⑤ B.①②③⑤
C.②③④ D.②③④⑤
2. 下列數據處理中,不屬于文本數據處理的是( )
A. 對簡歷數據進行關鍵信息提取,構建人才畫像,匹配精準崗位
B. 分析消費者的意見數據,挖掘用戶觀點,輔助運營決策
C. 實時監測景區的人流數據,及時導流、限流
D. 解析大量合同文檔,有效監控風險條款,節省人力和時間成本
3. 小張收集了近段時間要學習的英文單詞,存儲為“data.txt”文件,格式如圖4-18 所示。
他處理“data.txt”文件中英文單詞的Python程序段如下:
file="data.txt"
word_c=[]
n=0
for word in open(file):
if word[0:1]=="c":
word_c.append(word)
print(word)
________________
print("字母c開頭的單詞個數:",n)
(1)劃線處的代碼為
(2)該程序段運行后,列表word_c中的數據為
4. 文本數據處理的主要步驟包括:
① 結果呈現②特征提取③分詞④數據分析⑤文本數據獲取
正確的順序是( )
A.⑤②④①
B.⑤③①④
C.⑤③②④①
D.⑤①③②④
5. 分析某種水果的用戶評論內容,創建的標簽云如圖4-19所示。
其中用作文本的特征項的是( )
A. 字 B. 詞 C. 句子 D. 段 落
6. 下列數據分析中可能涉及文本情感分析的是( )
A. 用戶評論內容分析 B. 用戶年齡分布分析
C. 評論發布設備分析 D. 用戶男女比例分析
7. 某同學使用Python編程分析《西游記》中詞語的出現頻率,部分代碼如下。
(1)請在劃線處填入合適代碼,完善程序。
import jieba #導入jieba模塊
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams["font.sans-serif']=["SimHei"] #圖表中文標簽顯示為黑體
text = open("xyj.txt", encoding="utf-8").read() #打開文本文件
cutwords =jieba.Icut(text, cut all=False) #分詞
stopwords=["一個","兩個","不知","不是","我們"]
counts={} #創建字典,存放詞語及其出現次數
for word in cutwords:
if len(word)!=1 and word not in stopwords:
if word in counts:

else:
counts[word]=1
df=pd.DataFrame([counts]).T
df=df.reset_index() #重置df對象行索引
df.columns =["詞","次數"]
df=df.sort_values("次數",ascending=False) #對df按“次數”降序排序
dfl= ② #df1對象存儲df中的前20行
plt.figure(figsize=(8,4))
plt.bar(dfl["詞"],dfl["次數"])
plt.title("《西游記》中高頻詞")
③ #顯示圖表
print(df.head(10))
程序中劃線①處應填寫的代碼為
程序中劃線②處應填寫的代碼為
程序中劃線③處應填寫的代碼為
8. 使用百度搜索關鍵詞“春節”,將采集到的結果數據存儲為chj.txt文件,如圖4-22所示。處理chj.txt文件中的數據后生成chjfc.txt文件,如圖4-23所示。
請回答下列問題:
(1)文件chj.txt中的數據為_______________________________(選填:結構化數據/非結構化數據)。
(2)處理文件chj.txt中的數據生成chjfc.txt文件的過程,一般稱為 。
(3)編寫如下Python程序,讀取chjfc.txt文件中的數據,并統計其中各詞語(2個及以上文字構成)出現的次數。在劃線處填寫合適代碼,完善程序。
txt =open("chjfc.txt","r",encoding="utf-8").read()
words=txt.split()
word counts={}
for word in words:
if len(word)==1:
continue
else:
① #可以為1行或多行代碼
#使用word_counts計算詞語word 在words中出現的次數
word_list=list(word_counts.items()) #返回所有鍵值對信息,生成列表
word list.sort(key=lambda x:x[1],reverse=True) #按詞語出現次數降序排序
for i in range(20):
word, times= ②
print(word,times)
程序中劃線①處應填寫的代碼是_______________________________
程序中劃線②處應填寫的代碼是_______________________________
(4)去除步驟(3)程序的統計結果中的非特征詞(如代詞、介詞、連詞等)后,制作的標簽云如圖4-24所示標簽云中最能表現文件chj.txt中文本特征的詞有___________________________________________ (寫出3~5個)。

展開更多......

收起↑

資源預覽

<pre id="tfb94"><li id="tfb94"></li></pre>

<bdo id="tfb94"><rt id="tfb94"></rt></bdo>
  • <menu id="tfb94"><dl id="tfb94"></dl></menu><i id="tfb94"><acronym id="tfb94"><sub id="tfb94"></sub></acronym></i>

    1. 主站蜘蛛池模板: 怀宁县| 乃东县| 莱芜市| 铅山县| 沙田区| 花莲县| 伊金霍洛旗| 原阳县| 保康县| 石屏县| 黄龙县| 申扎县| 玉林市| 舞阳县| 武义县| 兖州市| 怀远县| 台南市| 巴马| 金湖县| 贞丰县| 军事| 宁都县| 昭通市| 奇台县| 顺义区| 花莲县| 青海省| 富蕴县| 聂拉木县| 建水县| 郧西县| 卓资县| 大石桥市| 裕民县| 鸡西市| 婺源县| 绍兴市| 威远县| 宝鸡市| 江城|