欧美日韩一区二区三区高清不卡,日韩视频中文字幕专区,国产综合色在线视频播放线视

資源簡介

第四章作業：《文本數據處理》任務單
班級：學號：姓名：
【基礎知識】
1. 文本數據處理主要應用在、情報分析、自動摘要、自動校對、、文本分類、垃圾郵件過濾、、自動應答等方面。
2. 典型的文本處理過程主要包括分詞、特征提取、數據分析、結果呈現等。
(1)分詞
分詞是將的過程，就是將一個漢字序列切分成一個一個單獨的詞。
(2)特征提取
① 特征詞：在中文文本分析中可以采用字、詞或短語作為表示。大多數中文文本分析中采用作為特征項。
② 特征提取：通常用作為特征詞；通過特征提取來找出最具代表性、最有效的文本特征。
③ ：根據專家的知識挑選有價值的特征；用數學建模的方法構造評估函數自動選取特征。
(3)文本數據分析與應用
① 標簽云：文本可視化的一種方式，用表現文本特征，將關鍵詞按照一定的順序和規律排列，如頻率遞減、字母順序等，并以的形式代表詞語的重要性。
② 文本情感分析：通過計算機技術對文本的主觀性、觀點、情緒、極性進行挖掘和分析，對文本的_____________做出分類判斷。
課后練習
文本數據處理的主要應用有( )
①搜索引擎 ②自動摘要 ③論文查重 ④成績查詢 ⑤自動應答
A.①④⑤ B.①②③⑤
C.②③④ D.②③④⑤
2. 下列數據處理中，不屬于文本數據處理的是( )
A. 對簡歷數據進行關鍵信息提取，構建人才畫像，匹配精準崗位
B. 分析消費者的意見數據，挖掘用戶觀點，輔助運營決策
C. 實時監測景區的人流數據，及時導流、限流
D. 解析大量合同文檔，有效監控風險條款，節省人力和時間成本
3. 小張收集了近段時間要學習的英文單詞，存儲為“data.txt”文件，格式如圖4-18 所示。
他處理“data.txt”文件中英文單詞的Python程序段如下：
file="data.txt"
word_c=[]
n=0
for word in open(file):
if word[0:1]=="c":
word_c.append(word)
print(word)
________________
print("字母c開頭的單詞個數：",n)
(1)劃線處的代碼為
(2)該程序段運行后，列表word_c中的數據為
4. 文本數據處理的主要步驟包括：
① 結果呈現②特征提取③分詞④數據分析⑤文本數據獲取
正確的順序是( )
A.⑤②④①
B.⑤③①④
C.⑤③②④①
D.⑤①③②④
5. 分析某種水果的用戶評論內容，創建的標簽云如圖4-19所示。
其中用作文本的特征項的是( )
A. 字 B. 詞 C. 句子 D. 段落
6. 下列數據分析中可能涉及文本情感分析的是( )
A. 用戶評論內容分析 B. 用戶年齡分布分析
C. 評論發布設備分析 D. 用戶男女比例分析
7. 某同學使用Python編程分析《西游記》中詞語的出現頻率，部分代碼如下。
(1)請在劃線處填入合適代碼，完善程序。
import jieba #導入jieba模塊
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams["font.sans-serif']=["SimHei"] #圖表中文標簽顯示為黑體
text = open("xyj.txt", encoding="utf-8").read() #打開文本文件
cutwords =jieba.Icut(text, cut all=False) #分詞
stopwords=["一個","兩個","不知","不是","我們"]
counts={} #創建字典，存放詞語及其出現次數
for word in cutwords:
if len(word)!=1 and word not in stopwords:
if word in counts:
①
else:
counts[word]=1
df=pd.DataFrame([counts]).T
df=df.reset_index() #重置df對象行索引
df.columns =["詞","次數"]
df=df.sort_values("次數",ascending=False) #對df按“次數”降序排序
dfl= ② #df1對象存儲df中的前20行
plt.figure(figsize=(8,4))
plt.bar(dfl["詞"],dfl["次數"])
plt.title("《西游記》中高頻詞")
③ #顯示圖表
print(df.head(10))
程序中劃線①處應填寫的代碼為
程序中劃線②處應填寫的代碼為
程序中劃線③處應填寫的代碼為
8. 使用百度搜索關鍵詞“春節”,將采集到的結果數據存儲為chj.txt文件，如圖4-22所示。處理chj.txt文件中的數據后生成chjfc.txt文件，如圖4-23所示。
請回答下列問題：
(1)文件chj.txt中的數據為_______________________________(選填：結構化數據/非結構化數據)。
(2)處理文件chj.txt中的數據生成chjfc.txt文件的過程，一般稱為。
(3)編寫如下Python程序，讀取chjfc.txt文件中的數據，并統計其中各詞語(2個及以上文字構成)出現的次數。在劃線處填寫合適代碼，完善程序。
txt =open("chjfc.txt","r",encoding="utf-8").read()
words=txt.split()
word counts={}
for word in words:
if len(word)==1:
continue
else:
① #可以為1行或多行代碼
#使用word_counts計算詞語word 在words中出現的次數
word_list=list(word_counts.items()) #返回所有鍵值對信息，生成列表
word list.sort(key=lambda x:x[1],reverse=True) #按詞語出現次數降序排序
for i in range(20):
word, times= ②
print(word,times)
程序中劃線①處應填寫的代碼是_______________________________
程序中劃線②處應填寫的代碼是_______________________________
(4)去除步驟(3)程序的統計結果中的非特征詞(如代詞、介詞、連詞等)后，制作的標簽云如圖4-24所示標簽云中最能表現文件chj.txt中文本特征的詞有___________________________________________ (寫出3～5個)。

展開更多......

收起↑

中文字幕精品无码一区二区,成全视频在线播放观看方法,大伊人青草狠狠久久,亚洲一区影音先锋色资源

4.2.3文本數據處理任務單（無答案） 2023—2024學年浙教版（2019）高中信息技術必修1

4.2.3文本數據處理任務單（無答案） 2023—2024學年浙教版（2019）高中信息技術必修1

中文字幕精品无码一区二区,成全视频在线播放观看方法,大伊人青草狠狠久久,亚洲一区影音先锋色资源

請用微信掃碼

4.2.3文本數據處理 任務單（無答案） 2023—2024學年浙教版（2019）高中信息技術必修1

4.2.3文本數據處理 任務單（無答案） 2023—2024學年浙教版（2019）高中信息技術必修1

4.2.3文本數據處理任務單（無答案） 2023—2024學年浙教版（2019）高中信息技術必修1

4.2.3文本數據處理任務單（無答案） 2023—2024學年浙教版（2019）高中信息技術必修1