資源簡介 第四章作業:《文本數據處理》任務單班級: 學號: 姓名:【基礎知識】1. 文本數據處理主要應用在 、情報分析、自動摘要、自動校對、 、文本分類、垃圾郵件過濾、 、自動應答等方面。2. 典型的文本處理過程主要包括分詞、特征提取、數據分析、結果呈現等。(1)分詞分詞是將 的過程,就是將一個漢字序列切分成一個一個單獨的詞。(2)特征提取① 特征詞:在中文文本分析中可以采用字、詞或短語作為表示 。大多數中文文本分析中采用 作為特征項。② 特征提取:通常用 作為特征詞;通過特征提取來找出最具代表性、最有效的文本特征。③ :根據專家的知識挑選有價值的特征;用數學建模的方法構造評估函數自動選取特征。(3)文本數據分析與應用① 標簽云:文本可視化的一種方式,用 表現文本特征,將關鍵詞按照一定的順序和規律排列,如頻率遞減、字母順序等,并以 的形式代表詞語的重要性。② 文本情感分析:通過計算機技術對文本的主觀性、觀點、情緒、極性進行挖掘和分析,對文本的_____________做出分類判斷。課后練習文本數據處理的主要應用有( )①搜索引擎 ②自動摘要 ③論文查重 ④成績查詢 ⑤自動應答A.①④⑤ B.①②③⑤C.②③④ D.②③④⑤2. 下列數據處理中,不屬于文本數據處理的是( )A. 對簡歷數據進行關鍵信息提取,構建人才畫像,匹配精準崗位B. 分析消費者的意見數據,挖掘用戶觀點,輔助運營決策C. 實時監測景區的人流數據,及時導流、限流D. 解析大量合同文檔,有效監控風險條款,節省人力和時間成本3. 小張收集了近段時間要學習的英文單詞,存儲為“data.txt”文件,格式如圖4-18 所示。他處理“data.txt”文件中英文單詞的Python程序段如下:file="data.txt"word_c=[]n=0for word in open(file):if word[0:1]=="c":word_c.append(word)print(word)________________print("字母c開頭的單詞個數:",n)(1)劃線處的代碼為(2)該程序段運行后,列表word_c中的數據為4. 文本數據處理的主要步驟包括:① 結果呈現②特征提取③分詞④數據分析⑤文本數據獲取正確的順序是( )A.⑤②④①B.⑤③①④C.⑤③②④①D.⑤①③②④5. 分析某種水果的用戶評論內容,創建的標簽云如圖4-19所示。其中用作文本的特征項的是( )A. 字 B. 詞 C. 句子 D. 段 落6. 下列數據分析中可能涉及文本情感分析的是( )A. 用戶評論內容分析 B. 用戶年齡分布分析C. 評論發布設備分析 D. 用戶男女比例分析7. 某同學使用Python編程分析《西游記》中詞語的出現頻率,部分代碼如下。(1)請在劃線處填入合適代碼,完善程序。import jieba #導入jieba模塊import pandas as pdimport matplotlib.pyplot as pltplt.rcParams["font.sans-serif']=["SimHei"] #圖表中文標簽顯示為黑體text = open("xyj.txt", encoding="utf-8").read() #打開文本文件cutwords =jieba.Icut(text, cut all=False) #分詞stopwords=["一個","兩個","不知","不是","我們"]counts={} #創建字典,存放詞語及其出現次數for word in cutwords:if len(word)!=1 and word not in stopwords:if word in counts:①else:counts[word]=1df=pd.DataFrame([counts]).Tdf=df.reset_index() #重置df對象行索引df.columns =["詞","次數"]df=df.sort_values("次數",ascending=False) #對df按“次數”降序排序dfl= ② #df1對象存儲df中的前20行plt.figure(figsize=(8,4))plt.bar(dfl["詞"],dfl["次數"])plt.title("《西游記》中高頻詞")③ #顯示圖表print(df.head(10))程序中劃線①處應填寫的代碼為程序中劃線②處應填寫的代碼為程序中劃線③處應填寫的代碼為8. 使用百度搜索關鍵詞“春節”,將采集到的結果數據存儲為chj.txt文件,如圖4-22所示。處理chj.txt文件中的數據后生成chjfc.txt文件,如圖4-23所示。請回答下列問題:(1)文件chj.txt中的數據為_______________________________(選填:結構化數據/非結構化數據)。(2)處理文件chj.txt中的數據生成chjfc.txt文件的過程,一般稱為 。(3)編寫如下Python程序,讀取chjfc.txt文件中的數據,并統計其中各詞語(2個及以上文字構成)出現的次數。在劃線處填寫合適代碼,完善程序。txt =open("chjfc.txt","r",encoding="utf-8").read()words=txt.split()word counts={}for word in words:if len(word)==1:continueelse:① #可以為1行或多行代碼#使用word_counts計算詞語word 在words中出現的次數word_list=list(word_counts.items()) #返回所有鍵值對信息,生成列表word list.sort(key=lambda x:x[1],reverse=True) #按詞語出現次數降序排序for i in range(20):word, times= ②print(word,times)程序中劃線①處應填寫的代碼是_______________________________程序中劃線②處應填寫的代碼是_______________________________(4)去除步驟(3)程序的統計結果中的非特征詞(如代詞、介詞、連詞等)后,制作的標簽云如圖4-24所示標簽云中最能表現文件chj.txt中文本特征的詞有___________________________________________ (寫出3~5個)。 展開更多...... 收起↑ 資源預覽 縮略圖、資源來源于二一教育資源庫