資源簡介 (共19張PPT)情境導入:本單元項目式 主題:校園科技節為了使制作出的網頁更加吸引人,我們決定多找一些我國科技領域重大創新成果的相關圖片或文本來豐富網頁。但是網絡上相關信息太多,如何快速獲取這些信息呢 《1.3使用網頁爬蟲爬取網頁數據》2023年電子工業出版社 七年級下冊-第1單元 解密互聯網中的信息編碼 -珠珠老師信息科技 課件2022新版課標內容1活動1:認識網絡爬蟲2活動2:編程實現網絡爬蟲《目錄》信息科技3活動3:熟悉網絡爬蟲的“君子協議”01認識網絡爬蟲活動101.知識點講解一般情況下,我們是通過在網頁上搜索、復制、粘貼來獲取需要的數據,但是如果需要獲取的數據量特別大,這種方式就顯得費時費力。我們可以通過編制網絡爬蟲程序(以下簡稱為網絡爬蟲) 來實現對數據的自動化采集。活動1:認識網絡爬蟲01什么是網絡爬蟲01.知識點講解網絡爬蟲就是模擬我們瀏覽網頁的行為,再將站點返回的HTML代碼放到本地,保存并使用。01網絡爬蟲小總結活動1:認識網絡爬蟲原則上只要瀏覽器能做的事情,爬蟲都能做!02編程實現網絡爬蟲活動201.知識點講解使用Python語言可以方便地編寫網絡爬蟲的程序,獲取網頁中的信息。活動2:編程實現網絡爬蟲02接下來教師演示使用python語言編寫獲取網頁信息的網絡爬蟲程序。01.知識點講解活動2:編程實現網絡爬蟲02(5)輸出爬蟲“爬”到的內容:(1)啟動mPython,單擊mPython窗口左上角的“硬件編程”,打開下拉列表,選擇“Python”,進入Python代碼編程界面,按以下步驟編寫程序。(2)使用requests模塊和lxml模塊加載網絡爬蟲程序:(3)用requests模塊的get)方法獲取爬蟲需要“爬”的網頁地址,將網頁文本保存在變量txt中,再將網頁文本解析為HTML文檔:(4)使用HTML的xpath()方法定位爬蟲的位置,并將“爬”到的內容保存在列表變量title中:(6)運行程序,在mPython窗口右側可以看到程序的運行結果。01.知識點講解上述程序中用到了Python語言的兩個擴展模塊,下面介紹安裝擴展模塊的方法。在mPython的Python編程界面中單擊上方的“添加庫”,再單擊“PIP安裝”,打開一個對話框,在對話框中輸入擴展庫名稱“requests”,如下圖所示。單擊“安裝”按鈕,若出現“Successfully installed”,就表示requests模塊安裝好了,然后可以按同樣的方法安裝Ixml模塊。02知識拓展活動2:編程實現網絡爬蟲加載網絡爬蟲程序需要的模塊01.知識點講解XPath(XML Path Language)是一種小型查詢語言,用于在XML(可擴展標記語言)文檔中查找信息。可以采用以下方法獲取網頁中指定位置的XPath地址:(1)使用瀏覽器打開網頁,按F12鍵進入開發者模式,查看網頁源代碼;(2)單擊“選取頁面中的元素”按鈕,選中要抓取的網頁內容,對應的,開發者窗格中會有一段高亮顯示的代碼;(3)將鼠標指針指向高亮代碼部分,并在其上面右擊;(4)打開快捷菜單,執行“復制”→“復制XPath”命令,如下圖所示,就可以把選中內容對應的XPath地址復制到操作系統的剪貼板上。02活動2:編程實現網絡爬蟲獲取網頁中指定位置的XPath路徑地址01.知識點講解02活動2:編程實現網絡爬蟲獲取網頁中指定位置的XPath路徑地址需要注意的是,雖然用網絡爬蟲獲取網站內容的方法有很多,但使用網絡爬蟲并不能獲取所有希望獲取的網站內容,如封裝過的網頁或動態網頁,以及做了屏蔽網絡爬蟲設置的網站等,都無法獲取。03熟悉網絡爬蟲的“君子協議”活動3在使用網絡爬蟲爬取網絡信息時,可以隨便爬取嗎 爬取到的信息都可以隨便使用嗎 結合使用網絡爬蟲的體驗,嘗試制訂合理的網絡爬蟲協議,并寫在導學案中。討論與交流01.知識點講解03活動3:熟悉網絡爬蟲的“君子協議”01.知識點講解為了規范網絡爬蟲的使用,一些搜索引擎從業者和網站站長定下了“君子協議”——Robots協議(爬蟲協議、機器人協議),其全稱是網絡爬蟲排除標準。協議規定:網站管理員在網站域名的根目錄下存放一個Robots.txt文本文件,文件里指定該網站的哪些內容可以爬取,哪些內容不可以爬取。使用網絡爬蟲程序采集網站信息前,要先閱讀該網站的這個文件,根據文件的規則來采集網站的數據。我們在使用網絡爬蟲爬取網頁數據時,要嚴格遵守網站的Robots協議,在爬取要使用的信息前,應先進行審查,如發現用戶的個人信息或商業秘密,應及時停止爬取并刪除已爬取的信息。03助力知識:君子協議活動3:熟悉網絡爬蟲的“君子協議”1.使用Python編程爬取我國科技領域的重大創新成果,選取你認為合適的內容,并進行適當編輯,放入“科技創新自主可控”的網頁中。2.結合制作網頁、爬取網頁信息的過程,歸納總結自己對網頁信息編碼和解碼的認識,并寫在導學案上。項目實施01.知識點講解03活動3:熟悉網絡爬蟲的“君子協議”鞏固練習1.如果把互聯網比喻成一張龐大的蜘蛛網,______便存放于蜘蛛網中的各個節點上。2.網絡爬蟲也叫_____________,是一種按照一定的規則,自動抓取網頁數據的網絡機器人:3.我們可以把爬蟲技術歸納為請求、___________和存儲三個基本流程。4.Robots協議的全稱是_____________。5.舉例說明網絡爬蟲在日常生活中的應用。6.查閱相關資料,進一步了解網絡爬蟲爬取網頁的過程。01.知識點講解課堂總結活動1:認識網絡爬蟲知道網絡爬蟲是什么,有什么作用活動2:編程實現網絡爬蟲能用編程爬取自己想要的內容12goodbye活動3:熟悉網絡爬蟲的“君子協議”知道網絡爬蟲的道德規范3《感謝觀看》- Thank for Viewing -珠珠老師2023年電子工業出版社 七年級下冊《1.3使用網頁爬蟲爬取網頁數據》教學設計教學內容分析本節課是2022年電子工業出版社出版的七年級下冊第一單元第3課。本節課分為三個活動:“認識網絡爬蟲”“編程實現網絡爬蟲”“熟悉網絡爬蟲的君子協議”三部分內容組成。學生通過小組合作探究學習逐步掌握本節課的知識點,具備一定的小組合作能力、探究能力、創新能力等,提升信息社會責任,綜合提升信息素養。教學目標及核心素養指向1、認識網絡爬蟲,了解網絡爬蟲的概念與工作過程;(信息意識、計算思維) 2、能用mpython編程實現網絡爬蟲;(信息意識、計算思維、數字化學習與創新) 3、了解網絡爬蟲“君子協議”的概念,掌握網絡爬蟲的“君子協議”規定和注意事項。(信息意識、計算思維、數字化學習與創新、信息社會責任)教學重難點教學重點: 1、認識網絡爬蟲,了解網絡爬蟲的概念與工作過程 設計原因:了解網絡爬蟲的原理是本節課的主要內容,知識點的滲透需要作為重點內容。 教學難點: 1、能用mpython編程實現網絡爬蟲,了解網絡爬蟲“君子協議”的概念,掌握網絡爬蟲的“君子協議”規定和注意事項。 設計原因:在知道網絡爬蟲的基礎上進行操作對學生來說比較困難,所以此部分對學生來說難度較高,應作為難點內容。教學過程1、情境導入(3分鐘)教師活動 學生活動情境引入:為了使制作出的網頁更加吸引人,我們決定多找一些我國科技領域重大創新成果的相關圖片或文本來豐富網頁。但是網絡上相關信息太多,如何快速獲取這些信息呢 學生聽教師引導生活中的案例,學生討論,回答提問設計意圖: 激發學生對網絡爬蟲的學習興趣并快速進入學習狀態。2、新知講授(35分鐘)教師活動 學生活動活動1:認識網絡爬蟲 播放微視頻:什么是網絡爬蟲 一般情況下,我們是通過在網頁上搜索、復制、粘貼來獲取需要的數據,但是如果需要獲取的數據量特別大,這種方式就顯得費時費力。我們可以通過編制網絡爬蟲程序(以下簡稱為網絡爬蟲) 來實現對數據的自動化采集。 網絡爬蟲注意事項:網絡爬蟲就是模擬我們瀏覽網頁的行為,再將站點返回的HTML代碼放到本地,保存并使用。 原則上只要瀏覽器能做的事情,爬蟲都能做! 活動2:編程實現網絡爬蟲 使用Python語言可以方便地編寫網絡爬蟲的程序,獲取網頁中的信息。 加載網絡爬蟲程序需要的模塊 上述程序中用到了Python語言的兩個擴展模塊,下面介紹安裝擴展模塊的方法。 在mPython的Python編程界面中單擊上方的“添加庫”,再單擊“PIP安裝”,打開一個對話框,在對話框中輸入擴展庫名稱“requests”,如下圖所示。單擊“安裝”按鈕,若出現“Successfully installed”,就表示requests模塊安裝好了,然后可以按同樣的方法安裝Ixml模塊。 獲取網頁中指定位置的XPath路徑地址 XPath(XML Path Language)是一種小型查詢語言,用于在XML(可擴展標記語言)文檔中查找信息。 可以采用以下方法獲取網頁中指定位置的XPath地址: (1)使用瀏覽器打開網頁,按F12鍵進入開發者模式,查看網頁源代碼; (2)單擊“選取頁面中的元素”按鈕,選中要抓取的網頁內容,對應的,開發者窗格中會有一段高亮顯示的代碼; (3)將鼠標指針指向高亮代碼部分,并在其上面右擊; (4)打開快捷菜單,執行“復制”→“復制XPath”命令,如下圖所示,就可以把選中內容對應的XPath地址復制到操作系統的剪貼板上。 活動3:熟悉網絡爬蟲的君子協議 新知講授 為了規范網絡爬蟲的使用,一些搜索引擎從業者和網站站長定下了“君子協議”——Robots協議(爬蟲協議、機器人協議),其全稱是網絡爬蟲排除標準。 協議規定:網站管理員在網站域名的根目錄下存放一個Robots.txt文本文件,文件里指定該網站的哪些內容可以爬取,哪些內容不可以爬取。使用網絡爬蟲程序采集網站信息前,要先閱讀該網站的這個文件,根據文件的規則來采集網站的數據。 我們在使用網絡爬蟲爬取網頁數據時,要嚴格遵守網站的Robots協議,在爬取要使用的信息前,應先進行審查,如發現用戶的個人信息或商業秘密,應及時停止爬取并刪除已爬取的信息。 學生通過教師的講解,以小組合作的方式,開展探討交流,完成任務 活動1:認識網絡爬蟲 學生聽講 活動2:編程實現網絡爬蟲 學生聽講 活動3:熟悉網絡爬蟲的君子協議 小組合作交流 在使用網絡爬蟲爬取網絡信息時,可以隨便爬取嗎 爬取到的信息都可以隨便使用嗎 結合使用網絡爬蟲的體驗,嘗試制訂合理的網絡爬蟲協議,并寫在導學案中。 小組合作 項目實施 1.使用Python編程爬取我國科技領域的重大創新成果,選取你認為合適的內容,并進行適當編輯,放入“科技創新自主可控”的網頁中。 2.結合制作網頁、爬取網頁信息的過程,歸納總結自己對網頁信息編碼和解碼的認識,并寫在導學案上。設計意圖: 培養學生獨立思考的能力,提高核心素養。3、課堂小結(7分鐘)教師活動 學生活動總結本課內容: 活動1:認識網絡爬蟲 活動2:編程實現網絡爬蟲 活動3:熟悉網絡爬蟲的君子協議 學生一同回答并梳理知識設計意圖: 幫助學生梳理本節課知識,加深學生對知識的理解。(共1張PPT)1活動1:認識網絡爬蟲網絡爬蟲:________________________________________________________班級:7年__班組別:______小組合作體驗探究:用mPython編程實現網絡爬蟲學習單2活動2:編程實現網絡爬蟲3活動3:熟悉網絡爬蟲的“君子協議”網絡爬蟲協議:___________________________________________________________________小組合作:項目實施1.使用Python編程爬取我國科技領域的重大創新成果,選取你認為合適的內容,并進行適當編輯,放入“科技創新自主可控”的網頁中。2.我認為的網頁信息編碼和解碼是:_________________________________________(1)啟動mPython.單擊mPython窗口左上角的“硬件編程".打開下拉列表,選擇“Python",進入Python代碼編程界面,按以下步驟編寫程序。(2)使用requests模塊和lxml模塊加載陽絡爬蟲程序:import requests#加載requests模塊from lxml import etree#加載lxml模塊(3)用requests模塊的get)方法獲取爬蟲需要“爬"的網頁地址.將陽頁文本保存在變量十x十中再將網頁文本解析為HTML文檔:txt requests.get('https://news./tech').content.decode('utf-8')HTML =etree.HTML(txt)(4)使用HTML的xpoh()方法定位爬蟲的位置,并將“爬"到的內容保存在列表變量it|e中:title =HTML.xpath('//*[@id="internet_news"]/ul/li/a/text()')(5)輸出爬蟲“爬"到的內容:for i in title:#循環輸出所有爬蟲“爬"到的新聞標題print(i)print(i)(6)運行程序,在mPython窗口右側可以看到程序的運行結果。班級:___________ 姓名:______________《1.3使用網頁爬蟲爬取網頁數據》作業設計作業分析作業類型 基礎型作業 探究型作業 實踐型作業 跨學科綜合作業作業類別 課時作業 單元作業 學期作業應用場景 課前預習 課中練習 課后作業作業對象 全體學生作業 學生根據情況可選作業設計思路 通過比較、綜合、拓展,鞏固本節課知識點,舉一反三,讓學生自主探究,掌握新知,溝通交流,提升協作能力。作業內容【難度等級:★】1.如果把互聯網比喻成一張慮大的蜘蛛網,____________便存放于軸蛛網中的各個節點上。 【難度等級:★★】2.網絡爬蟲也叫___________,是一種按照一定的規則,自動抓取網頁數據的網絡機署人。 【難度等級:★★★】3.我們可以把爬蟲技術歸的為請求、___________和存儲三個基本流程。 【難度等級:★★】4.Robots協議的全稱是____________________________. 【難度等級:★★★】5.下列有關網絡腐蟲的說法中,正確的是( )。 A.只要是網絡上的信息,都可以通過網絡爬蟲獲取 B.網絡爬蟲程序只能使用Python語言編寫 C.使用lxml模塊編寫Python網絡爬蟲程序,可以不加載requess模塊 D.XPath地址可以在瀏覽器的開發者模式中通過復制得到 【難度等級:★★】6.舉例說明網絡爬蟲在日常生活中的應用。 【難度等級:★★★】7.查閱相關資料,進一步了解網絡爬蟲院取網頁的過程。 展開更多...... 收起↑ 資源列表 1.3使用網頁爬蟲爬取網頁數據 作業設計.docx 1.3使用網頁爬蟲爬取網頁數據 學習單.pptx 1.3使用網頁爬蟲爬取網頁數據 教學設計.docx 1.3使用網頁爬蟲爬取網頁數據 教學課件.pptx 網絡爬蟲到底是什么,學這個真的是“從入門到入獄”嗎.mp4 縮略圖、資源來源于二一教育資源庫