中文字幕精品无码一区二区,成全视频在线播放观看方法,大伊人青草狠狠久久,亚洲一区影音先锋色资源

5.2 數(shù)據(jù)的采集 學(xué)案

資源下載
  1. 二一教育資源

5.2 數(shù)據(jù)的采集 學(xué)案

資源簡(jiǎn)介

第二十三講?數(shù)據(jù)的采集
學(xué)習(xí)目標(biāo)
1.了解數(shù)據(jù)采集的基本方法;
2.理解對(duì)數(shù)據(jù)進(jìn)行保護(hù)的意義。
學(xué)習(xí)內(nèi)容
數(shù)據(jù)的來源廣泛(主要是互聯(lián)網(wǎng)和物聯(lián)網(wǎng))、類型豐富、規(guī)模巨大。采集數(shù)據(jù)首先要明確數(shù)據(jù)應(yīng)用項(xiàng)目的需求,圍繞選定的項(xiàng)目主題,制訂數(shù)據(jù)采集的需求清單和內(nèi)容大綱,再采用適當(dāng)?shù)姆椒ê凸ぞ哌M(jìn)行采集。
數(shù)據(jù)采集的方法和工具
數(shù)據(jù)采集的基本方法包括系統(tǒng)日志采集法、網(wǎng)絡(luò)數(shù)據(jù)采集法和其他數(shù)據(jù)采集法。
1.系統(tǒng)日志采集法
在信息系統(tǒng)中,系統(tǒng)日志是記錄系統(tǒng)中硬件、軟件和系統(tǒng)問題的信息文件。系統(tǒng)日志包括操作系統(tǒng)日志、應(yīng)用程序日志和安全日志。系統(tǒng)日志采集數(shù)據(jù)的方法通常是在目標(biāo)主機(jī)上安裝一個(gè)小程序,將目標(biāo)主機(jī)的文本、應(yīng)用程序、數(shù)據(jù)庫(kù)等日志信息有選擇地定向推送到日志服務(wù)器進(jìn)行存儲(chǔ)、監(jiān)控和管理。
通過日志服務(wù)器可以監(jiān)視系統(tǒng)中發(fā)生的事件,可以檢查錯(cuò)誤發(fā)生的原因,或者尋找受到攻擊時(shí)攻擊者留下的痕跡。例如,安全管理信息系統(tǒng)就是以系統(tǒng)日志服務(wù)器采集原始日志數(shù)據(jù),以日志記錄文本文件實(shí)現(xiàn)日志數(shù)據(jù)的監(jiān)控和保存,以數(shù)據(jù)庫(kù)操作進(jìn)行日志有效信息的管理工作。
2.網(wǎng)絡(luò)數(shù)據(jù)采集法
網(wǎng)絡(luò)數(shù)據(jù)采集是指通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API( Application Programming Interface,應(yīng)用程序接口)等方式從網(wǎng)站上獲取數(shù)據(jù)信息。網(wǎng)絡(luò)爬蟲從一個(gè)或若干初始網(wǎng)頁(yè)的URL( Uniform Resource Locator,統(tǒng)一資源定位符)開始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過程中,不斷從URL當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。該方法可以將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁(yè)中抽取出來,將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,并以結(jié)構(gòu)化的方式存儲(chǔ)。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動(dòng)關(guān)聯(lián)。
3.其他數(shù)據(jù)采集法
對(duì)于企業(yè)生產(chǎn)經(jīng)營(yíng)或科學(xué)研究等保密性要求較高的數(shù)據(jù),可通過與企業(yè)或研究機(jī)構(gòu)合作,使用特定系統(tǒng)接口等相關(guān)方式收集數(shù)據(jù)。例如,科學(xué)研究的數(shù)據(jù)是通過科學(xué)實(shí)驗(yàn)的各種傳感器采集,并傳輸?shù)綌?shù)據(jù)庫(kù)管理系統(tǒng)中的。
數(shù)據(jù)的存儲(chǔ)和保護(hù))
1.數(shù)據(jù)的存儲(chǔ)
存儲(chǔ)數(shù)據(jù)主要有兩種方式,一種是把數(shù)據(jù)存在本地內(nèi)部,另一種是把數(shù)據(jù)放在第三方公共或私有的“云端”存儲(chǔ)。
云存儲(chǔ)已經(jīng)成為存儲(chǔ)發(fā)展的一種趨勢(shì),其技術(shù)也日益成熟。云存儲(chǔ)是把各類數(shù)據(jù)存儲(chǔ)在虛擬的邏輯模型里,其物理空間存儲(chǔ)在跨越多個(gè)地域放置的眾多服務(wù)器中,為用戶提供統(tǒng)一、靈活、安全的“云存儲(chǔ)服務(wù)”。云存儲(chǔ)供應(yīng)商擁有并管理這些服務(wù)器,負(fù)責(zé)管理數(shù)據(jù)的使用和訪問權(quán)限,以及云存儲(chǔ)環(huán)境的日常運(yùn)營(yíng)和維護(hù)。對(duì)于用戶而言,無須關(guān)注云存儲(chǔ)系統(tǒng)的具體運(yùn)行,僅需獲取存儲(chǔ)空間,把自己的數(shù)據(jù)存儲(chǔ)進(jìn)去。
數(shù)據(jù)的存儲(chǔ)采用分布式文件存儲(chǔ)或 NoSQL數(shù)據(jù)庫(kù)存儲(chǔ)。分布式文件存儲(chǔ)的特點(diǎn)之一是為了解決復(fù)雜問題而將大任務(wù)分解為多項(xiàng)小任務(wù),通過讓多個(gè)處理器或多個(gè)計(jì)算機(jī)節(jié)點(diǎn)并行計(jì)算來提高解決問題的效率。分布式文件存儲(chǔ)系統(tǒng)能夠支持多臺(tái)主機(jī)通過網(wǎng)絡(luò)同時(shí)訪問共享文件和存儲(chǔ)目錄,大部分采用了關(guān)系數(shù)據(jù)模型并且支持SQL語(yǔ)句查詢。
2.數(shù)據(jù)的保護(hù)
如今,無論是政府部門、企業(yè)還是個(gè)人,對(duì)數(shù)據(jù)的依賴性已越來越強(qiáng)。然而,數(shù)據(jù)安全的隱患無處不在,一旦數(shù)據(jù)泄密或丟失,造成的損失和影響將是巨大的。因此,對(duì)數(shù)據(jù)安全的保護(hù)非常重要。研究表明,如果在發(fā)生數(shù)據(jù)災(zāi)難后的兩個(gè)星期內(nèi)無法恢復(fù)公司的業(yè)務(wù)系統(tǒng),75%的公司業(yè)務(wù)將會(huì)完全停頓,43%的公司將再也無法開業(yè)。在信息化社會(huì),對(duì)數(shù)據(jù)的保護(hù)刻不容緩。
(1)數(shù)據(jù)安全保護(hù)技術(shù)。數(shù)據(jù)安全保護(hù)指數(shù)據(jù)不被破壞、更改、泄露或丟失。安裝殺毒軟件和防火墻只能防備數(shù)據(jù)安全隱患,而采用拷貝、備份、復(fù)制、鏡像、持續(xù)備份等技術(shù)進(jìn)行數(shù)據(jù)保護(hù)才是更為徹底、有效的方法。一般的數(shù)據(jù)安全保護(hù)技術(shù)的使用特點(diǎn)如下表所示。
為了防止他人對(duì)機(jī)密的數(shù)據(jù)、數(shù)據(jù)庫(kù)進(jìn)行非法訪問、刪除、修改、拷貝等操作,可以采用對(duì)數(shù)據(jù)進(jìn)行加密等方法,保護(hù)數(shù)據(jù)在存儲(chǔ)和傳遞過程中不被修改或泄露。選擇何種加密算法、需要多高的安全級(jí)別、各算法之間如何協(xié)作等,都是進(jìn)行數(shù)據(jù)加密要考慮的因素。加密技術(shù)通常分為對(duì)稱式加密和非對(duì)稱式加密兩大類。對(duì)稱式加密指加密和解密用的是同一個(gè)密鑰。非對(duì)稱式加密指加密和解密用的是兩個(gè)不同的密鑰,必須配對(duì)使用,否則不能打開加密數(shù)據(jù)。
(2)數(shù)據(jù)的隱私保護(hù)。任何事物都有兩面性,數(shù)據(jù)正在變成生活的第三只眼,敏銳地洞察卻也正監(jiān)控著我們的生活。我們上網(wǎng)瀏覽、出行、_è?????_等數(shù)據(jù),統(tǒng)統(tǒng)都被記錄了,人人都成了數(shù)據(jù)的產(chǎn)生者和貢獻(xiàn)者。數(shù)據(jù)帶來的整體性變革,也使得數(shù)據(jù)的隱私保護(hù)的形勢(shì)顯得越發(fā)嚴(yán)峻。)
隱私泄露的問題不是大數(shù)據(jù)時(shí)代特有的,在沒有大數(shù)據(jù)的時(shí)候,我們就已經(jīng)有很多隱私泄露的問題。可是到了大數(shù)據(jù)時(shí)代,數(shù)據(jù)發(fā)布多了,信息范圍擴(kuò)大了,信息傳播和共享速度加快了,若不加以控制,其所含的商業(yè)信息或私密信息就可能泄露(下圖)。解決辦法有三個(gè):一是技術(shù)手段,常用的隱私保護(hù)有:①數(shù)據(jù)收集時(shí)進(jìn)行數(shù)據(jù)精度處理;②數(shù)據(jù)共享時(shí)進(jìn)行訪問控制:③數(shù)據(jù)發(fā)布時(shí)進(jìn)行人工加擾;④數(shù)據(jù)分析時(shí)進(jìn)行數(shù)據(jù)匿名處理等。二是提高自身的保護(hù)意識(shí)。三是要對(duì)數(shù)據(jù)使用者進(jìn)行道德和法律上的約束。
數(shù)據(jù)作為一種資產(chǎn),用在什么地方、掌握在誰手里都是次要的,關(guān)鍵是看怎樣利用這個(gè)工具。在安全的前提下,實(shí)現(xiàn)數(shù)據(jù)共享,才能真正創(chuàng)造數(shù)據(jù)價(jià)值,發(fā)揮數(shù)據(jù)真正的作用。)

展開更多......

收起↑

資源預(yù)覽

<pre id="tfb94"><li id="tfb94"></li></pre>

<bdo id="tfb94"><rt id="tfb94"></rt></bdo>
  • <menu id="tfb94"><dl id="tfb94"></dl></menu><i id="tfb94"><acronym id="tfb94"><sub id="tfb94"></sub></acronym></i>

    1. 主站蜘蛛池模板: 达孜县| 清苑县| 礼泉县| 六枝特区| 济源市| 铁岭市| 平乡县| 凌源市| 独山县| 临沭县| 凌海市| 彩票| 杂多县| 耒阳市| 平凉市| 宣威市| 浑源县| 长宁区| 黔东| 五河县| 三穗县| 阳曲县| 哈尔滨市| 巨野县| 莱芜市| 慈溪市| 安新县| 静宁县| 湘阴县| 乌审旗| 湟源县| 吉林省| 黄大仙区| 晋江市| 开江县| 游戏| 安新县| 柳河县| 准格尔旗| 云霄县| 健康|