二、數(shù)據(jù)采集方式有哪些?數(shù)據(jù)感知可分為“硬感知”和“軟感知”,面向不同場景,即數(shù)據(jù)采集技術(shù)可以分為這兩個(gè)方面的技術(shù)?!坝哺兄敝饕迷O(shè)備或裝置進(jìn)行數(shù)據(jù)的收集,收集對象為物理世界中的物理實(shí)體,或者是以物理實(shí)體為載體的信息、事件、流程等。而“軟感知”使用軟件或者各種技術(shù)進(jìn)行數(shù)據(jù)收集,收集的對象存在于數(shù)字世界,通常不依賴物理設(shè)備進(jìn)行收集?;谖锢硎澜绲摹坝哺兄蹦芰?shù)據(jù)采集方式主要經(jīng)歷了人工采集和自動采集兩個(gè)階段。自動采集技術(shù)仍在發(fā)展中,不同的應(yīng)用領(lǐng)域所使用的具體技術(shù)手段也不同?;谖锢硎澜绲摹坝哺兄币揽康木褪菙?shù)據(jù)采集,是將物理對象鏡像到數(shù)字世界中的主要通道,是構(gòu)建數(shù)據(jù)感知的關(guān)鍵,是實(shí)現(xiàn)人工智能的基礎(chǔ)?;诋?dāng)前的技術(shù)水平和應(yīng)用場景,我們將“硬感知”分為9類,每一類感知方式都有自身的特點(diǎn)和應(yīng)用場景。通過數(shù)據(jù)采集,企業(yè)可以實(shí)現(xiàn)數(shù)據(jù)驅(qū)動的決策,提高管理決策的準(zhǔn)確性和效率。數(shù)控?cái)?shù)據(jù)采集
數(shù)據(jù)采集是數(shù)據(jù)應(yīng)用的源頭,指導(dǎo)企業(yè)在產(chǎn)品、運(yùn)營和業(yè)務(wù)等多方面決策。本文作者王灼洲從數(shù)據(jù)采集需求出發(fā),詳細(xì)解讀了如何實(shí)現(xiàn)高效、可用的數(shù)據(jù)采集方案。主要內(nèi)容如下:數(shù)據(jù)采集的定義和重要性業(yè)內(nèi)常見的數(shù)據(jù)采集方案數(shù)據(jù)采集的原則數(shù)據(jù)采集案例分析一、數(shù)據(jù)采集的定義和重要性所謂數(shù)據(jù)采集,即為了滿足數(shù)據(jù)統(tǒng)計(jì)、分析和挖掘的需要,搜集和獲取各種數(shù)據(jù)的過程。通常情況下,數(shù)據(jù)采集指的是采集企業(yè)內(nèi)部的數(shù)據(jù)。在當(dāng)前互聯(lián)網(wǎng)領(lǐng)域,隨著流量紅利的衰退,越來越多的企業(yè)通過精細(xì)化運(yùn)營,深度挖掘每一位用戶的價(jià)值。當(dāng)下流行的數(shù)據(jù)驅(qū)動、精細(xì)化運(yùn)營等方法論和實(shí)踐方式,也變得越來越重要,并且被越來越多的企業(yè)所接受和采納。而數(shù)據(jù)驅(qū)動、精細(xì)化運(yùn)營都要基于數(shù)據(jù)來做各種決策。數(shù)據(jù)采集,正是它們的基礎(chǔ)和前提條件。數(shù)據(jù)采集,本質(zhì)上是為了數(shù)據(jù)應(yīng)用。如果我們沒有任何數(shù)據(jù)上的應(yīng)用需求,投入再大的精力,去做好數(shù)據(jù)采集其實(shí)也是沒有任何意義的。而數(shù)據(jù)應(yīng)用,其實(shí)是一個(gè)比較大的范疇,包含**簡單的統(tǒng)計(jì)報(bào)表,復(fù)雜的交互式在線分析,當(dāng)下非常熱門的個(gè)性化推薦等。不管哪一類數(shù)據(jù)應(yīng)用,都可以在大體上分成五個(gè)環(huán)節(jié),如下圖:在進(jìn)行數(shù)據(jù)應(yīng)用的時(shí)候,我們首先要通過各種方式采集數(shù)據(jù)?;窗捕ㄗ鰯?shù)據(jù)采集售價(jià)OCR圖像識別,可應(yīng)用于攝像頭、機(jī)器視覺等。
集成了影像、聲音、文本等多種信息。視頻的獲取方式包括網(wǎng)絡(luò)下載、從VCD或DVD中捕獲、從錄像帶中采集、利用攝像機(jī)拍攝等,以及購買視頻素材、屏幕錄制等。(8)傳感器數(shù)據(jù)采集傳感器是一種檢測裝置,能感受到被檢測的信息,并能將檢測到的信息按一定規(guī)律變換成信號或其他所需形式的信息輸出,以滿足信息的采集、傳輸、處理、存儲、顯示、記錄等要求。信號類型包括IEPE信號、電流信號、電壓信號、脈沖信號、I/O信號、電阻變化信號等。傳感器數(shù)據(jù)的主要特點(diǎn)是多源、實(shí)時(shí)、時(shí)序化、海量、高噪聲、異構(gòu)、價(jià)值密度低等,數(shù)據(jù)通信和處理難度都較大。(9)工業(yè)設(shè)備數(shù)據(jù)采集工業(yè)設(shè)備數(shù)據(jù)是對工業(yè)機(jī)器設(shè)備產(chǎn)生數(shù)據(jù)的統(tǒng)稱。在機(jī)器中有很多特定功能的元器件(閥門、開關(guān)、壓力計(jì)、攝像頭等),這些元器件接受工業(yè)設(shè)備和系統(tǒng)的命令開、關(guān)或上報(bào)數(shù)據(jù)。工業(yè)設(shè)備和系統(tǒng)能夠采集、存儲、加工、傳輸數(shù)據(jù)。工業(yè)設(shè)備目前應(yīng)用在很多行業(yè),有聯(lián)網(wǎng)設(shè)備,也有未聯(lián)網(wǎng)設(shè)備。工業(yè)設(shè)備數(shù)據(jù)采集應(yīng)用***,例如可編程邏輯控制器(PLC)現(xiàn)場監(jiān)控、數(shù)控設(shè)備故障診斷與檢測、**設(shè)備等大型工控設(shè)備的遠(yuǎn)程監(jiān)控等。2、基于數(shù)字世界的“軟感知”能力物理世界的“硬感知”是將物理對象構(gòu)建到數(shù)字世界中的主要通道。
所做的事甚至都很難讓IT條線的產(chǎn)品、項(xiàng)目、開發(fā)明白系統(tǒng)架構(gòu)越來越復(fù)雜、迭代頻率越來越高、外部環(huán)境越來越嚴(yán)峻等需要持續(xù)性的運(yùn)維投入,更不要說讓IT條線以外的部門理解你在做的事,在運(yùn)維的資源投入通常是不夠的。所以,運(yùn)維數(shù)據(jù)體系建設(shè)要強(qiáng)調(diào)投入產(chǎn)出比,在有限的資源投入下,收獲更多的數(shù)據(jù)價(jià)值。二、數(shù)據(jù)標(biāo)準(zhǔn)化比例低。運(yùn)維數(shù)據(jù)主要包括監(jiān)控、日志、性能、配置、流程、應(yīng)用運(yùn)行數(shù)據(jù)。除了統(tǒng)一監(jiān)控報(bào)警、配置、機(jī)器日志、ITIL里的幾大流程的數(shù)據(jù)格式有相關(guān)標(biāo)準(zhǔn),其他數(shù)據(jù)存在格式眾多、非結(jié)構(gòu)化、實(shí)時(shí)性要求高、海量數(shù)據(jù)、采集方式復(fù)雜等特點(diǎn),可以說運(yùn)維源數(shù)據(jù)天生就是非標(biāo)準(zhǔn)的,要在“資源投入不夠”的背景下,采用業(yè)務(wù)大數(shù)據(jù)的運(yùn)作模式比較困難。三、缺乏成熟的方法。雖然行業(yè)也提出了ITOA、DataOps、AIOps等運(yùn)維數(shù)據(jù)分析應(yīng)用的思路,但是缺少一些成熟、***的數(shù)據(jù)建模、分析、應(yīng)用的方法,主流的運(yùn)維數(shù)據(jù)方案目前主要圍繞監(jiān)控和應(yīng)急領(lǐng)域探索。四、缺乏人才。如“資源投入不夠”這點(diǎn)提到的背景,因?yàn)橥度氩蛔悖茈y吸引到足夠的人才投入到運(yùn)維數(shù)據(jù)分析領(lǐng)域。通俗一點(diǎn)來說,就是運(yùn)維數(shù)據(jù)分析要借鑒當(dāng)前傳統(tǒng)大數(shù)據(jù)領(lǐng)域數(shù)據(jù)治理的經(jīng)驗(yàn),提高投入產(chǎn)出比,少走彎路。目標(biāo)數(shù)據(jù),數(shù)據(jù)來源,數(shù)據(jù)類型,數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)質(zhì)量,數(shù)據(jù)處理方式,數(shù)據(jù)更新周期。
可視化埋點(diǎn)通過可視化頁面設(shè)定埋點(diǎn)區(qū)域和事件ID,從而在用戶操作時(shí)記錄操作行為。全埋點(diǎn)是在SDK部署時(shí)做統(tǒng)一的埋點(diǎn),將App或應(yīng)用程序的操作盡量多地采集下來。無論業(yè)務(wù)人員是否需要埋點(diǎn)數(shù)據(jù),全埋點(diǎn)都會將該處的用戶行為數(shù)據(jù)和對應(yīng)產(chǎn)生的信息全采集下來。(2)日志數(shù)據(jù)采集日志數(shù)據(jù)收集是實(shí)時(shí)收集服務(wù)器、應(yīng)用程序、網(wǎng)絡(luò)設(shè)備等生成的日志記錄,此過程的目的是識別運(yùn)行錯(cuò)誤、配置錯(cuò)誤、入侵嘗試、策略違反或安全問題。在企業(yè)業(yè)務(wù)管理中,基于IT系統(tǒng)建設(shè)和運(yùn)作產(chǎn)生的日志內(nèi)容,可以將日志分為三類。因?yàn)橄到y(tǒng)的多樣化和分析維度的差異,日志管理面臨著諸多的數(shù)據(jù)管理問題。操作日志,指系統(tǒng)用戶使用系統(tǒng)過程中的一系列的操作記錄。此日志有利于備查及提供相關(guān)安全審計(jì)的資料。運(yùn)行日志,用于記錄網(wǎng)元設(shè)備或應(yīng)用程序在運(yùn)行過程中的狀況和信息,包括異常的狀態(tài)、動作、關(guān)鍵的事件等。安全日志,用于記錄在設(shè)備側(cè)發(fā)生的安全事件,如登錄、權(quán)限等。(3)網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲(WebCrawler)又稱為網(wǎng)頁蜘蛛、網(wǎng)絡(luò)機(jī)器人,是按照一定的規(guī)則自動抓取網(wǎng)頁信息的程序或者腳本。搜索和數(shù)字化運(yùn)營需求的興起,使得爬蟲技術(shù)得到了長足的發(fā)展。數(shù)據(jù)采集可以應(yīng)用于各個(gè)領(lǐng)域,如市場調(diào)研、醫(yī)療研究、環(huán)境監(jiān)測等。寧波靠譜的數(shù)據(jù)采集系統(tǒng)
數(shù)據(jù)采集可以幫助企業(yè)進(jìn)行用戶畫像分析,提供個(gè)性化的產(chǎn)品和服務(wù)。數(shù)控?cái)?shù)據(jù)采集
(1)條形碼與二維碼條形碼或者條碼是將寬度不等的多個(gè)黑條和空白,按一定的編碼規(guī)則排列,用以表達(dá)一組信息的圖形標(biāo)識符,通常一維條形碼所能表示的字符集不過10個(gè)數(shù)字、26個(gè)英文字母及一些特殊字符,條碼字符集所能表示的字符個(gè)數(shù)high多為128個(gè)ASCII字符,信息量非常有限。二維碼是用某種特定的幾何圖形按一定規(guī)律在平面上分布的黑白相間的圖形,用來記錄數(shù)據(jù)符號信息。二維碼擁有龐大的信息攜帶量,能夠把使用一維條碼時(shí)存儲于后臺數(shù)據(jù)庫中的信息包含在條碼中,可以直接閱讀條碼得到相應(yīng)的信息,并且二維碼還有錯(cuò)誤修正及防偽功能,增加了數(shù)據(jù)的安全性。數(shù)控?cái)?shù)據(jù)采集