也正是堅(jiān)守于此,過去五年,不論是在數(shù)據(jù)采集技術(shù),還是數(shù)據(jù)治理方案等方面,我們都做了很多的工作,也幫助了很多的客戶。比如我們建立強(qiáng)大的數(shù)據(jù)采集SDK研發(fā)團(tuán)隊(duì),并將SDK全部開源,也維護(hù)著近1500人的開源討論社群,同時(shí)不斷向業(yè)界輸出我們的積累、經(jīng)驗(yàn)和沉淀,讓數(shù)據(jù)采集技術(shù)不再神秘,更讓數(shù)據(jù)采集技術(shù)的生態(tài)更好、更健康的向前發(fā)展。二、業(yè)內(nèi)常見的數(shù)據(jù)采集方案目前,市面上常見的埋點(diǎn)方式主要有三種:代碼埋點(diǎn)、全埋點(diǎn)和可視化埋點(diǎn)。1.代碼埋點(diǎn)代碼埋點(diǎn),即客戶端集成SDK,在客戶端啟動(dòng)的時(shí)候初始化SDK,然后在某個(gè)事件(行為)發(fā)生時(shí),客戶端顯示調(diào)用SDK的接口觸發(fā)相應(yīng)的事件。代碼埋點(diǎn),是**常見的埋點(diǎn)方式,同時(shí)也是“*****”的埋點(diǎn)方式。其優(yōu)點(diǎn)如下:(1)可以精細(xì)控制埋點(diǎn);(2)可以靈活添加自定義事件和屬性;(3)可以滿足更精細(xì)化的分析需求。同時(shí),代碼埋點(diǎn)也有一些缺點(diǎn):(1)前期埋點(diǎn)代價(jià)比較大;(2)埋點(diǎn)的變更,需要伴隨客戶端的發(fā)版。2.全埋點(diǎn)全埋點(diǎn),也叫無埋點(diǎn)、**埋點(diǎn)、無痕埋點(diǎn)、自動(dòng)埋點(diǎn)等,是指無需開發(fā)工程師寫代碼或者只寫少量的代碼,就能預(yù)先自動(dòng)采集用戶的所有行為數(shù)據(jù),然后在數(shù)據(jù)分析產(chǎn)品上通過點(diǎn)選和配置,來篩選要分析和統(tǒng)計(jì)的對象。ERP能夠有效的利用和管理整體資源。無錫工業(yè)數(shù)據(jù)采集參考價(jià)
導(dǎo)讀:騰訊作為國內(nèi)體量**大的互聯(lián)網(wǎng)公司之一,業(yè)務(wù)涵蓋用戶日常生活的方方面面,面對如此巨大業(yè)務(wù)數(shù)據(jù)量,如果不能對數(shù)據(jù)進(jìn)行專業(yè)化處理并高效有序地存、管、用,如果不能使數(shù)據(jù)產(chǎn)生應(yīng)有的價(jià)值,那么數(shù)據(jù)資產(chǎn)將會(huì)成為數(shù)據(jù)垃圾,成為社會(huì)和企業(yè)的負(fù)擔(dān)。大數(shù)據(jù)平臺作為騰訊底層的基礎(chǔ)設(shè)施之一,每天必須處理千萬級規(guī)模的離線數(shù)據(jù)任務(wù)及十萬億級別的實(shí)時(shí)計(jì)算,否則無法滿足業(yè)務(wù)每天數(shù)以億計(jì)的數(shù)據(jù)分析計(jì)算的需求。本文主要介紹騰訊大數(shù)據(jù)的構(gòu)建理念和總體架構(gòu)。01騰訊大數(shù)據(jù)的構(gòu)建理念項(xiàng)目立項(xiàng)的時(shí)候我們曾有過激烈討論,是自主研發(fā)還是使用開源,“Tobe,ornottobe:thatisthequestion”。當(dāng)時(shí)業(yè)務(wù)需求比較迫切,2009年上半年,QQ空間引入了“開心農(nóng)場”業(yè)務(wù),開啟了瘋狂增長的模式,業(yè)務(wù)部門的同事看著幾乎是垂直的增長曲線笑逐顏開,我們看著曲線卻笑不出來。如何能快速構(gòu)建全新的數(shù)據(jù)倉庫,滿足業(yè)務(wù)快速增長的計(jì)算需求,我們在努力尋找答案。在2008~2009年,開源在國內(nèi)還沒大行其道,很多程序員都有一種偏見,覺得使用開源都是沒什么技術(shù)含量的。幾乎所有的程序員心里都有一個(gè)夢想和追求,希望能自己實(shí)現(xiàn)一套前列的系統(tǒng),從而在中國乃至世界的軟件行業(yè)揚(yáng)名立萬。杭州光學(xué)數(shù)據(jù)采集價(jià)格數(shù)據(jù)采集是指收集、記錄和整理各種類型的數(shù)據(jù)以供分析和應(yīng)用的過程。
▲圖2***代離線計(jì)算平臺架構(gòu)第二代架構(gòu)從2012~2014年,在承載離線計(jì)算的基礎(chǔ)上,擴(kuò)展了平臺能力,支持實(shí)時(shí)計(jì)算的需求,如圖3所示。▲圖3第二代實(shí)時(shí)計(jì)算平臺架構(gòu)在***代離線計(jì)算平臺基礎(chǔ)之上,我們?nèi)诤蟂torm和Spark構(gòu)建了第二代實(shí)時(shí)計(jì)算平臺。主要的演進(jìn)如下。1)集成Spark,離線計(jì)算比Hadoop性能更高。2)引入Storm,支持秒級/毫秒級的流式計(jì)算任務(wù)。3)建設(shè)了實(shí)時(shí)采集系統(tǒng)TDBank,數(shù)據(jù)采集實(shí)現(xiàn)從天級(T+1)到秒級的飛躍。4)支持資源和任務(wù)調(diào)度方面,平臺支持離線與在線混合部署,任務(wù)容器化,資源管理的維度支持CPU、內(nèi)存,以及網(wǎng)絡(luò)與I/O,進(jìn)一步提升了平臺輕量化、敏捷性與靈活性,極大提升了平臺利用率,降低了成本。第三代架構(gòu)從2015~2019年,在通用大數(shù)據(jù)計(jì)算外,開始支持機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等AI場景,BigData與AI在平臺層面逐步融合,如圖4所示。▲圖4第三代機(jī)器學(xué)習(xí)計(jì)算平臺在第二代實(shí)時(shí)計(jì)算平臺基礎(chǔ)上,自主研發(fā)了機(jī)器學(xué)習(xí)平臺Angel,并以Angel為**構(gòu)建第三代機(jī)器學(xué)習(xí)計(jì)算平臺生態(tài)。主要演進(jìn)如下。1)我們與北京大學(xué)合作,自主研發(fā)了高性能分布式機(jī)器學(xué)習(xí)平臺。該平臺支持十億至百億維度模型,支持?jǐn)?shù)據(jù)并行及模型并行,支持在線訓(xùn)練。同時(shí)。
**功能模塊:策略開發(fā)平臺與規(guī)則包①策略開發(fā)平臺:含規(guī)則、評分卡等,將這些策略打包導(dǎo)出就是形成規(guī)則包。②規(guī)則包:通常說的調(diào)用決策引擎,其實(shí)就是調(diào)用規(guī)則包。規(guī)則包本質(zhì)上是一些代碼,代碼將策略變成可執(zhí)行的形式。在前面介紹審批系統(tǒng)、反**系統(tǒng)和催收系統(tǒng)時(shí)有提及到調(diào)用規(guī)則包作出風(fēng)險(xiǎn)決策?;具壿嬍菢I(yè)務(wù)系統(tǒng)將變量傳到規(guī)則包,規(guī)則包執(zhí)行完后將決策結(jié)果反饋給業(yè)務(wù)系統(tǒng),**終形成真實(shí)業(yè)務(wù)結(jié)果。RECOMMEND推薦閱讀01智能風(fēng)控:評分卡建模原理、方法與風(fēng)控策略構(gòu)建作者:張偉推薦語這是一部系統(tǒng)講解評分卡建模的智能風(fēng)控著作,從業(yè)務(wù)與技術(shù)、理論與實(shí)踐、傳統(tǒng)風(fēng)控與智能風(fēng)控等角度透徹講解評分卡建模的原理、流程、方法及其風(fēng)控策略構(gòu)建。作者在智能風(fēng)控領(lǐng)域深耕十余年,既熟悉商業(yè)銀行傳統(tǒng)風(fēng)控體系思想、方法、技術(shù)、工具,又熟悉人工智能背景下的創(chuàng)新智能風(fēng)控相關(guān)解決方案、風(fēng)險(xiǎn)策略和風(fēng)險(xiǎn)建模技術(shù),本書是作者實(shí)踐經(jīng)驗(yàn)的系統(tǒng)性總結(jié)。02智能風(fēng)控與反**:體系、算法與實(shí)踐作者:蔡主希推薦語本書不僅體系化地講解了智能風(fēng)控和反**的體系、算法、模型以及它們在***風(fēng)控領(lǐng)域?qū)嵺`的全流程。通過數(shù)據(jù)采集,企業(yè)可以實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的決策,提高管理決策的準(zhǔn)確性和效率。
②計(jì)算變量:計(jì)算變量的目的是調(diào)用決策引擎;③調(diào)用決策引擎:部署有催收策略;④確定催收策略:將變量傳給決策引擎后,決策引擎會(huì)返回確定的催收策略。產(chǎn)生“是否催收、自己催or外包、如何催、分配給哪位催收員、什么時(shí)候打電話、用哪個(gè)溝通模板”等類型風(fēng)險(xiǎn)決策;⑤分配催收任務(wù):根據(jù)案件催收難度分配給不同催收員;⑥記錄催收結(jié)果:將催收結(jié)果進(jìn)行歸類,如:失聯(lián)、無人接聽、占線、承諾還款等。四、征信平臺系統(tǒng)策略和模型的基礎(chǔ)是數(shù)據(jù),數(shù)據(jù)分為內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),調(diào)用外部數(shù)據(jù)就是由征信平臺系統(tǒng)進(jìn)行。**功能模塊:調(diào)用、解析、征信數(shù)據(jù)庫①調(diào)用:將客戶參數(shù)調(diào)用傳給外部數(shù)據(jù)源相關(guān)機(jī)構(gòu),如:人行征信報(bào)告、百行征信報(bào)告、NCIIC等,相關(guān)**以封裝加密形式返回,返回的數(shù)據(jù)一般包括客戶的個(gè)人工作單位、婚姻、學(xué)歷、***開卡、還款情況等;②解析:解析有兩層功能含義,一是***返回的數(shù)據(jù),二是將文本串信息進(jìn)行標(biāo)準(zhǔn)化,使數(shù)據(jù)變成能夠在標(biāo)準(zhǔn)數(shù)據(jù)庫中存儲(chǔ)的形式;③征信數(shù)據(jù)庫:儲(chǔ)存解析好的征信數(shù)據(jù)。五、決策引擎系統(tǒng)它是一種基于特地業(yè)務(wù)場景開發(fā)的定制引擎,中間充當(dāng)一個(gè)變量計(jì)算和決策判斷的功能,以“處理變量然后輸出變量”的方式將風(fēng)控決策落地。數(shù)據(jù)采集的程序又叫上位機(jī),產(chǎn)生數(shù)據(jù)的機(jī)器或者是進(jìn)行數(shù)據(jù)記錄的系統(tǒng)叫下位機(jī)。上位機(jī)和下位機(jī)進(jìn)行通訊。滁州如何數(shù)據(jù)采集商家
數(shù)據(jù)采集可以通過自動(dòng)化技術(shù)來提高效率和準(zhǔn)確性,如自動(dòng)化傳感器網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)算法。無錫工業(yè)數(shù)據(jù)采集參考價(jià)
也不會(huì)有構(gòu)建在大數(shù)據(jù)處理基礎(chǔ)上的微博、博客、社交網(wǎng)絡(luò)等的蓬勃發(fā)展。[4]數(shù)據(jù)分析分析方法編輯1、列表法將數(shù)據(jù)按一定規(guī)律用列表方式表達(dá)出來,是記錄和處理**常用的方法。表格的設(shè)計(jì)要求對應(yīng)關(guān)系清楚,簡單明了,有利于發(fā)現(xiàn)相關(guān)量之間的相關(guān)關(guān)系;此外還要求在標(biāo)題欄中注明各個(gè)量的名稱、符號、數(shù)量級和單位等:根據(jù)需要還可以列出除原始數(shù)據(jù)以外的計(jì)算欄目和統(tǒng)計(jì)欄目等。[3]2、作圖法作圖法可以**醒目地表達(dá)各個(gè)物理量間的變化關(guān)系。從圖線上可以簡便求出實(shí)驗(yàn)需要的某些結(jié)果,還可以把某些復(fù)雜的函數(shù)關(guān)系,通過一定的變換用圖形表示出來。[3]圖表和圖形的生成方式主要有兩種:手動(dòng)制表和用程序自動(dòng)生成,其中用程序制表是通過相應(yīng)的軟件,例如SPSS、Excel、MATLAB等。將調(diào)查的數(shù)據(jù)輸入程序中,通過對這些軟件進(jìn)行操作,得出**后結(jié)果,結(jié)果可以用圖表或者圖形的方式表現(xiàn)出來。圖形和圖表可以直接反映出調(diào)研結(jié)果,這樣**節(jié)省了設(shè)計(jì)師的時(shí)間,幫助設(shè)計(jì)者們更好地分析和預(yù)測市場所需要的產(chǎn)品,為進(jìn)一步的設(shè)計(jì)做鋪墊。同時(shí)這些分析形式也運(yùn)用在產(chǎn)品銷售統(tǒng)計(jì)中,這樣可以直觀地給出**近的產(chǎn)品銷售情況,并可以及時(shí)地分析和預(yù)測未來的市場銷售情況等。無錫工業(yè)數(shù)據(jù)采集參考價(jià)