大數(shù)據(jù)能夠進(jìn)行數(shù)據(jù)變現(xiàn)的商業(yè)模式目前就是兩個,一個是精準(zhǔn)營銷,典型的場景是商品推薦和精準(zhǔn)廣告投放,另外一個是大數(shù)據(jù)風(fēng)控,典型的場景是互聯(lián)網(wǎng)金融的大數(shù)據(jù)風(fēng)控。以下是小編為你整理的學(xué)大數(shù)據(jù)如何學(xué) ?
金融的本質(zhì)是風(fēng)險管理,風(fēng)控是所有金融業(yè)務(wù)的核心。典型的金融借貸業(yè)務(wù)例如抵押貸款、消費(fèi)貸款、P2P、供應(yīng)鏈金融、以及票據(jù)融資都需要數(shù)據(jù)風(fēng)控識別欺詐用戶及評估用戶信用等級。
?
傳統(tǒng)金融的風(fēng)控主要利用了信用屬性強(qiáng)大的金融數(shù)據(jù),一般采用20個緯度左右的數(shù)據(jù),利用評分來識別客戶的還款能力和還款意愿。信用相關(guān)程度強(qiáng)的數(shù)據(jù) 緯度為十個左右,包含年齡、職業(yè)、收入、學(xué)歷、工作單位、借貸情況、房產(chǎn),汽車、單位、還貸記錄等,金融企業(yè)參考用戶提交的數(shù)據(jù)進(jìn)行打分,*得到申請人 的信用評分,依據(jù)評分來決定是否貸款以及貸款額度。其他同信用相關(guān)的數(shù)據(jù)還有區(qū)域、產(chǎn)品、理財(cái)方式、行業(yè)、繳款方式、繳款記錄、金額、時間、頻率等。普惠在線 ?
互聯(lián)網(wǎng)金融的大數(shù)據(jù)風(fēng)控并不是完全改變傳統(tǒng)風(fēng)控,實(shí)際是豐富傳統(tǒng)風(fēng)控的數(shù)據(jù)緯度?;ヂ?lián)網(wǎng)風(fēng)控中,首先還是利用信用屬性強(qiáng)的金融數(shù)據(jù),判斷借款人的還 款能力和還款意愿,然后在利用信用屬性較弱的行為數(shù)據(jù)進(jìn)行補(bǔ)充,一般是利用數(shù)據(jù)的關(guān)聯(lián)分析來判斷借款人的信用情況,借助數(shù)據(jù)模型來揭示某些行為特征和信用 風(fēng)險之間的關(guān)系。 ?
互聯(lián)網(wǎng)金融公司利用大數(shù)據(jù)進(jìn)行風(fēng)控時,都是利用多維度數(shù)據(jù)來識別借款人風(fēng)險。同信用相關(guān)的數(shù)據(jù)越多地被用于借款人風(fēng)險評估,借款人的信用風(fēng)險就被揭示的更充分,信用評分就會更加客觀,接近借款人實(shí)際風(fēng)險。 ?
大數(shù)據(jù)的門檻是怎樣的 ?
數(shù)據(jù)科學(xué)家:數(shù)據(jù)科學(xué)家傾向于用搜索數(shù)據(jù)的方式來看待周圍的世界,把大量散亂的數(shù)據(jù)變成結(jié)構(gòu)化的可供分析的數(shù)據(jù),還要找出豐富的數(shù)據(jù)源,整合其他可能不完整的數(shù)據(jù)源,并清理成結(jié)果數(shù)據(jù)集,新的競爭環(huán)境中,挑戰(zhàn)不斷的變化,新數(shù)據(jù)不斷的流入,數(shù)據(jù)科學(xué)家需要幫助決策者穿梭于各種分析,從臨時數(shù)據(jù)分析到持續(xù)數(shù)據(jù)交互分析。當(dāng)他們有所發(fā)現(xiàn),建議新的業(yè)務(wù)方向。他們很有創(chuàng)造力的展示視覺化的信息,從而影響產(chǎn)品,流程和決策。 ?
大數(shù)據(jù)工程師:分析歷史,預(yù)測未來,優(yōu)化選擇,這是大數(shù)據(jù)工程師在玩數(shù)據(jù)時最重要的三大任務(wù)。通過這三個工作方向,幫助企業(yè)做出更好的商業(yè)決策。大數(shù)據(jù)工程師是一個很重要的工作,就是通過分析數(shù)據(jù)找出過去事件的特征。通過引入關(guān)鍵因素,大數(shù)據(jù)工程師可以預(yù)測未來的消費(fèi)趨勢。 ?
數(shù)據(jù)分析師:與傳統(tǒng)的數(shù)據(jù)分析師相比,互聯(lián)網(wǎng)時代的數(shù)據(jù)分析師面臨的不是數(shù)據(jù)匱乏,而是數(shù)據(jù)過剩,因此,互聯(lián)網(wǎng)時代的數(shù)據(jù)分析師必須學(xué)會借助技術(shù)手段進(jìn)行高效的數(shù)據(jù)清理。更為重要的是,互聯(lián)網(wǎng)時代的數(shù)據(jù)分析師不斷在數(shù)據(jù)研究的方法論方面進(jìn)行創(chuàng)新和突破。 ?
分情況來說:就行業(yè)來說,數(shù)據(jù)分析師的機(jī)制類似,無論在任何時代,媒體運(yùn)營者能否準(zhǔn)確詳細(xì)和及時地了解受眾情況和變化趨勢。都是成敗的關(guān)鍵。 ?
針對大數(shù)據(jù)的開源包 ?
Precog:Precog提供了一項(xiàng)服務(wù)Labcoat,它是一個交互式的開發(fā)環(huán)境,可以用來編寫基于開源的Quirrel(由Precog實(shí)現(xiàn)的統(tǒng)計(jì)查詢語言,Quirrel很多方面都與R編程語言比較相似)查詢語言的分析工作,該集成開發(fā)環(huán)境包含了一個語言學(xué)習(xí)教程以及一些復(fù)雜的函數(shù)。Precog的COO告訴Derrick,即使沒有任何編程經(jīng)驗(yàn)的人也能在幾個小時內(nèi)學(xué)會操作。
?
Precog可http://m.fulinmenst.com/m/contact.aspx?FId=n7:7:7以從各種數(shù)據(jù)源抓取輸入數(shù)據(jù),其中包括SQL數(shù)據(jù)庫、Amazon S3、Hadoop、MongoDB、客戶端Web應(yīng)用和后端服務(wù)器等。RESTful API支持開發(fā)者從外部源(如Twitter或Facebook)、CSV文件或移動設(shè)備抓取數(shù)據(jù)。抓取的數(shù)據(jù)保存到一個叫做PrecogDB的定制數(shù)據(jù)庫中,而且還可以使用人群統(tǒng)計(jì)、態(tài)度、位置和其他信息,使數(shù)據(jù)更為豐富。在一次采訪中,Precog的CEO和創(chuàng)始人John A.De Goes解釋到:“系統(tǒng)的架構(gòu)與數(shù)據(jù)庫分析有些相似,比如都包括面向列的存儲。但是其區(qū)別在于:前者支持完全異構(gòu)的、非規(guī)范化的數(shù)據(jù),通過對Quirrel的支持,相對于使用RDBMS進(jìn)行分析,使用這種類似于“面向大數(shù)據(jù)的R”的語言,能夠很方便地執(zhí)行很多更為高級的計(jì)算?!? ?
ez(DAG計(jì)算模型) ?
Tez是Apache*開源的支持DAG作業(yè)的計(jì)算框架,它直接源于MapReduce框架,核心思想是將Map和Reduce兩個操作進(jìn)一步拆分, ?
即Map被拆分成Input、Processor、Sort、Merge和Output, Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等, ?
這樣,這些分解后的元操作可以任意靈活組合,產(chǎn)生新的操作,這些操作經(jīng)過一些控制程序組裝后,可形成一個大的DAG作業(yè)。 ?
目前hive支持mr、tez計(jì)算模型,tez能完美二進(jìn)制mr程序,提升運(yùn)算性能。 ?
Spark(內(nèi)存DAG計(jì)算模型) ?
Spark是一個Apache項(xiàng)目,它被標(biāo)榜為“快如閃電的集群計(jì)算”。它擁有一個繁榮的開源社區(qū),并且是目前最活躍的Apache項(xiàng)目。 ?
最早Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的并行計(jì)算框架。 ?
Spark提供了一個更快、更通用的數(shù)據(jù)處理平臺。和Hadoop相比,Spark可以讓你的程序在內(nèi)存中運(yùn)行時速度提升100倍,或者在磁盤上運(yùn)行時速度提升10倍 ?
Giraph(圖計(jì)算模型) ?
Apache Giraph是一個可伸縮的分布式迭代圖處理系統(tǒng), 基于Hadoop平臺,靈感來自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。 ?
最早出自雅虎。雅虎在開發(fā)Giraph時采用了Google工程師2010年發(fā)表的論文《Pregel:大規(guī)模圖表處理系統(tǒng)》中的原理。后來,雅虎將Giraph捐贈給Apache軟件基金會。 ?
目前所有人都可以下載Giraph,它已經(jīng)成為Apache軟件基金會的開源項(xiàng)目,并得到Facebook的支持,獲得多方面的改進(jìn)。 ?