基本特征可以用4個V來總結(Volume、Variety、Value和Velocity),即體量大、多樣性、價值密度低、速度快。
一,數據體量巨大。從TB級別,躍升到PB級別。
******,數據類型繁多,如網絡日志、視頻、圖片、地理位置信息等。
第三,價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。
第四,處理速度快。1秒定律。這一點也是和傳統的數據挖掘技術有著本質的不同。
本文將介紹三家廠商的大數據技術:阿里大數據、oracle大數據、第三方大數據。
1 阿里大數據
1.1 特點與架構
阿里大數據(大規模計算)是阿里云環境下的模塊之一,阿里云主要模塊有:彈性計算、數據庫、存儲于CDN、網絡、互聯網中間件、大規模計算等。與傳統大數據部署方式不同的是更加關注上層應用的建設,對于下層支持平臺,只有服務器、交換機等,其他功能全部運用技術方式實現,這樣***對于大數據建設來說,“輕資產,重應用”。

圖1 阿里大數據平臺“數加”
1.1 阿里大數據生產鏈條
產品覆蓋數據采集、計算引擎、數據加工、數據分析、機器學習、數據應用等數據生產鏈條。

圖2 數據生產全鏈條
1.1.1 數據采集
Datahub是“數加”上的一款數據采集產品,可為用戶提供實時數據的發布和訂閱功能。寫入的數據可直接進行流式數據處理,也可參與后續的離線作業計算。Datahub同主流插件和客戶端保持高度兼容。
1.1.2 計算引擎
大數據計算服務MaxCompute(原ODPS)、分析型數據庫Analytic DB、流計算StreamCompute共同組成了底層強大的計算引擎。
分析型數據庫可實現對數據的實時多維分析。
流計算擅長對實時流式數據進行分析,具有低延時、高性能的特點。每秒查詢率可以達到*********,日均處理萬億條消息、PB量級的數據。
1.1.3 數據加工
計算引擎之上,“數加”提供了豐富的云端數據開發套件,*********可一站式完成數據加工。這些產品包含:數據集成、數據開發、調度系統、數據管理、運維視屏、數據質量、任務監控。
大數據開發套件的優勢包括:支持100人以上協同設計、開發、運維;具有良好的擴展性;提供各個產品功能模塊的Open API,可二次開發;多個數據實例之間的數據授權機制,確保數據只能使用卻不可見;提供白屏化的運維能力,以及字段級數據質量監控、機器預警、資源使用率監控等功能,讓用戶更好的掌控自己的數據及數據任務。
1.1.4 數據分析:
在數據分析方面,數加提供了3款產品供*********使用:
1、通過移動數據分析產品,*********可快速搭建日志采集、分析系統,從而為用戶提供個性化服務;
2、通過數加BI報表產品,3分鐘即可完成海量數據的分析報告。產品支持多種云數據源,提供近20種可視化效果。
3、通過數據可視化產品DataV,一星期***能做出雙11同款大屏。這款產品,曾支持了阿里巴巴多年的雙11、雙12作戰指揮。
同時,基于DataV,數加還發布了面向政府的行業應用產品“郡縣圖治”。通過這款產品,縣長可以在一個屏幕下統覽全縣各項經濟民生數據,為政府決策提供輔助。
1.1.5 機器學習:
對于時下大熱的機器學習,數加更是提供了全面支持。“數加”發布的機器學習工具,可基于海量數據實現對用戶行為、行業走勢、天氣、交通等的預測。圖形化編程讓用戶無需編碼、只需用鼠標拖拽標準化組件即可完成開發。產品還集成了阿里巴巴核心算法庫,包括特征工程、大規模機器學習、深度學習等。
1.1.6 數據應用:
為了能夠幫助*********更快捷在應用中集成大數據功能,“數加”同時提供了規則引擎、推薦引擎、文字識別、智能語音交互等數據應用產品。
規則引擎是一款用于解決業務規則頻繁變化的在線服務,可通過簡單組合預定義的條件因子編寫業務規則,并做出業務決策。比如,銀行會設置如果10分鐘內用戶在兩個省份交易,則需要電話確認。
推薦引擎是一款用于實時預測用戶對物品偏好的數據工具,它能夠幫助客戶發現眾多物品中用戶感興趣什么。
文字識別提供自然場景下拍攝的圖片中英文文字檢測、識別以及常見的證件類檢測和識別。
智能語音交互基于語音和自然語言技術構建的在線服務,為智能手機,智能電視以及物聯網等產品提供“能聽、會說、懂你”式的智能人機交互體驗。
2.2針對高法的解決方案
2.2.1 高法解決方案技術框架
1、采用私有云方式建設
2、在政法網內部部署阿里ODPS一體機,共包含10臺服務器,其中7臺管控節點,3臺計算節點。本部分預算250萬。其中計算節點可以擴容。
3、阿里云一體機已包含ODPS大數據處理平臺,費用已包含在內。
4、ODPS大數據平臺可部署阿里數據抽取工具,在各數據庫抽取數據,并實現規范化。ETL抽取工具的預算100萬。
5、以此為基礎,以阿里為主題,期做相似案件分析的應用,可快速出成績。本部分預算100萬。
6、引入ISV,并進行算法的持續的開發和合作。
2.2.2 解決方案特點
1、部署要求是須購買阿里云服務,數據處理方式“黑盒模式”。
2、數據標準化與后續的算法應用基于同一平臺,可持續演進。
3、ODPS支持多租戶,可面向各業務處室開展應用開發。
4、在算法領域持續******,快速出成效。
5、在法務部和電子政務執法領域可展開深入合作。
2 oracle大數據
2.1 特點與架構
傳統業務數據為主,商業化服務支持,簡化架構,更多精力在業務層面,部署模式比較靈活。
2.2 針對高法的解決方案
部署內容:
ODI/OGG( Oracle Data Integrator)
提供實時/批量大數據收集工具;
Oracle NoSQL 數據庫
分布式的、高可擴展性的鍵-值數據庫;
Oracle大數據一體機-完整的Hadoop平臺
大數據一體機(200萬);
Oracle Big Data SQL實現跨平臺統一數據訪問;
提供大量的分析工具;
Big Data Discovery:Hadoop的可視化和探索工具
不需要進行建模即可以交互式訪問和探索;
BIEE/DV
Oracle BIEE是一個非常有創造力的工具,它對于物理層,邏輯層,展現層的理解和定義創造了一個非常簡潔而清晰的數據模型,使用這個數據模型可以完整地連接企業內各個異構數據源,從而使商業智能真正能夠在企業范圍內得到大規模部署和使用。
3 第三方大數據
3.1 特點與框架
以開源架構模式進行大數據整體框架的架構。
3.2 針對高法的解決方案
建設內容:數據實時匯集平臺、數據中心改造升級、數據綜合管理系統、大數據主題應用數據倉庫、大數據基礎支撐平臺、大數據應用工具箱系統、大數據可視化平臺。
3.2.1 數據實時匯集平臺
對分散在各業務系統ORACLE數據庫的信息進行實時、準實時、定時的復制。復制的數據將統一匯總進入原數據中心數據庫。
3.2.2 中心基礎數據庫
原有數據架構形成一個數據匯集層,用于承載業務系統的數據。
3.2.3 數據綜合管理系統
該系統包含的核心內容之一為在業務系統數據庫中設置數據校驗層,從根本上解決建設目標中的數據質量問題。
3.2.4 大數據主題應用數據庫
大數據主題應用數據庫是原數據中心數據庫的升華,通過分析、清理、歸類等形成面向不同應用主題的、不同緯度的數據。
3.2.5 大數據基礎支撐平臺
數據支撐平臺采用基于Hadoop、Spark架構的大數據體系架構,為商業化封裝版本產品。其核心分為三個部份建設工作:存儲部分、分布式計算查詢部份、算法工作流部分。
3.2.6 大數據應用工具箱系統
大數據核心價值具現化的載體,通過交互式查詢接口實現大數據MPP主題應用數據庫的訪問,通過算法工作流接口實現大數據非結構化數據的訪問和計算。
3.2.7 大數據可視化平臺
智能分析的成果可視化展示平臺工具。
4 綜合對比結果
阿里大數據是基于互聯網模式,數據以非結構化、新數據為主,適用于公有云服務。
oracle大數據是以傳統業務數據為主,數據以結構化為主。
第三方大數據則以******數據質量為前提,通過一種新的設計模式,來強化大數據的應用展示。
咨詢中心 潘存利 供稿