據估計,大約在2005年左右,Hadoop的誕生,標志著人類正式進入大數據時代。事實上,“大數據”這一概念最早出現于1998年,一位來自美國高性能計算公司的科學家,在一次國際會議的報告中使用了“大數據”來描述不斷增長的數據量所帶來的挑戰。
到2013年,越來越多的企業開始看到大數據的價值,發現大數據可以賦予企業業務權力。透過對海量數據的有效儲存、管理和分析,他們能夠獲得更多的實時市場信息。而且,我們也發現,大數據并非一項技術,而是一系列數據管理技術的集合,它給整個社會和人類帶來的影響,將與以往任何技術上的變化不同。
那么,十幾年過去了,今天的大數據發展到什么狀態呢?為了使大數據應用更成熟,我們需要做些什么?
通過多種應用分析和調查,發現盡管企業的數據量呈爆炸式增長趨勢,也更加注重信息的來源和使用價值,但對實際商業價值的推動力并未產生顯著效果。盡管大數據概念風靡全球,但是它的應用仍然停留在如何把正確的信息在適當的時候發送給合適的人。
數據倉庫vs數據湖vs數據管理架構
為了收集和獲取大量的數據,各種數據存儲和管理系統如雨后春筍般涌現,包括數據倉庫、數據湖和數據管理架構,并開始加企業應用場景的發展。
然而,當企業的大數據解決方案和平臺架構開始增加時,業務的復雜性也增加了。企業需要一個標準的數據管理架構來整合所有數據和各種應用工具,包括跨環境和混合應用管理。過去,集中架構已不能滿足企業的業務需求?;蛘哒f,企業需要更強的數據分析能力來訪問不同的數據源。這也是以DataFabric為核心的數據管理架構越來越受歡迎的最根本原因。
從理論上講,企業需要一個能夠保證所有數據都是最新、易于管理、且干凈的;但是在以前的數據架構模式無法實現,DataFabric可以幫助企業管理不同的數據,同時,也可以將不同類型數據間的關系聯系在一起,而不必將所有數據都倒進數據湖。
因此,所有相關應用程序都必須貫穿于數據的管理過程。例如:我們可以通過數據倉庫實現高性能、可重復性分析;數據湖可以存儲數據以供開發和測試使用;DataMesh這種基于領域驅動和自服務的數據架構設計模式,可以用于管理分布式數據,由于服務本身采用了微服務的概念,并采用ServiceMesh分布式架構。說到DataMesh,可能有人會問DataMesh和DataFabric有什么關系?實際上,DataMesh和DataFabric是一個新的數據管理架構,它們都致力于使數據相互連接。
一站式大數據平臺構建
當企業業務上升到一定量,構建大數據平臺成為必須品。問題是,大數據平臺如何構建?不同企業有不同選擇!
有專家建議,最好采用兩種策略構建企業大數據平臺,即一個用于生產,另一個用于分析。但筆者認為,基于一個標準的數據架構構建大數據平臺,更有利于數據管理。如果每個業務部門都建自己的平臺,需要支持多個數據庫,還得需要一個ETL平臺完成數據之間的轉換。這時,數據的真實性、實時性都會出現挑戰。構建大數據平臺,最終的目標是為了整合數據,讓所有的數據實現可視化管理,并且無論數據在企業內部還是云端,都能實現統一管理。多一個數據平臺,就意味著企業在進行數據整合時,會增加額外的成本,并且容易出現數據安全隱患。
當然,構建一個能覆蓋所有環境的大數據平臺,也不是一件容易的事。大多數時候,一個供應商的解決方案也沒那么全面,比如:有的提供了查詢功能,但治理方面差了一些;有的雖然解決了大數據的規?;幚恚笃诘臄祿w移成為一大挑戰。所以,企業擁有多個企業提供的數據管理解決方案,可能是一種常態。
如果企業選型選對,基于標準的數據架構來打造打造大數據平臺,那意味企業擁有了先天的一站式大數據平臺管理能力,后期可以通過各種工具和手段進行數據的標準化管理。
比如:基于DataFabric,企業從設計之初開始,就擁有了一個可靈活擴展、多次復用和持續優化的數據管道,技術開發人員可以根據服務和語義,支持復雜環境部署,通過資源的靈活調度,交付各種應用。
以上內容就是大數據未來發展前景,希望對大家有所幫助,如需了解更多網絡工程方案的,可在線客服或者來電咨詢,廣州軒轅宏邁為您提供一站式弱電工程/安防監控/綜合布線/網絡工程解決方案,包括,計算機網絡工程、弱電機房、無線網絡、云平臺工程方案、人工智能化方案等,期待與您的合作!