法律同音——大數據(I)︰甚麼是大數據和有關應用

  Big Data大數據是最近幾年大家廣泛使用的詞彙。大約十年前,IT工程師已經面對一個龐大數據處理的時代。如何在這些數據尋找有用的訊息,當時我們叫做數據挖掘Data Mining。在2012年,根據統計單一資料收集的大小從數太位元組(TB)至數十兆億位元組(PB)不等。這些數據變得如此巨大,很大原因是由於電子交易、互聯網訊息所積累而成。其實從人類在地球生活的第一天就已經產生了數據,關鍵是這些數據隨着生活的發展,電子手段的提升而變得龐大。有心人可以在這些數據當中尋找、收集、歸類、整理,再根據不同的需要產生結論和報告。大家再根據這些報告幫助用者達到他們應用的目標,這就是大數據。

  大數據的來源大概可以分為三大類:

  第一手資訊(First Party Data)當某一個企業和客戶產生互動,可以是購買或者是交易的訊息,例如銀行和數以萬個客戶產生交易,從這些交易可以研究客戶的經濟狀況、信用狀態和發展趨勢,銀行得到的就是第一手資料。

  第二手資料(Second Party Data)通常是和第一手資料進行合作,當客戶購買第一方產品或者服務的時候,另一個合作單位可以推薦其他訊息。或者第二手資料合作方可以使用第一手資料來做分析,從分析結果尋找迎合客戶的另一類產品。

  第三手資料(Third Party Data)資料的來源並非來自資料的產生者。最好的例子就是在互聯網利用spidering爬蟲方法收集得來。例如筆者公司Gbjobs.com金飯碗招聘,就是在互聯網中收集不同求職網站的訊息、歸類、分析再發表。

  大數據的應用非常廣泛,在2012年奧巴馬政府投資接近兩億美元進行大數據發展計劃,主要服務美國衛生和公共服務等部門,當中包括國家安全。其實美國的選舉都少不了大數據的分析。

金利通科技主席兼執行董事

洪集懷


hd