資訊共享

開發商業智能應用 小心「大數據」陷阱

自從美國總統奧巴馬2012年3月推出2億美元的「大數據研究及發展計劃」後,世界各大小經濟體陸續仿效,大力投資相關領域。全球資訊科技企業亦不敢怠慢,積極推出適合的大數據資訊科技方案及產品,更大灑金錢推廣大數據分析的優點及其所能帶來的商機。據觀察,近期不少從事金融、醫療、社會工作、工商業、政務等範疇主管都已被潛移默化,鼓吹「大數據」的功能及效益。然而,「大數據」真的是萬能的嗎?本文引用不同的國際專家報告,反映「大數據」分析之潛在問題。

採集數據犯錯 推算失準

首篇報告題為〈谷歌流感的比喻:大數據分析的陷阱〉("The Parable of Google Flu: Traps in Big Data Analysis"),描述了谷歌公司曾利用「大數據」分析推算2011/2012年度美國流感的趨勢,但結果卻未如人意,估計的流感個案數目遠超過實際數目。而谷歌利用的數據是來自用戶使用的關鍵詞(如「禽流感」)次數及分佈作推算分析。專家認為構成嚴重誤差的主要原因是谷歌盲目地廣泛收集關鍵詞,以為愈多愈好,卻沒有了解用戶查詢時的出發點,結果蒐集得的數據大部分來自非流感病患者,因此在數據採集階段已嚴重犯錯,自然推算失準。若數據分析全力集中在流感病患者,結果便會截然不同。

過分炒作 或空歡喜一場

第二位專家是美國加州大學柏克萊分校的國際知名學者米高佐敦(Michael Jordan)教授,他最近接受美國IEEE學會(電機電子工程師學會)雜誌訪問,在題為"Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts" 一文中指出,「大數據」在現今商業市場被過分炒作,它最後可能只是一場空歡喜,教授更預測「大數據」的「冬天」即將來臨。他認為「大數據」用戶作出假設的速度將會超越「大數據」的統計範疇,在這情况下數據分析結果難免會出現錯誤,造成大量「噪音」,影響推算的可靠性。

昨天採數據 能滿足今天新需求?

從另一角度看,「大數據」用戶往往忽略數據的「動力」(dynamics)。例如在變幻無常的商務環境中,用戶的需求不停在變,那麽昨天的「大數據」分析結果能有效地應用於今天的商務環境嗎?能夠滿足用戶今天的需求嗎?若然不能,我們需要重新進行分析,但昨天採集商務數據的方法能滿足用戶今天的新需求嗎?歸根究柢,什麼時候開始分析及什麼時候停止既是統計學應用的老問題,亦是「大數據」分析必須嚴肅面對的問題,但在千變萬化的應用及數據環境下,要應對這個問題更是難上加難。因此佐敦教授進一步指出「大數據」分析服務提供者有責任清楚說明分析推算法的質量標準及其誤差度,做好用戶的期望管理(expectation management)。

筆者認為上述的技術問題亦反映今天的資訊科技業界急切需要解決「人才荒」問題。缺乏專業數據科學家(data scientist),「大數據」行業將難以起飛。以「瞎子摸象」作比喻,多個瞎子(非專家)觸摸大象(「大數據」),然後判斷象的形狀,結果誤判收場。在商業應用中,錯誤「大數據」分析所推斷的「商務智能」(business intelligence),可能會弄巧反拙,嚴重影響生意。筆者認為本地大學應考慮開設更多相關課程,校方在課程設計上必須加入更多體驗學習(experience-based learning)活動,避免就讀數據科學的學生過於紙上談兵。

 

來源:明報 2015-12-05