熱門文章

2019年8月26日 星期一

跨越路障,點亮資料經濟的大數據實踐之路

跨越路障,點亮資料經濟的大數據實踐之路

近年來政府機關持續舉辦開放資料黑客松創意競賽,希冀驅動資料擁有者、資料科學家及領域專家互動交流以及促進跨政府機關、跨領域和公私協力共創,提升資料應用的價值

資料經濟是以資料為驅動力(Data Driven)產生的經濟價值,所以發展資料經濟的策略重點在於如何整合運用公私部門資料開發創新服務,衍生公共和商業利益的價值」。

資料經濟(Data Economics) 與資訊經濟(Information economics)有所不同。資料經濟著重整合前的原始資料,相同的原始資料若依據不同的方式分析,有可能產生不同的資訊;而資訊經濟強調的是資料整合後形成的資訊。

理想中的大數據實踐之路,本以為將會一帆風順,只歷經包括:提取數據、 建立模型、深度學習、人工智慧…等階段。然而,現實中的大數據實踐之路,卻是一路崎嶇且坑坑洞洞,得歷經包括:討論需求、 提取數據、 清洗數據、 整合數據、處理缺失值或遺漏值、特徵工程、評估模型…等階段。

首先,前端階段的「討論需求」、「提取數據」是大數據實踐之路,最先遭遇關鍵的路障。若公部門為需求發動者,必須符合法令政策,將資料去識別化,並且建立申請資料應用的流程程序和公私協作的運作機制;若私部門為需求發動者,則會將本求利、秤斤論兩地來看待和運用所擁有的資料,以及在經由評估和設計可獲利、具有經濟規模的商業模式之下,資料應用的專案才會被順利地啟動。

其次,中端階段的「清洗數據」、「整合數據」、「處理缺失值或遺漏值」是大數據實踐之路,最費時、費工和最容易跌坑入洞的路障。
此階段攸關資料品質的提升,必須掌握資料量、資料來源、資料格式、資料欄位,以及選擇適切的方法填充缺失值或遺漏值,如:業務知識或經驗推測法;同一指標計算法,如:平均值、中位數、眾數等;或其他指標的計算法,資料應用的專案才能夠挺過「路遙知馬力」的試煉。

最終,末端階段的「特徵工程」、「評估模型」是大數據實踐之路,艱難的最後幾哩路。特徵工程與領域知識有很大的關聯性,所以有資料科學家曾說:「特徵工程的整個過程是個手藝活,講求的是創造力」。特徵工程是把原始數據(Raw Data)提取特徵,以供演算法和模型使用的過程活動。評估模型則是迴圈和疊代(Loop and Iteration)的過程通過持續地調整和優化才能適應不斷生成變化的新資料以及達成資料應用的專案最終預期達成的目標

此外,雖然動態數據的資料應用較具經濟價值,但是也必須有相對應的資料處理核心能力和設備,並且即時更新儀表板的互動式圖表資料,例如:登革熱防護、空氣品質、魚肉蔬果在公有市場零售價格…等民生關注的議題,才能讓人民對公共創新服務有感。