<雲端時代的殺手級應用 海量資料分析> 胡適忠 著 方沛晶/施祖琪採訪整理 天下雜誌出版
導讀心得:
Walmart發現啤酒與尿布看似毫無關連的商品,銷售數字卻有高度正相關。為什麼?ZARA每天賣出110萬件衣服/一年上萬款時裝,如何分析?這本書把海量資料(Big Data)做了簡單概念性的說明,並搭配實例與應用,借此擴展我們所見所聞,刺激舉一反三的想像力。如何充分發揮㚓量資料與網路科技的潛力,重新思考人與人連結對企業產生的價值。裡面有一點到現在還是有所疑慮的是個人資料安全的權利與被剝奪如何取得平衡共識,這邊比較少著墨,但我相信這未來會是一個不可避免的議題。
胤丞閱讀後將內容整理成七個重點跟大家分享:
1. 海量資料新世界:21世紀最偉大的發現與工程之一,將來自於從龐大的數據資料中找出的新型態與模擬人性的數學模型建構。海量資料=大量+複雜+快速變動的資料。海量資料分析最重要的,不在於它的資料量,而是你可以用它來做什麼!(重點在應用)
2. 海量資料(Big Data)
甲、特色:
i. 感知化
ii. 物聯化
iii. 智能化
乙、海量資料(不只是大而已)包含:
i. 龐大的資料量
ii. 資料種類的複雜度
iii. 傳送速度的增加
丙、海量資料的四大特性:
i. 巨量性(Volume)
ii. 即時性(Velocity)
iii. 多樣性(Variety)
iv. 不確定性(Veracity)
丁、資料探勘的四個步驟:
i. 定義問題
ii. 資料選擇
iii. 資料處理
iv. 知識擷取
3. 人類科學的典範轉移:實驗-->理論-->計算-->資料
4. 資料分類:
甲、結構化資料:資料庫資料。
乙、半結構化資料:電子郵件/部落格文章等。
丙、非結構化資料:文件/圖像/聲音/影片等。
5. 海量分析的轉化過程:
6. 最佳化解決方案,也就是在一個有許多限制和條件相互衝突的環境下,找尋一個最適方案的過程。最合適的答案代表最好的妥協,也就是為了讓電腦運算量可以負擔得起,必須犧牲掉很多他們認為不需要或是沒有意義的資料。也就是說,最佳化其實就是簡化。但是這種傳統的資料方西方式無形中也把最佳化的目標降低了,只知道我們知道的,這樣以管窺天的作法,不僅難以知道事情的全貌,同時也限制了發展的境界。
7. 企業習慣的資料處理方式是以”事後的分析來做事前的預測”,也就是分析”已知中的未知(Known unknowns)”。而海量資料分析則提供了我們(Unknown unknowns)的來源。也就是說由於製造商可以迅速把同一種產品做出數十種口味/型態的變化,讓消費者開始有除了”價格”以外的選擇權。今天消費者要的是以適當的價格,提供我們想要的口味/顏色/質地或觸感。