期待三週的課程,終於來到「數據分析」這單元。

課堂中,聽到老師提到許多熟悉的名詞,像是HadoopSparkTableau等,又重溫一次數據應用三階段演進,從資料處理與儲存到了資料探勘及分析,最後則是資料決策輔助等,勾起過去參與相關專案的回憶。技術,談不了太多,說說應用或許比較容易。課堂中,老師舉到「輿情分析系統」,就從這例子來談吧。

說輿情分析系統,好像有點學問不大容易懂,倒不如改成「網路口碑監測與分析系統」或許會來得親近一些。

先簡單扼要的介紹一下這類系統主要在做什麼:

1. 用爬蟲依管理者提供路徑,爬下該網址中各項資料

2. 爬蟲自動更新資料來源與資料內容,反覆收集資料

3. 爬回來的資料進行清洗整理,並分類儲存起來

4. 進行語意分析,把字、詞、句有條理的整理出來

5. 依照管理者要監控的特定關鍵字詞組,彙整資料

6. 由管理者定義關鍵字詞組的屬性,例如正負評價

7. 把資料以圖表化、條列化的方式呈現給管理者參考

8. 圖型化介面整體性的提供管理者觀察口碑發展狀況

9. 管理者依照口碑即時發展方向設立各主要監控節點

10.系統學習管理者監控的模式,進而建立更精準模型

上述說明雖然過度簡化了一套網路口碑監控系統,但大致上做的事情差距不會太遠。

2012年起,陸續有廠商提供這類系統給我試用,或是網路上也能找到不少試用方案。許多廠商看上這類資料探勘的商機,認為監控網路口碑會是一門好生意,尤其在OPR(線上公關)成為各大廣告公司或行銷公司的顯學時,似乎做好口碑的監控與掌握,變成一門誰都無法忽略的重要課題。

只不過從應用面來看,讀取資料與數據是一回事,知不知道數據跟資料的發生根本原因是另外一回事。但之於企業端,更重要想要得到的是應對處理方案(Action Plan),而非一堆滿滿的紅黃綠燈,然後用一大張拓撲圖來告訴企業哪裡言論氾濫,又哪裡好像沒事。因為,企業要的是決策建議,而非資料轟炸。

「資料轟炸,資料多到好像沒資料。」

這是我們做數據分析時,最常碰到的窘境。資料龐大,影響其中的變數又太多,沒有事先假想好一套清楚,能說的了故事的分析模型之前,獲得再多資料,通常也沒辦法解讀出太多有意義或有幫助的結論。但,弔詭之處在於,數據還沒分析出來之前,事先設定的分析模型來自於假想,也就是先入為主的理解,沒人知道正確性有多高,也不確定這事情對還不對,然後就這麼下去跑資料,在一個先入為主又不確定的狀況下所跑出來的資料,有可能造成資料解讀錯判。

因此,看待各種迎面而來龐大數據時,常會耗費許多時間反覆交叉驗證,甚至做過數次的檢查與檢討過後,推翻掉原先所立下的結論。這就是運用數據分析做模糊動機定義的風險成本,在沒有足夠能力掌握與分析,並且洞察資料特徵的人,很容易迷失在一堆數據中,付出許多時間成本及代價,可卻得不到一個像樣可被人們接受的說法。

回到網路口碑監控與分析上,一般系統能跑出來的結果不外乎是「某個關鍵字」在「某個平台」出現了「多少次」及該關鍵字被賦予的屬性是什麼顏色的燈號,告知管理者該平台目前屬於何種「狀態」。

稍微理想化一點,系統又能多做些什麼?

例如告知管理者「發生時間」、「出現頻率」、「集中密度」、「帳號關連」、「回應狀態」、「回應趨勢」、「預測發展」與「客戶關係維繫」等。

口碑監控之於企業主可以分成兩個面相來觀察,一個是即時當下發生的事情,這是屬於公關危機處理之用,或是拿來做事件行銷操作的機會;一個是常態性的監控品牌、產品在各大平台上的聲量跟評價,聲量越大代表討論的人越多,而聲量不僅是關鍵字出現的堆疊,還包含了點擊數、回應數等,再者評價看的不僅是好壞,還須包含了關連性關鍵字的解析,例如分析各類形容詞的相對佔比等。

至此,企業要為自己研發一套這類數據分析系統,實可不必,因為不僅開發成本過高,運用分析的人力成本也相當驚人,而且可能監控自家資料所帶來效益,無法比使用外界第三方所提供的工具要來得有效,倒不如轉發交由市場上能提供相關服務的廠商來做要較為適合。

數據分析並非企業經營診斷的萬靈丹,而是提供一簡單參考指南,告訴經營者目前可能發生狀況或事發緣由,進而作為下次改進的參考依據與對策,能夠多少掌握數據到這種程度,對企業來講已經相當足夠,可不可以從中發掘出經營改善的要點,終究還是看企業主本身的生意頭腦好不好,不然一堆數據在眼前混淆視聽,最後僅是徒增困擾罷了。

(Visited 1 times, 1 visits today)

發佈留言

關閉選單