國際書展才剛落幕,來談談與書有關的大數據。2016年的9月,我答應博客來網路書店為他們做一份銷售資料的分析報告,在三個月後的博客來報告年會上分享。時間很短,只有三個月,但機會難得,衣袖一捲就開始進行。
為期兩年的匿名訂單資料,可以玩出什麼把戲呢?資料分析可分為四個層次,描述、解釋、預測及最佳化,因最佳化需要涉入企業流程,在有限的時間內,我們做了三個層次的分析-從描述到解釋,再從解釋到預測。
描述性分析指的是利用統計及資料視覺化將事實呈現出來,幫助觀看者正確評估情勢;其中,一個重要但常被忽略的用途是,將資料中的隱性資訊(其無法從原始資料中判讀)呈現出來。例如中文書籍有800個分類,例如成功法書籍分為自我成長、致富及生涯規劃等類別。
通常的認知是某族群的讀者偏好成功法書籍,但若將資料做適當處理,可以發現其實只有25歲以下的讀者偏好生涯規劃書籍,30歲以上讀者就傾向買致富書籍。我們有許多有趣的觀察,例如夜貓子比晨型人更傾向買同性愛小說;投資理財書籍讀者買書時也精打細算,因此訂單金額較小;以及年收入70萬以上的家庭購買外遇/離婚書籍的機率大增等等。雖然只是描述分析,但因資料做過妥善處理,可以呈現出傳統商業智慧工具無法告訴你的資訊。
在解釋性分析中,我們利用商品屬性及書名關鍵字來解釋書籍銷售量,例如有沒有書評連結,作者及書籍花多少功夫做簡介、有沒有名人或專家推薦等屬性。分析結果首先證明一些直覺猜測,例如,內頁預覽對於飲食及旅遊書籍銷量影響力顯著;是否有名人推薦對各類書籍銷量皆有影響力,但權威人士的推薦對自然科普書籍特別重要,而親子教養書籍的讀者對於感動、驚喜、觸動、分享等詞彙特別有共鳴。有趣的是,驚嘆號(!)若使用在旅遊書籍的書名及簡介中,與銷量有顯著的正相關,似乎驚嘆號可讓讀者更相信某個景點真的很好玩。
另一方面,書名下得好不好,當然也會影響書籍的銷量。例如年輕、醫師、神奇、日本、改善等詞用在醫療保健書名與銷量有正相關,但養生這詞反而與銷量有負相關。對心理勵志書籍來說,練習、力量、自己是好的詞,但智慧並不是,結果並不直覺,但耐人尋味。有趣的是,同一個詞在不同分類可能有相反的作用,例如,輕鬆在商業理財是好詞,在語言學習不是;世界在人文史地是好詞,在旅遊書籍並不是。
在預測性分析中,我們利用書籍特徵、書名關鍵字及上市前的市場狀況來發展暢銷書預測模型,文學小說暢銷書的預測準確度可以接近八成。也就是說,在書籍上架的那一刻,我們有八成的信心可以猜到哪些書會是暢銷書。預期若加入文本(書籍內文)的資料,暢銷書的預測模型可以再有顯著的改善。
我很感謝博客來的朋友們促成並慷慨地分享此次資料分析成果,希望我們的初步報告可以做為出版、零售、電商領域從業者的一份參考。資料分析及機器學習十分有用,前提是資料擁有者必須瞭解,不能再停留在用試算表或商業智慧工具來做情勢評估,必須往解釋、預測、最佳化的階段邁進。若能進階/升級至預測及最佳化階段,也代表人工智慧技術的引入。
人工智慧的時代已然來到-不論你是否準備好了。
(作者是中央研究院資訊科學研究所研究員、台灣資料科學協會理事長)