- 手把手教你 Python挖掘用戶評論典型意見并自動生產報告

有大神專門用電商評論訓練了一個開源的情感分析包snownlp, 我們來看看這個包效果怎樣。

手把手教你 Python挖掘用戶評論典型意見并自動生產報告

嗯嗯，準確率為92.63%，看上去很高，但。。。因為我把所有評論都判定為好評，那正確率也有96.54%。再看上圖中的ROC曲線，嗯，慘不忍睹。曲線跟x軸之間的面積（記作AUC）越大，說明模型的判別能力越好。一般情況曲線會在對角線之上（對角線相當于隨機預測的結果），可以此時AUC=0.157，比隨機結果差多啦。

更好的情感分析估計需要利用大量手機領域的語料重新訓練才行，本文就暫不討論這個啦。

好/中/差評的語義理解

語義理解是一個非常難的課題，本文不追求絕對精準，僅希望能對產品的評論有一個快速的理解。本文將從三個方面來闡述同類型評論語料的語義：

1、詞云。它會統計一段文本中各個詞語出現的次數（頻數），頻數越大，在詞云中對應的字體也越大。通過觀察詞云，可以知道一段文本主要在講哪些東西

2、TextRank。 TextRank 算法是一種用于文本的基于圖的排序算法，可以給出一段文本的關鍵詞。其基本思想來源于谷歌的PageRank算法, 通過把文本分割成若干組成單元(單詞、句子)并建立圖模型, 利用投票機制對文本中的重要成分進行排序, 僅利用單篇文檔本身的信息即可實現關鍵詞提取、文摘。和 LDA、HMM 等模型不同, TextRank不需要事先對多篇文檔進行學習訓練, 因其簡潔有效而得到廣泛應用。

3、主題分解。假設每一段文本都是有主題的，比如新聞里的體育類、時事類、八卦類等。通過對一系列的語料庫進行主題分解（本文采用的是LDA），可以了解語料庫涉及了哪些主題。（本文用的LDA實際效果不怎么好，暫且僅供娛樂。更好的方法后續或許會更新）

手把手教你 Python挖掘用戶評論典型意見并自動生產報告