W3Cschool
恭喜您成為首批注冊用戶
獲得88經(jīng)驗(yàn)值獎(jiǎng)勵(lì)
本文轉(zhuǎn)載至知乎ID:Charles(白露未晞)知乎個(gè)人專欄
下載W3Cschool手機(jī)App,0基礎(chǔ)隨時(shí)隨地學(xué)編程>>戳此了解
利用Python簡單品讀/分析一下小說~~~
T_T純屬娛樂~~~
如有雷同,不甚榮幸~~~
Let's Go~~~
不想看過程的請直接下拉到最后看結(jié)果~~~
網(wǎng)盤下載鏈接: https://pan.baidu.com/s/1D5dITcY27S0ji8nyJUP2fA
密碼: c3kd
Python版本:3.6.4
相關(guān)模塊:gensim模塊;jieba模塊;scipy模塊;snownlp模塊;matplotlib模塊;numpy模塊。
安裝Python并添加到環(huán)境變量,pip安裝需要的相關(guān)模塊即可。
額外說明:
pip下載速度過慢:
臨時(shí)/永久換源~~~(百度上就有很多教程T_T)
pip安裝失敗:
到類似https://www.lfd.uci.edu/~gohlke/pythonlibs/這樣的網(wǎng)站下載whl文件安裝。
(1)小說主要人物分析
統(tǒng)計(jì)每個(gè)角色在小說中出現(xiàn)的次數(shù),并假設(shè)出現(xiàn)的次數(shù)越多,人物在小說中的地位越高。
(2)小說人物關(guān)系分析
利用gensim生成一個(gè)詞向量模型來分析人物關(guān)系。
T_T這個(gè)模型是Google在2013年開源出來的,具體實(shí)現(xiàn)細(xì)節(jié)還沒來得及看,算不上深度學(xué)習(xí),只是淺層的神經(jīng)網(wǎng)絡(luò)~~~
(3)小說情感分析
主要利用了snownlp庫。
具體實(shí)現(xiàn)過程詳見源代碼。
補(bǔ)充說明
分析小說之前需要先到相關(guān)網(wǎng)站下載小說的文本文件并新建一個(gè)含有小說中所有人物名的文本文件。
修改源代碼(analysis.py)中的:
if __name__ == '__main__':(98行)
下面的小說文件路徑后在cmd窗口中運(yùn)行即可。
T_T首先讓我們看看這本我看了20年也只看了前3頁的中國古典四大名著之首!?。?/p>
主要人物(Top10):
前面幾個(gè)名字還是挺耳熟的???
人物關(guān)系圖:
也不曉得靠譜不,聚類得到的圖~~~
T_T隨手還得出了這樣的結(jié)論(逃):
小說整體的情感基調(diào)(消極or積極?):
以0.5為界,左邊代表消極,右邊代表積極~~~
這么極端的嘛T_T
T_T只看過電視劇~~~
主要人物(Top10):
可能有些地方是喬峰,有些地方是蕭峰的原因吧,畢竟我覺得喬峰才是主角呀!
人物關(guān)系圖:
以及隨手得出的結(jié)論:
T_T毀三觀啊~~~
小說整體的情感基調(diào)(消極or積極?):
Excuse me???
不玩了T_T
以上內(nèi)容純屬不專業(yè)不科學(xué)純娛樂的分析~~~
有興趣的可以去分析一下其他小說T_T
說不定可以得到令人震驚的結(jié)論~~~
Copyright©2021 w3cschool編程獅|閩ICP備15016281號-3|閩公網(wǎng)安備35020302033924號
違法和不良信息舉報(bào)電話:173-0602-2364|舉報(bào)郵箱:jubao@eeedong.com
掃描二維碼
下載編程獅App
編程獅公眾號
聯(lián)系方式:
更多建議: