CNN算法(卷積神經(jīng)網(wǎng)絡(luò))是機(jī)器學(xué)習(xí)中最出名的算法之一,它的應(yīng)用是比較廣泛的,廣為人知的是利用CNN來進(jìn)行圖像識(shí)別處理,但是CNN也可以用在文本分類上。接下來這篇文章我們就來了解一下pytorch怎么用CNN實(shí)現(xiàn)文本分類吧。
1. 原理
2014年的一篇文章,開創(chuàng)cnn用到文本分類的先河。
Convolutional Neural Networks for Sentence Classification
原理說簡(jiǎn)單也簡(jiǎn)單,其實(shí)就是單層CNN加個(gè)全連接層:
不過與圖像中的cnn相比,改動(dòng)為將卷積核的寬固定為一個(gè)詞向量的維度,而長(zhǎng)度一般取2,3,4,5這樣。
上圖中第一幅圖的每個(gè)詞對(duì)應(yīng)的一行為一個(gè)詞向量,可以使用word2vec或者glove預(yù)訓(xùn)練得到。本例中使用隨機(jī)初始化的向量。
2. 數(shù)據(jù)預(yù)處理
手中有三個(gè)文件,分別為train.txt,valid.txt,test.txt。其中每一行是一個(gè)字符串化的字典,格式為{‘type': ‘xx', ‘text':‘xxxxx'}。
2.1 轉(zhuǎn)換為csv格式
首先將每個(gè)文件轉(zhuǎn)換為csv文件,分為text和label兩列。一共有4種label,可以轉(zhuǎn)換為數(shù)字表示。代碼如下:
# 獲取文件內(nèi)容 def getData(file): f = open(file,'r') raw_data = f.readlines() return raw_data # 轉(zhuǎn)換文件格式 def d2csv(raw_data,label_map,name): texts = [] labels = [] i = 0 for line in raw_data: d = eval(line) #將每行字符串轉(zhuǎn)換為字典 if len(d['type']) <= 1 or len(d['text']) <= 1: #篩掉無效數(shù)據(jù) continue y = label_map[d['type']] #根據(jù)label_map將label轉(zhuǎn)換為數(shù)字表示 x = d['text'] texts.append(x) labels.append(y) i+=1 if i%1000 == 0: print(i) df = pd.DataFrame({'text':texts,'label':labels}) df.to_csv('data/'+name+'.csv',index=False,sep=' ') # 保存文件 label_map = {'執(zhí)行':0,'刑事':1,'民事':2,'行政':3} train_data = getData('data/train.txt') #22000+行 d2csv(train_data,label_map,'train') valid_data = getData('data/valid.txt') # 2000+行 d2csv(valid_data,label_map,'valid') test_data = getData('data/test.txt') # 2000+行 d2csv(test_data,label_map,'test')
2.2 觀察數(shù)據(jù)分布
對(duì)于本任務(wù)來說,需要觀察每個(gè)文本分詞之后的長(zhǎng)度。因?yàn)槊總€(gè)句子是不一樣長(zhǎng)的,所以需要設(shè)定一個(gè)固定的長(zhǎng)度給模型,數(shù)據(jù)中不夠長(zhǎng)的部分填充,超出部分舍去。
訓(xùn)練的時(shí)候只有訓(xùn)練數(shù)據(jù),因此觀察訓(xùn)練數(shù)據(jù)的文本長(zhǎng)度分布即可。分詞可以使用jieba分詞等工具。
train_text = [] for line in train_data: d = eval(line) t = jieba.cut(d['text']) train_text.append(t) sentence_length = [len(x) for x in train_text] #train_text是train.csv中每一行分詞之后的數(shù)據(jù) %matplotlib notebook import matplotlib.pyplot as plt plt.hist(sentence_length,1000,normed=1,cumulative=True) plt.xlim(0,1000) plt.show()
得到長(zhǎng)度的分布圖:
可以看到長(zhǎng)度小于1000的文本占據(jù)所有訓(xùn)練數(shù)據(jù)的80%左右,因此訓(xùn)練時(shí)每個(gè)文本固定長(zhǎng)度為1000個(gè)詞。
2.3 由文本得到訓(xùn)練用的mini-batch數(shù)據(jù)
目前我們手里的數(shù)據(jù)為csv形式的兩列數(shù)據(jù),一列字符串text,一列數(shù)字label。label部分不需要再處理了,不過text部分跟可訓(xùn)練的數(shù)據(jù)還差得遠(yuǎn)。
假設(shè)每個(gè)詞對(duì)應(yīng)的詞向量維度為 D i m Dim Dim,每一個(gè)樣本的分詞后的長(zhǎng)度已知設(shè)為 W = 1000 W=1000 W=1000,每個(gè)mini-batch的大小為 N N N。那么我們希望得到的是一個(gè)個(gè)維度為 N ? W ? D i m N*W*Dim N?W?Dim的浮點(diǎn)數(shù)數(shù)據(jù)作為mini-batch輸入到模型。
于是還需要以下幾個(gè)步驟:
分詞去除停用詞建立詞匯表(詞匯表是詞語到index的映射,index從0到M,M為已知詞匯的個(gè)數(shù),形如{'可愛‘:0, ‘美好':1,…})將分詞且去除停用詞之后的數(shù)據(jù)轉(zhuǎn)換為下標(biāo)數(shù)據(jù),維度應(yīng)該為 N a l l ? W N_{all}*W Nall??W, N a l l N_{all} Nall?是所有樣本的數(shù)量。其中長(zhǎng)度不足W的樣本在后面補(bǔ)特定字符,長(zhǎng)度超過W的樣本截?cái)?。將?shù)據(jù)分割為一個(gè)個(gè) N ? W N*W N?W大小的mini-batch作為模型的輸入。根據(jù)mini-batch數(shù)據(jù)向詞向量中映射得到 N ? W ? D i m N*W*Dim N?W?Dim大小的最終輸入。(這步在模型中)
看起來復(fù)雜哭了,手動(dòng)處理起來確實(shí)有些麻煩。不過后來發(fā)現(xiàn)跟pytorch很相關(guān)的有個(gè)包torchtext能夠很方便的做到這幾步,所以直接來介紹用這個(gè)包的做法。
在貼代碼之前先貼兩個(gè)torchtext的教程。torchtext入門教程 還是不懂的話看torchtext文檔。 還還是不懂請(qǐng)直接看源碼。對(duì)照教程看以下代碼。
首先是分詞函數(shù),寫為有一個(gè)參數(shù)的函數(shù):
def tokenizer(x): res = [w for w in jieba.cut(x)] return res
接著是停用詞表,在網(wǎng)上找的一個(gè)停用詞資源(也可以跳過這步):
stop_words = [] print('build stop words set') with open('data/stopwords.dat') as f: for l in f.readlines(): stop_words.append(l.strip())
然后設(shè)定TEXT和LABEL兩個(gè)field。定義以及參數(shù)含義看上面的文檔或教程。
TEXT = data.Field(sequential=True, tokenize=tokenizer,fix_length=1000,stop_words=stop_words) LABEL = data.Field(sequential=False,use_vocab=False)
讀取文件,分詞,去掉停用詞等等。直接一波帶走:
train,valid,test = data.TabularDataset.splits(path='data',train='train.csv', validation='valid.csv',test='test.csv', format='csv', skip_header=True,csv_reader_params={'delimiter':' '}, fields=[('text',TEXT),('label',LABEL)])
建立詞匯表:
TEXT.build_vocab(train)
生成iterator形式的mini-batch數(shù)據(jù):
train_iter, val_iter, test_iter = data.Iterator.splits((train,valid,test), batch_sizes=(args.batch_size,args.batch_size,args.batch_size), device=args.device, sort_key=lambda x:len(x.text), sort_within_batch=False, repeat=False)
That's all! 簡(jiǎn)單得令人發(fā)指!雖然為了搞懂這幾個(gè)函數(shù)整了大半天。最終的這幾個(gè)xxx_iter就會(huì)生成我們需要的維度為N ? W N*WN?W的數(shù)據(jù)。
3. 模型
模型其實(shí)相對(duì)很簡(jiǎn)單,只有一個(gè)embedding映射,加一層cnn加一個(gè)激活函數(shù)以及一個(gè)全連接。
不過需要注意使用不同大小的卷積核的寫法。
可以選擇使用多個(gè)nn.Conv2d然后手動(dòng)拼起來,這里使用nn.ModuleList模塊。其實(shí)本質(zhì)上還是使用多個(gè)Conv2d然后拼起來。
import torch import torch.nn as nn import torch.nn.functional as F class textCNN(nn.Module): def __init__(self, args): super(textCNN, self).__init__() self.args = args Vocab = args.embed_num ## 已知詞的數(shù)量 Dim = args.embed_dim ##每個(gè)詞向量長(zhǎng)度 Cla = args.class_num ##類別數(shù) Ci = 1 ##輸入的channel數(shù) Knum = args.kernel_num ## 每種卷積核的數(shù)量 Ks = args.kernel_sizes ## 卷積核list,形如[2,3,4] self.embed = nn.Embedding(Vocab,Dim) ## 詞向量,這里直接隨機(jī) self.convs = nn.ModuleList([nn.Conv2d(Ci,Knum,(K,Dim)) for K in Ks]) ## 卷積層 self.dropout = nn.Dropout(args.dropout) self.fc = nn.Linear(len(Ks)*Knum,Cla) ##全連接層 def forward(self,x): x = self.embed(x) #(N,W,D) x = x.unsqueeze(1) #(N,Ci,W,D) x = [F.relu(conv(x)).squeeze(3) for conv in self.convs] # len(Ks)*(N,Knum,W) x = [F.max_pool1d(line,line.size(2)).squeeze(2) for line in x] # len(Ks)*(N,Knum) x = torch.cat(x,1) #(N,Knum*len(Ks)) x = self.dropout(x) logit = self.fc(x) return logit
4. 訓(xùn)練腳本
import os import sys import torch import torch.autograd as autograd import torch.nn.functional as F def train(train_iter, dev_iter, model, args): if args.cuda: model.cuda(args.device) optimizer = torch.optim.Adam(model.parameters(), lr=args.lr) steps = 0 best_acc = 0 last_step = 0 model.train() print('training...') for epoch in range(1, args.epochs+1): for batch in train_iter: feature, target = batch.text, batch.label #(W,N) (N) feature.data.t_() if args.cuda: feature, target = feature.cuda(), target.cuda() optimizer.zero_grad() logit = model(feature) loss = F.cross_entropy(logit, target) loss.backward() optimizer.step() steps += 1 if steps % args.log_interval == 0: result = torch.max(logit,1)[1].view(target.size()) corrects = (result.data == target.data).sum() accuracy = corrects*100.0/batch.batch_size sys.stdout.write(' Batch[{}] - loss: {:.6f} acc: {:.4f}$({}/{})'.format(steps, loss.data.item(), accuracy, corrects, batch.batch_size)) if steps % args.dev_interval == 0: dev_acc = eval(dev_iter, model, args) if dev_acc > best_acc: best_acc = dev_acc last_step = steps if args.save_best: save(model,args.save_dir,'best',steps) else: if steps - last_step >= args.early_stop: print('early stop by {} steps.'.format(args.early_stop)) elif steps % args.save_interval == 0: save(model,args.save_dir,'snapshot',steps)
訓(xùn)練腳本中還有設(shè)置optimizer以及l(fā)oss的部分。其余部分比較trivial。
模型的保存:
def save(model, save_dir, save_prefix, steps): if not os.path.isdir(save_dir): os.makedirs(save_dir) save_prefix = os.path.join(save_dir,save_prefix) save_path = '{}_steps_{}.pt'.format(save_prefix,steps) torch.save(model.state_dict(),save_path)
eval函數(shù),用來評(píng)估驗(yàn)證集與測(cè)試集合上的準(zhǔn)確率acc。
def eval(data_iter, model, args): model.eval() corrects, avg_loss = 0,0 for batch in data_iter: feature, target = batch.text, batch.label feature.data.t_() if args.cuda: feature, target = feature.cuda(), target.cuda() logit = model(feature) loss = F.cross_entropy(logit,target) avg_loss += loss.data[0] result = torch.max(logit,1)[1] corrects += (result.view(target.size()).data == target.data).sum() size = len(data_iter.dataset) avg_loss /= size accuracy = 100.0 * corrects/size print(' Evaluation - loss: {:.6f} acc: {:.4f}%({}/{}) '.format(avg_loss,accuracy,corrects,size)) return accuracy
5. main函數(shù)
這暫時(shí)就不貼了??梢詤⒖枷乱徊糠纸o出的github。
最終在測(cè)試集合上accuracy為97%(畢竟只是四分類)。
但是遇到個(gè)問題就是隨著accuracy上升,loss也在迅速增大。
在一番探究之后大致得出結(jié)論就是,這樣是沒問題的。比如在本例中是個(gè)四分類,加入全連接層輸出的結(jié)果是[-10000,0,0,10000],而正確分類是0。
那么這就是個(gè)錯(cuò)誤的結(jié)果。計(jì)算一下這個(gè)單個(gè)樣例的loss。先算softmax,約等于[ e ? 20000 , e ? 10000 , e ? 10000 , 1 e^{-20000},e^{-10000},e^{-10000},1 e?20000,e?10000,e?10000,1]。真實(shí)的label為[1,0,0,0],因此交叉熵為20000。
所以我們發(fā)現(xiàn)這一個(gè)錯(cuò)誤樣例的loss就會(huì)這么大。最終的loss大一些也是正常的。
不過為什么隨著accuracy接近100%而導(dǎo)致loss迅速增加這個(gè)問題還需要進(jìn)一步研究。大概是因?yàn)殡S著accuracy升高導(dǎo)致結(jié)果接近訓(xùn)練集的分布,這樣與驗(yàn)證集或測(cè)試集的分布產(chǎn)生比較極端差別的個(gè)例會(huì)增加。
6.引用
代碼部分參考了很多這位老哥的github,在此感謝。跟他不一樣的地方主要是數(shù)據(jù)處理部分。
以上就是pytorch怎么用CNN實(shí)現(xiàn)文本分類的全部?jī)?nèi)容,希望能給大家一個(gè)參考,也希望大家多多支持W3Cschool。