哪些python庫可以實(shí)現(xiàn)自然語言處理？

猿友 2021-07-27 14:51:46 瀏覽數(shù) (2560)

反饋

自然語言是人類之間相互溝通時(shí)使用的語言，但是自然語言是機(jī)器無法理解的（對(duì)應(yīng)的，機(jī)器與機(jī)器之間采用的是機(jī)器語言進(jìn)行溝通，通俗的來講，就是零和一）。但是我們又需要機(jī)器能處理自然語言，那么現(xiàn)在的機(jī)器能對(duì)自然語言進(jìn)行處理嘛？能，現(xiàn)在的自然語言處理已經(jīng)發(fā)展到了一個(gè)比較成熟的階段，以python為例，python處理自然語言已經(jīng)有很多的第三方庫可供調(diào)用了，接下來這篇文章我們就來了解python有哪些第三方庫可以用來做自然語言處理吧。

一、前言

自然語言是指人類相互交流的語言，而自然語言處理是將數(shù)據(jù)以可理解的形式進(jìn)行預(yù)處理，使計(jì)算機(jī)能夠理解的一種方法。簡單地說，自然語言處理(NLP)是幫助計(jì)算機(jī)用自己的語言與人類交流的過程。

自然語言處理是最廣泛的研究領(lǐng)域之一。許多大公司在這個(gè)領(lǐng)域投資很大。NLP為公司提供了機(jī)會(huì)，讓他們能夠根據(jù)消費(fèi)者的情緒和文本很好地了解他們。NLP的一些最佳用例是檢測假電子郵件、對(duì)假新聞進(jìn)行分類、情感分析、預(yù)測你的下一個(gè)單詞、自動(dòng)更正、聊天機(jī)器人、個(gè)人助理等等。

解決任何NLP任務(wù)前要知道的7個(gè)術(shù)語

標(biāo)記：它是將整個(gè)文本分割成小標(biāo)記的過程。占卜是根據(jù)句子和單詞兩個(gè)基礎(chǔ)來完成的。

text = "Hello there, how are you doing today? The weather is great today. python is awsome"

##sentece tokenize (Separated by sentence)
['Hello there, how are you doing today?', 'The weather is great today.', 'python is awsome']
##word tokenizer (Separated by words)
['Hello', 'there', ',', 'how', 'are', 'you', 'doing', 'today', '?', 'The', 'weather', 'is', 'great', 'today', '.','python', 'is', 'awsome']

停止詞：一般來說，這些詞不會(huì)給句子增加太多的意義。在NLP中，我們刪除了所有的停止詞，因?yàn)樗鼈儗?duì)分析數(shù)據(jù)不重要。英語中總共有179個(gè)停止詞。

詞干提?。核峭ㄟ^去掉后綴和前綴將一個(gè)單詞還原為詞根的過程。

詞形還原：它的工作原理與詞干法相同，但關(guān)鍵的區(qū)別是它返回一個(gè)有意義的單詞。主要是開發(fā)聊天機(jī)器人、問答機(jī)器人、文本預(yù)測等。

WordNet：它是英語語言名詞、動(dòng)詞、形容詞和副詞的詞匯數(shù)據(jù)庫或詞典，這些詞被分組為專門為自然語言處理設(shè)計(jì)的集合。

詞性標(biāo)注：它是將一個(gè)句子轉(zhuǎn)換為一個(gè)元組列表的過程。每個(gè)元組都有一個(gè)形式(單詞、標(biāo)記)。這里的標(biāo)簽表示該單詞是名詞、形容詞還是動(dòng)詞等等。

text = 'An sincerity so extremity he additions.'
--------------------------------
('An', 'DT'), ('sincerity', 'NN'), ('so', 'RB'), ('extremity', 'NN'), ('he', 'PRP'), ('additions', 'VBZ')]

詞袋：它是一個(gè)將文本轉(zhuǎn)換成某種數(shù)字表示的過程。比如獨(dú)熱編碼等。

sent1 = he is a good boy
sent2 = she is a good girl
            |
            |
        girl good boy   
sent1    0    1    1     
sent2    1    0    1

現(xiàn)在，讓我們回到我們的主題，看看可以幫助您輕松預(yù)處理數(shù)據(jù)的庫。

二、NLTK

毫無疑問，它是自然語言處理最好和使用最多的庫之一。NLTK是自然語言工具包的縮寫。由Steven Bird 和Edward Loper開發(fā)的。它帶有許多內(nèi)置的模塊，用于標(biāo)記化、詞元化、詞干化、解析、分塊和詞性標(biāo)記。它提供超過50個(gè)語料庫和詞匯資源。

安裝:?pip install nltk?

讓我們使用NLTK對(duì)給定的文本執(zhí)行預(yù)處理

import nltk
#nltk.download('punkt')
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
import re
ps = PorterStemmer()
text = 'Hello there,how are you doing today? I am Learning Python.'
text = re.sub("[^a-zA-Z0-9]"," ",text)
text = word_tokenize(text)
text_with_no_stopwords = [ps.stem(word) for word in text if word not in stopwords.words('english')]
text = " ".join(text_with_no_stopwords) 
text
-----------------------------------------------OUTPUT------------------------------------
'hello today I learn python'

三、TextBlob

Textblob是一個(gè)簡化的文本處理庫。它提供了一個(gè)簡單的API，用于執(zhí)行常見的NLP任務(wù)，如詞性標(biāo)記、情感分析、分類、翻譯等。

安裝:?pip install textblob?

四、spacy

這是python中最好用的自然語言處理庫之一，它是用cpython編寫的。它提供了一些預(yù)訓(xùn)練的統(tǒng)計(jì)模型，并支持多達(dá)49種以上的語言進(jìn)行標(biāo)記化。它以卷積神經(jīng)網(wǎng)絡(luò)為特征，用于標(biāo)記、解析和命名實(shí)體識(shí)別。

安裝:?pip install spacy?

import spacy
nlp = spacy.load('en_core_web_sm')
text = "I am Learning Python Nowdays"
text2 = nlp(text)
for token in text2:
  print(token,token.idx)
------------------------------OUTPUT-----------------------
I 0
am 2
Learning 5
Python 14
Nowdays 21

五、Gensim

它是一個(gè)Python庫，專門用于識(shí)別兩個(gè)文檔之間的語義相似性。它使用向量空間建模和主題建模工具包來尋找文檔之間的相似之處。它是設(shè)計(jì)用來處理大型文本語料庫的算法。

安裝:?pip install gensim?

六、CoreNLP

Stanford CoreNLP的目標(biāo)是簡化對(duì)一段文本應(yīng)用不同語言工具的過程。這個(gè)庫運(yùn)行速度非?？欤⑶以陂_發(fā)中工作得很好。

安裝:?pip install stanford-corenlp?

到此這篇python處理自然語言的文章就介紹到這了,更多Python學(xué)習(xí)內(nèi)容請(qǐng)搜索W3Cschool以前的文章或繼續(xù)瀏覽下面的相關(guān)文章。

Python

0 人點(diǎn)贊

哪些python庫可以實(shí)現(xiàn)自然語言處理？

一、前言

二、NLTK

三、TextBlob

四、spacy

五、Gensim

六、CoreNLP