自然语言处理NLP程序包(NLTK/spaCy)使用总结

人工智能81

NLTK和SpaCy是NLP的Python应用,提供了一些现成的处理工具和数据接口。下面介绍它们的一些常用功能和特性,便于对NLP研究的组成形式有一个基本的了解。

NLTK

Natural Language Toolkit (NLTK) 由宾夕法尼亚大学开发,提供了超过50种语料库,以及一些常用的文本处理函数,例如分词(Tokenization)、词干(Stemming)、词性标记(Tagging)等。

下面主要介绍WordNet语料库,其它方法和接口等用到了再进行记录。

WordNet

在WordNet中,每个词由于可以有多重词义,因此会被包含在多个同义词集中。每个同义词集中又包含多个这个意思下的所有词汇(Lemma, 词元)。WordNet还对所有词义(动词和名词)进行了包含与被包含关系的层次排序。因此词义之间得以组成一种树状结构。此外,WordNet还包含量化两个词之间相似度的方法。

同义词集

同义词集用三元组表示,如下展示了channel被包含的所有同义词集:

```
import nltk
from nltk.corpus import wordnet
a = wordnet.synsets('channel')

输入验证码查看隐藏内容

扫描二维码关注本站微信公众号 Johngo学长
或者在微信里搜索 Johngo学长
回复 svip 获取验证码
wechat Johngo学长

相关文章
人工智能

LSTM在微博情绪分类中有什么应用

你好,这篇文章咱们讨论一下关于「LSTM在微博情绪分类中有什么应用」的事情... LSTM在微博情绪分类中的应用 一、引言 微博是中国广大网民经常使用的社交媒体平台之一,每天都有大量的用户在上面发布各...
人工智能

Python学习笔记

Python jieba库 一、jieba库的安装 二、jieba库使用说明 * ①jieba分词的四种模式 ②jieba库常用函数 三、代码实例 * ①精确模式分词 ②全模式分词 ③搜索引擎模式分词...
人工智能

NLP之文本预处理详解

入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。 Ps预防针:与英文分类文本预处理相比,中文分类文本预处理更加复杂关键 一、进行文本预处理的原因...