自然语言理解难在哪儿?

人工智能64

自然语言理解任务的本质是结构预测,关键则是对语言单元的语义表示能力。

1.1 自然语言理解本质是结构预测

自然语言文本是典型的无结构数据,由语言符号(如汉字)序列构成。 要实现对自然语言的表意的理解,需要建立对该无结构文本背后的语义结构的预测。因此,自然语言理解的众多任务,包括并不限于中文分词、词性标注、命名实体识别、共指消解、句法分析、语义角色标注等,都是在对文本序列背后特定语义结构进行预测。例如,中文分词就是在原本没有空格分隔的句子中增加空格或其他标识,将句子中每个词的边界标记出来,相当于添加了某些结构化语义信息到这个文本序列上。

1.2 自然语言理解的关键是语义表示

要实现对文本的完整理解,需要建立更完备的 语义结构表示空间,这种更完备的语义表示经常成为上述NLP任务进行结构预测的依据。

特征工程:构建特征的过程,就是构建语义结构表示空间。只有这个空间的语义表示能力足够好、足够接近人类理解程度,模型才有可能将人类通过语言要表达的意义进行完美表示和解读。

  • 在统计学习时代,一般采用 符号表示(Symbol-based Representation)方案,即每个词都看做互相独立的符号。例如,词袋模型(Bag-of-Words,BOW)是最常用的文本表示方案,忽略文本中词的出现顺序信息,广泛用于文本分类、信息检索等任务。N-Gram也是基于符号表示的语言模型,与BOW模型相比,将句子中词的出现顺序考虑了进来,曾在机器翻译、文本生成、信息检索等任务中广泛使用。

缺点:符号表示过于粗略,忽略了对词语内部语义或词序信息的考量,无法考虑语言符号背后反映的丰富语义信息;也受到数据稀疏问题的影响

  • 到深度学习时代,一般采用 分布式表示(Distributed Representation或Embeddings)方案,每个语言单元(包括但不限于字、词、短语、句子、文档)都用一个低维稠密向量来表示它们的语义信息。分布式表示是深度学习和神经网络的关键技术。分布式表示方案是受到了人脑神经机制的启发。

缺点:分布式表示虽然具有更强大的表示能力和自由度,但目前只能通过特定任务下的数据学习,只能建立满足特定需求的语义表示,一方面缺少可解释性,鲁棒性差,另一方面通用性和迁移性不足。这些与人脑展现的语义表示能力相比,还有千里之遥。

  • 创新性
  • 递归性
  • 多义性
  • 主观性
  • *社会性

  • *结构语义表示空间构建

让计算机理解人类语言,需要建构结构化的语义表示空间,只有这个空间的语义表示能力能够与人类心智相媲美,才有可能将人类通过语言要表达的意义进行完美表示和解读。同时,这个语义表示空间还要接受客观世界的校正,消除人类认知中存在的偏见和缺陷,让人工智能更好地服务人类社会。

现在的语义表示方案中,符号表示过于粗略,无法考虑语言符号背后反映的丰富语义信息;而分布式表示虽然具有更强大的表示能力和自由度,但目前只能通过特定任务下的数据学习,只能建立满足特定需求的语义表示,一方面缺少可解释性,鲁棒性差,另一方面通用性和迁移性不足。这些与人脑展现的语义表示能力相比,还有千里之遥。

未来,需要探索更强大的结构化语义表示空间。例如,是否可以 将分布式表示与符号表示相结合,既保留分布式表示的泛化能力,又兼顾模块化和层次化符号表示带来的抽象能力。也许这是下一轮自然语言理解取得革命进展的突破口之一。

  • *多模态复杂语境的理解

人类并非孤立地使用语言,语言使用需要考虑其复杂的语境。以语言的多义性为例,存在多义的语言单元,总 需要其外部的复杂语境信息进行消歧:字的多义性至少需要所组成的词来消歧;词的歧义性至少需要所在的句子来消歧;句子的意思至少要放在语篇或对话语境中,甚至需要复杂的世界知识来帮助理解。

Original: https://blog.csdn.net/qq_27586341/article/details/123519687
Author: 满腹的小不甘_静静
Title: 自然语言理解难在哪儿?