你好,这篇文章咱们讨论一下关于「特征提取在声音分类算法中的作用是什么」的事情...
特征提取在声音分类算法中的作用
引言
随着技术的不断进步,人工智能的应用越来越广泛。在这其中,基于声音的分类算法扮演了非常重要的角色,从语音识别到音频搜索,以及音乐鉴别和广告监控等领域,都需要进行声音分类。在声音分类算法中,特征提取是一个非常关键的环节。本文将介绍特征提取在声音分类算法中的作用、特征提取的方法、特征选择的方法以及特征提取的局限性。
特征提取的作用
在声音分类算法中,声音信号本身是一种时间序列信号,但是直接使用这种时序信号进行分类并不是非常有效。因为声音信号通常包含着非常多的冗余信息,不利于机器的学习和分类。因此,需要对声音信号进行特征提取,将声音信号转化为具有代表性的特征向量。
通常情况下,声音信号会被转换成频域信号,然后在频域上提取各种特征。这些特征包括语音的基频、共振峰的位置和频率、时频特征等。通过这些特征,不仅可区分时间上不同的声信号,也方便后续进行分类学习。
特征提取的目的是为了减少分析的复杂度。一些特征可以完全描述所有特征,并且还能保留可以进行分类的重要信息。所以将声音信号转化为代表性特征向量,进而提高分类器的性能。
特征提取的方法
在声音分类算法中,常用的特征提取方法有以下四种。
-
时域特征提取:时域特征提取是在时间域内提取声音信号的各种统计特征。例如利用该时间段内的平均值、方差和能量等统计信息进行特征选择和分类。 然后,这些特征将被用于训练和测试分类器,从而得出最终的分类结果。
-
频域特征提取:频域特征提取是在傅里叶变换后的信号中提取各种频率特征。为了减少特征的数量,通常采用多个前置滤波器来提取感兴趣的频率范围,然后利用基频、共振峰、噪音等特征进行分类。
-
时频域特征提取:时频域特征提取结合了时间和频率两个维度,利用声谱图等时频空间图像获取特征提取。这些特征包括短时能量、零交叉率等信息,同时基于小波变换提取的时频特征也被广泛应用于噪音和语音的分类。
-
非线性特征提取:非线性特征提取通常是通过非线性函数计算特征,例如乘法、幂、根、拟合曲线以及卷积等转换方法计算声音信号的各种特征。这些方法的使用可以提高特征的鉴别性,也可以增加分类器的准确性。
特征选择的方法
特征选择是对已提取的特征进行筛选和选择的过程。因为特征数量过多,而分类器的学习和分类都需要计算这些特征。因此,在确保保留基本特征的同时,减少特征数量可以提高分类器的速度和精度。通常采用以下两种方式进行特征选择。
-
过滤式特征选择:过滤式特征选择独立于机器学习和分类器学习,它通过计算与分类目标有关的特征,根据某些标准确定保留和丢弃的特征。例如利用卡方检验、互信息、相关系数等方法确定每个特征的分类相关性,然后基于阈值筛选特征。
-
包装式特征选择:包装式特征选择是在特征提取和分类器学习之间进行,通过评估分类器性能来评估特征选择的质量。例如利用交叉验证方法评估分类器的预测性能,并在测试时剔除不相关特征。
特征提取的局限性
特征提取在声音分类算法中很重要,但是仍然存在局限性。
-
不同的声音通常需要不同的特征向量才能分类。找到适合其特定声音和应用的特征向量是声音分类的一个挑战。
-
基于特征提取的声音分类算法通常受到噪声和变形的影响,这可能导致错误分类。
-
特征提取可能会忽略声音信号的时间序列特征,这些特征与很多声音分类应用相关。此外,在没有足够清晰的特征时,可以从时间序列中提取更多信息。
结论
在声音分类算法中,特征提取是非常重要的。在选择合适的特征提取方法并利用特定的特征选择技术之后,可以有效地分类各种声音信号。尽管特征提取存在一些局限性,但是在科学和工程实践中表现出了很好的分类性能。
大家都在看:
实体对齐(一):Collective Multi-type Entity Alignment Between Knowledge Graph
最近机缘巧合的了解了一些关于知识图谱应用的前沿研究,发现在很多新的研究内容中,实体对齐这样的一个传统任务依然有很大的研究价值。借实验室组会主讲的机会,特地学习了几篇实体对齐的文章,现整理这一项关于知识图谱中的多实体类型对齐的工作,对于其他几个相关工作会后续补充。
论文的基本情况
"Collective Multi-type Entity Alignment Between Knowledge Graph"发表于WWW2020会议上,研究团队为伊利诺伊大学厄巴纳-香槟分校和亚马逊,第一及通讯作者为Qi Zhu。主要研究内容为提出一种名为CG-MuAlign的多实体对齐框架,充分考虑了知识图谱中多类型特征,并将实体和关系构成一种"合作"关系,在提升实体对齐效果的同时,算法可以扩展到大规模知识图谱和无标注实体中。
1、引言
图1 多类型实体对齐示例
知识图谱中的实体对齐旨在识别不同的知识图谱中指代相同现实实体的那些实体。实体对齐也通常理解为实体匹配(或实体解析),用于匹配多关系数据库中相同记录。如图1所示,实体对齐的最终目标是需要确定IMDB数据库中的 Aditya Raj 和Freebase数据库中的 Aditya Raj Kappor 在现实世界中指向的是同一个事实(或实体)。
之前的实体对齐研究基本都是在单类型实体对齐任务中开展的,也就是说,它们面向的是只有一种实体类型的知识图谱。而现实中,很多知识图谱中的实体是属于不同类型的,例如图1中的 "Sambar Salsa" 既可以是 "书(type)" 也可以是 "电影(type)"。在多类型实体的知识图谱中,实体在不同的场景中属于不同的类型。类似的,关系也是一种多类型的,如 "write" 和 "produce"等。解决多类型实体对齐的一种方式是将单类型实体的对齐方法迁移到多类型实体对齐任务上。这种方法可能适应于实体类型数较少的情况,但是当知识图谱种实体类型数过多时,这种做法的弊端也就显而易见了。
- 为多类型实体进行标注和训练一个百余种,甚至更多的实体对齐模型是十分复杂和昂贵的。
- 某个实体也可能属于多个重叠的类型(比如,人既可以是作家,也可以是演员),这就导致选择哪一种类型相关的对齐模型来处理这样的复合多类型实体也是十分困难的。
- 知识图谱中不同形式的稀疏性导致仅从结构特征中去表示实体,进而对齐实体是不可行的。(在论文中,作者通过使用变种GNN直接进行实体对齐发现效果极差,这就是因为同一实体在不同知识图谱中的邻域结构是不同的,所以仅通过GNN捕获的结构特征在实体表示时是不充分的。例如图1中,IMDB知识图谱中的Aditya Raj的邻居实体有4个,而Freebase知识图谱中的Aditya Raj Kapoor的邻居实体只有两个。)
以上述三 个现实性问题为靶向,作者提出了一种融合图神经网络(GNN)的多类型实体对齐方法,名为CG-MuAlign (Collective Graph neural network for Multi-type entity Alignment)。算法设计的思路是对实体的多个类型进行联合对齐,主要是通过设计attention机制来将实体邻域的正向信息(positive evidence)和比较有效的负向信息(negative evidence)进行"合作(collective)"。
对于实体而言,作者设计了一种名为"cross-graph attention" 的注意力方法来捕获目标实体在两个图中的更为相似的邻域结构(关键性实体赋予更大的权重),得到目标实体更为精确的向量表示。对于关系而言,作者设计了一种基于关系的自注意力机制,名为"relation-aware self-attention", 来防止仅根据实体的邻域相似盲目地对齐实体。因为在知识图谱中,通常会存储一些相似实体,但是表示的事实却不相同。例如一个系列的电影会由相同的导演和演员组成,但是它们上映的时间决定了其不属于相同的实体。这种基于关系的自注意力就是为了解决这样的一个问题。
CG-MuAlign算法与其他多类型实体对齐模型相比,主要有以下的几个大的方向改进,如表1所示。
表1 CG-MuAlign 算法与其他多类型实体对齐算法的对比
表1中,"Inductive(归纳式)" 指的是CG-MuAlign算法可以实现利用节点表示并泛化于新的节点【其实这点我没有太明白,因为作者并没有给出此处"Inductive"的定义。如果按照论文"Inductive representation learning on large graphs"中给出的归纳式定义,它旨在通过节点的邻居节点表示来解决当前网络中未出现的节点表示的问题,是一个启发式的表示过程。作者在这里貌似指的是通过小样本标注数据实现对未标注的实体类型进行表示。这是否能被定义为归纳式?我是有疑惑的。(仅是个人观点,这点也不影响对论文框架的学习)】。"Predicate"指的是CG-MuAlign算法对关系的不同语义进行了建模。"Collective"指的是CG-MuAlign算法集成了实体的邻域证据(evidence)。"Multi-type"指的是CG-MuAlign算法能够使用单个模型解决多类型实体对齐的任务。"Scalable"指的是CG-MuAlign算法可以扩展到百万级的实体量级中。
2、问题定义
一个知识图谱G被定义成一个具有多类型节点和边的图。代表实体,
代表关系。形式化定义如下:
,其中
,
分别是从实体(或关系)到其类型的映射。给定两个具体领域的知识图谱
和
,点(实体)和边(关系)的类型分别是
,
。假如在知识图谱中有提前对齐的节点和边类型,即
和
,并且在这样一个类型对齐的节点和关系中,有基本可用的真实节点对
。在真实的知识图谱中,可用的节点对S是远小于实体数量V的。
基于以上形式化定义,知识图谱的实体对齐的定义如下所示。
3、方法框架
3.1 方案总览
实体对齐的问题被定义成一种分类问题。用于分类两个节点是否代表同一个真实世界的实体,框架图如图2所示。
[En]
The problem of entity alignment is defined as a classification problem. Used to classify whether two nodes represent the same real-world entity, as shown in figure 2.
图2 CG-MuAlign算法框架图
模型包括两个GNN编码器和一个实体对齐损失函数层。GNN编码层的输入为以节点为目标实体从知识图谱中导出的一个 K跳子图,通过聚集目标实体的邻域信息得到节点的表示输出。通常情况下,GNN的第k层的表示公式、最终的实体表示输出和边界铰合损失函数("marginal hinge loss")如下所示。
其中,损失函数的距离选择是两个实体向量的2范数。从第二个公式中可以看出,经过GNN的特征提取后,每个实体的向量表示()是由GNN的最后一层和前一层的向量拼接组合而成的。
3.2 GNN编码
因为论文要解决的是多类型实体的对齐问题,所以,CG-MuAlign算法首先根据不同的关系类型给目标实体聚集了一个邻域(,其中 i 表示邻域节点, _r_表示具体的某种关系类型)。获得邻域(也就是k跳子图)后,每个邻域被输入到不同的transform,
,这样就可以针对目标实体不同的邻域信息获得不同的类型表示。例如图1中,根据 "write" 这个关系可以为 "Aditya Raj"实体构建邻域
={ Don't stop Dreaming, Shamaal: The Sandstorm, Sambar Salsa},根据 "edit" 关系可以为 "Aditya Raj"构建邻域
={ Gawaahi}. 将这两个不同的邻域输入到不同的transform中,就可以得到 "Aditya Raj"实体在不同类型中的具体表示。
transform实质上还是一个结构信息提取器,所以它跟GNN有着相同的问题,就是只侧重邻域结构特征的相似。因此这里提出了一个node-level attention () 和 edge-level attention (
),将transform的输出表示在这两种attention方式的基础上进行结合,如公式
, 其中
表示实体
的邻域中的其他实体。最后的输出向量是GNN的前一层和当前层状态表示的拼接。
3.2.1 Node-level Cross-graph Attention
节点级别的attention主要是为了解决 问题3(见引言)。 当前很多知识图谱都存在不同程度的实体信息缺失,这就使得不同的知识图谱对同一实体的构建并不能保证完全一致,所以很多结构导向的实体对齐模型很难保证一个稳定的实体对齐效果。而在CG-MuAlign算法中,作者通过设计这样一个attention()去关注更能体现目标实体是相似的那些邻域实体。示意图如图3所示
图3 节点级的注意示意图
给定一个可能的候选实体对 ,其中每个实体的邻域分别为
和
,因此针对两个邻域中的任意节点对
,它们的注意力偏重计算为
和
是通过transform计算得到的实体表示。在实际计算中,
和
分别是交叉图注意力矩阵按行和按列正则化的向量。
节点级注意力权重主要做了这样的一件事:就是计算某个实体A的邻域中的每个实体和实体B的邻域中所有实体之间的累积相似度。如果实体
的累积相似度大于实体
,那么
. 说明实体
对于评估实体A和实体B是否是相同的实体的作用更大。
3.2.2 Edge-level Relation-aware Self-attention
在节点attention()中,可以看到,它认为那些与目标节点存在关系的正向信息都是同等重要的(即 不衡量关系的重要顺序)。然而实际上,对于不同实体之间的关系,其重要性也是存在差异的。例如同样的一个 "Radioactive(一首歌)" 实体, perform_by 就要比 write_by 更富有信息。因此,CG-MuAlign引入了一种基于关系的自注意力来突出不同类型的关系对实体的影响。如图4所示。
图4 基于关系的自注意力示意图
计算公式为,是一个元组(实体,关系,实体)中两个实体表示的线性正则表示。
3.2.3 Scaling up
论文给出了将CG-MuAlign扩展到大规模知识图谱中的理论证明,有兴趣的朋友可以参考论文学习。
4、实验结果与分析
4.1 数据集
论文使用了两类数据集,分别为来自IMDB和Freebase的电影数据(Movie)和来自Amazon和Wikipedia的音乐数据集(Music)。这两类数据集的总体统计和分别统计表2所示。
表2 实验所用数据集。自上而下分别为总体统计、Movie数据集统计和Music数据集统计
4.2 实验结果
表3 多类型实体对齐的实验结果
此处只列出了CG-MuAlign在实体对齐上的结果。论文中给出了充分的实验结果展示,从多个维度刻画了CG-MuAlign的有效性,尤其实在无标注类型的实体对齐上同样取得很好的效果。可以参阅论文查看具体的实验结果。在此不做描述。
5. 结论
在近几年的研究工作中,纯粹基于知识图谱开展研究的工作其实还挺少的。大多数工作都将知识图谱作为一种外部资源引入,所以这篇文章可以说是在图谱上开展的一项研究任务,对于知识图谱的研究和扩展是有很大帮助的。论文提出的CG-MuAlign算法提供了一种结合图神经网络和注意力机制的多类型实体对齐的研究思路。它在多个数据集上都超过了当前的很多算法,所以做这个方向的朋友们今后势必需要跟此方法进行对比,还是建议仔细阅读一下论文,更深的了解一下这项工作吧。
此外,还有两项知识图谱中实体对齐的工作也值得我们参考,分别是发表于2018年EMNLP的 " Cross-lingual Knowledge Graph Alignment via Graph Matching Neural Network",用于解决跨语言的知识图谱实体对齐,和发表于2020年EMNLP的 " Knowledge Graph Alignment with Entity-Pair Embedding",用于解决通用领域知识图谱的实体对齐。
Original: https://blog.csdn.net/sinat_28978363/article/details/110458791
Author: angel_峰起云涌
Title: 实体对齐(一):Collective Multi-type Entity Alignment Between Knowledge Graph