AI听曲识歌!哼曲、口哨吹,都能秒识! ⛵

人工智能128

AI听曲识歌!哼曲、口哨吹,都能秒识! ⛵

💡 作者:韩信子@ShowMeAI
📘 深度学习实战系列https://www.showmeai.tech/tutorials/42
📘 自然语言处理实战系列https://www.showmeai.tech/tutorials/45
📘 本文地址https://www.showmeai.tech/article-detail/311
📢 声明:版权所有,转载请联系平台与作者并注明出处
📢 收藏ShowMeAI查看更多精彩内容

AI听曲识歌!哼曲、口哨吹,都能秒识! ⛵

音乐是我们日常生活娱乐必不可少的部分,我们会收听电台、欣赏音乐、我们能通过旋律和音色快速分辨歌曲和歌手。

大家都对 QQ 音乐、网易云音乐等 App 中的『听曲识歌』『哼唱识别』功能并不陌生,但是它是怎么样快速从海量歌曲库中找到匹配的这一首的呢?

AI听曲识歌!哼曲、口哨吹,都能秒识! ⛵

今天 ShowMeAI 就来和大家聊一聊音频检索的技术,实际上音频检索技术有非常广泛的应用场景,除了识歌辨曲,基于实时检索、审查和监控还可以很有效地保护版权。

💡 核心技术

音频检索的核心流程如图所示,我们会对已知歌曲抽取特征并构建特征向量库,而对于待检索的歌曲音频,同样做特征抽取后进行比对和匹配。其中最核心的技术就是『特征提取』和『海量向量数据匹配检索』。

AI听曲识歌!哼曲、口哨吹,都能秒识! ⛵

📌 音频特征提取

我们在上述过程里也可以看到,要经过音频内容特征提取后才能进行后续的相似度检索。而特征提取的质量好坏,直接影响最终的效果。有2大类提取音频特征的方法:

  • 传统统计模型:经典的高斯混合模型 (GMM) 和隐马尔可夫模型 (HMM) 等。
  • 深度学习模型:循环神经网络、长短期记忆 (LSTM)、编码-解码框架和注意力机制模型等。

随着深度学习神经网络技术的不断革新突破,在音频的表征能力上优于传统方法,基于深度学习的音频特征提取技术正逐渐成为音频处理领域的核心技术。

在本篇内容中,特征提取的部分使用的是基于深度学习网络的 📘PANNs (Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition); 模型提取音频的特征向量。PANNs 模型的平均准确率 (mAP) 0.439 高于 Google 的0.317。

而提取音频数据的特征向量表征后,我们可以通过 Milvus 实现高性能的特征向量比对检索,关于 Milvus 的介绍可以参考 ShowMeAI 的文章 📘使用Milvus向量数据库进行可扩展的快速相似性搜索

📌 向量检索引擎

在众多海量数据的场景下进行向量检索,都会采用Milvus这款开源的向量相似度搜索引擎,它具备高效的检索速度和精准的检索精度。

实际上,非结构化的数据,基于深度学习等模型进行特征表征后,都可以借助 Milvus 搭建检索系统,它的整体工作流程如下:

AI听曲识歌!哼曲、口哨吹,都能秒识! ⛵

典型的步骤为以下3步:

① 基于深度学习模型,将非结构化数据(图像、视频、语音、文本)转化为表征特征向量。
② 将特征向量存储到 Milvus 并对特征向量构建索引。
③ 对检索数据提取特征并进行向量相似性检索,返回结果。

💡 系统搭建

下面我们搭建基本的音频检索系统,总体包含2个核心板块:

  • 音频特征抽取与索引构建(下图黑线所示)。
  • 音频数据检索(下图红线所示)。

AI听曲识歌!哼曲、口哨吹,都能秒识! ⛵

对应的项目在 Milvus 的官方项目中已开源,地址为 📘Audio Similarity Search;,其中使用到的示例数据为开源游戏声音数据。

📌 第一步:特征抽取&索引构建

在 Google drive 中下载示例数据(也可以通过 ShowMeAI 的百度网盘地址下载),

🏆 实战数据集下载(百度网盘):公众号『ShowMeAI研究中心』回复『 实战』,或者点击 这里 获取本文 [20]基于深度学习的音频检索技术与系统搭建音频检索示例数据集

ShowMeAI官方GitHubhttps://github.com/ShowMeAI-Hub

遍历文件夹并调用 panns-inference 预训练模型将音频数据转换为特征向量,将得到的特征向量导入到 Milvus 中,Milvus 将返回向量对应的 ID。示例代码如下:

import os
import librosa
import gdown
import zipfile
import numpy as np
from panns_inference import SoundEventDetection, labels, AudioTagging

data_dir = './example_audio'
at = AudioTagging(checkpoint_path=None, device='cpu')

# 下载音频文件
def download_audio_data():
    url = 'https://drive.google.com/uc?id=1bKu21JWBfcZBuEuzFEvPoAX6PmRrgnUp'
    gdown.download(url)
    with zipfile.ZipFile('example_audio.zip', 'r') as zip_ref:
        zip_ref.extractall(data_dir)

# 构建音频特征向量并存储
def embed_and_save(path, at):

    audio, _ = librosa.core.load(path, sr=32000, mono=True)
    audio = audio[None, :]
    try:
        _, embedding = at.inference(audio)
        embedding = embedding/np.linalg.norm(embedding)
        embedding = embedding.tolist()[0]
        mr = collection.insert([[embedding]])
        ids = mr.primary_keys
        collection.load()
        red.set(str(ids[0]), path)
    except Exception as e:
        print("failed: " + path + "; error {}".format(e))

# 遍历与操作
print("Starting Insert")
download_audio_data()
for subdir, dirs, files in os.walk(data_dir):
    for file in files:
        path = os.path.join(subdir, file)
        embed_and_save(path, at)
print("Insert Done")

📌 第二步:向量检索&音频匹配

在这一步中,我们会继续使用 panns-inference 预训练模型对待检索音频提取特征向量,基于 Milvus 在此前导入 Milvus 库的音频数据特征向量中进行检索。根据检索返回结果并输出。示例代码如下:

# 对待检索音频批量抽取特征,返回embedding
def get_embed(paths, at):
    embedding_list = []
    for x in paths:
        audio, _ = librosa.core.load(x, sr=32000, mono=True)
        audio = audio[None, :]
        try:
            _, embedding = at.inference(audio)
            embedding = embedding/np.linalg.norm(embedding)
            embedding_list.append(embedding)
        except:
            print("Embedding Failed: " + x)
    return np.array(embedding_list, dtype=np.float32).squeeze()

random_ids = [int(red.randomkey()) for x in range(2)]
search_clips = [x.decode("utf-8") for x in red.mget(random_ids)]
embeddings = get_embed(search_clips, at)
print(embeddings.shape)

import IPython.display as ipd
# 输出结果
def show_results(query, results, distances):
    print("Query: ")
    ipd.display(ipd.Audio(query))
    print("Results: ")
    for x in range(len(results)):
        print("Distance: " + str(distances[x]))
        ipd.display(ipd.Audio(results[x]))
    print("-"*50)

embeddings_list = embeddings.tolist()

# 检索参数配置
search_params = {"metric_type": "L2", "params": {"nprobe": 16}}

# 使用milvus进行向量检索并返回结果
try:
    start = time.time()
    results = collection.search(embeddings_list, anns_field="embedding", param=search_params, limit=3)
    end = time.time() - start
    print("Search took a total of: ", end)
    for x in range(len(results)):
        query_file = search_clips[x]
        result_files = [red.get(y.id).decode('utf-8') for y in results[x]]
        distances = [y.distance for y in results[x]]
        show_results(query_file, result_files, distances)
except Exception as e:
    print("Failed to search vectors in Milvus: {}".format(e))

💡 系统展示

📌 接口展示

完整的音频检索系统基于FastAPI等搭建完成部署,主要接口功能为音频数据插入与删除。启动服务后,在浏览器中输入 127.0.0.1/docs 可查看所有 API。API 查询页面如下图所示:

AI听曲识歌!哼曲、口哨吹,都能秒识! ⛵

📌 系统演示

接下来大家就可以上传自己的音频数据,体验基于深度学习与Milvus搜索引擎构建的音频检索系统了,部分系统截图如下:

AI听曲识歌!哼曲、口哨吹,都能秒识! ⛵

AI听曲识歌!哼曲、口哨吹,都能秒识! ⛵

💡 参考文献

AI听曲识歌!哼曲、口哨吹,都能秒识! ⛵

Original: https://www.cnblogs.com/showmeai/p/16627799.html
Author: ShowMeAI
Title: AI听曲识歌!哼曲、口哨吹,都能秒识! ⛵



相关阅读

Title: 目标检测--边框回归损失函数SIoU原理详解及代码实现

边框回归损失函数

*
- 1. SIoU
-
+ 1.1 原理
+ 1.2 代码实现

1. SIoU

1.1 原理

有关IoU损失函数,如(GIoU, DIoU, CIoU)没有考虑到真实框与预测框框之间的方向,导致收敛速度较慢,对此SIoU引入真实框和预测框之间的向量角度,重新定义相关损失函数,具体包含四个部分:
(1)角度损失(Angle cost),定义如下
AI听曲识歌!哼曲、口哨吹,都能秒识! ⛵
Λ = 1 − 2 ∗ sin ⁡ 2 ( arcsin ⁡ ( c h σ ) − π 4 ) = cos ⁡ ( 2 ∗ ( arcsin ⁡ ( c h σ ) − π 4 ) ) \Lambda = 1-2\sin^2(\arcsin(\frac{c_h}{\sigma}) - \frac{\pi}{4})=\cos(2(\arcsin(\frac{c_h}{\sigma}) - \frac{\pi}{4}))Λ=1 −2 ∗sin 2 (arcsin (σc h ​​)−4 π​)=cos (2 ∗(arcsin (σc h ​​)−4 π​))
其中c h c_h c h ​为真实框和预测框中心点的高度差,σ \sigma σ为真实框和预测框中心点的距离,事实上arcsin ⁡ ( c h σ ) \arcsin (\frac{c_h}{\sigma})arcsin (σc h ​​)等于角度α \alpha α
c h σ = sin ⁡ ( α ) \frac{c_h}{\sigma}=\sin(\alpha)σc h ​​=sin (α)
σ = ( b c x g t − b c x ) 2 + ( b c y g t − b c y ) 2 \sigma = \sqrt{(b_{c_x}^{gt}-b_{c_x})^2+(b_{c_y}^{gt}-b_{c_y})^2}σ=(b c x ​g t ​−b c x ​​)2 +(b c y ​g t ​−b c y ​​)2 ​
c h = max ⁡ ( b c y g t , b c y ) − min ⁡ ( b c y g t , b c y ) c_h = \max(b_{c_y}^{gt}, b_{c_y}) - \min(b_{c_y}^{gt}, b_{c_y})c h ​=max (b c y ​g t ​,b c y ​​)−min (b c y ​g t ​,b c y ​​)

( b c x g t , b c y g t ) (b_{c_x}^{gt}, b_{c_y}^{gt})(b c x ​g t ​,b c y ​g t ​)为真实框中心坐标( b c x , b c y ) (b_{c_x}, b_{c_y})(b c x ​​,b c y ​​)为预测框中心坐标,可以注意到当α \alpha α为π 2 \frac{\pi}{2}2 π​或0时,角度损失为0,在训练过程中若α < π 4 \alpha < \frac{\pi}{4}α<4 π​,则最小化α \alpha α,否则最小化β \beta β

(2)距离损失(Distance cost),定义如下:
AI听曲识歌!哼曲、口哨吹,都能秒识! ⛵
Δ = ∑ t = x , y ( 1 − e − γ ρ t ) = 2 − e − γ ρ x − e − γ ρ y \Delta = \sum_{t=x,y}(1-e^{-\gamma\rho_t})=2-e^{-\gamma\rho_x}-e^{-\gamma\rho_y}Δ=t =x ,y ∑​(1 −e −γρt ​)=2 −e −γρx ​−e −γρy ​
其中:
ρ x = ( b c x g t − b c x c w ) 2 , ρ y = ( b c y g t − b c y c h ) 2 γ = 2 − Λ \rho_x = (\frac{b_{c_x}^{gt} - b_{c_x}}{c_w})^2, \quad \rho_y= (\frac{b_{c_y}^{gt} - b_{c_y}}{c_h})^2 \quad \gamma = 2 - \Lambda ρx ​=(c w ​b c x ​g t ​−b c x ​​​)2 ,ρy ​=(c h ​b c y ​g t ​−b c y ​​​)2 γ=2 −Λ
注意:这里的( c w , c h ) (c_w, c_h)(c w ​,c h ​)为真实框和预测框最小外接矩形的宽和高

(3)形状损失(Shape cost),定义如下:
Ω = ∑ t = w , h ( 1 − e − w t ) θ = ( 1 − e − w w ) θ + ( 1 − e − w h ) θ \Omega = \sum_{t=w, h}(1-e^{-w_t})^\theta=(1-e^{-w_w})^\theta+(1-e^{-w_h})^\theta Ω=t =w ,h ∑​(1 −e −w t ​)θ=(1 −e −w w ​)θ+(1 −e −w h ​)θ
其中:
w w = ∣ w − w g t ∣ max ⁡ ( w , w g t ) , w h = ∣ h − h g t ∣ max ⁡ ( h , h g t ) w_w=\frac{|w-w^{gt}|}{\max(w, w^{gt})}, \quad w_h=\frac{|h-h^{gt}|}{\max(h, h^{gt})}w w ​=max (w ,w g t )∣w −w g t ∣​,w h ​=max (h ,h g t )∣h −h g t ∣​
( w , h ) (w, h)(w ,h )和( w g t , h g t ) (w^{gt}, h^{gt})(w g t ,h g t )分别为预测框和真实框的宽和高,θ \theta θ控制对形状损失的关注程度,为了避免过于关注形状损失而降低对预测框的移动,作者使用遗传算法计算出θ \theta θ接近4,因此作者定于θ \theta θ参数范围为[2, 6]

(4)IoU损失(IoU cost)
AI听曲识歌!哼曲、口哨吹,都能秒识! ⛵
I o U = 交 集 A 并 集 B IoU=\frac{交集A}{并集B}I o U =并集B 交集A ​

综上所诉,最终SIoU损失函数定义如下:
L o s s S I o U = 1 − I o U + Δ + Ω 2 Loss_{SIoU}=1-IoU+\frac{\Delta + \Omega}{2}L o s s S I o U ​=1 −I o U +2 Δ+Ω​

; 1.2 代码实现

有关SIoU得代码实现如下(来源美团yolov6):

elif self.iou_type == 'siou':

    '''
    预测框和真实框坐标形式为xyxy,即左下右上角坐标或左上右下角坐标
    '''
    s_cw = (b2_x1 + b2_x2 - b1_x1 - b1_x2) * 0.5
    s_ch = (b2_y1 + b2_y2 - b1_y1 - b1_y2) * 0.5
    sigma = torch.pow(s_cw ** 2 + s_ch ** 2, 0.5)
    sin_alpha_1 = torch.abs(s_cw) / sigma
    sin_alpha_2 = torch.abs(s_ch) / sigma
    threshold = pow(2, 0.5) / 2
    sin_alpha = torch.where(sin_alpha_1 > threshold, sin_alpha_2, sin_alpha_1)
    angle_cost = torch.cos(torch.arcsin(sin_alpha) * 2 - math.pi / 2)
    rho_x = (s_cw / cw) ** 2
    rho_y = (s_ch / ch) ** 2
    gamma = angle_cost - 2
    distance_cost = 2 - torch.exp(gamma * rho_x) - torch.exp(gamma * rho_y)
    omiga_w = torch.abs(w1 - w2) / torch.max(w1, w2)
    omiga_h = torch.abs(h1 - h2) / torch.max(h1, h2)
    shape_cost = torch.pow(1 - torch.exp(-1 * omiga_w), 4) + torch.pow(1 - torch.exp(-1 * omiga_h), 4)
    iou = iou - 0.5 * (distance_cost + shape_cost)

loss = 1.0 - iou

Original: https://blog.csdn.net/qq_56749449/article/details/125753992
Author: Gthan学算法
Title: 目标检测--边框回归损失函数SIoU原理详解及代码实现