为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

[好看的推理小说推荐]好看的小说 推荐

2017-09-01 16页 doc 37KB 170阅读

用户头像

is_562397

暂无简介

举报
[好看的推理小说推荐]好看的小说 推荐(19)国家知识产权局(12)发明专利(10)授权公告号CN112863492B(45)授权公告日2022.06.10(21)申请号202011624897.7G10L15/183(2013.01)(22)申请日2020.12.31G10L15/26(2006.01)G10L19/16(2013.01)(65)同一申请的已公布的文献号G10L25/24(2013.01)申请公布号CN112863492AG06N3/04(2006.01)(43)申请公布日2021.05.28G06N3/08(2006.01)(73)专利权人思必...
[好看的推理小说推荐]好看的小说 推荐
(19)国家知识产权局(12)发明专利(10)授权公告号CN112863492B(45)授权公告日2022.06.10(21)申请号202011624897.7G10L15/183(2013.01)(22)申请日2020.12.31G10L15/26(2006.01)G10L19/16(2013.01)(65)同一申请的已公布的文献号G10L25/24(2013.01)申请公布号CN112863492AG06N3/04(2006.01)(43)申请公布日2021.05.28G06N3/08(2006.01)(73)专利权人思必驰科技股份有限公司审查员徐丽华地址215123江苏省苏州市苏州工业园区新平街388号腾飞创新园14栋(72)发明人俞凯 吴梦玥 徐薛楠 丁翰林 (74)专利代理机构北京商专永信知识产权代理事务所(普通合伙)11400专利代理师黄谦 邓婷婷(51)Int.Cl.G10L15/06(2013.01)G10L15/16(2006.01)权利要求书1页书10页附图6页(54)发明名称声音事件定位模型训练方法和装置(57)摘要本发明公开声音事件定位模型训练方法和装置,其中,一种声音事件定位模型训练方法,包括:响应于输入音频和与所述输入音频对应的描述声音事件的短语,利用音频编码器将所述输入音频编码成特征向量序列,利用短语编码器将所述描述声音事件的短语编码成文本短语向量,其中,所述特征向量序列由所述音频中每个时刻的音频特征向量组成;计算所述文本短语向量与所述每个时刻的音频特征向量的相似度;基于相似度确定声音事件对应的开始时间和结束时间形成第一数据集的标注,基于对所述输入音频的声音事件标注形成第二数据集的标注;以及通过最小化所述第一数据集的标注和所述第二数据集的标注之间的损失训练所述音频编码器和所述短语编码器。CN112863492BCN112863492B权 利 要 求 书1/1页1.一种声音事件定位模型训练方法,包括:响应于输入音频和与所述输入音频对应的描述声音事件的短语,利用音频编码器将所述输入音频编码成特征向量序列,利用短语编码器将所述描述声音事件的短语编码成文本短语向量,其中,所述特征向量序列由所述音频中每个时刻的音频特征向量组成;计算所述文本短语向量与所述每个时刻的音频特征向量的相似度;基于相似度确定声音事件对应的开始时间和结束时间形成第一数据集的标注,基于对所述输入音频的声音事件标注形成第二数据集的标注;通过最小化所述第一数据集的标注和所述第二数据集的标注之间的损失训练所述音频编码器和所述短语编码器。2.根据权利要求1所述的方法,其中,所述基于对所述输入音频的声音事件标注形成第二数据集的标注包括:从音频—自动文本摘要数据集中,对文本摘要提取短语,标注所提取的短语所对应的声音事件的开始结束时间,得到第二数据集的标注。3.根据权利要求1所述的方法,其中,所述基于对所述输入音频的声音事件标注形成第二数据集的标注包括:对音频事件检测的音频和声音事件标注对应的自然语言描述,得到音频—自然语言—声音事件的第二数据集的标注。4.根据权利要求1所述的方法,其中,所述描述声音事件的短语包括名词短语以及名词短语和动词短语的组合。5.根据权利要求4所述的方法,其中,所述音频编码器采用卷积递归神经网络。6.根据权利要求1‑5中任一项所述的方法,其中,所述损失为二进制交叉熵损失。7.一种声音事件定位模型训练装置,包括:编码模块,配置为响应于输入音频和与所述输入音频对应的描述声音事件的短语,利用音频编码器将所述输入音频编码成特征向量序列,利用短语编码器将所述描述声音事件的短语编码成文本短语向量,其中,所述特征向量序列由所述音频中每个时刻的音频特征向量组成;计算模块,配置为计算所述文本短语向量与所述每个时刻的音频特征向量的相似度;标注模块,配置为基于相似度确定声音事件对应的开始时间和结束时间形成第一数据集的标注,基于对所述输入音频的声音事件标注形成第二数据集的标注;训练模块,配置为通过最小化所述第一数据集的标注和所述第二数据集的标注之间的损失训练所述音频编码器和所述短语编码器。8.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。9.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。2CN112863492B说 明 书1/10页声音事件定位模型训练方法和装置技术领域[0001]本发明属于声音事件定位技术领域,尤其涉及声音事件定位模型训练方法和装置。背景技术[0002]万物的声音携带了大量有关日常环境和其中发生的物理事件的信息,而声音事件检测(SED,Sound Events Detection)能感知到我们所处的声音场景,识别出各个声源类别,并标记出特定事件的时间戳。[0003]相关技术中,声音事件检测通常是输入一段音频,输出几个预定义好的声音事件的开始和结束时间。[0004]发明人在实现本申请的过程中发现,仅仅通过提取音频特征并检测开始结束时间,无法根据自然语言的灵活输入检测对应的声音事件。主要是因为缺少对应的音频—声音事件—文本数据集,无法训练对应的模型。发明内容[0005]本发明实施例提供一种声音事件定位模型训练方法和装置,用于至少解决上述技术问之一。[0006]第一方面,本发明实施例提供一种声音事件定位模型训练方法,包括:响应于输入音频和与所述输入音频对应的描述声音事件的短语,利用音频编码器将所述输入音频编码成特征向量序列,利用短语编码器将所述描述声音事件的短语编码成文本短语向量,其中,所述特征向量序列由所述音频中每个时刻的音频特征向量组成;计算所述文本短语向量与所述每个时刻的音频特征向量的相似度;基于相似度确定声音事件对应的开始时间和结束时间形成第一数据集的标注,基于对所述输入音频的声音事件标注形成第二数据集的标注;以及通过最小化所述第一数据集的标注和所述第二数据集的标注之间的损失训练所述音频编码器和所述短语编码器。[0007]第二方面,本发明实施例提供一种声音事件定位模型训练装置,包括:编码模块,配置为响应于输入音频和与所述输入音频对应的描述声音事件的短语,利用音频编码器将所述输入音频编码成特征向量序列,利用短语编码器将所述描述声音事件的短语编码成文本短语向量,其中,所述特征向量序列由所述音频中每个时刻的音频特征向量组成;计算模块,配置为计算所述文本短语向量与所述每个时刻的音频特征向量的相似度;标注模块,配置为基于相似度确定声音事件对应的开始时间和结束时间形成第一数据集的标注,基于对所述输入音频的声音事件标注形成第二数据集的标注;以及训练模块,配置为通过最小化所述第一数据集的标注和所述第二数据集的标注之间的损失训练所述音频编码器和所述短语编码器。[0008]第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所3CN112863492B说 明 书2/10页述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的声音事件定位模型训练方法的步骤。[0009]第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的声音事件定位模型训练方法的步骤。[0010]本申请的方法和装置通过训练这样的基于文本的声音事件检测技术,不仅能够得到直接的输入自然语言,输入描述的音频事件的产品,还能够学习到更好的跨模态特征空间,同时编码音频特征和自然语言特征,从而支持诸如跨模态搜索、跨模态摘要评价等等应用。附图说明[0011]为了更清楚地说明本发明实施例的技术,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。[0012]图1为本发明一实施例提供的一种声音事件定位模型训练方法的流程图;[0013]图2为本发明一实施例提供的TAG基线模型结构;[0014]图3为本发明一实施例提供的基于文本的声音定位事件的示例;[0015]图4为本发明一实施例提供的AudioGrounding数据集中的短语中提到的带标注的声音事件的持续时间分布;[0016]图5为本发明一实施例提供的在AudioGrounding数据集上TAG预测的示例结果;[0017]图6为本发明一实施例提供的一种声音事件定位模型训练装置的框图;[0018]图7是本发明一实施例提供的电子设备的结构示意图。具体实施方式[0019]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[0020]请参考图1,其示出了一种声音事件定位模型训练方法的流程图,该方法主要应用于训练更精准的声音定位模型。[0021]如图1所示,在步骤101中,响应于输入音频和与所述输入音频对应的描述声音事件的短语,利用音频编码器将所述输入音频编码成特征向量序列,利用短语编码器将所述描述声音事件的短语编码成文本短语向量;[0022]在步骤102中,计算所述文本短语向量与所述每个时刻的音频特征向量的相似度;[0023]在步骤103中,基于相似度确定声音事件对应的开始时间和结束时间形成第一数据集的标注,基于对所述输入音频的声音事件标注形成第二数据集的标注;[0024]在步骤104中,通过最小化所述第一数据集的标注和所述第二数据集的标注之间4CN112863492B说 明 书3/10页的损失训练所述音频编码器和所述短语编码器。[0025]在本实施例中,对于步骤101,声音事件定位模型训练装置接收输入音频和与所述输入音频对应的描述声音事件的短语,并利用音频编码器将所述输入音频编码成特征向量序列,利用短语编码器将所述描述声音事件的短语编码成文本短语向量,其中,所述特征向量序列由所述音频中每个时刻的音频特征向量组成;之后对于步骤102,声音事件定位模型训练装置计算所述文本短语向量与所述每个时刻的音频特征向量的相似度;[0026]对于步骤103,声音事件定位模型训练装置根据前面获得的相似度确定声音事件对应的开始时间和结束时间形成第一数据集的标注,基于对所述输入音频的声音事件标注形成第二数据集的标注;最后,对于步骤104,声音事件定位模型训练装置通过最小化所述第一数据集的标注和所述第二数据集的标注之间的损失训练所述音频编码器和所述短语编码器。[0027]本实施例的方案通过上述步骤训练出来的声音事件定位模型能够做到基于自然语言的声音事件定位。[0028]在一些可选的实施例中,所述基于对所述输入音频的声音事件标注形成第二数据集的标注包括:从音频—自动文本摘要数据集中,对文本摘要提取短语,标注所提取的短语所对应的声音事件的开始结束时间,得到第二数据集的标注。从而可以通过对已有的音频—自动文本摘要数据集进行处理,得到本申请的方案需要的数据集。[0029]在一些可选的实施例中,所述基于对所述输入音频的声音事件标注形成第二数据集的标注包括:对音频事件检测的音频和声音事件标注对应的自然语言描述,得到音频—自然语言—声音事件的第二数据集的标注。从而标注的成本更低。[0030]在一些可选的实施例中,所述描述声音声音事件的短语包括名词短语以及名词短语和动词短语的组合。[0031]在一些可选的实施例中,所述音频编码器采用卷积递归神经网络。[0032]在一些可选的实施例中,所述损失为二进制交叉熵损失。[0033]需要说明的是,上述方法步骤并不用于限制各步骤的执行顺序,实际上,某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行,本申请在此没有限制。[0034]下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。[0035]本领域技术人员在面对声音事件检测存在的缺陷(仅仅通过提取音频特征并检测开始结束时间,无法根据自然语言的灵活输入检测对应的声音事件)时,通常会使用音频—文本标签的数据进行训练,因为目前缺少对应的音频—声音事件—自然语言数据集。[0036]本申请实施例通过从音频—自动文本摘要数据集中,对文本摘要提取其中的短语,再让标注人员标注短语所对应的声音事件的开始结束时间,得到这样的数据集再训练模型。[0037]请参考图2,针对一个输入的音频和对应的自动摘要中的描述声音事件的短语,音频编码器和短语编码器分别将音频编码成一个特征向量序列和一个文本短语向量,然后这个短语向量和每个时刻的音频特征向量计算相似度,通过最小化数据集的标注之间的损失,训练两个编码器,从而能够做到基于自然语言的声音事件定位。[0038]发明人在实现本申请的过程中,还采用过一个beta版,是请标注人员对音频事件5CN112863492B说 明 书4/10页检测的音频和相关事件标注对应的自然语言描述,这样的标注成本更低,同样可以拿到音频—自然语言—声音事件的数据集。但是这样只有音频—自然语言和音频—声音事件的对应,并没有声音事件和自然语言中的短语的对应,因此没有采用。[0039]本申请实施例通过训练这样的基于文本的声音事件检测技术,不仅能够得到直接的输入自然语言,输入描述的音频事件的产品,还能够学习到更好的跨模态特征空间,同时编码音频特征和自然语言特征,从而支持诸如跨模态搜索、跨模态摘要评价等等应用。[0040]下面对发明人实现本发明的过程以及涉及的实验数据进行详细说明,以使本领域技术人员可以更好地理解本申请的方案。[0041]自动音频摘要是一项跨模态任务,它会生成自然语言描述以总结音频片段的声音事件。但是,尚未有研究基于给定音频的相应摘要,定位其中实际的声音事件的工作。本文贡献了一个AudioGrounding数据集,该数据集提供声音事件与Audiocaps中提供的摘要之间的对应关系,以及每个声音事件的位置(时间戳)。基于此,本申请提出了基于文本的声音定位事件(text‑to‑audio grounding,TAG)任务,该任务交互式地考虑了音频处理和语言理解之间的关系。提供了一个基线方法,该方法的事件F1分数为28.3%,多音检测分数(PSDS)分数为14.7%。[0042]在最近的研究中,使用自然语言概括音频内容(通常称为自动音频摘要(AAC,Automated Audio Captioning)引起了很多关注。与旨在将音频分类到特定场景或事件标签中的其他音频处理任务(如“声音场景分类”(ASC,Acoustic Scene Classification)和“声音事件检测”)相比,AAC允许模型以自然语言的形式(更不受限制的文本)描述音频内容。因此,AAC可以看作是声音事件的结构化摘要。但是,很少有研究声音事件检测与自然语言描述之间的对应关系的工作。为了实现与人类相近的音频感知能力,模型应该能够生成音频摘要并理解基于音频内容的自然语言,即,将给定音频摘要中提到的每个声音事件定位(检测)到该音频中的相应片段。能够明确地将声音事件短语从相应的音频中定位是理解面向音频的语言的关键。此外,这也将对用更准确的事件描述来生成摘要以及局部化的AAC评估方法更有效。尽管这样的音频定位任务(文本到音频的定位,TAG,text‑to‑audio grounding)在音频理解和音频文本跨模态研究中相对新颖,但它与以下研究方向有关。视觉定位与TAG类似的任务是使用图像或视频在计算机视觉(CV,Computer Vision)中进行物体定位。Flickr30k物体数据集是第一个用于图像定位的公共数据集。最近,大量的工作集中在用于视频物体定位的新数据集和方法上。像音频文本定位一样,视觉定位也需要模型来预测摘要中描述的每个物体在图像或视频帧中的边界框(2d坐标)。声音事件检测SED旨在对音频片段中的特定声音事件进行分类和定位。随着声音场景和事件的检测和分类(DCASE,Detection and Classification of Acoustic Scenes and Events)比赛的影响力越来越大,近来对SED的研究兴趣猛增。TAG可以看作是基于文本查询的SED,着重于定位由查询描述的声音事件。由于SED和TAG的内在联系,本申请借鉴SED的通用方法和评估指标作为TAG的基准。[0043]图3示出了基于文本的声音定位事件的示例。对于音频片段及其相应的摘要,提供了每个声音事件短语的开始和结束时间戳。在此示例中,“一个说话的人”(线条)和“鸣叫的鸟”(线条+菱形)都指向多个段(在图中由矩形表示)。其中:LMS为对数梅尔频谱,#Mel为梅尔频率。6CN112863492B说 明 书5/10页[0044]音频定位任务不可避免地包括两个部分。[0045]首先是从自然语言摘要中提取声音事件短语,例如,“人们说话”和“狗吠”可以从“人们说话同时狗吠”的摘要中获得。第二阶段与传统的SED有关,它检测声音事件的存在以及给定音频片段中声音事件的开始和偏移时间戳。前提条件是一个数据集,该数据集可同时提供音频,摘要和从摘要中发出的声音事件的分段。据本申请所知,没有现有的数据集或任务专注于基于文本的声音事件定位。本申请在本文中贡献了声音定位数据集,提供了相应的一系列音频‑摘要‑声音事件短语‑声音事件时间戳分割,以实现音频处理和自然语言理解方面的更具交互性的跨模态研究。声音定位的插图如图3所示。使用此数据集,本申请考虑使用TAG,它可以根据给定的语言描述来定位音频片段中的相应声音事件。还提出了用于新TAG任务的基线方法。[0046]音频定位(AudioGrounding)数据集[0047]本申请的AudioGrounding数据集包含4994个音频,训练集中每个音频一个摘要,验证和测试集中每个音频五个摘要。本申请为每个音频提供面向摘要的声音事件标记,以及每个声音事件的分段时间戳。音频源植根于AudioSet,摘要源于Audiocaps。[0048]再次参考图2,其示出了提出的TAG基线模型结构。CRNN编码器从LMS输入F∈RT×D输出一系列音频特征嵌入。通过获取查询中所有单词特征嵌入的平均值,将短语查询(包含N个单词)编码为eP。声音事件的开始和结束时间的预测基于和和eP之间的相似性。[0049]音频和摘要研究追溯[0050]AudioSet是大规模的手动标注的声音事件数据集。每个音频片段的持续时间最多为十秒钟,其中至少包含一个声音事件标签。AudioSet由527事件类型组成,包含大多数日常声音。Audiocaps是迄今为止最大的AAC数据集,由从AudioSet收集的46,000多个音频片段(约127小时)组成。为训练数据集的每个音频提供了人工标注的摘要,而分别为验证和测试集的音频提供了五个摘要。由于整个Audiocaps数据集是AudioSet的子集,因此可以为Audiocaps中的每个音频片段获取声音事件标签。应当注意,尽管AudioSet提供了声音事件的标签,Audiocaps由描述性摘要组成,但这两个标注之间没有直接的对应关系。由于本申请想增强所包含声音事件的多样性,因此本申请选择性地选择了具有四个以上声音标签的音频片段,从而从Audiocaps获得了4994个音频片段。为了成功实现文本到音频的定位,每个音频片段不仅应具有摘要(“一个人在说话,而鸟儿在后台鸣叫”),还应具有从摘要中检索到的相应声音事件短语(“A人在说话”,“鸟儿在鸣叫”)以及这些声音事件的开始和结束时间。[0051]标注过程[0052]本申请的标注过程分为两个阶段:(1)从摘要中自动提取声音事件短语;(2)本申请邀请标注者合并对应于同一声音事件的提取短语,并提供每个声音事件的持续时间分段。A.从摘要中提取声音事件短语如上所述,AudioSet中提供的声音事件标签与Audiocaps中的描述性摘要没有对应关系。因此,本申请首先使用NLTK从摘要中提取声音事件短语。短语是指摘要中连续的单词块。按照的分块方法,本申请提取名词短语(NP)以及NP和动词短语的组合(NP+VP)。由于声音的描述通常源于声音的对象(例如猫),动词产生声音(例如猫叫声),因此NP和NP+VP短语可以粗略地概括所有可能的声音事件。[0053]词组合并和细分7CN112863492B说 明 书6/10页[0054]手动词组合并是必要的,因为提取的词组中可能存在重复的信息和不需要的信息。例如,图2中的摘要分为三个短语:“人”,“一小群人在说话”和“狗吠”。但是,“人”和“一小群人在说话”是指同一声音事件。根据提取的短语,需要标注器以两步过程标记音频片段:[0055]1.将描述同一声音事件的短语合并为单个集合,并标识音频中提到的声音事件的数量;[0056]2.使用开始和结束时间戳对每个声音事件进行分段。[0057]图4示出了本申请提出的AudioGrounding数据集中的短语中提到的带标注的声音事件的持续时间分布。其中,个数对应count,时长对应duration。[0058]资料说明[0059]本申请的标注产生了一个新的音频文本定位数据集:AudioGrounding。它包含13985个相应的声音事件短语和4994个摘要(Audiocaps)。词组合并后,总共有10,910个声音事件。包含的声音事件非常多样化,其中最频繁的声音事件(“一个人讲话”)占数据集的比例不超过2%。声音事件短语的持续时间分布如图4所示。大多数片段持续不到2s,事件短语由单个音频片段中的几个这样的短片段组成,例如语音,狗叫和猫叫声。但是,整个片段中存在相当大比例的事件(例如,风,火车),持续了将近10s。本申请根据Audiocaps设置拆分数据集,将每个样本分配给Audiocaps中的相同子集(训练/验证/测试)。参见如下的表1所示,表1提供了详细的统计信息。[0060]表1:统计信息[0061][0062]基于文本的声音定位事件[0063]由于主要动机是基于音频摘要中短语的声音事件定位,因此本申请分别对音频和短语查询使用两个单独的编码器。输入音频特征F被编码为嵌入序列而查询编码器从短语查询P输出包含N个单词的短语嵌入eP。本申请的基线模型体系结构如图2所示。在交叉模式音频/文本检索之前的工作之前,本申请将exp(‑l2)作为相似性度量,将二进制交叉熵(BCE)损失作为训练标准。音频和短语嵌入eA,t和eP之间的相似性分数计算为:st=sim(eA,t,eP)=exp(‑||eA,t‑eP||2)   (1)[0064]在训练期间,将音频短语对之间的LBCE计算为每个帧t处eA和eP之间的LBCE平均值:[0065][0066]其中yt∈{0,1}是每个t的强标记指示符。在评估过程中,通过阈值φ=0.5转换为以表示短语的存在或不存在8CN112863492B说 明 书7/10页[0067]音频编码器[0068]本申请采用卷积递归神经网络(CRNN)作为音频编码器。详细的CRNN架构可以在现有技术中找到。它由五个卷积块(填充的3×3卷积)和随后的双向门控递归单元(BiGRU)组成。在卷积块之间添加了L4‑Norm子采样层,将时间维减少了4倍。最后,应用了上采样操作,以确保输出嵌入的序列长度与输入特征的序列长度相同。CRNN音频编码器输出嵌入序列[0069]短语编码器[0070]对于短语编码器,本申请仅专注于提取短语的表示形式,并在摘要中省略所有其他单词。单词嵌入大小也设置为256,以匹配eA,t。词组中单词嵌入的平均值用作表示形式:[0071][0072]实验装置[0073]标准对数梅尔频谱图(LMS)被用作音频特征,因为它通常在SED中使用。本申请从R×64每个音频的40ms窗口大小和20ms窗口移位中提取64维LMS特征,得出F∈T。使用Adam优化算法以0.001的初始学习率训练该模型最多100个轮次。如果验证集的损失在五个轮次内都没有改善,则学习率会降低。训练过程采用十个轮次的提前停止策略。[0074]评价[0075]由于TAG与SED具有相似的目标,因此采用常用的SED指标进行TAG评估。具体来说,本申请结合了两个指标,即基于事件的指标和新提出的多音检测分数(PSDS)。[0076]·基于事件的度量标准(精度,召回率,F1)非常重视预测段的平滑度,这会影响不相交的预测。关于事件F1得分,本申请将t领值设置为100毫秒(由于发生大量短事件,请参见图3),并且将基于事件的指标的参考持续时间与预测持续时间之间的差异允许在20%以内。[0077]·PSDS在标记主观性方面更为强大(例如,为两个非常接近的狗吠声创建一个或两个地面真相),并且不依赖于工作点(例如,阈值)。使用默认的PSDS参数:ρDTC=ρGTC=0.5,ρCTTC=0.3,αCT=αST=0.0,emax=100。预期在基于事件的指标和PSDS中均获得高分的模型将预测平稳的细分,同时对不同的工作点具有鲁棒性。参见如下的表2所示,表2提供了AudioGrounding数据集上的基准TAG性能。P,R,F1表示基于事件的精度,召回率和F1得分。[0078]表2:基准TAG性能[0079][0080]结果与[0081]本申请在表2中给出了基准TAG性能。随机猜测方法为每个帧提供了介于0和1之间的随机概率,从而导致0.04%的事件F1和0.00%的PSDS,表明此任务很困难。相比之下,本申请提出的基准模型可以达到28.3%的事件F1和14.7%的PSDS,证明了其在音频和文本理解方面的能力。尽管相对于随机方法有显着改进,但本申请发现,无论短语输入如何,基线9CN112863492B说 明 书8/10页模型都倾向于向音频片段的显着部分输出高概率。图4中显示了一个示例。两个短语输入的输出概率在时间分布上似乎相似。对于短语查询“年轻的女性说话”,模型将高出现概率分配给出现猫或女性语音的段(例如,最后两秒钟)。这意味着该模型仅学习重要的音频模式,而忽略了短语查询中的信息。应该对文本理解和这两种方式的融合进行进一步的研究。[0082]图5示出了在AudioGrounding数据集上TAG预测的示例结果。图5的标题是:一只猫在叫同时年轻的女性在说话。图中的水平轴表示根据短语查询的声音事件的输出概率。[0083]结论[0084]在本文中,本申请提出了“基于文本的声音定位事件”任务,以进一步促进音频和自然语言之间的跨模态学习。本文提供了一个AudioGrounding数据集,该数据集考虑了声音事件短语与Audiocaps中提供的摘要之间的对应关系,并提供了每个当前声音事件的时间戳。将自然语言和音频处理相结合的基线方法产生的事件F1为28.3%,PSDS为14.7%。本申请希望探索音频和短语嵌入的更好投影方式,以及这两种方式在未来工作中的更深入互动。[0085]请参考图6,其示出了本发明一实施例提供的声音事件定位模型训练装置的框图。[0086]如图6所示,声音事件定位模型训练装置600,包括:编码模块610、计算模块620、标注模块630和训练模块640。[0087]其中,编码模块610,配置为响应于输入音频和与所述输入音频对应的描述声音事件的短语,利用音频编码器将所述输入音频编码成特征向量序列,利用短语编码器将所述描述声音事件的短语编码成文本短语向量,其中,所述特征向量序列由所述音频中每个时刻的音频特征向量组成;[0088]计算模块620,配置为计算所述文本短语向量与所述每个时刻的音频特征向量的相似度;[0089]标注模块630,配置为基于相似度确定声音事件对应的开始时间和结束时间形成第一数据集的标注,基于对所述输入音频的声音事件标注形成第二数据集的标注;[0090]训练模块640,配置为通过最小化所述第一数据集的标注和所述第二数据集的标注之间的损失训练所述音频编码器和所述短语编码器。[0091]应当理解,图6中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图6中的诸模块,在此不再赘述。[0092]值得注意的是,本公开的实施例中的模块并不用于限制本公开的方案,例如计算模块可以描述为计算所述文本短语向量与所述每个时刻的音频特征向量的相似度的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如计算模块也可以用处理器实现,在此不再赘述。[0093]在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的声音事件定位模型训练方法;[0094]作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:[0095]响应于输入音频和与所述输入音频对应的描述声音事件的短语,利用音频编码器10CN112863492B说 明 书9/10页将所述输入音频编码成特征向量序列,利用短语编码器将所述描述声音事件的短语编码成文本短语向量,其中,所述特征向量序列由所述音频中每个时刻的音频特征向量组成;[0096]计算所述文本短语向量与所述每个时刻的音频特征向量的相似度;[0097]基于相似度确定声音事件对应的开始时间和结束时间形成第一数据集的标注,基于对所述输入音频的声音事件标注形成第二数据集的标注;[0098]通过最小化所述第一数据集的标注和所述第二数据集的标注之间的损失训练所述音频编码器和所述短语编码器。[0099]非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据声音事件定位模型训练装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至声音事件定位模型训练装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。[0100]本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项声音事件定位模型训练方法。[0101]图7是本发明实施例提供的电子设备的结构示意图,如图7所示,该设备包括:一个或多个处理器710以及存储器720,图7中以一个处理器710为例。声音事件定位模型训练方法的设备还可以包括:输入装置730和输出装置740。处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接,图7中以通过总线连接为例。存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例声音事件定位模型训练方法。输入装置730可接收输入的数字或字符信息,以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。[0102]上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。[0103]作为一种实施方式,上述电子设备应用于声音事件定位模型训练装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:[0104]响应于输入音频和与所述输入音频对应的描述声音事件的短语,利用音频编码器将所述输入音频编码成特征向量序列,利用短语编码器将所述描述声音事件的短语编码成文本短语向量,其中,所述特征向量序列由所述音频中每个时刻的音频特征向量组成;[0105]计算所述文本短语向量与所述每个时刻的音频特征向量的相似度;[0106]基于相似度确定声音事件对应的开始时间和结束时间形成第一数据集的标注,基于对所述输入音频的声音事件标注形成第二数据集的标注;11CN112863492B说 明 书10/10页[0107]通过最小化所述第一数据集的标注和所述第二数据集的标注之间的损失训练所述音频编码器和所述短语编码器。[0108]本申请实施例的电子设备以多种形式存在,包括但不限于:[0109](1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。[0110](2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等。[0111](3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。[0112](4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。[0113](5)其他具有数据交互功能的电子装置。[0114]以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。[0115]通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。[0116]最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。12CN112863492B说 明 书 附 图1/6页图113CN112863492B说 明 书 附 图2/6页图214CN112863492B说 明 书 附 图3/6页图315CN112863492B说 明 书 附 图4/6页图416CN112863492B说 明 书 附 图5/6页图517CN112863492B说 明 书 附 图6/6页图6图718
/
本文档为【[好看的推理小说推荐]好看的小说 推荐】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索