语音合成中的韵律建模新方法

张开发
2026/4/11 18:42:20 15 分钟阅读

分享文章

语音合成中的韵律建模新方法
会议ICASSP 2021相关论文“Prosodic representation learning and contextual sampling for neural text-to-speech”“CAMP: A two-stage approach to modelling prosody in context”在ICASSP 2021上某机构的文本到语音团队展示了两篇关于从文本合成具有上下文恰当韵律即语音的节奏、重音、旋律、时长和响度的语音的新论文。文本到语音TTS是一个“一对多”的问题同一段文本可能有多种恰当的韵律演绎方式。确定一段文本的韵律是一个难题但它可以显著提高合成语音的自然度。这两篇论文中描述的方法遵循共同的理念但它们解决问题的途径有根本性的不同。Kathaka由于TTS是一个“一对多”的问题同一段文本可以用不同方式表达TTS模型通常合成具有中性韵律的语音。这降低了合成语音的自然度因为韵律与所说内容之间没有关联。Kathaka的两阶段学习方法通过利用文本的语义和句法来解决这个问题。Kathaka架构有两个编码器一个“参考编码器”接收语音信号的梅尔频谱图作为输入另一个编码器接收关联的文本表示为音素序列语音的最小单位。基于梅尔频谱图参考编码器输出一个韵律分布的参数均值µ和方差σ并从该分布中选取一个样本。这个样本连同音素编码一起用于合成新的梅尔频谱图。该模型是一个自编码器意味着它的训练目标是输出与输入给参考编码器的梅尔频谱图相同的频谱图。在推理时当然没有梅尔频谱图作为输入因为它们是需要合成的。因此在第二步中训练“采样器”直接根据文本预测韵律分布的参数。为了对文本进行编码使用了BERT模型该模型经过预训练以提供上下文词嵌入——即多维空间中词的向量表示——用于捕获文本的语义和一些句法信息。还将图神经网络应用于文本的句法解析树以仅生成文本句法信息的表示。根据这些表示采样器学习预测韵律分布的参数。在推理时使用来自该分布的样本替换来自参考编码器的采样点来合成梅尔频谱图。为了评估Kathaka的有效性将其与神经文本到语音NTTS基线进行了比较结果显示自然度有统计学上显著的13.2%的提升。CAMPCAMP使用类似的两步训练方法但它不学习韵律的分布而是学习单个词与韵律表征之间的特定映射该映射以文本的语义和句法特征为条件。在第一阶段CAMP使用词级参考编码器学习韵律的词级表征。该编码器接收梅尔频谱图作为输入并生成语音样本韵律的词级表征。然后这个词级表征与构成该词的音素同样由另一个编码器编码对齐。两组特征随后用于合成梅尔频谱图作为输出训练目标是与参考编码器接收的输入相同的梅尔频谱图。通过这个过程CAMP学习了词级的韵律表征。在第二阶段CAMP使用输入文本的语义和句法信息来预测第一阶段学习到的词级韵律表征。为了编码文本再次使用BERT嵌入并且还使用词级句法标签例如(1)词性(2)词类如名词或动词等可以无限增加的“开放”词类与代词和冠词等固定且有限的“封闭”词类相对(3)名词结构(4)标点结构。然后使用这些信息来预测第一阶段学习到的词级韵律表征。与Kathaka一样在推理过程中将参考编码器的韵律表征替换为从输入文本的句法和语义内容预测出的表征。与NTTS基线相比CAMP显示出统计学上显著的26%的自然度提升。研究领域对话式AI标签文本到语音、ICASSPFINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

更多文章