语音合成中的韵律建模新方法

张开发

• 2026/4/11 18:42:20 • 15 分钟阅读

分享文章

会议ICASSP 2021相关论文“Prosodic representation learning and contextual sampling for neural text-to-speech”“CAMP: A two-stage approach to modelling prosody in context”在ICASSP 2021上某机构的文本到语音团队展示了两篇关于从文本合成具有上下文恰当韵律即语音的节奏、重音、旋律、时长和响度的语音的新论文。文本到语音TTS是一个“一对多”的问题同一段文本可能有多种恰当的韵律演绎方式。确定一段文本的韵律是一个难题但它可以显著提高合成语音的自然度。这两篇论文中描述的方法遵循共同的理念但它们解决问题的途径有根本性的不同。Kathaka由于TTS是一个“一对多”的问题同一段文本可以用不同方式表达TTS模型通常合成具有中性韵律的语音。这降低了合成语音的自然度因为韵律与所说内容之间没有关联。Kathaka的两阶段学习方法通过利用文本的语义和句法来解决这个问题。Kathaka架构有两个编码器一个“参考编码器”接收语音信号的梅尔频谱图作为输入另一个编码器接收关联的文本表示为音素序列语音的最小单位。基于梅尔频谱图参考编码器输出一个韵律分布的参数均值µ和方差σ并从该分布中选取一个样本。这个样本连同音素编码一起用于合成新的梅尔频谱图。该模型是一个自编码器意味着它的训练目标是输出与输入给参考编码器的梅尔频谱图相同的频谱图。在推理时当然没有梅尔频谱图作为输入因为它们是需要合成的。因此在第二步中训练“采样器”直接根据文本预测韵律分布的参数。为了对文本进行编码使用了BERT模型该模型经过预训练以提供上下文词嵌入——即多维空间中词的向量表示——用于捕获文本的语义和一些句法信息。还将图神经网络应用于文本的句法解析树以仅生成文本句法信息的表示。根据这些表示采样器学习预测韵律分布的参数。在推理时使用来自该分布的样本替换来自参考编码器的采样点来合成梅尔频谱图。为了评估Kathaka的有效性将其与神经文本到语音NTTS基线进行了比较结果显示自然度有统计学上显著的13.2%的提升。CAMPCAMP使用类似的两步训练方法但它不学习韵律的分布而是学习单个词与韵律表征之间的特定映射该映射以文本的语义和句法特征为条件。在第一阶段CAMP使用词级参考编码器学习韵律的词级表征。该编码器接收梅尔频谱图作为输入并生成语音样本韵律的词级表征。然后这个词级表征与构成该词的音素同样由另一个编码器编码对齐。两组特征随后用于合成梅尔频谱图作为输出训练目标是与参考编码器接收的输入相同的梅尔频谱图。通过这个过程CAMP学习了词级的韵律表征。在第二阶段CAMP使用输入文本的语义和句法信息来预测第一阶段学习到的词级韵律表征。为了编码文本再次使用BERT嵌入并且还使用词级句法标签例如(1)词性(2)词类如名词或动词等可以无限增加的“开放”词类与代词和冠词等固定且有限的“封闭”词类相对(3)名词结构(4)标点结构。然后使用这些信息来预测第一阶段学习到的词级韵律表征。与Kathaka一样在推理过程中将参考编码器的韵律表征替换为从输入文本的句法和语义内容预测出的表征。与NTTS基线相比CAMP显示出统计学上显著的26%的自然度提升。研究领域对话式AI标签文本到语音、ICASSPFINISHED更多精彩内容请关注我的个人公众号公众号办公AI智能小助手或者我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

语音合成中的韵律建模新方法

最新文章

数据资源：全球首个高分辨率（30米×30米）的高海拔湿地地图数据集

不用装软件！这款MicroPython浏览器 IDE :让你在手机上也能调试树莓派 Pico绞

涉及‌网络安全、防火墙、入侵检测等相关基础概念

LangChain教程-、Langchain基础肛

保姆级避坑指南：在Ubuntu 20.04 + ROS Noetic下，用Livox Mid360雷达和PX4无人机做Gazebo仿真建图

Java项目Loom升级实战：3步完成Spring WebFlux与虚拟线程深度整合（附压测对比数据）

推荐文章

锂电池保护板方案：中颖SH367309方案原理图和PCB源代码深度解析

CSS Clip-Path 动画：形状变换的视觉魔法

CSS Subgrid：网格布局的终极进化

大模型训练全流程:预训练，监督微调，RLHF

毕设日志26.4.4（1）:画原理图，画板

QEi编码器接口原理与工业级抗干扰实战指南

相关文章

别再让PDF图片丢失了！Dify二次开发实战：优化知识库的图文混合检索能力

热点 | Harness 架构深度解析：AI智能体编排框架的核心原理

【Python时序预测实战】融合LSTM与Transformer：从模型构建到单变量预测全流程解析

MySQL分区表实战：从原理到高效数据管理

CSRankings区域筛选功能深度解析：如何找到全球最佳CS研究机构

OpCore-Simplify：让开源系统硬件适配从8小时到30分钟的技术革命

分享文章

更多文章

实时行情系统设计：从协议选择到高可用架构，再到数据源选型偶

数据错了，大家都在甩锅！数据认责到底要怎么做？

BettaFish舆情分析系统部署避坑指南：从环境搭建到一键启动的实战经验总结

mcMMO：为你的Minecraft服务器添加终极RPG体验的完整指南

为什么你的AI原生项目3年未见正向ROI？SITS2026圆桌深度复盘：从立项到上线的6个ROI漏损黑洞及实时拦截方案

农资小店季节性囤货智能库存加权成本核算实操。

Allegro PCB设计避坑指南：引脚交换后必须做的3项检查（以差分对为例）

从幻觉到失控，大模型对齐为何总在上线后崩盘？5个被99%团队忽略的工程断点

匈牙利Solt：一座2MW中波台的固态化改造实录

SleeperX：终极macOS智能睡眠管理工具，重新定义你的电源控制体验

从DeepWalk到Node2Vec：探索有偏随机游走的图嵌入演进之路

次元画室互联网产品创新案例：打造在线AI绘画教学平台