一、PSOLA技术在汉语文-语转换系统中的应用(论文文献综述)
朱菁[1](2013)在《具有表现力的汉语文语转换》文中提出具有表现力的文语转换系统有着广阔的应用前景。本课题着重于研究韵律和语调对普通话语音表现力的影响以及这两者在汉语语音合成中的应用。其中,韵律特征主要从重音,停顿以及语速三方面进行描述。通常,一句话中着重强调的词语即是重音,语音合成时,重音可以通过增大语音的幅度和提高语音的基频实现控制。停顿则是指词间或句间的间歇,合成时,可以在语音参数的相应位置插入零值实现。语速是指朗读文本的速度,一般由说话者的个人风格以及文本思想内容共同决定,语速的调节分为减慢和加快,减慢是通过在语音参数一定的位置复制粘贴相邻帧的语音参数实现,加快则是通过删除特定帧参数实现。由于汉语是有调语言,所以语调对于汉语的语音合成也具有重要的意义。本课题研究的语调主要是指语句音高的变化,根据音高的不同走势,可将语调分为四种调型:升调,降调,平调以及曲折调。研究时,首先建立有调语音的语音库,然后采用STRAIGHT算法分析有调语音库的基音频率,再用多项式函数对归一化后的语音基频曲线进行拟合,建立每一种调型的基频模型。这里采用了三种方法进行语调建模:均值模型,单高斯模型以及混合高斯模型。通过建立的语调模型可以实现将一种语调转换成另一种语调。本系统中,语音合成模块也是采用STRAIGHT算法,对经过韵律及语调调整后的参数进行拼接合成。从实验结果来看,在汉语文语转换系统中,采用本课题提出的方法加入韵律和语调控制模块,可以灵活地调节语音的韵律特征,实现语调之间的转换,合成出的声音自然度较高,语音质量较好,明显地增强了语音的表现力。
景娟[2](2011)在《中文话费文语转换系统的研究与实现》文中指出旨在改变人机交互界面的文语转换技术(TTS)在许多领域的成功应用使得其潜在价值越来越大。随着研究的不断深入,这项技术已经走出实验室,开始慢的实现一些原本只能以梦想来描述的事情。针对当前国内三大电信运营商的人工服务台播报的话费语音存在明显的欠缺和不足,为了更好的提高播报话费语音的自然度和可懂度,增加人工服务台的友好性,论文对话费文本的文语转换技术进行了研究。论文首先研究了文语转换系统的基本结构,主要包括数据资源库、文本分析模块、韵律分析模块和语音合成模块四个部分。结合话费文本的特殊性,建立了以单音节语音作为基元的语料库;采用人民币小写到大写的转换算法实现文本的正规化;按照正向最大匹配算法,进行语音词的切分;在汉语声调规则的指导下,对待拼接的语音基元的声调进行了变调处理;重点研究了基音同步叠加算法(PSOLA),通过准确的基音标注,结合正常语音的时长特点,以基音周期为单位调整待合成语音的时长;针对待合成基元所处的呼吸群位置,对待合成语音的音强进行修改;在分析、比较了现有各种语音合成方法优缺点之后,论文最终采用波形拼接的方法,通过大量实验证明,在调整待拼接波形拼接点处的平滑长度为两个拼接基元中样点数较少者的1/9时,基本可以达到所有拼接的要求,合成高自然度的话费语音。仿真实验也表明,以单音节语音作为合成基元,采用PSOLA算法和基于时域的波形拼接平滑算法,可以得到自然、流畅的话费语音。此外,论文利用VC++和SQL Server数据库进行通信,在VC++平台上也初步地设计了中文话费文语转换系统的基本框架。仿真合成的语音与当前人工服务台的话费语音相比,合成语音的可懂度和清晰度都是令人满意的,自然度也得到了很大的提高。论文建立的小语料库的汉语文语转换系统,为通信行业更好的服务客户迈出了坚实的一步,提高了人机交互的能力。
阿日木扎,包春梅,马占新[3](2010)在《语音合成技术及其研究进展》文中研究指明文章围绕语音合成技术及其相关问题进行了系统分析,归纳出了语音合成技术未来发展的几个重要方向。
王亮[4](2010)在《汉语文语转换系统中韵律调节算法的研究与实现》文中研究指明文语转换技术是一种应用广泛的语音技术。目前,以波形合成为基础的文语转换技术已经可以合成清晰度、可懂度较好的语音,然而在合成语音的自然度方面仍需进一步提高。韵律调节是改善合成语音自然度最有效的手段之一。本文的主要工作是围绕汉语文语转换系统的韵律调节技术进行的。本文对相关的算法进行研究,并开发一种汉语普通话文语转换系统。本文首先对韵律理论和汉语的语音特点进行了分析,并对文语转换系统现有的技术路线进行了讨论,并在此基础上提出了一种基于韵律规则的波形合成法。接下来,本文对PSOLA、Fujisaki基频曲线预测算法、音节与停顿时长预测算法等韵律调节的关键算法进行了深入的研究,并在对Fujisaki模型进行部分修改的基础上,提出了一种充分考虑语音库中语音基频特性的语调曲线预测算法,这种方法能够比较准确的模拟句子的语调曲线趋势,同时对合成基元频率特性的修改较小。然后,本文从系统构成的角度介绍了系统中各个模块的功能和设计方案;同时,本文介绍了构建语音库的方法,为了提高合成语音的自然度,本文同时构建了音节语音库和汉语中高频词语音库。最后,本文从程序实现的角度介绍了代码中主要函数的功能和输入输出,并对程序设计时需要考虑的关键问题进行了分析。另外,本文还运用平均意见分的方法对开发的汉语文语转换系统的性能进行了评估,测试结果表明系统合成的语音具有比较好的自然度。
包春梅[5](2009)在《基于动词词干词缀的蒙古语语音合成系统的研究》文中研究说明随着计算机技术和信息技术的飞速发展,如何通过人机界面更加自然和友好的交流成为研究热点,其中,语音交互方式的研究成为普遍关注的焦点之一。语音交互中非常重要的一项技术就是语音合成,它涉及到计算机技术、语言学、语音学、语音信号处理、心理学等多个研究领域。蒙古语是内蒙古自治区的官方语言之一,同样在世界范围内具有一定的影响力的语言,研究和实现蒙古语语音合成技术对促进蒙古文信息处理的发展,具有重要的意义和实用价值。本文着重研究如何根据蒙古语的语言、语音特征,建立蒙古语语音合成系统用的语音库,研究蒙古语语音的韵律特征提取、韵律建模和韵律调整、语音合成等内容。主要工作如下:首先,在蒙古语语音库设计中,通过研究蒙古语语音特征将动词词干词缀、名词格附加成分及其它整词作为语音合成的基元。并从大量语料库中收集语音基元。并对这些语音基元录音、切分,建立语音库。其次,蒙古语语音韵律的提取和建模,通过对蒙古语自然语流的分析、统计,总结出韵律变化规则。主要表现在词、句子等层面上的停顿、时长、重音、语气等的变化。最后,韵律调整及语音合成,采用时域基音同步叠加(TD-PSOLA)算法实现合成语音的韵律调整,提高了蒙古语合成语音的自然度。在合成语音时选择软拼接和硬拼接相结合的算法,以便达到更好的合成效果。
舒昌[6](2009)在《基于AMR-WB的参数语音合成技术》文中提出随着计算机技术和信息技术的飞速发展,语音合成技术已成为广大科研工作者关注的热点。线性预测(LPC)参数合成法以其数据率低、复杂度低、成本低、简单直观等特点在语音合成中受到特别的重视。但是由于原有模型所提取的参数过于简单,使得在合成阶段很难得到高质量的合成语音。自适应多速率的宽带语音编码技术(AMR-WB)是一种高品质的数字宽带语音编码系统,采用代数码激励线性预测(ACELP)技术,将传统的200-3400Hz的带宽扩展到50-7000Hz,在参数提取阶段运用闭环和开环相结合的方法计算基音延时,运用自适应码本和固定码本结合的方式还原激励,使合成的语音效果显着提高,该技术为改善LPC参数语音合成效果提供了解决思路。本文在深入研究AMR-WB编解码算法原理的基础上,设计出基于AMR-WB的汉语文语转换实验系统。在参数提取阶段,输入带宽7k、采样频率16kHz、采样精度16位的语音信号,相对于传统LPC算法的输入信号具有更高的语音精度。算法运用闭环搜索和开环搜索相结合的方法来计算基音周期,运用自适应码本和固定码本结合的方式还原激励,弥补传统LPC算法的不足,使合成的语音效果显着提高。为了提高参数提取工作的效率,本文制作了PCM编码转化程序。在合成阶段,根据文语转换系统的需要,考虑汉字和标点符号的输入形式,设计出能够根据控制命令得到女声或男声的输出结果,并用一段空白语音来体现标点符号信息的合成程序。利用MATLAB软件对合成结果进行仿真,结果表明,合成语音很好地体现了语音样本的幅频特性,具有较高的合成质量;通过算法复杂度分析,证明本文所采用的改进算法是符合要求的。因此,AMR-WB作为改善LPC参数语音合成效果的改进算法是切实可行的。
武文娟[7](2009)在《面向机务CBT的一种实用文语转换系统研究》文中研究指明机务CBT开发工具是一种具备一定智能化的多媒体课件制作工具,它以多媒体数据库为支持,使用户可以定制不同风格的多媒体课件。本文研究的文语转换技术作为其中的一部分,以自建的领域专有词汇库和改进的韵律调节方法为基础,提供了将文字信息按照语音处理规则转换为声音信号的功能。该技术在机务CBT工具中的成功应用,扩展了课件的交互性,使人机界面更加人性化。本文研究了语音端点检测的方法,这是在有噪声情况下,对语音音节进行准确切分的基础,也是对基音进行检测及标记的前提。本文提出了一种基于临界带矢量距离的端点检测的新方法,与传统的方法相比,其具有更好的鲁棒性及正确率。本文还研究了一种基于词字库相结合的文语转换方法,与目前只基于字库的文语转换方法不同,此方法以词库为主、字库为辅,之后采用TD—PSOLA算法对输出语音进行韵律调节以提高其自然度。与传统的基于字库及复杂韵律模型的系统相比,基于上述方法实现的文语转换系统,具有实用性好、易于实现的优点,并且在可懂度和自然度方面都达到了实用要求,也为文语转换技术的后续研究奠定了一个良好的基础。
田伟东[8](2009)在《声道频响合成方法在军队姓名语音库的应用》文中进行了进一步梳理语音合成是近年来语音处理领域内比较热门的研究方向,是当今人工智能领域的研究热点。目前,它越来越广泛地应用于社会生活的各个方面,提高了人机交互性,发挥了很好的社会效益。本文首先介绍了语音合成的研究背景,简单回顾了语音合成和文语转换系统的发展历史。接着对几种常见的语音合成方法进行了分析。在语音信号数字处理的各个领域,无论是语音分析与合成、语音压缩编码,还是语音识别和说话者确认等,准确可靠地检测语音信号的基音周期都至关重要,将直接影响到整个系统的性能。语音合成中以浊音合成为难点,尤其是在做多元音合成时尤为突出。本文采用一种有效的基音周期提取方法,一种声道频响的合成方法,完成了汉语浊音的合成。本文的主要内容包括:(1)采用一种有效的基音周期提取方法,即在浊音中用分段和段内位移匹配的方法提取出基音周期,有效地防止由于一个周期内的两段相似波形被误判为两个周期的情况。同时也防止取到倍周期的可能。(2)对汉语语音的浊音合成做了详细的研究。完成完整语音的合成。对汉语清音的特点进行分析,详细说明了清音的生成方法;分析说明了浊音的特点及其生成方法;对清浊音的拼接进行了详细介绍。(3)采用本文算法,建立了军队智能电话招生信息系统的语音姓名库。实验结果表明,所采用的算法具有较好的鲁棒性和应用前景。
迟名远[9](2008)在《基于CART预选的大语料库语音合成系统研究》文中认为语音合成技术在当今是个前沿和热门的课题,本文针对语音合成系统中的语料预选开展研究,针对语料预选的特点,将CART决策树理论应用于预选过程,提出了基于二进制位的数据表示方法来表示预选规则,并用其设计实现了语料预选树,最终应用生成的预选树设计实现了一个语音合成系统,合成出了较为自然流利的语音。基于语料库的语音合成方法是未来一段时间合成自然语音的最重要方式。语料预选是基于语料库语音合成的一个重要课题,本文将CART决策树算法应用于语料预选,并通过实验检验其效果。本文提出了基于二进制位的数据表示方法,并将其应用于预选树规则的表示。本文提出的基于二进制位的数据表示方法可以便捷的表示集合和其子集,采用决策树算法的预选树实际就是用其规则不断分割数据,直到找到对应的分类,通过运用基于二进制位的数据表示方法,在进行判定时可以采用一系列的逻辑位运算来实现,远比一般的匹配类别算法快捷。针对采用简单问题对多维数据分类可能造成的被分类数据过度片断化问题,本文研究了采用复合问题集将简单问题分类结果进行优化的方法。论文对语料库的数据进行了分析统计处理,具体设计了程序TTS TRAIN实现语料预选树的创建,并根据最小复合代价原则对预选树进行了评估剪枝。在基于CART语料预选树的语音合成系统实现中,本文给出了语音合成系统的结构和模块构成。本文设计了汉字区位码、拼音和预选树的索引对照文件以解决由汉字到拼音和预选树快速查询。论文应用海量分词软件划分语法词层,采用了人工标注方法训练C4.5决策树,并用C4.5算法实现了韵律层级标注。用语料预选树进行了语料的预选,并应用Viterbi算法对语料进行了最终的选择。通过设计实验得出本文实现的语音合成系统的语音合成质量为可以接受到较好。
唐爱伟[10](2008)在《军队智能电话招生系统语音姓名库的建立》文中提出语音合成是近年来语音处理领域内比较热门的研究方向,是当今人工智能领域的研究热点。目前,它越来越广泛地应用于社会生活的各个方面,提高了人机交互性,发挥了很好的社会效益。本文首先介绍了语音合成的研究背景,简单回顾了语音合成和文语转换系统的发展历史。接着对几种常见的语音合成方法进行了分析。在语音信号数字处理的各个领域,无论是语音分析与合成、语音压缩编码,还是语音识别和说话者确认等,准确可靠地检测语音信号的基音周期都至关重要,将直接影响到整个系统的性能。语音合成中以浊音合成为难点,尤其是在做多元音合成时尤为突出。本文采用一种有效的基音周期提取方法,一种声道频响的合成方法,完成了汉语浊音的合成。本文的主要内容包括:(1)采用一种有效的基音周期提取方法,即在浊音中用分段和段内位移匹配的方法提取出基音周期,有效地防止由于一个周期内的两段相似波形被误判为两个周期的情况。同时也防止取到倍周期的可能。(2)对汉语语音的浊音合成做了详细的研究。完成完整语音的合成。对汉语清音的特点进行分析,详细说明了清音的生成方法;分析说明了浊音的特点及其生成方法;对清浊音的拼接进行了详细介绍。(3)采用本文算法,建立了军队智能电话招生信息系统的语音姓名库。实验结果表明,所采用的算法具有较好的鲁棒性和应用前景。
二、PSOLA技术在汉语文-语转换系统中的应用(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、PSOLA技术在汉语文-语转换系统中的应用(论文提纲范文)
(1)具有表现力的汉语文语转换(论文提纲范文)
中文摘要 |
Abstract |
第一章 绪论 |
1.1 文语转换 |
1.2 文语转换的意义及应用 |
1.3 国内外研究概况 |
1.4 课题的主要研究内容 |
1.5 论文的结构安排 |
第二章 文语转换基础理论 |
2.1 语音信号基础知识 |
2.1.1 语音信号的产生 |
2.1.2 语音的个性特征 |
2.2 文语转换基本原理 |
2.2.1 文语转换系统组成 |
2.2.2 文语系统各模块分析 |
2.3 GMM 模型 |
2.3.1 GMM 模型的基本概念 |
2.3.2 GMM 模型的训练方法 |
2.4 STRAIGHT 语音分析合成算法 |
2.4.1 去除周期影响的谱估计 |
2.4.2 精确的基频轨迹提取 |
2.4.3 语音重构 |
2.5 文语转换的评价标准 |
2.5.1 主观评价标准 |
2.5.2 客观评价标准 |
第三章 具有表现力的文语转换系统的实现 |
3.1 系统总体设计 |
3.2 语音库 |
3.3 文本分析 |
3.4 韵律分析 |
3.4.1 重音分析 |
3.4.2 停顿分析 |
3.4.3 语速分析 |
3.5 韵律转换 |
3.5.1 重音转换 |
3.5.2 停顿转换 |
3.5.3 语速转换 |
3.6 语调分析 |
3.7 语调转换 |
3.7.1 均值模型(MM) |
3.7.2 单高斯模型(SGM) |
3.7.3 高斯混合模型(GMM) |
3.8 语音合成模块 |
第四章 实验结果与分析 |
4.1 总体框架 |
4.2 韵律转换结果分析 |
4.2.1 重音 |
4.2.2 停顿 |
4.2.3 语速 |
4.3 语调转换结果分析 |
4.3.1 三种模型转换结果对比分析 |
4.3.2 语谱图对比分析 |
4.3.3 ABX 测试 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
攻读学位期间公开发表的论文 |
致谢 |
(2)中文话费文语转换系统的研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题背景 |
1.2 文语转换技术的国内外发展现状 |
1.3 语音合成方法 |
1.4 本文主要的研究内容 |
第二章 文语转换系统的研究 |
2.1 数据资源库的设计 |
2.1.1 语料库的建立 |
2.1.2 语法规则库的设计 |
2.1.3 韵律模型的预测规则 |
2.2 文本分析模块 |
2.2.1 文本的正规化 |
2.2.2 语音词的切分 |
2.2.3 句法和语义分析 |
2.3 韵律分析模块 |
2.3.1 协同发音 |
2.3.2 声调规则 |
2.3.3 音长规则 |
2.3.4 能量变化规则 |
2.4 语音合成模块 |
第三章 基于PSOLA的中文话费文语转换系统的设计 |
3.1 基于PSOLA的中文话费文语转换系统的构架 |
3.2 基音同步叠加算法原理(PSOLA) |
3.3 基音标注算法 |
3.3.1 基音周期估计 |
3.3.2 基音标注 |
3.4 基音同步韵律调整 |
3.4.1 声调的调整 |
3.4.2 音长的调整 |
3.4.3 音强的调整 |
3.5 基于波形拼接语音合成 |
3.5.1 平滑处理算法 |
3.5.2 实验结果 |
第四章 中文话费文语转换系统仿真研究及性能分析 |
4.1 中文话费文语转换系统的仿真研究 |
4.1.1 仿真实验平台 |
4.1.2 中文话费文语转换系统功能需求分析 |
4.1.3 中文话费文语转换系统界面设计 |
4.1.4 中文话费文语转换系统工作流程 |
4.2 中文话费文语转换系统的性能和质量分析 |
4.2.1 TTS系统的性能分析 |
4.2.2 合成语音的主观听觉感知实验分析 |
4.2.3 合成语音参数分析 |
第五章 中文话费文语转换系统界面设计 |
5.1 主要功能 |
5.2 系统框架的结构图 |
5.3 数据库的设计 |
5.3.1 数据库建表 |
5.3.2 数据库的连接和使用 |
5.4 登陆模块的设计 |
5.5 主窗口的设计 |
5.5.1 员工操作主窗口的设计 |
5.5.2 用户操作主窗口的设计 |
5.6 本章小结 |
第六章 结束语 |
6.1 总结 |
6.2 展望 |
参考文献 |
附录 |
致谢 |
(4)汉语文语转换系统中韵律调节算法的研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
缩略语表 |
目录 |
第一章 绪论 |
1.1 语音合成与文语转换概述 |
1.2 文语转换研究发展历史 |
1.3 多语种文语转换研究现状 |
1.4 汉语文语转换现有的韵律控制方法 |
1.5 汉语文语转换韵律调节方法的研究意义 |
1.6 本文的研究背景 |
1.7 本文内容安排 |
第二章 相关韵律理论与文语转换系统的基本技术路线 |
2.1 概述 |
2.2 本文涉及到的韵律理论 |
2.2.1 语音特征的分类 |
2.2.2 声学物理量与听觉心理量 |
2.3 汉语普通话语音特点分析 |
2.3.1 汉语普通话的基本特点 |
2.3.2 汉语音节的结构与声调 |
2.3.3 汉语普通话中的协同发音现象 |
2.4 文语转换系统的基本技术路线 |
2.4.1 参数合成法 |
2.4.2 波形合成法 |
2.4.3 规则合成法 |
2.4.4 合成方法的比较与技术方案的选取 |
2.5 小结 |
第三章 汉语韵律调节若干关键算法的分析与讨论 |
3.1 概述 |
3.2 语音超音段参数调节算法 |
3.2.1 语音超音段参数调节算法概述 |
3.2.2 TD-PSOLA 算法介绍 |
3.2.3 TD-PSOLA 算法仿真与结果分析 |
3.3 Fujisaki 韵律模型与语调预测算法 |
3.3.1 韵律预测模型概述 |
3.3.2 Fujisaki 模型 |
3.3.3 修改的Fujisaki 模型 |
3.3.4 实验设计与实验结果 |
3.4 音节与停顿时长预测算法 |
3.4.1 准确预测音节与停顿时长的重要意义 |
3.4.2 一种基于规则的音节时长预测算法 |
3.4.3 汉语中停顿的规则 |
3.5 小结 |
第四章 汉语文语转换系统的总体设计 |
4.1 汉语文语转换系统的设计思路 |
4.2 语音库的构建 |
4.3 文本正则化模块 |
4.4 分词模块 |
4.5 韵律预测模块 |
4.6 语音超音段参数调整模块 |
4.7 拼接模块 |
4.8 小结 |
第五章 汉语文语转换系统的程序设计与结果评估 |
5.1 概述 |
5.2 汉语文语转换系统的程序设计 |
5.2.1 分词函数 |
5.2.2 韵律预测函数 |
5.2.3 TD-PSOLA 算法函数 |
5.2.4 wav 文件的拼接函数 |
5.2.5 wav 文件的播放函数 |
5.2.6 其它基本函数 |
5.3 TD-PSOLA 模块的重点分析 |
5.3.1 TD-PSOLA 算法函数的用法 |
5.3.2 TD-PSOLA 算法函数用于情感参数的调节 |
5.4 汉语文语转换系统的性能评估 |
5.5 小结 |
第六章 总结与展望 |
6.1 全文总结 |
6.2 展望 |
参考文献 |
致谢 |
攻读硕士学位期间已发表或录用的论文 |
(5)基于动词词干词缀的蒙古语语音合成系统的研究(论文提纲范文)
摘要 |
Abstract |
目录 |
图标目录 |
第一章 引言 |
1.1 课题研究背景及意义 |
1.2 国内外语音合成研究历史及现状 |
1.3 课题解决的关键技术 |
1.4 论文组织布局 |
第二章 语音合成系统的基本框架 |
2.1 语音合成系统总体框架 |
2.1.1 文本分析模块 |
2.1.2 韵律生成模块 |
2.1.3 语音生成模块 |
2.2 PSOLA算法介绍 |
2.2.1 TD-PSOLA算法 |
2.2.2 应用TD-PSOLA算法改变时长与基音周期 |
2.3 Fujisaki模型基本原理 |
第三章 蒙古语语法及语音音节韵律特征分析 |
3.1 蒙古语音位结构及语音学 |
3.1.1 元音 |
3.1.2 辅音 |
3.1.3 音节 |
3.1.4 重音 |
3.1.5 元音和谐律 |
3.1.6 语流音变 |
3.2 蒙古语正字法 |
3.3 蒙古语语法 |
第四章 蒙古语语音合成系统语音库的建设 |
4.1 蒙古语语音基元的选择 |
4.2 蒙古语动词词缀、蒙古语整词和名词格附加成分的收集及录制 |
4.3 动词词缀库、名词附加成分和整词库的表结构 |
4.4 动词词缀语音库、名词格附加成分语音库的生成 |
4.5 切分语音单元注意事项 |
4.6 语音库的结构 |
第五章 蒙古语动词词缀、名词格附加成分的韵律特征分析 |
5.1 基于TD-PSOLA方法的韵律调整 |
5.1.1 时长的调整 |
5.1.2 基频的调整 |
5.2 蒙古语语音韵律模型及其表示法 |
5.2.1 时长的变化规则 |
5.2.2 重音的变化规则 |
5.2.3 语调变化规则 |
5.2.4 停顿规则 |
第六章 蒙古语TTS系统的实现 |
6.1 系统开发和运行环境 |
6.2 语音合成系统的实现 |
6.2.1 文本分析模块的实现 |
6.2.2 韵律生成模块的实现 |
6.2.3 语音合成模块的实现 |
6.3 系统的性能测试 |
第七章 总结与展望 |
7.1 论文的主要工作 |
7.2 后续的研究工作 |
参考资料 |
附录1 蒙古语名词附加成分表 |
附录2 蒙古语动词词缀表 |
致谢 |
(6)基于AMR-WB的参数语音合成技术(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 本课题研究目的和意义 |
1.2 国内外研究现状及发展趋势 |
1.2.1 国内外研究现状 |
1.2.2 发展趋势 |
1.3 本课题主要研究内容 |
第2章 语音合成概述 |
2.1 语音合成系统 |
2.1.1 文本分析模块 |
2.1.2 韵律控制模块 |
2.1.3 语音合成模块 |
2.2 主要语音合成技术介绍 |
2.2.1 共振峰合成法 |
2.2.2 线性预测参数合成法 |
2.2.3 基音同步叠加法 |
2.3 本章小结 |
第3章 AMR-WB 语音编码标准 |
3.1 AMR-WB 编码器 |
3.1.1 预处理 |
3.1.2 LPC 分析 |
3.1.3 开环基音分析 |
3.1.4 自适应码本的搜索 |
3.1.5 代数码本的结构和搜索 |
3.2 AMR-WB 解码器 |
3.2.1 参数解码和语音合成 |
3.2.2 高通滤波、放大和插值 |
3.2.3 高频带信号处理 |
3.3 本章小结 |
第4章 基于AMR-WB 的参数提取和语音合成 |
4.1 传统LPC 参数语音合成存在问题 |
4.2 AMR-WB 语音合成 |
4.2.1 参数提取 |
4.2.2 合成语音 |
4.3 合成结果验证 |
4.4 算法复杂度分析 |
4.5 本章小结 |
第5章 汉语文语转换实验系统的实现 |
5.1 软件开发平台 |
5.2 合成系统程序的设计 |
5.2.1 参数提取模块 |
5.2.2 合成语音模块 |
5.3 语音库文件的制作 |
5.3.1 录制和降噪 |
5.3.2 WAV 到PCM 的转换 |
5.3.3 参数文件的生成 |
5.4 实验验证 |
5.5 本章小结 |
结论 |
参考文献 |
攻读学位期间发表的学术论文 |
致谢 |
(7)面向机务CBT的一种实用文语转换系统研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 论文研究背景与意义 |
1.2 文语转换 |
1.2.1 国外文语转换技术研究现状 |
1.2.2 国内研究现状 |
1.2.3 文语转换技术的发展前景 |
1.3 课题研究内容 |
1.4 论文的组织结构 |
第二章 汉语文语转换技术理论 |
2.1 文语转换体统的组成 |
2.2 基音提取 |
2.2.1 语音信号的数字处理 |
2.2.2 基音的提取方法简介 |
第三章 端点检测 |
3.1 引言 |
3.2 常用端点检测方法 |
3.2.1 基于短时平均幅度和过零率的检测方法 |
3.2.2 基于倒谱距离的端点检测 |
3.2.3 基于谱熵的端点检测 |
3.3 基于临界带矢量特征距离的端点检测 |
3.3.1 临界带特征矢量方法的提出 |
3.3.2 临界带特征矢量算法的过程 |
3.3.3 实验结果及性能分析 |
第四章 基于词库与字库相结合的文语转换 |
4.1 语音库建设 |
4.1.1 词库建设 |
4.1.2 字库建设 |
4.2 检索机制 |
4.2.1 词语的检索 |
4.2.2 字的检索 |
4.2.3 词字库结合的方法 |
第五章 利用PSOLA 算法调节韵律 |
5.1 PSOLA 波形拼接算法 |
5.1.1 对语音合成单元设置同步标记 |
5.1.2 基音同步修改 |
5.1.3 基音同步叠加法合成 |
5.2 韵律控制 |
5.2.1 汉语的韵律 |
5.2.2 韵律调节 |
5.2.3 小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 工作展望 |
参考文献 |
致谢 |
在学期间的研究成果及发表的学术论文 |
(8)声道频响合成方法在军队姓名语音库的应用(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 国内外语音合成技术发展现状 |
1.3 语音合成技术的发展方向 |
1.3.1 提高语音合成技术的自然度 |
1.3.2 降低语音合成技术的复杂度 |
1.3.3 丰富合成语音表的表现力 |
1.4 论文的研究内容及结构安排 |
第2章 语音学基础知识 |
2.1 语音的基本概念 |
2.1.1 音素和音节 |
2.1.2 辅音和元音 |
2.1.3 声母和韵母 |
2.1.4 声调和语调 |
2.2 汉语语音特点 |
2.3 发音原理 |
2.4 汉语拼音方案 |
2.5 本章小结 |
第3章 语音合成的相关研究 |
3.1 语音合成技术简介 |
3.2 语音合成系统的框架 |
3.2.1 文本分析模块 |
3.2.2 韵律生成模块 |
3.2.3 语音生成模块 |
3.3 几种常见的语音合成方法 |
3.3.1 共振峰合成 |
3.3.2 LPC参数合成 |
3.3.3 PSOLA合成技术 |
3.3.4 LMA声道模型 |
3.4 语音信号分析及特征提取 |
3.4.1 短时能量 |
3.4.2 短时平均过零率 |
3.4.3 短时自相关函数 |
3.4.4 基音周期 |
3.5 基音周期的提取 |
3.5.1 传统基音周期的提取 |
3.5.2 基音周期检测算法的改进 |
3.6 本章小结 |
第4章 汉语浊音合成方法 |
4.1 本文提出的汉语浊音合成方法 |
4.2 单元音合成原理 |
4.2.1 用定长分帧法提取频响 |
4.2.2 生成基音周期序列 |
4.2.3 单元音的合成 |
4.2.4 结果分析 |
4.3 多元音合成原理 |
4.3.1 多元音声道频响的特点 |
4.3.2 声调产生 |
4.3.3 声道频响函数 |
4.3.4 四声基音周期序列的产生 |
4.3.5 多元音语音合成 |
4.3.6 结果分析 |
4.4 浊辅音合成原理 |
4.5 本章小结 |
第5章 汉语完整的语音合成 |
5.1 清音的合成 |
5.1.1 清音的特点 |
5.1.2 清音的生成方法 |
5.2 浊音的合成 |
5.2.1 浊音的特点 |
5.2.2 浊音的生成 |
5.3 语音调值的生成 |
5.4 完整语音的完整合成 |
5.5 本章小结 |
第6章 军队姓名语音库的建立 |
6.1 军队智能电话招生系统组成 |
6.2 姓名语音库建立 |
6.2.1 清音库的建立 |
6.2.2 浊音库的建立 |
6.2.3 汉语一拼音转化程序 |
6.3 姓名库建立注意的问题 |
6.4 结果分析 |
6.5 本章小结 |
第7章 结论 |
参考文献 |
致谢 |
(9)基于CART预选的大语料库语音合成系统研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 引言 |
1.2 语音合成技术研究现状及发展趋势 |
1.2.1 研究现状 |
1.2.2 发展趋势 |
1.3 课题研究任务 |
1.4 论文内容安排 |
第二章 语音合成技术概述 |
2.1 语音合成的基本原理 |
2.2 典型的语音合成方法 |
2.2.1 共振峰合成法 |
2.2.2 LPC 参数合成法 |
2.2.3 PSOLA 合成法 |
2.3 基于语料库的语音合成 |
2.4 CART 算法的基本原理 |
2.5 本章小结 |
第三章 语料预选树的设计与实现 |
3.1 预选数据的预处理 |
3.1.1 TH-CoSS 语料库介绍 |
3.1.2 获取语音基元信息 |
3.1.3 转化数据格式 |
3.2 预选规则的选择方法 |
3.2.1 预选树的预选规则 |
3.2.2 离散数据分割准则的选择 |
3.2.3 连续数据分割准则的选择 |
3.3 预选规则的二进制表示 |
3.3.1 基于二进制位的数据表示 |
3.3.2 简单预选规则的表示 |
3.3.3 复合预选规则的表示 |
3.4 语料预选树的整体实现 |
3.4.1 初始化 |
3.4.2 创建生成树 |
3.4.3 评估剪枝 |
3.4.4 存储预选树 |
3.4.5 软件运行结果 |
3.5 本章小结 |
第四章 语音合成系统的设计与实现 |
4.1 系统功能定义及平台选用 |
4.1.1 系统的功能模块 |
4.1.2 开发环境和开发语言 |
4.2 文本处理模块 |
4.2.1 构建快速索引 |
4.2.2 标注文本韵律层级 |
4.3 语料选择模块 |
4.3.1 语料树预选的实现 |
4.3.2 语料精选的实现 |
4.4 系统测试和评价 |
4.5 本章小结 |
第五章 结束语 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(10)军队智能电话招生系统语音姓名库的建立(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 国内外语音合成技术发展现状 |
1.3 语音合成技术的最新进展 |
1.3.1 合成语音的自然度大幅提高 |
1.3.2 文语转换系统音库减少 |
1.3.3 合成语音表现力提高 |
1.4 论文的研究内容及结构安排 |
第2章 语音学基础知识 |
2.1 语音的基本概念 |
2.1.1 音素和音节 |
2.1.2 辅音和元音 |
2.1.3 声母和韵母 |
2.1.4 声调和语调 |
2.2 汉语语音特点 |
2.3 语音合成技术 |
2.4 几种常见的语音合成技术 |
2.4.1 共振峰合成 |
2.4.2 LPC参数合成 |
2.4.3 PSOLA合成技术 |
2.4.4 LMA声道模型 |
2.5 语音信号特征提取 |
2.5.1 短时能量 |
2.5.2 短时平均过零率 |
2.5.3 短时自相关函数 |
2.5.4 基音周期 |
2.6 基音周期的提取 |
2.6.1 传统基音周期的提取 |
2.6.2 基音周期检测算法的改进 |
2.7 本章小结 |
第3章 汉语浊音合成方法 |
3.1 本文采用的汉语浊音合成方法 |
3.2 单元音合成原理 |
3.2.1 用定长分帧法提取频响 |
3.2.2 生成基音周期序列 |
3.2.3 单元音的合成 |
3.2.4 结果分析 |
3.3 多元音合成原理 |
3.3.1 多元音声道频响的特点 |
3.3.2 声调产生 |
3.3.3 声道频响函数 |
3.3.4 四声基音周期序列的产生 |
3.3.5 多元音语音合成 |
3.3.6 结果分析 |
3.4 浊辅音合成原理 |
3.5 本章小结 |
第4章 语音的完整合成 |
4.1 清音的合成 |
4.1.1 清音的特点 |
4.1.2 清音的生成方法 |
4.2 语音调值的生成 |
4.3 语音的完整合成 |
4.4 本章小结 |
第5章 军队智能电话招生系统姓名语音库 |
5.1 军队智能电话招生系统组成 |
5.2 智能电话招生系统姓名语音库建立 |
5.2.1 清音库的建立 |
5.2.2 浊音库的建立 |
5.2.3 汉语─拼音转化程序 |
5.3 姓名库建立注意的问题 |
5.4 结果分析 |
5.5 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文和取得的科研成果 |
致谢 |
个人简历 |
四、PSOLA技术在汉语文-语转换系统中的应用(论文参考文献)
- [1]具有表现力的汉语文语转换[D]. 朱菁. 苏州大学, 2013(11)
- [2]中文话费文语转换系统的研究与实现[D]. 景娟. 中南大学, 2011(12)
- [3]语音合成技术及其研究进展[J]. 阿日木扎,包春梅,马占新. 内蒙古科技与经济, 2010(18)
- [4]汉语文语转换系统中韵律调节算法的研究与实现[D]. 王亮. 上海交通大学, 2010(11)
- [5]基于动词词干词缀的蒙古语语音合成系统的研究[D]. 包春梅. 内蒙古大学, 2009(03)
- [6]基于AMR-WB的参数语音合成技术[D]. 舒昌. 哈尔滨理工大学, 2009(03)
- [7]面向机务CBT的一种实用文语转换系统研究[D]. 武文娟. 南京航空航天大学, 2009(S2)
- [8]声道频响合成方法在军队姓名语音库的应用[D]. 田伟东. 东北大学, 2009(06)
- [9]基于CART预选的大语料库语音合成系统研究[D]. 迟名远. 国防科学技术大学, 2008(05)
- [10]军队智能电话招生系统语音姓名库的建立[D]. 唐爱伟. 哈尔滨工程大学, 2008(04)