为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

捷通华声

2011-07-18 12页 pdf 235KB 45阅读

用户头像

is_248156

暂无简介

举报
捷通华声 捷通华声 jTTS v5.0.1 (Linux NetWork) 多语种平台技术白皮书 北京捷通华声语音技术有限公司北京捷通华声语音技术有限公司北京捷通华声语音技术有限公司北京捷通华声语音技术有限公司 2007.5 jTTS5.0.1(Linux NetWork)多语种平台技术白皮书 目 录 一、 背景 ...................
捷通华声
捷通华声 jTTS v5.0.1 (Linux NetWork) 多语种平台技术白皮书 北京捷通华声语音技术有限公司北京捷通华声语音技术有限公司北京捷通华声语音技术有限公司北京捷通华声语音技术有限公司 2007.5 jTTS5.0.1(Linux NetWork)多语种平台技术白皮书 目 录 一、 背景 .................................................................................................................1 1.1 公司简介 ......................................................................................................1 1.2 产品背景 ......................................................................................................1 1.3 公司的发展历程 ..........................................................................................1 二、 jTTS语音合成系统 ........................................................................................3 2.1 jTTS简介.....................................................................................................3 2.2 jTTS特点.....................................................................................................3 三、 jTTS体系结构 ................................................................................................4 3.1 核心的系统结构 ..........................................................................................4 3.1.1 jTTS_ML.so.......................................................................................4 3.1.2 核心引擎............................................................................................4 3.1.3 SysInfo.exe.........................................................................................5 3.2 jTTS v5.0.1 Linux技术指标 .......................................................................5 3.3 文档和相关资料 ..........................................................................................6 四、 jTTS 5.0.1 Linux功能特性.............................................................................6 4.1 jTTS API 4.0.................................................................................................6 4.2 中文引擎的功能 ..........................................................................................7 4.2.1 中英文混读........................................................................................7 4.2.2 数字串的读法处理............................................................................7 4.2.3 英文串的读法处理............................................................................7 4.2.4 多领域支持........................................................................................7 4.2.5 字符集、语音数据格式支持............................................................7 4.2.6 S3ML(SinoVoice Speech Synthesis Markup language)标记(注 1) ...7 4.2.7 合成回调方式....................................................................................8 4.2.8 添加文件头........................................................................................8 4.3 jTTS 5.0.1 Linux的特性 .............................................................................8 4.3.1 预处理功能的改进............................................................................8 4.3.2 数字、短本合成效果显著提升................................................8 4.3.3 丰富的参数设置与调节功能............................................................8 jTTS5.0.1(Linux NetWork)多语种平台技术白皮书 4.3.4 新增网络功能....................................................................................9 五、 演示环境 .........................................................................................................9 jTTS5.0.1(Linux NetWork)多语种平台技术白皮书 第 1 页 共 9 页 一一一一、、、、 背景背景背景背景 1.1 公司简介公司简介公司简介公司简介 北京捷通华声语音技术有限公司成立于 2000 年 10 月,主要致力于中文语音技术 的开发和应用。作为一家专业的语音技术公司,短短几年间,公司推出了具有国 际领先水平的捷通华声语音合成技术,在与同类技术的竞争中取得了领先的地 位,并已成为语音技术领域知名的软件厂商。 捷通华声的核心技术(jTTS)是具有自主知识产权的中文语音合成技术,积累了 十多年来中科院声学所相关领域的研究经验,目前在国际上处于领先地位,并已 申请多项国家专利。围绕 jTTS 核心技术,捷通华声还推出了一系列的解决, 形成了涵盖 CTI 行业应用、桌面级应用、嵌入式应用、互联网应用等各个领域 的产品体系,并率先在电信、电力、烟草、教育、政府、客服中心、语音门户等 领域都得到了广泛的应用,且已销往美国、日本、新加坡等海外市场,以其接近 真人的合成效果和很高的系统稳定性在业界享有很高的知名度。 语音是人类交流最自然、最方便的手段,因而也必然成为人机交互最自然、最方 便的手段之一。捷通华声秉承这一理念,将通过不懈的努力来追求语音技术的不 断完善,为提供自然、方便和理想的人机交互而奋斗。 1.2 产品背景产品背景产品背景产品背景 让机器能听会说,是人类由来已久的理想。在世界上第一台计算机的诞生之日, 人们就提出了要让计算机听懂人的话并且能够说话。 语音合成技术即 TTS,简单讲就是让计算机“开口讲话”,是利用计算机将任意组 合的文本文件转化为声音文件,并通过声卡、电话语音卡等多媒体设备将声音输 出,也即将任意的文本自动转换成为语音信息播放给用户。如今,随着语音合成 技术研究的突破,其对计算机发展和社会生活的重要性日益凸显出来。以语音合 成技术开发出来的各种应用软件产品,几乎深入到社会的各个行业之中。 捷通华声自创建以来,始终集中精力专注于中文语音核心技术产品的研制与开 发,在国内语音界不断创新,创造国内语音技术产品研究、开发、应用多项第一。 捷通华声多次被列入国家级科技计划,是国内最重要的中文语音研究开发与产业 化力量之一,强力促成中文语音合成技术在各行各业的商品化应用,目前已发展 成为国内推动语音产业发展最重要的语音技术开发供应商。通过多年的技术积 累,捷通华声对汉语语音合成技术以及汉语韵律知识的了解方面具有独特的认 知,因此捷通华声公司基于现有的基于大规模录音音库的波形拼接算法,加入对 汉语韵律特征建模的研究成果,同时根据多年来所积累的市场经验,均衡 Linux 平台下的需求和丰富自身产品线的情况下,推出了 jTTS v5.0.1 for Linux 版。 1.3 公司的公司的公司的公司的发展历程发展历程发展历程发展历程 2001.4 捷通语音技术在嵌入式设备中的应用被列为“国家火炬计划推广项目”。 2001.10 捷通华声语音合成技术产品-语音伴侣.CE 版(捷通听霸),被国家科技 jTTS5.0.1(Linux NetWork)多语种平台技术白皮书 第 2 页 共 9 页 部列为 2001 年国家重点新产品计划项目。 2002.11 捷通华声 jTTS 技术通过北京市高新技术成果转化项目认定。 2002.12 《奥运之声――基于多语种语音合成技术的综合声讯服务平台》项目获 2002 年度信息产业部基金支持。 2003.3 经过北京市科委等众多专家组的严格评测,捷通华声中标《面向奥运的 多语种语音合成产品研制》项目,该项目为北京十大科技奥运重点项目 子课之一.此次中标科技奥运,充分展示了捷通华声语音技术的强劲 实力,证明了捷通华声在中国语音界不可动摇的重要地位。 2004.5 《奥运之声——基于多语种语音合成技术的综合声讯服务平台》被列为 2004 年度国家科技部科技成果重点推广计划项目。 2004.9 捷通华声被中关村管委会评为“中关村优秀留学人员企业”。 2004.12 继嵌入式语音合成技术成功推广之后,捷通华声又独立开发成功了嵌入 式语音识别技术,并申请了软件著作权登记。 2005.1 捷通华声被评为北京市百家专利试点企业。 2005.1 捷通华声“面向奥运的多语种语音合成产品研制”列入国家科技部 863 计 划项目。 2005.2 捷通华声被评为中关村最具发展潜力十佳中小高新技术企业。 2005.2 捷通华声被评为中关村最具发展潜力十佳中小高新技术企业“最佳客户 服务奖”。 2005.3 北京市科技奥运十大专项之一的重要子课题《面向奥运的多语种语音合 成产品研制》通过验收。 2005.12 捷通华声《奥运之声――基于多语种语音合成技术的综合声讯服务平 台》项目顺利通过信息产业部验收。 2006.1 捷通华声被授予“守信企业”的荣誉称号。 2006.1 捷通华声公司与日本 CASIO 公司签署了长期合作协议。日本 CASIO 公司在其最新推出的《电子词典》产品中,采用由捷通华声公司提供的 中文嵌入式语音合成技术(TTS)应用,捷通华声语音技术开始全面进 入日本市场。 2006.7 日本东芝公司代表来捷通华声公司访问,探讨双方在嵌入式软件领域进 行合作的可能。根据会面中达成的合作意向,双方即将签署长期的合作 协议。捷通华声将成为日本东芝公司手写技术和语音技术的正式提供 jTTS5.0.1(Linux NetWork)多语种平台技术白皮书 第 3 页 共 9 页 商。 2006.8 捷通华声智能人机交互技术研发中心(简称:HCI Center)正式成立, 使公司拥有了将手写识别、语音合成和语音识别三项核心技术进行整和、 融合与产品化的平台,为公司进行关键技术应用研究与产品开发的中心。 2006.8 捷通华声正式发布新一代语音合成系统 jTTS4.5,同期启动“阳光行动”。 2006.12 捷通华声《灵感嵌入式智能交互技术开发平台》被正式列为 2006 年北 京市火炬计划项目。 2006.12 捷通华声新一代语音合成系统 jTTS5.0 正式发布。 2007.2 捷通华声嵌入式《盲人手机导航》项目获奖美国高通“无线关爱”计划, 标志捷通嵌入式语音、手写技术的新的里程碑。 二二二二、、、、 jTTS语音合成系统语音合成系统语音合成系统语音合成系统 2.1 jTTS简介简介简介简介 jTTS 语音合成系统是由北京捷通华声语音技术有限公司自主研发的中英文 混读语音合成系统。该系统以先进的大语料语音合成技术为基础,能够实时、准 确的将文本信息转换为自然、流畅的语音,是一种能够在任何时间、任何地点, 向任何人提供语音信息服务的高效便捷手段,非常符合信息时代海量数据、动态 更新和个性化查询的需求。 2.2 jTTS特点特点特点特点 高质量的语音合成效果 满足不同需求的音色 高准确度的文本智能分析和预处理 高质量的文本合成效果 全面完善的功能特性 系统架构合理、高效、灵活 开发接口 参数设置和调节非常丰富 支持多种字符集和语音格式 多种语音平台支持 细致周到的优化方案 提供高效的优化定制方案 SSML 标记语言控制语音合成 支持背景音乐 jTTS5.0.1(Linux NetWork)多语种平台技术白皮书 第 4 页 共 9 页 三三三三、、、、 jTTS体系结构体系结构体系结构体系结构 3.1 核心的系统结构核心的系统结构核心的系统结构核心的系统结构 jTTS v5.0.1(Linux)多语种语音合成平台采用开放式架构设计方法,对外 提供一套统一的编程接口,即 jTTS API 4.0,对内通过多语种引擎管理模块,即 jTTS_ML.so,完成多语种引擎的自动挂接与语音合成工作,而且可以很方便地 添加其他语种的引擎。 图 1 平台系统结构示意图 3.1.1 jTTS_ML.so jTTS_ML.so 是多语种引擎管理模块,可完成的功能包括: 各个语种几乎相同的工作,如 SSML 标注语言的处理等; 各个语种引擎和音库的管理、加载、卸载、选择; 与外部设备相关而与具体引擎无关的工作,例如打开文件,声卡或文件输出等。 3.1.2 核心引擎 核心引擎是完成语音合成的核心工作模块,例如我们提供的中文引擎有 LibjTTS_LK.so, LibjTTS_XN.so 等;音色库是通过对指定音色大规模录音数据的 处理而形成的语音数据库,用于引擎的语音合成。其中引擎、语种和音色库的基 jTTS API 4.0 (jTTS_ML.so) 中文音库引擎日文音库引擎 英文 音库引擎 男声音库 女声音库 通 用 领 域 天 气 预 报 体 育 赛 事 通 用 领 域 公 交 信 息 金 融 证 券 jTTS服务器 Web页面调用一般上层应用 jTTS5.0.1(Linux NetWork)多语种平台技术白皮书 第 5 页 共 9 页 本关系如下: 每个引擎可以支持多个语种。 可以有多个引擎支持同一个语种。 每个引擎可以有多个音色(一般也对应了多个音库),每个音色都有一个唯一的 GUID。 每个音色只能支持一个语种。 每个音色可以支持多个领域(Domain),不同音色可以支持不同的领域范围。 方言(例如广东话)是作为一个独立语种出现。 系统会在某个目录(例如默认应该是/opt/SinoVoice/jTTS-5.0.1.0/bin/)下递归地 搜索所有子目录。自动查找所安装的语种引擎、音色库和领域资源包。这样的结 果是,整个系统是一种模块化的结构,对用户来说,可以自由地安装某个引擎、 某种音库和某种领域资源包。 3.1.3 SysInfo.exe 新提供的 SysInfo 实用工具,可以检查用户的应用环境:合成系统名称版本、 操作系统名称版本、授权信息、各引擎和音库状况等等。我们借助此工具,可以 进行远程的信息搜集和技术支持,更快速的定位问题发生的原因,提供更专业的 技术支持和服务。 3.2 jTTS v5.0.1 Linux技术指标技术指标技术指标技术指标 项目 指标 支持操作系统 RedHat 7.3/9.0/AS3.0/AS4.0,Fedora Core 5 Turbo Linux 10 支持字符集 支持 GB2312, GBK, GB18030,Big5,Shift-JIS, ISO 8859-1, Unicode,, Unicode Big Endian, UTF-8 支持的语种 汉语普通话,英文 支持的音库 XiaoNan 支持的文本类型 普通的文本文件 支持的文本控制语言 支持 SSML 和 S3ML 标记语言 支持的音频格式 支持 PCM、 aLaw/uLaw、Dialogic ADPAM 支持音量调节 支持,默认 0-9 支持语速调节 支持,默认 0-9 支持基频调节 支持,默认 0-9(这个调节音色) 支持中英文混读 支持 jTTS5.0.1(Linux NetWork)多语种平台技术白皮书 第 6 页 共 9 页 数字读法 支持电报方式和数目方式 英文读法 支持英文方式,字母方式,字母和录音单词方式 标记识别 支持 最低配置: P3 800MHz, 256Ram, 20G HD 推荐单机配置 P4 1.7GHz, 256Ram, 20G HD 推荐服务器配置 Xeon 2.4G*2, 1G Ram, SCSI 18G,, 100M 交换网 3.3 文档和相关资料文档和相关资料文档和相关资料文档和相关资料 语音合成开发请参阅:《jTTS 产品开发手册(Linux)》 四四四四、、、、 jTTS 5.0.1 Linux功能功能功能功能特性特性特性特性 4.1 jTTS API 4.0 jTTS API4.0 版本具有以下功能: 支持多语种,支持多领域的设置:目前支持中文、英文、粤语、日文等语种,支 持金融证券、天气预报、体育赛事、公交信息、旅游餐饮、汽运、排队叫号、名 家金曲、保险、航空、税务、电力和定制等 14 个领域。 支持音色的查找、访问、加载。 主导个性化语音服务新潮流,提供丰富、风格多样化的音色选择,如浑厚淳正的 男声,成熟稳重、轻快活泼、或温柔甜美的女声,标准地道的英语女声,甚至童 声,少男、少女,老年人等等,所有音色库均继承捷通华声语音合成技术一贯的 优良品质。用户可供根据不同应用业务需要,选择最适合应用场景的语音风格, 并支持实时动态的音色切换。 支持 SSML (语音合成标记语言, Speech Synthesis Markup language),可以对多 种特性进行灵活标注与控制。 可以直接播放文本文件,使得合成操作更加方便快捷。 支持同步、异步合成一个 Session,通过被动的回调方式给用户传递数据。 在原有版本的主动获取语音数据的基础上又多了一个选择。 支持背景音乐,这样的话就可以在合成语音的时候播放轻松欢快的音乐,使得合 成的语音不再那么枯燥和乏味。 jTTS5.0.1(Linux NetWork)多语种平台技术白皮书 第 7 页 共 9 页 4.2 中文引擎的中文引擎的中文引擎的中文引擎的功能功能功能功能 4.2.1 中英文混读 中文引擎不使用第三方的英文引擎,而是采用自行开发的英文引擎,达到了清晰 流利、中英文同一音色的效果。 4.2.2 数字串的读法处理 支持电报和数字阅读, 4.2.3 英文串的读法处理 支持字母阅读、单词录音、语句的英文合成与 SAPI 合成。 4.2.4 多领域支持 中文引擎提供了多个领域的优化资源包。例如,在天气预报领域提供了 利用模板拼接技术的特定领域音库,在金融证券、旅游餐饮、体育赛事等领 域提供了特定领域词库、预选音音库等。通过这些针对不同专业领域的优化 资源包,可以大大提高特定领域文本的合成效果。同时,多领域支持也采用 了一种模块化的方式,用户可以自行地安装不同领域的资源包。 4.2.5 字符集、语音数据格式支持 全面支持 GB2312、GBK、BIG5、GB18030、UTF-8 和 UNICODE 编码 字符集,自动识别 UNICODE 文本;支持直接输出多种采样率的语音数据格 式(包括 6K/8K/11K/16K)的线性 Wav、A/U 率 Wav 和 Vox 等多种格式的 语音数据。 4.2.6 S3ML(SinoVoice Speech Synthesis Markup language)标记(注 1) SSML(Speech Synthesis Markup Language)语音合成标记语言定义了一套 丰富的,基于 XML 的标记语言以支持在 Web 语音浏览器或者其它应用程序 中生成合成语音。这一标记语言的的主要作用在于提供给合成内容的作者一 个标准的方法来控制语音的各个方面,例如发音、音量、语速、基频等。SSML 目前是 W3C 的草案,具体内容参见 http://www.w3.org/TR/speech-synthesis/。 从 jTTS 4.0 开始,捷通华声语音合成系统定义了 S3ML (SinoVoice Speech Synthesis Markup Language)-捷通华声语音标记语言。S3ML 符合基本的 SSML 规范,但更为详细地定义了 SSML 没有精确定义的部分(例如 的具体语法),同时也支持一些针对中文语音合成的扩展。 新版本将继续支持原 jTTS 3.0版本支持的文本标注方法(成为 jTTS Tag), 但 jTTS Tag 将不再发展。如有需要,新的应用程序应该使用 S3ML 对文本进 行标注,以控制语音合成效果的功能,并获得灵活的可扩展性。 jTTS5.0.1(Linux NetWork)多语种平台技术白皮书 第 8 页 共 9 页 在这里要说的是如果你想把一段已经录好的话插入到你要合成的语音文 件当中,或者你想要在你合成的语音文件里播放背景音乐,标记语言都可以 帮你完成,使得你合成的文件不再枯燥乏味。 4.2.7 合成回调方式 jTTS 提供了两种方式直接获取语音流,一种是直接获取语音流,一种是 通过回调方式获得语音流。而回调方式也分同步回调和异步回调两种方式获 取语音流。 这两种合成方式的好处就是你可以直接在内存当中操纵你得到的语音 流,可以随便增加、删除、修改,使你的应用更加灵活和方便。 4.2.8 添加文件头 通过语音文件头修改,提供灵活的文件输出方式。 4.3 jTTS 5.0.1 Linux的特性的特性的特性的特性 4.3.1 预处理功能的改进 中文引擎在预处理部分的提升: 针对多种领域提供优化的预处理方案,有效保障语音合成效果准确、自然、流畅; 采用了基于分词和词性标注一体化的前端分析算法以及基于统计的韵律词分析 算法,提供了更好的韵律分析结果,阅读更为自然流畅。 多音字处理算法的改进,使得多音字的误读率大为下降。 改进数字符号读法的分析算法,数字符号的读法的阅读准确率更高。同时支持数 字、符号读法的外部规则使用,提供给用户自行定义数字符号读法的方法。 4.3.2 数字、短语文本合成效果显著提升 针对主流应用环境的普遍需求,捷通华声广泛收集实际应用的语料,并 进行细致分析和专业的优化,jTTS v5.0.1 在数字数值、短语短句等最常见应 用下效果提升显著,合成效果更加清晰准确、节奏感更强。 4.3.3 丰富的参数设置与调节功能 丰富完善的参数设置与调节功能和工具,帮助用户对语音合成效果进行 灵活高效的控制与管理。提供对全局参数(如音量、语速、音高等)、用户 词典、用户规则、定制资源包统一进行配置和管理的工具;数字、标点符号、 英文发音方式的设定;中英文加词功能,可以指定每个字词的拼音或音标等 等;提供统一的简单易用图形化用户界面进行操作设定,并可通过 API 参数 进行动态设置和调整,还支持以 CSSML(中文语音合成标记语言)进行标 记、描述和控制。 jTTS5.0.1(Linux NetWork)多语种平台技术白皮书 第 9 页 共 9 页 4.3.4 新增网络功能 网络语音合成服务程序 jTTSService :在 Linux 平台上,提供网络合成功能。 客户端只需在调用 jTTS Api 的时候指定合成服务器 IP即可调用网络语音合成服 务程序。 网络语音合成服务程序守护程序 jTTSDaemon:监控 jTTSService ,提高网 络服务的稳定性。并提供监控日志功能。 五五五五、、、、 演示环境演示环境演示环境演示环境 捷通华声公司已经完成了多语种语音合成平台和电话演示系统的挂接, 用户可以通过电话(010)-82826886 转 8866 听取多语种语音合成系统的合 成效果和语音识别的效果。 注 1:具体用法参考《jTTS 帮助文档》。
/
本文档为【捷通华声】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索