[01920628]一种蒙古语大词汇量连续语音识别的方法
交易价格:
面议
所属行业:
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201610440618.9
交易方式:
技术转让
联系人:
所在地:内蒙古自治区呼和浩特市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明公开了一种蒙古语大词汇量连续语音识别的方法,由预处理阶段、准备阶段、训练阶段、解码阶段及合成转换阶段组成;预处理阶段是对文本训练语料的切分,并建立发音词典;准备阶段是对输入的语音信号提取声学特征;训练阶段是利用整词发音词典训练声学模型、利用切分后的训练文本训练语言模型;解码阶段是利用声学模型、语言模型和发音词典,将输入的声学特征识别成文本信息;合成转换阶段是利用规则纠正解码过程中的格后缀错误并将词干与格后缀合并,最终输出由蒙古文单词组成的句子。解决了现有技术中语音识别系统无法包含大规模蒙古语单词,由单词量过大导致语音识别的时间过长,语音识别系统中语言模型数据稀疏的问题。
本发明公开了一种蒙古语大词汇量连续语音识别的方法,由预处理阶段、准备阶段、训练阶段、解码阶段及合成转换阶段组成;预处理阶段是对文本训练语料的切分,并建立发音词典;准备阶段是对输入的语音信号提取声学特征;训练阶段是利用整词发音词典训练声学模型、利用切分后的训练文本训练语言模型;解码阶段是利用声学模型、语言模型和发音词典,将输入的声学特征识别成文本信息;合成转换阶段是利用规则纠正解码过程中的格后缀错误并将词干与格后缀合并,最终输出由蒙古文单词组成的句子。解决了现有技术中语音识别系统无法包含大规模蒙古语单词,由单词量过大导致语音识别的时间过长,语音识别系统中语言模型数据稀疏的问题。