当前位置：首页 > 科技成果 > 详细页

[01724383]汉藏智能语音交互关键技术及应用

交易价格： 面议

所属行业： 软件

类型： 非专利

交易方式： 资料待完善

联系人：

所在地：

服务承诺: 产权明晰; 资料保密
对所交付的所有资料进行保密; 如实描述

登录后向技术服务商咨询

发布技术需求服务免费，交易还可领红包哦

技术详细介绍

(1)课题来源与背景国家重点基础研究发展计划（973计划）互联网环境中文言语信息处理与深度计算的基础理论和方法项目（项目编号：2013CB329300）面向互联网规模的用户言语信息服务系统与应用验证课题（课题编号：2013CB329305）的子课题面向互联网规模的群体用户语音交互建模与验证研究研究开发任务。（2）研究目的与意义由于移动互联网的大量普及,互联网环境每天产生海量的言语数据。本项目以互联网环境交互中的多言语语篇、对话和口语化文本为主要研究对象,以言语识别、语义理解和知识获取为研究目标,最终实现互联网规模的言语信息服务应用平台。研究的开展将促进多语言言语信息在经济发展、文化教育等领域的重大应用。（3）技术原理与性能指标基于言语行为理论的互联网用户语音交互行为分析与建模：利用基于路径的对话情景来获取口语化交互行为数据,利用统计学方法对语音行为进行统计分析,发现对语音规划及意图等语音行为的统计性规律。利用稀疏编码技术来实现可逆语音水印技术的研发。支持互联网规模言语信息服务的语音识别系统：基于N-gram来训练语言模型,利用HMM来训练语音识别器。基于不同的语音行为及语音领域训练不同的语言模型,根据对语音行为的分类结果来选择相应的语言模型进行识别。（4）取得成果、技术的创造性与先进性揭示多言语的音位范畴形成机理和互联网环境中文信息交互中的言语行为规律,建立与完善互联网言语行为理论;从数据层、语义层、意图层三个层次分别对互联网言语信息建模,提出了引入领域知识的词语相似度计算方法提高词语相似度的精确性,实现支撑互联网言语信息服务系统的多通道语音识别引擎。基于路径的对话情景来获取口语化交互行为数据,利用统计学方法对语音行为进行统计分析,发现对语音规划及意图等语音行为的统计性规律。对言语交互中语音水印的分析及建模研究,并对语音信号中隐含的意图进行显性理解。针对语音交互中的不完整语音信号,重点研究听觉感知模型的理论基础与特性,基于信号局部相关性的方法和基于小波去噪的方法实现对噪声序列的估计,对估计的噪声序列使用Markov模型对噪声的相关性进行建模,并据此提取特征向量用于分类器的训练。实验表明,该方法有效提高了低嵌入率LSB音频隐写的识别准确率。对言语交互中多通道语音的建模研究及模型优化;实现基于语音行为模型的语音交互行为分类。将深度学习训练模型与藏语低资源语料结合,训练基于藏语的建立模型,提出一种基于HMM-DNN（隐马尔科夫模型-深度神经网络）的藏语语音识别系统。（5）技术的成熟程度及应用推广情况基于上述理论研究,并提出少数民族地区“思想+AI+课程”的教学实践体系。最终落地汉藏助教机器人的产品。研究成果已经通过中试,技术成熟先进。产品已在青洽会上展示,并在藏语小学应用。项目成果为民族语言的教育机器人应用提供示范性验证,改革少数民族地区在师资薄弱课程的授课方式,改变地区教育观念落后和师资力量薄弱的困境,提高少数民族地区的教学水平。同时为多民族文化沟通和交流提供技术平台、促进民族团结、文化共享和社会和谐。（6）知识产权及论文发表情况共发表高水平论文26篇;申请发明专利15项,授权6项。

[01724383]汉藏智能语音交互关键技术及应用

技术详细介绍

推荐服务：