[00842746]汉藏句子自动对齐系统
交易价格:
面议
所属行业:
类型:
非专利
交易方式:
资料待完善
联系人:
所在地:
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
句子级对齐的双语平行语料库也是跨语言信息检索,翻译词典编撰、双语术语自动提取以及多语言对比研究等的重要基础资源。但是,在句子级对齐的汉藏双语平行语料获取方面还存在着严重的不足,基本处于人工对齐状态。人工对齐的优点是对齐精确度很高,但其缺点也明显,速度慢。双语文本充足的情况下,一人一天(8小时)只能对齐500对句子。一般情况下,机器翻译需要100万对句子的平行语料库,这样规模的平行语料库,由人工对齐,一人2000天才能完成,这个速度确实太慢,跟不上现代科技的快速发展。因此,研制出一种汉藏句子自动系统。该系统通过基于长度和锚点信息相结合的算法使汉藏句子的对齐正确率和召回率分别达到90.87%和87.79%。其结果在汉藏平行语料库的建设过程中得到了应用。成果达到国内先进水平。
句子级对齐的双语平行语料库也是跨语言信息检索,翻译词典编撰、双语术语自动提取以及多语言对比研究等的重要基础资源。但是,在句子级对齐的汉藏双语平行语料获取方面还存在着严重的不足,基本处于人工对齐状态。人工对齐的优点是对齐精确度很高,但其缺点也明显,速度慢。双语文本充足的情况下,一人一天(8小时)只能对齐500对句子。一般情况下,机器翻译需要100万对句子的平行语料库,这样规模的平行语料库,由人工对齐,一人2000天才能完成,这个速度确实太慢,跟不上现代科技的快速发展。因此,研制出一种汉藏句子自动系统。该系统通过基于长度和锚点信息相结合的算法使汉藏句子的对齐正确率和召回率分别达到90.87%和87.79%。其结果在汉藏平行语料库的建设过程中得到了应用。成果达到国内先进水平。