[01823592]中文信息系统资源数字化平台PCMD
交易价格:
面议
所属行业:
软件
类型:
非专利
交易方式:
资料待完善
联系人:
所在地:
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
信息资源数字化是资源建设的基础设施,是实现信息化的关键。该项目研究的目的是探讨在我国已有OCR技术研究成果基础上进一步优化识别技术、提高识别系统的纠错功能,将识别系统流水线化,旨在提供一个高效、高速、高准确率,适于处理海量数据的半自动化住处资源数字化平台。 项目研制过程中,我们着力解决了少量数据数字化过程中效率不高,质量无法控制,原版面还原,对XML格式的支持等几个关键问题。其技术特色如下: (1)首次用互补型识别核心多数表决进行二次分类重构新的识别系统,它与通常的OCR识别软件最主要的区别是集中了国内最先进的具有互补性的多个识别核心,进行多数表决、二次分类、效率较人工录入提高了10—15倍,成本下降为手工录入的30%。 (2)自主开发了按字指查改软件,并首次提出按置信度排序的思路,极大地提高了校对的速度和效率,并使相似字的校对问题得到了有效的解决,实现了查改技术从单路到多路,从单字到批量,从有序到无序的突破。 (3)将软件工程学中定量分析软件错误模型—错误植入模型应用在海量数据错误的自动检测上,设计了错误植入法对各个校对工序中的错误进行定量分析,解决了海量数据质量的自动量化检测与控制的难题。 (4)基于OCR校对结果的图文混排编辑器功能强大,提供了对XML的支持。 (5)开发了基于INTERNET的生产管理软件,实现了生产流程的设置及管理、人员的管理、进度及质量的管理,支持不限类型的数据及复杂的工序流程设置(有向无环图)管理。系统实用性强,功能稳定可靠。 该项目主要应用领域主要包括政府机关、图书档案、新闻出版以及互联网内容提供机构等正在蓬勃开展的网上教育也将大量采用本技术。
信息资源数字化是资源建设的基础设施,是实现信息化的关键。该项目研究的目的是探讨在我国已有OCR技术研究成果基础上进一步优化识别技术、提高识别系统的纠错功能,将识别系统流水线化,旨在提供一个高效、高速、高准确率,适于处理海量数据的半自动化住处资源数字化平台。 项目研制过程中,我们着力解决了少量数据数字化过程中效率不高,质量无法控制,原版面还原,对XML格式的支持等几个关键问题。其技术特色如下: (1)首次用互补型识别核心多数表决进行二次分类重构新的识别系统,它与通常的OCR识别软件最主要的区别是集中了国内最先进的具有互补性的多个识别核心,进行多数表决、二次分类、效率较人工录入提高了10—15倍,成本下降为手工录入的30%。 (2)自主开发了按字指查改软件,并首次提出按置信度排序的思路,极大地提高了校对的速度和效率,并使相似字的校对问题得到了有效的解决,实现了查改技术从单路到多路,从单字到批量,从有序到无序的突破。 (3)将软件工程学中定量分析软件错误模型—错误植入模型应用在海量数据错误的自动检测上,设计了错误植入法对各个校对工序中的错误进行定量分析,解决了海量数据质量的自动量化检测与控制的难题。 (4)基于OCR校对结果的图文混排编辑器功能强大,提供了对XML的支持。 (5)开发了基于INTERNET的生产管理软件,实现了生产流程的设置及管理、人员的管理、进度及质量的管理,支持不限类型的数据及复杂的工序流程设置(有向无环图)管理。系统实用性强,功能稳定可靠。 该项目主要应用领域主要包括政府机关、图书档案、新闻出版以及互联网内容提供机构等正在蓬勃开展的网上教育也将大量采用本技术。