[00770752]基于串匹配思想的文档复制检测系统研究与实现
交易价格:
面议
所属行业:
类型:
非专利
交易方式:
资料待完善
联系人:
所在地:
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
该课题在分析现有文档复制检测原型系统的功能和优缺点的基础上,提出了一种基于k-grams的文档特征提取方法并提出一种基于指纹的中文文档复制检测方法,并利用Karp-Rabin随机串匹配算法的思想,提出一种基于指纹的中文文档复制检测方法。研究了汉语词语的分类以及歧义词的分布特点,提出一种汉语全文无指导词义标注方法。提出了基于概率上下文无关文法的汉语无指导句法分析方法,针对概率上下文无关文法独立性假设这一局限性引入上下文信息,给出了新的结合词类和句法范畴共现信息的句法结构树概率评价函数,实现了汉语句子的无指导句法分析。提出一种基于框架的语义知识表示方法,能够描述词、短语和句子的语义,并且清楚地表示出语义单位之间的层次性和生成性,通过实验确定设定参数的最佳取值,并验证该文方法的正确性和有效性。该项研究成果主要应用于文档复制检测领域,具有重要理论意义和实际应用前景。
该课题在分析现有文档复制检测原型系统的功能和优缺点的基础上,提出了一种基于k-grams的文档特征提取方法并提出一种基于指纹的中文文档复制检测方法,并利用Karp-Rabin随机串匹配算法的思想,提出一种基于指纹的中文文档复制检测方法。研究了汉语词语的分类以及歧义词的分布特点,提出一种汉语全文无指导词义标注方法。提出了基于概率上下文无关文法的汉语无指导句法分析方法,针对概率上下文无关文法独立性假设这一局限性引入上下文信息,给出了新的结合词类和句法范畴共现信息的句法结构树概率评价函数,实现了汉语句子的无指导句法分析。提出一种基于框架的语义知识表示方法,能够描述词、短语和句子的语义,并且清楚地表示出语义单位之间的层次性和生成性,通过实验确定设定参数的最佳取值,并验证该文方法的正确性和有效性。该项研究成果主要应用于文档复制检测领域,具有重要理论意义和实际应用前景。