[00274345]一种基于Hadoop的频繁闭项集挖掘方法
交易价格:
面议
所属行业:
分析仪器
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201210072524.2
交易方式:
技术转让
技术转让
技术入股
联系人:
南京大学
进入空间
所在地:江苏南京市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明公开了一种基于Hadoop的频繁闭项集挖掘方法,包括如下步骤:并行计数:并行地扫描一次数据库,统计数据库中每个数据项的频繁次数;构造全局F-List和G-List:并行挖掘局部频繁闭项集:再次扫描数据库,在各个节点采用第一算法挖掘局部频繁闭项集,并只保存全局频繁闭项集。本发明方法基于Group分配计算任务,使得计算量的分配更加均衡;同时,该方法更加简洁,只要三个步骤(两次Map-Reduce过程)就可以完成挖掘任务。
本发明公开了一种基于Hadoop的频繁闭项集挖掘方法,包括如下步骤:并行计数:并行地扫描一次数据库,统计数据库中每个数据项的频繁次数;构造全局F-List和G-List:并行挖掘局部频繁闭项集:再次扫描数据库,在各个节点采用第一算法挖掘局部频繁闭项集,并只保存全局频繁闭项集。本发明方法基于Group分配计算任务,使得计算量的分配更加均衡;同时,该方法更加简洁,只要三个步骤(两次Map-Reduce过程)就可以完成挖掘任务。