[00244510]一种基于卷积神经网络的图像爬虫优化方法
交易价格:
面议
所属行业:
分析仪器
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201610839591.0
交易方式:
技术转让
技术转让
技术入股
联系人:
浙江工业大学
进入空间
所在地:浙江杭州市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
一种基于卷积神经网络的网络爬虫优化方法,包括以下步骤1)利用网络爬虫从各网站爬取初始数据,人工将数据分为无噪声数据集Free_Noisy和完全噪声数据集Pure_Noisy;2)使用初始数据集训练NoisyCNN网络;3)利用网络爬虫开始对主流搜索引擎和图像分享网站中搜集大量目标分类的图像数据,同时定期执行步骤4;4)利用NoisyCNN网络对数据筛选,将数据将分为Weak_Noisy和Pure_Noisy;5)使用扩充后数据更新NoisyCNN网络;6)判断Pure_Noisy数据量是否合理,决定是否继续爬虫;7)停止爬虫。本发明能有效减少数据噪声、提升工作效率。
一种基于卷积神经网络的网络爬虫优化方法,包括以下步骤1)利用网络爬虫从各网站爬取初始数据,人工将数据分为无噪声数据集Free_Noisy和完全噪声数据集Pure_Noisy;2)使用初始数据集训练NoisyCNN网络;3)利用网络爬虫开始对主流搜索引擎和图像分享网站中搜集大量目标分类的图像数据,同时定期执行步骤4;4)利用NoisyCNN网络对数据筛选,将数据将分为Weak_Noisy和Pure_Noisy;5)使用扩充后数据更新NoisyCNN网络;6)判断Pure_Noisy数据量是否合理,决定是否继续爬虫;7)停止爬虫。本发明能有效减少数据噪声、提升工作效率。