2014年5月,360搜索上线ICO算法。ICO算法是对已经入索引库的低质量URL和无效URL数据进行清理的算法,在不同的阶段会对不同类型的无效数据进行清理,该算法是一个长期执行的算法。(ICO 全称:Index clear optimize)
ICO算法—本次针对重复内容清理
处理量级:10亿以上
处理网页特点:
该算法主要是针对重复内容进行清理,对用户没有价值的内容页面,内容时效性强且过期的页面,采集站类,URL地址含有无效参数的页面等。
例如:招聘类网站不同子站中内容相同的页面,小说采集站尤其处理对用户无价值的页面,旧新闻页且内容重复的页面也会处理一部分,以及其他的部分无效页面。
© 版权声明
本文章部分图片素材和内容素材来源于网络,仅供学习与参考,如果损害了您的权利,请联系网站客服,我们核实后会立即删除。本站只提供参考并不构成任何投资及应用建议。(若存在内容、版权或其它问题,请联系:2287916237@qq.com)
THE END