搜索引擎近似重复检测流程和SimHash文档指纹计算方法 。
近似重复网页类型,根据文章内容和网页布局格式的组合分为4种形式:
一:两篇文档在内容和布局格式上毫无区别,则这种重复称为完全重复页面。
二:两篇文档内容相同,但布局格式不同,则这种重复称为内容重复页面。
三:两篇文档有部分重要的内容相同,并且布局格式相同,则这种重复称为布局重复页面。
四:两篇文档有部分重要内容相同,但布局格式不同,则这种重复称为部分重复页面。
重复网页对搜索引擎的不利影响:
正常情况下,非常相似的网页内容不能或只能给用户提供少量的新信息,但在对爬虫进行抓取、索引和用户搜索 会消耗大量的服务器资源。
重复网页对搜索引擎的好处:
如果某个网页重复性很高,往往是其内容比较比较受欢迎的一种体现,也预示着该网页相对比较重要。应予以优先收录。当用户搜索时,在输出结果排序时,也应给与较高的权重。
重复文档的处理方式:
1.删除
2.将重复文档分组
搜索爬虫抓取会产生网页重复的类型:
1.多个URL地址指向同一网页以及镜像站点。如:www.qydsj.cn 和www.qydsj.cn指向同一个站点。
2. 网页内容重复或近似重复。如抄袭、转摘的内容,垃圾信息等。
网页内容近似重复检测的两种应用场合:
一:在用户搜索阶段
目标是根据与用户给定的查询词找到已有索引列表中近似重复的文档,并排序输出。
二:爬虫抓取发现阶段
对一个新的网页,爬虫程序通过网页去重算法,好终决定是否对其索引。