心情碎语:暂无碎语

您的位置:慕轲博客 >优化技巧> 搜索引擎爬虫可以检测重复率吗?

搜索引擎爬虫可以检测重复率吗?

此问题,有几个网友在QQ上和我询问,才觉得貌似部分人在这里是存在误区的。那么今天展开来一起讨论下爬虫可以检测重复率吗?

首先,要明确一点,爬虫本身做的工作是在互联网上寻找URL地址,然后取网页中的内容。爬虫的“抓”和“取”是两个动作。抓是找网址,取是把找到的网址里的内容下载下来。这个内容宽泛来说是指整个网页的源代码。爬虫最重要的工作就是这两个。对于是否能够检测网页的重复率不是爬虫完成。

但换一个问法,搜索引擎可以检测网页的重复率吗?这个是可以的。搜索引擎要实现最后的结果,中间经过的处理环节很多。而在对数据处理的过程中,先提取你网页源代码中的文本信息,然后进行分词,分词之后就可以知道在你的网页中某些词在你网页中出现了多少次。中间再把格式不一样但内容一样的做去重。最后你网页有价值的检索词就出现了,同时你网页的重复性也就此得知了。

如果你有不同观点欢迎在留言区留言,有问题也可以通过QQ直接私聊给我,说不定明天发布的文章就是你的问题...

---

转载请注明本文标题和链接:《搜索引擎爬虫可以检测重复率吗?