分享搜索引擎一般是如何判断原创和伪原创的 - 慕轲博客-建立自己的个人自媒体博客

心情碎语:等雨停的时候往往雨不会停,等人来的时候往往人不会来。

您的位置:慕轲博客 >奇闻异事> 分享搜索引擎一般是如何判断原创和伪原创的

分享搜索引擎一般是如何判断原创和伪原创的

我们都知道做SEO肯定是原创是最好的,同时也有过多次的实战经历,百度对原创文章的网站给予的权重很高.但是现在在操作SEO的时候,很多时候很难达到一个全部全部原创的,因为文章有限、时间有限,这个时候大家普遍的手法是伪原创.今天看了一下百度和谷歌如何去判断原创和伪原创的文章,觉得对大家还是有一定的帮助,特意整理下,发上来给大家参考下:


    1. 相似度


    相似度主要依靠词频和反文档频率两个来判断.词频指的是某一个给定的词语在该文件中出现的次数.反文档频率指的是:如果包含词条的文档越少,反文档频率越大,则说明词条具有很好的类别区分能力.大概意思是如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类.当两篇文章的特征向量趋于一致的时候,我们认为这两篇文章的内容接近,如果一致则说明是重复的.


    2. 数据指纹


    当搜索引擎通过相似度把文章收集起来后,要判别一下是否是重复文章,经常用的就是数据指纹,数据指纹有很多种算法,常见的比如讲文章的标点符号提出,进行对比,你很难想象有两篇不同的文章,标点符合是一致的.还有对向量进行对比,也就是关键词密度等等来判断.像我们一般的把文章的段落重排,但是文章的词频等是一致的,也会被判断出来.


    3. 代码噪音


    何为代码噪音?先让我们了解一下原理:


    ----------------------–


    学过信息论和有信号处理经验的读者可能知道这么一个事实,我们如果在发动机很吵的汽车里用手机打电话,对方可能听不清;但是如果我们知道了汽车发动机的频率,我们可以加上一个和发动机噪音相反的信号,很容易地消除发动机的噪音,这样,收话人可以完全听不到汽车的噪音.


    消除噪音的流程可以概括如下:


    -----------------------


    一般Google都会通过对代码的布局和噪音比例进行区分,哪些是导航,哪些是正文,并可以对一些典型的代码进行忽略.那么我们在做模板的时候,就要注意了.这里有个纠结点,就是整页面降噪,方便搜索引擎进行正文的确认,但是正文区要适当的加燥,增加搜索引擎识别重复性的难度.


    知道了搜索引擎判断文章原创程度的原理,那么你就知道如何去做一篇文章的更新了,整站优化就是如此对网站进行操作的,尽量原创.


---

转载请注明本文标题和链接:《分享搜索引擎一般是如何判断原创和伪原创的

发表评论

72 + 62 =
路人甲 表情
Ctrl+Enter快速提交