分享好友 资讯文章首页 资讯文章分类 切换频道

搜索引擎是如何判断页面文章内容是否原创的

2023-03-23 10:01IP属地 广东佛山340建站助手
搜索引擎是如何判断页面文章内容是否原创的:

本人最近在操作一个非主流站,内容是采集的,开始收录还好,后来不久就被k了,几万数据的站百度收录只剩几十。当然,我也知道一直采集也不是办法,可是人力有限,不可能去一条条加,也不现实。所以想搜索一下搜索引擎是怎么判定原创与否的,但很可惜,这方面的内容实在不多。然后我去以搜索工程师的角度去想了想,不禁一身冷汗啊,因为判定原创与否实在太简单了。我就按我的思维顺序分析一下,供参考。

下面我以这个文章为例来讲解。标题:南昊北京科技有限公司是专业的光标阅读机生产商。内容:南昊科技研发的光标阅读机读卡快,质量优,服务好。我们的公司地址在北京市XXXX。蜘蛛通过超链接文本来到我们的网站,并通过站内链接来到此篇文章页。搜索引擎判断分析开始。

1.标题的分析。现在好多的网页都有明显的优化痕迹,带有很多的长尾词,但是这些在后边位置的长尾词应该只是告诉引擎本页面这是关于什么内容的,因为这样的话引擎会认为有太多重复,显然这是一个不正确的做法。实际应该为有一个截取函数,比如只截取前边40个字符作为分析内容。最终,假设引擎截取的是:南昊北京科技有限公司是专业的光标阅读机。

首先要做的就是判断这个标题是不是唯一,怎么判断呢,放心有办法。我们都知道引擎分类是按词条目来分的,那条目要怎么来呢。简单:相关搜索词条目。如下图:

引擎会把截取到的标题按这个相关搜索词去他的数据库中逐一分析匹对。举个例子吧,从标题中取到光标阅读机这个词,然后和相关搜索词匹对,如果数据库中已经存有了这个标题,就会认为此标题不唯一,待匹对文章内容。如果光标阅读机这个词匹对完毕,再会截取南昊北京,再会以此类推,进行匹对……直到分析完引擎认为标题所含全部的关键词。

最终标题的匹对结果有两种:一,标题数据库暂无此内容,待考察内容。二,标题数据库中已存在此内容,待考察内容。

2.内容的分析。基本思路应该和标题的分析是差不多的,但是也有差别,困为内容包含的信息毕竟比标题要复杂,五花八门的多,也要有更复杂的算法。

前边已经说了我们的内容是:南昊科技研发的光标阅读机读卡快,质量优,服务好。我们的公司地址在北京市XXXX。因为文章内容一般很长,所以不可能去对关键词进行分析,他只好去对一句话或者一段话进行分析匹对。但是这个匹对范围应该还是标题中有相关搜索词的文章数据库中进行分析匹对。

先大体说一下他的分析方法:随机截取随机长的字段,然后就行此字段前后内容的分析,如果当前页与引擎内容数据库中有相同字段的且前后段也相同的话,就会认为这个文章有抄袭,非原创的嫌疑。这个分析过程一般要重复几次,假如分析了10次,有9次在截取字段前后都能在已有内容数据库中有相同内容,再加上标题又相同,这样的话,你这篇文章就会被认定为非原创了。

下面我们来模拟一下。

引擎第一次截取到了“光标阅读机读卡快,”,然后通过相关搜索词来到文章数据库,已有数据库字段前为“科技研发的”,字段后为“质量优”,取出这两个字段与我们当前页面进行匹对。若有相同内容,记为0,没有相同内容,记为1。一次匹对完毕。

然后再截取“公司地址”,进行操作,再次得到一个结果0或1,以此类推。直到完成引擎设置的匹对循环次数。如果匹对10次,有7次,或8次,或10次都能找到相同内容,那么就会认为你的这篇不是原创了……

再往远了说,如果判定这是一篇原创,那么引擎会在他的域名权重数据库中对该域名进行+1操作,显然,越来越多的原创,权重也就越来越高,排名也就越来越好了。如亿企邦,chinaZ。

我想通过标题与内容的这样关键词匹对,只要进行足够次数的匹对,大胆扩展相关数据库匹对范围,一篇文章是不是原创就能分辨出来了。事实上,现在的处理器是越来越快又便宜,再加上搜索引擎工程师都是高学历的,算法的提高改善,还有那经验的积累。搜索引擎对文章原创与否进行判断,就像剁大白菜一样简单。

不想还行,一想真是吓一跳,得到的结论是采集站必死!原创吧还是,最不济标题起码也要改吧。看看吧,要是有时间了再分享一下如何做好引擎分析不出来的伪原创文章。

以上只是小弟浅显分析,实际算法毕竟复杂得多,仅供参考!另AD一下:,我操作的一个站诚招友情链接,企业站为佳,Pr刚更新为1了,QQ:419844484,加好友请注明友链。

举报
收藏 0
打赏 0
评论 0
摘要(Abstract)指的是一篇英国留学毕业论文主要内容的提要或者概要
摘要(Abstract)指的是一篇英国留学毕业论文主要内容的提要或者概要。它的目的是对作者研究论文内容、观点以及结论的简明扼要总结。Abstract一般包括研究目的(Purpose)、研究方法(Methods)、研究结果(Results)和研究结论(Conclusion)。

2023-08-3145

16岁女孩骑摩托带人出事故双双身亡 同乡称刚学会不到1年:曾劝别暴力骑车
4月13日,都市快报报道称,2个JK小姐姐驾驶一辆黄龙600,由于速度过快发生事故。两人均已当场死亡。各位车友骑车注意安全。现场的视频显示:两个女孩倒在街道边的绿化带里,已经没生命特征,周围有不少围观者。一辆摩托车栽倒在路坎上。其中一个女孩的视频帐号,发了十四篇内容,全是骑摩托车的内容。两天前,她发了一条视频动态,写下一句话,“我什么时候才能长高,骑上比我

2023-04-1444

16岁女孩骑摩托带人出事故双双身亡 多位网红飚车都出事:专家痛批这不是流量密码
不知道大家发现了没,现在骑摩托车飚车成了不少网红提升流量的密码,因此造成的悲剧事故也是多了起来。1月5日晚,网传重庆江北区聚贤岩隧道内发生两辆摩托车对撞事故。一名男子和一名女子面部朝下趴在隧道一侧,另一名绿衣女子仰躺在隧道另一侧。隧道外,其中一辆涉事摩托车被撞后发生燃烧,不远处,又有一名佩戴护具的男子仰躺在地上,随后证实四人均已死亡。随后证实,其中一位车手是21岁网红

2023-04-1457

余承东、张朝阳首发体验AITO问界M5智驾版:补足最后一块短板
快科技4月13日消息,真心没想到,AITO问界M5智驾版就这样被余承东给突然曝光了出来。就在今天,余承东本人邀请搜狐创始人张朝阳体验了即将于4月17日发布的AITO问界M5智驾版,此次公开算是预热,但可以看到该车的一些核心信息。外观内饰来看,智驾版更换了全新的LED大灯,造型更为犀利且年轻,同时在车头顶部加入了激光雷达,挡风玻璃顶端还用上了多颗摄像头,可以提供融合感知

2023-04-1350

5月1日起 湖北部分高速公路限速调整:80km/h路段上调至100km/h
近日,湖北省交通运输厅、湖北省公安厅联合发布通告,对部分高速公路限速值予以适当调整,于2023年5月1日起施行。调整内容为:严格遵守高速公路有关法律、法规、标准规定,限速值设置不超过设计时速20km以上,同路段小型汽车与其他机动车限速差一般不大于20km/h;小型汽车限速值不超过120km/h,其他机动车限速值不超过100km/h,摩托车限速值不超过80km/h。20

2023-04-1148

立省4万!商家上线理想L7、L8“激光雷达”改装件:自己都能装
理想L7和L8均分为Max、Pro和Air共三种版本,其中Max版配有激光雷达,可以实现更为高阶的辅助驾驶能力,但Pro和Air版则取消了激光雷达,其他的则和Max版在外观方面保持一致。近日,一博主发现有商家针对这一区别上架了“车顶激光雷达外观件”,并称“帮你省下4万元”。从内容看,该套件针对L7、L8的Pro和Air车

2023-04-0550

一汽丰田官微删除张继科宣传物料 曾任bZ电动车自由大使
4月3日,有网友发现,一汽丰田官方微博同样已删除关于张继科的全部动态,并且下架了与其有关的全部宣传物料。而张继科个人微博,则还保留着相关内容。对此,有媒体报道,一汽丰田相关人士回应称,“正在和销售公司核实。”据悉,张继科曾为一汽丰田纯电动车bZ系列自由大使。张继科事件最新进展3月30日,针对网传“张继科涉嫌欠赌债,将自己和景甜的私密

2023-04-0445

Html5移动端div固定到底部实现底部导航条的几种方式
Html5移动端div固定到底部实现底部导航条的几种方式:这篇文章主要介绍了Html5移动端div固定到底部实现底部导航条的几种方式,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧需求:需要把导航固定在底部?只能滑动内容,导航菜单固定不动的。效果如下:这篇文章主要讲解三种实现方案,包括:fixed,

2023-03-23253

SEO之页面具体做法总结篇
SEO之页面具体做法总结篇:我觉得作为站长大家都或多或少对SEO有些了解,现在seo文章也很多,但是对具体的SEO的方法介绍的文章却不多,本文主要对页面怎么具体做SEO做些介绍,站长尤其是新站长一定要看一下怎么具体的作页面的SEO,强调一下,这些seo的做法不可同时用到你的网站,否则一定会被K的,本人能力也有限,主要目的在于交流,有问题大家可以发信给我好了,好了,现在

2023-03-23230