搜索引擎是如何评估网页内容优劣的

作者: fangjun 分类: seo工作笔记 发布时间: 2016-11-06 12:49

虽然搜索引擎现在越来越趋向于智能化的发展,越来越懂得搜索者究竟想要的是什么,但它终究还是一台机器,而任何机器都是要遵循一定的算法比较,才能得出结果,那么搜索引擎是通过哪些判断来确定数万亿网页数据的关系和相关度匹配的呢?

web网络的网页数据是非常庞大的,搜索引擎虽然不能一个一个的去计算每一个网页,但是可以很明确的知道哪个网站的数据最权威,就像你知道美国虽然有几亿人口,不可能认识每一个人,但是你很容易就知道美国的总统是奥巴马,美国有华盛顿州,而web网络是通过无数条链接(url)所建立的,每一个网站都要接入web网络中, 搜索引擎蜘蛛通过一批最权威的网站开始抓取,沿着与这些网页建立的关系的url抓取网络上的网页,由于互联网上的数据太过于庞大,所以搜索引擎不可能抓取到每一个角落,所以与权威网站建立链接关系非常重要,这与人际关系的建立有相似之处,你可以想象一下如果奥巴马提起了你的名字,并加以夸张,那么你的权威度也会很快的提升。(我们下期介绍,如何更好的建立链接关系)。

搜索引擎通过链接的关系发现并索引到你的网站,但是这只是第一步,它还要对你的网站进行详细的了解,通过文档的分析和语义的联系来确定你网站的质量,最后在确定是否做相关性的推送。

文档分析时搜索引擎通过识别特定区域的元标记、标题标记等确定你网站的主题, 并归类,除了文档的分析之外,语义联系的分析计算也在搜索引擎算法中非常重要,语义联系指的是经常相互关联出现的单词或者短语,比如你看到南锣鼓巷你就会想到北京一样,当然和南锣古巷一起出现的应该还会有北京其它的旅游景点名称和门票服务,因为南锣鼓巷在语义上是名词,所以第一位排名是百度百科的解释,再则就是旅游攻略和地图(如下图百度做出了正确的推送),百度推荐的是完整的解决方案。

搜索引擎是如何评估网页内容优劣的

搜索引擎是如何评估网页内容优劣的

按照道理说机器是不知道南锣鼓巷是和北京这个地名联系起来的,所以语义分析起到了至关的作用,搜索引擎会主动的构建自己的同义词库和词典,帮助它们确定某些词和主题之间的关联,通过扫面自己庞大的web数据库,搜索引擎会利用模糊集合理论和某些公式将词语联系起来,开始像人类一样理解网页和网站。

web中的大量人类知识可以在系统的所以中获得,并从中分析人类已经建立的联系,因此,机器能够通过扫描所以中出现的比如”香蕉”和“苹果”,因为“圆形”和“香蕉”不经常同时出现,而“圆形”和“苹果”会常常出现,从而确定苹果是圆的,而香蕉不是圆的。机器利用这样的模糊逻辑集合理论帮助计算机通过度量两个词同时出现的频率和语境,就能理解两个词的相关性,通过对几十亿个各种网页的研究,搜索引擎能够学习到哪些词是相关的,哪些是概念之间相互有相互联系。

搜索引擎分析文档的可读性,通过考虑文档内容的平均单词长度和句子中单词数量以及在语法上的错误比例来度量质量好坏,比如说一篇文章非常短,并且不是在权威的网站发送,还有许多语法上的错误,有好很多专业术语,而并没有做过多的解释,那么这篇文章就会被判定为编辑工作质量非常差,因为这篇文档对于大多数知识水平一般的人来说是及其难懂的。

除了纯粹的机器的单项分析之外,搜索引擎还尝试着计算网站与用户的互动性来判断优劣,假如用户从进行一次搜索,在首页同时展现了你的网站,但是当用户点击进入到你的网站之后过了不到几秒钟,又迅速退回到了搜索结果中,接着点击其他的搜索结果,那么这就是一个交互的负面信号,所以控制这样的跳出几率也非常重要。除了这些交互之外,还有用户网站的停留时间,每个访问者所查网页的数量,以及是否点击了百度分享按钮,这些交互信号对于搜索引擎来说都是有价值的。

发表评论

电子邮件地址不会被公开。 必填项已用*标注