2017年新考验:搜索引擎新趋势「自然语言机制」

作者: fangjun 分类: seo工作笔记 发布时间: 2017-03-30 15:42

         注:本文部分搜集于网络 (本文只针对google)

随着时间的演进,Google搜索引擎在诸多工程师不断改写程序、导入更精准的演算法下,今日的搜索引擎已能更能近乎精准地,满足每一位使用者的搜索需求,加上手机装备移动运算在软硬件上的不断提升,搜索引擎从被动的数据接收,逐步进展到主动收集可能的任何线索,将这些线索及时汇整,并在第一时间回应搜索者的需求,这样的一套执行思路,已然是每个人手机上的现在进行式。然而,Google工程师们并未就此感到满足,他们深信搜索引擎除了快速处理资料外,还可以更加具有人性,让每一份搜索结果资料,和人类情绪作结合,创造出更多的搜索价值可能。在参入了人类感情的真实评价判断后,SEO将不再只有「关键词」这个战场;依循此思维,以下便是本文奠基于「更加人工智慧化的搜索引擎」之发展方向,所要提出的四个关于Google未来将发展的「自然语言机制」,所需要注意的核心议题,不但是SEO前端从业人员在网站优化上的重要新知识,也是关键词营销人员在关键词广告领域上,不可不读的未来趋势。

2017年新考验:搜寻引擎新趋势「自然语言机制」

何谓自然语言机制(Natural Language Processing)?这是一个结合了语言学、统计学、程序语言的复合领域,由Gooole的工程师操刀,由程序语言领域主导,结合语言学与统计学的学理知识,为的是模拟出接近人类阅读文字时,对于该文章会有的逻辑价值判断,引擎工程师在这部分的努力方向,大致可以分为下列四个重点,藉由这四个点的相辅作用,达成其目的:

  (1)字频判定机制(TF-IDF)

该机制,以计量统计学为基础,用以评估一个字词(关键词),对于一份网页文本是否具有重要性和代表性,藉由TF-字频(term frequency),即一个字词出现在一段文版中的频率,其重要性会随着它在文件中出现的次数呈现正比增加;而IDF-逆文件判定(inverse document frequency),即一个字词(关键词)出现的频率,会随着它在整个文本的总字词库中,出现的频率次数呈现IDF値反比下降;以上两个指标会彼此制衡,去判读出某字词(关键词)对于某类网页文版,是否具有代表性和重要性。试举一个较明显的例子: 若我们针对「医疗健康议题」收集大量的网络页面文本,并将这些文本,分别针对「冷水」、「养生」进行这两个字,何者对于「医疗健康议题」较具代表性、重要性的判读时,我们可以预期,藉由「养生」字词在文本中的大量出现,并且在频率上会很显著地多过「冷水」;同时,「养生」字词所出现的文本,在这些文本的字词库中,若能具有适中出现的次数,这个「养生」则相对于「冷水」,对于网络上海量的健康议题文本资料,更具有代表性和重要性。搜索引擎在未来,便会藉由这个判定机制,不断地去比较数亿个字词之间,对于数百万种议题之文本,何者更具有代表性,再将这些比较后得出的结果,作为提供给搜索使用者搜索结果时,重要的参考数据。而针对字频判定机制(TF-IDF),要特别补充的一个重点是,TF-IDF在面对大量的网页文版时,会自动过滤掉一些连接词、感情词、动作词、语气词,而将专有名词、事务性字词(特别名词),列为重要关注的字词,将之收进每一个文版的字词库中。所以,面对这样的搜索引擎趋势,SEO/关键词营销产业之从业人员,未来势必要作出相关的应对,特别在页面布局、重要标签语法操作上,会面临新一番的专业考验。

  (2)同义词判定机制

谈到「同义词判定机制」这件事,对于Google搜索引擎来说,其实已经不是新鲜事了,早在10年之前,Google官方就已经在网络世界上,藉由大量的实体文本(报纸、杂志、书籍、辞典),以及蜘蛛虫程序在网络世界大规模收集资料,开始了这项长期且需要耐心的多语言「字词收集计画」,藉由大量字词的收集,及其所依附文本的内容,判定哪些字词之间,具有同样的指涉涵义。而根据非官方人士的推测,Google已经完成了世界各语言中,百分之70的同义词判定工作,即使是近代人们口语上常见的热门字词,也都已经在Google的资料库中收录完成。而面对Google 如此高完成度的字词收集计画,同时该计画持续不断的进行中,SEO/关键词营销相关产业人员尤其需要注意的是,引擎在字海茫茫的网络世界中,对于「同义词的收集作为」这回事,会对于Anchor text和Backlink所标住的字词,特别敏感且高度关注,意即当我们在撰写每一篇网页文本、每一个Anchor text和Backlink内的文字时,更要去精准判定所要表达的意义,避免造成引擎在整体文版、关键词的意义判读上,把它和其他非预期的涵义作连接,让所操作的网站在SEO/关键词营销的价值上,偏离了原本的规划的方向。

2017年新考验:搜寻引擎新趋势「自然语言机制」

  (3)多字词判定机制

此乃Google搜索引擎,针对习惯性输入两种以上关键词的使用者,所开发出的机器思维逻辑。简单的说,此一机制在思维上的核心意义即为:字词的同时出现(Co-occurrence),当许多个各具意义的字词,同时被输入在搜索框,按下Enter键进行搜索时,此刻引擎该如何去判定,使用者此刻想要找寻的答案是什么,该列出哪些结果提供参考。这样近似于长尾关键词的思维,藉由多字词间组合起一个共同的涵义,也正是搜索引擎未来会持续加强的部分。特别值得一提的是,未来当某字词是单独被进行搜索时,与某字词是和其他字词进行组合(以space 空白健隔开)时,在搜索结果上会又更巨大的差异,因为搜索引擎将会更加重视多字词同时出现时,彼此的交互关连、字词输入的顺序、地理地区性关键词…等更精确的多字词分析面向。

  (4)字距关联性机制

此一以字词间物理距离为基础的判读机制,预计在未来将被加入搜索引擎的演算法中,帮助搜索引擎在广泛收集网络资料的过程中,收集某个字词(关键词),在各自存在的文本中,与其邻近的字词所组成的意义,越是距离较近的字词,会被预期有越高度的关联性,好比同样出现在第一个段落内的两个字词,会被引擎预期设定为,比分别出现在第一段、第四段的两个字词,具有更高度的相关连可能性。如此又一个由搜索引擎,在网络世界上长期抓取的大数据的结果,将会让未来的网络搜索排名,更加客观化、公正化。字距,以html上编码间的物理距离为基底,还可以延伸到html 在编码上的位阶涵义指涉,比方:常被用来制作清单的ul,dl标签,未来在搜索引擎的认定上,会优先导入「同位阶」、「同类别」之概念,同时结合Google常期推广的网页语意结构化,未来SEO/关键词营销人员在执行专案时,若没有对此一规范和趋势有通透的认知,所能挥洒的空间将会更加有限,因为搜索引擎只会更加的聪明,网页是否存在着高排名的价值,将面临演算法更严格的字距机制检视。

2017年新考验:搜寻引擎新趋势「自然语言机制」

  自然语言机制下,「网站优化/网站规划/关键词广告」的未来挑战

当人类试图用程序语言,模拟人类阅读文章时的思维时,除了程序语法端的专业知识外,其实还是不脱以人性为出发点的思维。一篇文章的好或坏、是否具有代表性或高搜索价值、与某字词(关键词)是否具有高度关联性,得以在字海茫茫的网络世界,因为你在键盘上输入某个字词后,按下搜索,而被call出来出现在搜索结果画面上,除了SEO语法上的专业操作外,还是得扎扎实实地针对该字词之相关领域、产业、客户群、商业模式,进行通盘深入的了解,方可布局出同时符合引擎高排名认可、满足该产业客户需求的网页内容。自然语言机制的发展,对SEO/关键词营销产业来说,就像是制订了更公平的游戏规则,等同向黑帽SEO业者宣告了他们的末日;从另一个角度来看,自然语言机制在搜索引擎上的推行,也是对现阶段虽然拥有高排名、但内容却极为空洞贫乏的老网站,发出警告暗示的动作。

然而,对于一路走来,脚踏实地扎实的SEO专家业者来说,因着自然语言机制的推展,执行起手上的网站规划案时,心理只会更加笃定,语法操作上也更有力道。扎实遵守于Google的各项官方规范,秉持Google的企业核心理念:fair,虽然会让你的网站优化、SEO/关键词广告布局工程更加艰辛繁复,但只要拉长时间去看,绝对是细水长流的正确经营态度。

发表评论

电子邮件地址不会被公开。 必填项已用*标注