绍兴网站建设:抓取预算——如何保持谷歌的好感

2019.07.18 mf_web

139

Crawl Budgets. How to Stay in Google's Good Graces

“爬行预算”这个术语有很多不同的定义,但没有一个术语可以描述爬行预算在外部所代表的一切。在这里,我们将尝试澄清它的含义以及它与Googlebot的关系。

首先,应该注意的是,以下对爬网预算的描述并不是大多数出版商必须关注的机制。如果新网页倾向于在发布的同一天进行抓取,则网站管理员不一定要关注抓取预算。同时,如果一个网站的网址少于几千个,那么它通常会被有效地抓取。基于给定URL参数自动生成页面的较大网站和网站将看到优先处理应该被抓取的内容,何时应该被抓取以及应该分配多少资源来从托管网站的服务器进行爬网的重要性。

抓取速度限制

谷歌机器人被设计成一个积极的网络力量。抓取是主要优先事项,同时也确保它不会降低访问网站的用户的体验。这称为爬网速率限制,它将限制给定站点的最大提取速率。简而言之,这将代表Googlebot可用于抓取网站的同时并行连接数,以及它必须在此类抓取之间等待的时间。抓取速度会根据一些事情上下变化; 如果网站快速响应一段时间,限制将会上升,并且可以使用更多连接进行爬网。如果网站速度变慢或出现服务器错误,则限制将会下降,Googlebot会减少对网站的抓取。这就是所谓的爬行健康。另外,可以在搜索控制台中设置限制:网站所有者可以减少Googlebot抓取其网站的金额。应该注意的是,设置上限不会自动增加爬行频率。

抓取需求

即使没有达到抓取速度限制,如果没有索引要求,Google bot也不会有太多活动。人气和停滞在确定爬行需求方面起着重要作用。在互联网上被视为更受欢迎的网址将被更频繁地抓取,以使其在索引上保持新鲜感。或者,Google的系统旨在防止URL在索引上变得陈旧。由于没有Google需要了解的新信息,因此网站管理员不经常更新的网址可能无法经常抓取。这些网站的爬网需求较低。

此外,在网站范围内发生的事件(如网站移动)可能会触发爬网需求的激增,以便在新网址下对内容编制索引。在考虑爬网需求和爬网率时,爬网预算被定义为Googlebot可以和希望抓取的URL数量。

抓取预算因素

分析表明,拥有太多低价值添加网址会对网站的抓取和索引产生负面影响。分析还发现,低价值URL将属于以下类别:现场重复内容,分面导航和会话标识符,软错误页面,无限空间和代理,黑客页面,低质量和垃圾邮件内容。

当像这样的页面上浪费服务器资源时,它将从实际保持价值的网页中消耗爬行活动。这可能会导致在网站上发现高质量内容的显着延迟。

抓取和索引的优化

每天在互联网上创建数百个新网站,而Google只有有限数量的资源。由于谷歌面临着在线呈现的近乎无限数量的内容,谷歌机器人只能查找并抓取部分内容。在该内容中,只有一部分可以被索引。URL充当搜索引擎的抓取工具和网站之间的桥梁 - 抓取工具需要能够跨越网桥(查找和抓取网址)才能找到网站的内容。如果网址过于复杂或过多,则抓取工具最终会不必要地回溯其网页。当网址整洁有序并直接指向目标内容时,抓取工具会花费他们的时间来访问内容,

您应该从URL中删除任何特定于用户的详细信息。这也适用于会话ID和排序顺序。当它们从URL中删除时,它们可以应用于cookie。通过执行此操作然后重定向到更干净的URL,您将保留所需的信息,并可以减少指向相同内容的URL数量。从而实现更高效的爬行。

您的目标应该是禁止Googlebot无法执行的操作。利用robots.txt文件并禁止抓取登录页面,购物车,联系表单以及其他旨在执行抓取工具无法执行的操作的页面。让爬虫忽略这样的事情并花时间抓取实际意味着搜索引擎的内容是明智之举。

一个URL应该只有一组内容。在一个完美的世界中,会有一对一的URL和内容配对。这意味着每个URL将导致一段独特的内容,并且只能通过该一个URL访问该内容。越接近这一点,网站就抓取和编制索引的效果越好,越精简。如果CMS或站点设置难以实现,则可以使用rel = canonical元素,该元素将指示特定内容的首选URL。

控制无限空间。您的网站是否链接到具有无限数量的过去和未来日期的日历,这些日历都有自己唯一的网址?当&page = 3563添加到URL时,您的网站是否有分页数据,并提供状态代码200?即使没有很多页面?如果是这种情况,您可能在网站上有无限的抓取空间。爬虫可能会浪费带宽试图成功抓取所有。

更多要知道

抓取网站是如何将其纳入Google搜索结果的。在Google搜索中对网站进行索引时,有效抓取网站会有所帮助。然后,当网站被正确编入索引时,它能够在搜索引擎结果页面中正确显示

当网站的运行速度更快时,它将改善用户体验,同时提高抓取速度。对于谷歌机器人而言,快速网站只是健康服务器的一个标志,因此它可以通过相同数量的连接获得更多内容。或者,大量的5xx错误或连接超时错误将指示相反,并且爬行将减慢。任何关注此问题的用户都应该参考搜索控制台中的抓取错误报告。

爬行率的提高并不一定意味着网站在搜索结果中的位置会更好。Google使用数百个信号来对结果进行排名,例如内容的质量等等。确实,爬行对于显示结果至关重要,但它不是排名信号。

通常,Googlebot抓取的任何网址都会计入网站的抓取预算。替代网址(包括AMP或hreflang)甚至嵌入内容(如CSS和JavaScript)都需要进行抓取,这会占用网站的抓取预算。此外,长链重定向将对爬行产生负面影响。如果没有必要有多个重定向,那么这不应该发生。这对用户来说是不受欢迎的,并且会占用大量的抓取预算。

在考虑谷歌机器人的爬行延迟指令时,它无法由谷歌机器人处理,这是没有用的。

已抓取的任何网址都会影响抓取预算,因此即使网页将网址标记为nofollow,如果网站上或整个互联网上的其他网页未将链接标记为nofollow,它仍可能会被抓取。

随着抓取预算的到位,Google将优先考虑抓取内容,何时抓取,以及托管网站的服务器可以为抓取提供多少资源。对于较大的网站或基于URL参数自动生成页面的网站,这一点更为重要。想想这样。你有一个装满文件的档案柜。有些是两份或多份的文件,有些是原始文件。您有一定的时间逐个浏览所有这些文档(及其副本)并妥善保存。如果只有原始文档进行排序,如果副本没有用处,则完成任务所需的时间要少得多。由于网站可能存在重复的内容问题,因此其他内容可能无法准确抓取和编入索引,

爬网预算不应该浪费在重复内容或没有什么意义的内容上。尽你所能来保存好东西。对于那些不愿将内容放在网络上的人来说,这可能不会发生 - 有些人可能会认为发生内容的次数越多,就越有可能被人看到。这离真相不远了。内容在其独特,真实和高质量时保持其重要性。如果相同的内容在网络上反复出现,那么质量会逐渐消失,并且不再具有独特性,可能会失去一些可信度。了解爬网预算是什么以及如何运作不仅有利于抓取和编制索引。当您了解它的工作原理以及如何围绕它构建网站时,整个网站将会看到好处。通过确保网站所在的服务器尽可能响应,可以提高爬网速率限制。最常推荐的方法之一是通过使用W3 Total Cache或类似的解决方案来配置页面缓存,并选择使用基于RAM的缓存的主机,如TMDHosting或SiteGround。实际上,较高的抓取速度会帮助将网站中的所有网页编入索引,Google已明确表示较高的抓取速度并不等同于搜索引擎结果页中的较高排名。知道了这一点后,可以假设当采取这些行动来优化爬行率时,网站也可能会看到有关排名的轻微好处。这仅仅是由于减少重复页面等组合因素。

了解爬行预算是什么以及如何利用它只是网站管理员可以做的一件小事,它可以保持网站的最佳状态,无论是在网站的概念上实施,还是需要在网站重新设计或清理过程中的位置。Google不会关心网站是否知道抓取预算,因为抓取和索引全部是自动化的,但网站管理员的操作可以确保Google僵尸网络有效地为其网站工作。

最新案例

寒枫总监

来电咨询

18868949445

微信咨询

寒枫总监

TOP