杭州高端网站制作:如何让Google抓取正确的内容

2019.07.17 mf_web

119

良好的谷歌抓取所需的步骤

GOOGLE如何查找您的网站内容?

通过使用软件程序和算法,Google收集网络内容,以便使用Google进行搜索的用户可以轻松访问他们正在寻找的信息。因此,网站管理员只需很少的努力即可确保Google检索其内容。

称为抓取的过程是指Google收集公众可用的所有网络内容,以便可以在搜索结果中显示相应的搜索查询。在此抓取过程中,Google的特殊软件称为网络抓取工具,可自动发现和获取网站。Web爬网程序通过在站点之间追踪Web链接来工作,然后下载页面以存储它们以供稍后使用。排序和分析由复杂的算法完成,然后在Google的搜索引擎结果中更新。Google的主要网络抓取工具被深情地称为Googlebot。

Google用于理解网页的另一个流程是呈现。渲染有助于Google解释网页的外观以及它们对于使用不同浏览器和设备进行互联网活动的访问者的行为方式。与Web浏览器显示页面的方式类似,Google将检索URL,然后执行为该页面提供的代码文件 - 通常是JavaScript或HTML。然后,Google将抓取主代码文件中包含的所有资源,以便整合页面的所有可视方面并更好地了解网站。

当Google无法呈现或抓取网页时,该网站在Google搜索结果页中的可见性可能会受到影响。首先,当Google无法抓取网站时,他们无法收集有关该网站的任何信息。这意味着无法以自然方式发现网站或网站的某些部分,因此无法将其转发给正在搜索与这些网站或网页相关的查询的Google用户。

接下来,如果Google无法呈现网站上包含的网页,那么尝试理解网页内容将是一件苦差事,因为网页缺少有关视觉布局的重要信息。如果发生这种情况,Google的搜索页面内的网站内容可见性会大大降低。Google会采取行动呈现网页,以估算网站对不同受众群体的价值,并确定在Google搜索结果页面中显示特定链接的位置。幸运的是,有一种名为Fetch as Google的工具可以帮助诊断网页的抓取和渲染,以改善网站在Google搜索引擎结果页面中的位置,并努力吸引网站的目标受众。

抓取和渲染很重要

对于网站的成功至关重要的是,它能够以正确的方式进行爬行和呈现,确保它能够从Google搜索中获得最大的努力。虽然抓取和呈现非常重要,但实现阻止抓取和呈现内容以提高网站整体成功率也很重要。

您应该花时间确认Googlebot和Google的其他网络抓取工具可以在网络级别访问您的网站。至关重要的是,您希望Google在任何搜索结果中显示的网址实际上都可由Google访问。通常情况下,URL实际上是由网站所有者故意阻止的。在阻止网址之前,您需要确保这不会隐藏您希望Google发现并随后在搜索结果页中显示的任何内容。

由网站所有者/设计者决定是否允许Googlebot访问网站上引用的所有资源。Google会考虑所有非文字内容以及总体视觉布局,以确定网站在搜索结果页中的显示位置。该网站的视觉元素可帮助Google完全理解网页。当Google最了解网站时,它可以更好地将网站与希望找到其提供的特定内容的个人相匹配。Google检索完网页后,Googlebot会运行代码并解密内容,以便更好地了解网站的整体结构。

如果您网站上有网页使用代码排列或显示内容,Google必须正确呈现内容才能在Google搜索中显示。很多时候,动态网站的文本内容的内容可能只能通过网页的呈现来检索,因此Google能够像任何其他互联网用户一样看到该网站。如果网站正在进行错误呈现,Google可能无法检索任何内容。为了实现这一点,当Google无法从网页中检索任何内容时,它无法知道网站中的信息和内容是否与任何特定搜索查询相关,并且不会在搜索中显示该网站结果。

被阻止的资源报告

Googlebot必须能够访问网页上的各种资源,以便它可以根据需要呈现和索引页面。这包括图像文件,CSS和JavaScript之类的东西,以便机器人能够像普通用户一样查看页面。如果robots.txt文件不允许抓取这些资源,则会影响Google对网页进行呈现和索引的效果,从而影响网页在Google搜索引擎结果中的排名方式。

该封锁资源报告显示由该网站利用,但被禁止Googlebot存取的资源。每个资源都不会显示,只有Google假定的资源由网站管理员控制。

  • 主报告页面将显示在站点上提供被阻止资源的主机列表。其中一些资源将托管在您自己的网站上,而其他资源将托管在其他网站上。

  • 选择表中的任何主机以查看从该主机阻止的资源列表。每个被阻止的资源都会影响您网站上的网页数量。

  • 选择表中的任何阻止资源,以查看将加载资源的页面列表。

  • 选择表中托管被阻止资源的任何页面,以获取有关如何取消阻止资源的说明,或按照以下说明操作。

要取消阻止资源,您需要执行以下操作:

  • 使用“阻止的资源报告”查看网站上已阻止资源的主机列表。开始您拥有的主机,因为您可以直接在robots.txt上更新它们。您可能无法控制所有主机,但您需要编辑可以使用的主机。

  • 在报告上选择主机以查看来自该主机的阻止资源列表。从列表开始,可能会以显着的方式影响您的布局和内容。

  • 对于影响布局的每个资源,展开以查看正在使用它的页面。单击任何页面并按照说明操作。在此之后,获取并呈现页面以确保将显示该资源。

  • 继续此过程,直到Googlebot可以访问所有以前被阻止的资源。

  • 当您获得不属于您的主机但可视化对您的网站产生强烈影响时,请与其网站管理员联系并要求他们从Googlebot中取消阻止该资源。另一种方法是摆脱对该资源的依赖。

使用GOOGLE抓取网站作为GOOGLE

抓取Google是一种有助于抓取网页的工具。它使任何用户都可以测试Google如何在网站中呈现或抓取网址。该工具可用于确定Googlebot是否能够访问网站上的页面,如何呈现页面以及Googlebot是否阻止任何页面资源。从本质上讲,它模拟了一个抓取和渲染过程,这个过程就像Google通常那样完成,对于解决网站可能遇到的任何爬行问题非常有用。

使用Fetch作为Google非常简单,只需几步即可完成。

  1. 在文本框中,您需要在要提取的站点上输入相对于站点根目录的URL的路径组件。将文本框留空时,将获取站点根页面。

  2. 您可以选择要执行提取的Googlebot类型。

  3. 有桌面和移动选项。您选择哪一个将影响正在进行提取的抓取工具。

  4. 选择简单地获取或同时获取和渲染。

  5. 当您选择Fetch时,它将对网站上的特定URL执行操作并显示HTTP响应。这不会为页面运行任何其他来源。这是一个快速的过程,可以用来诊断网站可能遇到的任何连接问题或安全问题。请求将成功或失败。

  6. 当您获取并呈现时,Google将执行与上述相同的操作,然后请求并运行页面上的所有资源。这将发现用户将如何查看该页面与Googlebot将如何查看该页面之间的视觉差异。

  7. 在此之后,请求将被放置在获取历史记录表中,以及待处理状态。请求完成后,您将收到有关该过程成功或失败以及其他信息的警报。您可以通过单击获得有关成功请求的任何其他详细信息。

  8. 谷歌每周允许500次提取。当您达到限制时,您将收到通知。


最后100次获取请求将显示在获取历史记录中。您可以选择查看任何已完成请求的详细信息,并且可能会显示已完成,部分,重定向或特定错误类型的状态。

如果请求已完成,则表示Google已联系,已抓取并可获取该页面引用的资源。

如果获取状态为部分,则表示Google能够从该网站获取响应并已获取该网址,但无法获取该网页引用的资源。如果它们被某些文件阻止,则可能发生这种情况。该过程仅提取,尝试进行提取和渲染。查看呈现的页面以查看是否有任何重要资源被阻止。如果是这种情况,请在您拥有的任何robot.txt文件上取消阻止它们。对于您不拥有的(如果有的话)请求所有者解除阻止。

当您显示重定向状态时,您必须手动关注它。如果将其重定向到同一属性,该工具将显示一个选项,允许您通过重定向URL跟踪重定向框的重定向。如果重定向是另一个属性,您可以单击“关注”选项以自动填充URL框。复制URL并将其粘贴到fetch框中。

最新案例

寒枫总监

来电咨询

18868949445

微信咨询

寒枫总监

TOP