温州网站建设:XML Sitemap最佳实践

2019.07.16 mf_web

251

xml站点地图最佳实践seo

在优化网站的过程中,难题的一个非常重要的部分是提交站点地图。站点地图的目的是确保搜索引擎能够发现网站上包含的所有页面,并在更改后快速下载。在这里,您将了解更多有关站点地图重要性的原因,如何针对搜索引擎优化站点地图,以及何时使用XML站点地图和RSS或Atom订阅源。

站点地图和RSS /原子供稿

站点地图可以是XML,RSS或Atom格式。重要的是要注意格式之间的差异。XML站点地图将描述网站中的整个URL集,而RSS或Atom订阅源仅描述最近的更改。这意味着:

  • XML站点地图将很大,而RSS和Atom订阅源很小,只包含网站的最新更新。

  • XML站点地图的下载频率低于RSS或Atom订阅源。

为确保对网站进行最佳抓取,建议同时使用XML站点地图以及RSS或Atom订阅源。XML站点地图用于向Google提供有关网站上所有单个页面的信息,而RSS或Atom订阅源将向搜索引擎提供网站的所有新更新,并将帮助Google在索引中保持新鲜内容。应该注意的是,提交站点地图或Feed不能保证URL的索引。

最佳实践

实质上,XML站点地图和RSS Atom订阅源是附加到某种形式的元数据的URL列表。Google最重要的两条信息是特定网址以及最后修改时间。

XML站点地图或RSS或Atom订阅源中的URL需要遵循以下特定准则:

  • 仅包含Googlebot可能提取的网址。通常,错误是包含robots.txt不允许的URL。这意味着它无法由Googlebot采购。

  • 此外,请勿包含不存在的网页的网址。

  • 您只能包含规范网址。通常,网站管理员包括复制(重复)页面的URL。这是个错误。这种做法会增加服务器上的负载,而根本不会改进索引。


在XML站点地图和RSS源中,您必须为站点地图中的每个URL指定上次修改的时间。此修改时间必须是页面中包含的内容有意义地更改的最后时间。如果内容中的更改有足够的意义以显示在搜索结果中,则此修改的时间是站点地图中需要存在的内容。


不要忘记以正确的方式更新或设置上次修改时间。正确的格式是XML站点地图的W3C日期时间。只有在内容发生故意更改时才修改此时间。不要错误地将最后修改时间发送到站点地图服务的最新时间。

有关XML站点地图的更多信息

站点地图将包含您网站上所有网页的网址。很多时候,它们很大并且不经常更新。要最大化XML站点地图,请遵循以下准则:

  • 使用单个XML站点地图时,如果网站定期更改,则每天至少更新一次,然后在更新后通过Google对其进行ping操作。当网站被ping时,这仅仅意味着它被直接发送到搜索引擎,然后返回状态信息以及存在的任何处理错误。

  • 处理多个XML站点地图时,请最大化每个站点地图的URL数量。每个站点地图的限制为50,000个URL或10 MB未压缩,以先达到的限制为准。您需要为已更新的每个XML站点地图ping Google,如果使用更新的站点地图索引,则只需ping一次。

  • 一个常见的错误是将少量URL放入每个XML站点地图中,这使得Google在合理的时间内下载所有XML站点地图变得更加困难。

XML站点地图元素和定义

<urlset>:此标记是必需的,并且是站点地图中的文档级元素。<?xml version>标记(或元素)之后的文档的其余部分必须包含在此内容中。


<url>:这应该不言而喻,但这个元素至关重要,绝对需要。这是每个条目的父标记。


<sitemapindex>:也是必需的,是站点地图索引中包含的文档级元素。<?xml version>标记之后的文档的其余部分也应该包含在其中。


<sitemap>:绝对需要。这是索引中包含的每个单独条目的父元素。


<loc>:还需要此元素将提供站点地图或页面的完整URL,包括协议和尾部斜杠(如果网站的托管服务器需要这样)。该值不得超过2,048个字符。请注意,URL中的任何&符必须表示为&amp;


<lastmod>:虽然不是XML站点地图所必需的,但它会显示上次修改文件的日期。它可以以完整日期和时间模式显示,也可以仅以日期格式显示。


<changefreq>:这不是必需的,但它可以告知网页的更改频率,例如始终,每小时,每日,每周,每月,每年或从不。选择“始终”时,这意味着每次访问网站时文档都会更改。文件存档时使用“从不”,这意味着将来不会再次更改文件。此元素仅用作抓取工具的指南,并不确定网站索引的频率,也不适用于<sitemap>。


<priority>:不是必需的,但此元素将显示与网站上其他URL相关的特定URL的优先级。此元素将允许任何网站管理员向抓取工具建议哪些网页可能更重要。范围从0.0到1.0有效,其中1.0是最重要的。此元素的默认值为0.5。应该注意的是,尝试将网站上的所有页面作为高优先级进行评级不会影响他们在搜索引擎中的列表,因为它只向抓取者表明这一点以及页面在单个网站上彼此之间的重要性。这不适用于<sitemap>元素。

对所需元素的支持很普遍,而对不需要元素的支持在每个搜索引擎中都会有所不同。

有关RSS和ATOM FEEDS的更多信息

这些Feed应显示您网站的最新更新。通常,它们很小并且经常更新。也推荐用于这些Feed: 

  • 在有意义地更改现有页面或添加新页面时,将URL和修改时间添加到源。

  • 所有更新都应该在RSS / Atom Feed中,以便Google不会错过它们。一个很好的方法是获得集线器的帮助。集线器将能够快速有效地将页面的新内容传递给所有RSS阅读器和搜索引擎。


使用XML站点地图以及RSS和Atom订阅源是积极修改搜索引擎(包括Google)网站爬行的好方法。这些文件中包含的重要信息是规范URL以及上次在网站中修改页面的时间。当正确使用这两个元素时,它们将通过站点地图ping和源集线器通知搜索引擎。这一切都允许以最佳准确度对网站进行爬网,因此它将在搜索结果中准确表示。

同时使用XML SITEMAPS和RSS / ATOM FEEDS

当网站同时使用XML站点地图和RSS或Atom Feeds时,它为搜索引擎提供了最大的覆盖范围和扩展的可发现性。XML站点地图只需包含该站点的规范URL,而Feed只包含最新添加的内容或最近更新过的URL。规范URL是访问者将看到的URL。很多时候,规范网址将用于描述网站的主页。

有人可能想知道他们究竟应该为他们的网站使用XML站点地图和RSS或Atom提要。好处是Google会优先考虑您网站上新的或最近更新的网址。谷歌已经注意到,通过使用RSS,他们可以更有效地保持他们的索引新鲜。

协议和子域都会影响站点地图中包含的URL的索引和爬网方式。XML站点地图中包含的URL必须使用站点地图使用的相同协议和子域。确切地说,位于http站点地图内的https URL不会包含在站点地图中。这与使用www.domain.com的站点地图上的example.domain.com上的URL无关是徒劳的。在许多使用多个子域的网站中都可以看到此问题,或者它们的部分以http和https开头,就像电子商务网站一样。许多网站已开始将所有网址更改为https,但不会更改XML站点地图以反映此更改。建议检查最近更改过网站的任何XML站点地图。

其他XML站点地图提示

有时网站会有不同语言的网页。在这种情况下,许多网站管理员使用hreflang。使用此标记,可以告诉Google哪些页面要定位哪些语言。然后,Google可以根据搜索Google的人的语言或国家/地区显示正确的网页。可以在页面的HTML代码中逐页提供hreflang代码,也可以使用XML站点地图提供hreflang代码。

可以通过Google的网站管理员工具测试XML站点地图或其他Feed。有一个简单的按钮用于此过程。网站管理员工具中的此功能可以快速有效地发现任何问题。

当选择将RSS或Atom订阅源与站点地图合并时,这些联合供稿将补充完整的站点地图,因为所有新信息在被爬网时都会更新到这些站点地图中。

抓取XML SITEMAP

XML站点地图需要在积极实施之前进行彻底测试,以确保它们在上线后能够顺利运行。许多人选择通过抓取他们自己的站点地图来做到这一点。在执行此操作时,可以识别任何会产生问题的标签,任何非200的标头代码以及可能被忽略的其他问题。有些网站可以为网站站长抓取站点地图,用户可以自行决定如何执行此操作。

XML站点地图可以以多种方式使用,以最大化网站的SEO工作。当您准确了解XML站点地图的工作原理和原因时,它可以让您通知搜索引擎网站上所有相关URL,以及如何使用RSS或Atom Feed。XML站点地图直接提供给搜索引擎,因此在它们上线之前完成它们至关重要 - 特别是对于那些更大或更复杂的网站。理想情况下,网站管理员会选择同时实施XML站点地图和联合供稿,以确保其网站具有最佳结构,并确保能够通过搜索引擎发现所有新内容。

最新案例

寒枫总监

来电咨询

18868949445

微信咨询

寒枫总监

TOP