青田网站建设;关于站点地图的常见问题解答

2019.07.17 mf_web

156

常见问题站点地图

站点地图是网站管理员向主要搜索引擎通知其网站上可用于抓取和编制索引的网页的最佳和最简单的方式。简单地说,站点地图是一个XML文件,它是每个站点上包含的URL列表,以及有关每个URL的添加元数据,以便搜索引擎可以更准确地抓取这些站点。此元数据可以是其更改频率,上次更新时间,与网站上其他页面相关的优先级等等。

搜索引擎抓取工具通常会从网站上包含的链接等中发现页面。拥有站点地图将补充此数据,并允许支持站点地图的抓取工具收集站点地图中的所有网址,并了解这些网址以及相关的元数据。虽然使用站点地图并不能保证网页会包含在搜索引擎的结果中,但它会为搜索引擎提供非常重要的数据,以便抓取工具可以更准确地执行。有一些准则已经落实到位,以便网站管理员创建从长远来看对他们有帮助的站点地图。无论是从头开始创建站点地图还是使用站点地图生成器,请记住,有一些准则可以确保成功的站点地图,从而成功抓取并成功建立索引。


应该如何指定时间?

您应该对lastmod时间戳以及此协议中使用的所有其他日期和时间使用W3C日期时间编码。例如,2016-11-09T14:12:14 + 00:00。像这样的编码允许您排除ISO8601格式的时间组件。例如,2016-11-09也是有效的。需要注意的是,如果您的网站频繁更改,最佳做法是包含时间组件,以便抓取工具能够收集有关网站的更完整信息以及上次修改的时间,尤其是以一天为周期。


URL如何在站点地图中表示?

所有XML站点地图都是相同的,并且任何数据值(包括URL)都必须使用特定字符的实体转义码,如&符号,单引号,双引号,大于和小于。所有URL还需要遵循关于URI的RFC-3986标准,关于IRI的RFC-3987标准以及XML标准。当您使用脚本生成URL时,通常可以将URL作为脚本的一部分进行转义。即便如此,实体仍然需要逃脱它们。


站点地图有多大?

站点地图不得大于10MB,并且最多只能包含50,000个网址。这些限制已经到位,因此请确保Web服务器不会因为提供非常大的文件而不堪重负。如果网站包含的URL超过最大数量或大于10MB,则需要创建多个站点地图文件,然后将这些文件放在站点地图索引文件中。建议使用站点地图索引文件,即使您的网站目前很小,您计划将其扩大 - 这意味着它可能包含超过50,000个URL或大于10MB。站点地图文件索引最多可容纳1,000个站点地图,但不能超过10MB。可以使用gzip压缩站点地图。


生成Sitemap文件时使用哪种字符编码方法是否重要?

绝对 - 站点地图文件必须使用UTF-8编码。正在阅读站点地图的机器人和爬虫不能读取超出字母数字字符的内容,特别是标点符号等更复杂的字符。


站点地图应该放在哪里?

许多专家强烈建议您的站点地图放在您自己的HTML服务器的根目录中; 它看起来像http://www.sample.com/sitemap.xml 。在某些情况下,您可能希望为网站上的不同路径放置不同的站点地图,例如组织中的某些安全权限是否对各种目录分别进行写入访问。假设您有权上传http://www.sample.com/path/sitemap.xml,那么您还有权访问http://www.sample.com/path/的元数据。站点地图中列出的所有URL都必须与站点地图位于同一主机上。假设站点地图位于http://www.sample.com/sitemap.xml,它无法包含来自
http://www.subdomain.sample.com的网址。如果站点地图位于http://www.sample.com/folder/sitemap.xml,则不能包含来自http://www.sample.com的 URL


XML站点地图中的“priority”标记如何影响搜索结果中页面的排名?

站点地图中的“优先级”标记仅表示页面相对于您自己网站上其他网址的重要性,不会影响页面在搜索结果上的排名。简而言之,URL作为优先级不会优先于整个互联网上的其他公共网页,它所采用的唯一优先级是覆盖单个网站中包含的其他页面。您没有优先于搜索结果中的其他网站,只有单个页面超过您的其他网页。


创建我的站点地图后会发生什么?

创建站点地图后,您需要让搜索引擎了解它。这可以通过直接提交,ping它或将站点地图的位置添加到您自己的robots.txt文件来完成。一旦搜索引擎收到站点地图的通知,它就可以对其进行爬网和索引。索引完成后,它将位于搜索引擎中,然后在执行搜索查询并且网站是相关匹配时被调用。


是否需要绝对指定站点地图中的网址?

简而言之,是的。您需要在URL中包含协议(http或https)。如果Web服务器确实需要,您还需要在URL中使用尾部斜杠。例如,http://www.sample.com/是站点地图的正常URL,而www.sample.com则不是。


当我网站上的网页使用框架时,是否需要包含框架内容的框架集URL或URL?

是的,绝对包含这两个网址。通过包含这两者,您可以确保站点地图的准确性和成功率。


我是否需要列出http和https版本的URL?

不需要。只需在站点地图中列出一个URL版本即可。如果在站点地图上包含多个版本的URL,则可能导致站点的爬网断开。在选择使用哪一个时,请考虑一下您是否已将任何URL规范化并继续使用。一致性对您有利,因此在选择要使用的页面版本时不会产生混淆。


我的网站有数百万个网址,我是否只能提交最近更改过的网址?

可以仅列出在少量站点地图中频繁更改的URL,然后您应该使用站点地图索引文件中的lastmod标记指向这些站点地图。这使得搜索引擎可以定期仅抓取已更改的站点地图。限制正在爬网的URL数量时,您也可以从中受益。话虽如此,如果您觉得有必要,您可以提交您认为必要的尽可能多的站点地图和站点地图索引文件。只要它们满足所有要求并且不包含太多URL(50,000)并且不是太大(10MB),那么就可以根据需要进行操作。


如果网站上的网址有会话ID,是否应将其删除?

是的,您需要从URL中删除会话ID。如果包含此内容,则可能会阻碍网站的爬网,或者使其变得多余。URL中的会话ID对搜索引擎成功爬网的参数过于具体。完全有可能获得一个没有附加会话ID的URL,并且通常会随着每次访问网站而改变会话ID,因此这不是一个稳定的URL,因此可能会导致问题。


站点地图中URL的位置是否会影响站点地图中的URL使用方式?

不,站点地图中URL的位置不会影响搜索引擎或抓取工具使用或解释它的方式。这就是说,放置在站点地图开头的URL并不比列在列表中的URL更重要。唯一会影响其优先级的是当标签以正确的方式附加到链接时,如下所述。


站点地图是否必须进行gzip压缩?

是的,如果站点地图大于10MB,请使用gzip压缩它。Gzip是一个免费的文件格式化软件应用程序,用于压缩和解压缩。请注意站点地图和站点地图索引文件的大小限制 - 不超过50,000个文件且不超过10MB。


是否有可用于验证XML站点地图的XML架构?

是的,可以在http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd找到此架构的站点地图,以及http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd用于站点地图索引文件。


我在哪里可以找到有关站点地图协议的其他问题的答案?

最好审查每个搜索引擎提供的有关站点地图的使用和提交的文档。每个人都可能有特定的提示和技巧,以充分利用您正在创建的站点地图。


lastmod日期是如何计算的?

When considering static files, this would be the date that the actual file was updated. You will be able to use the UNIX date command to retrieve this date:

$ date --iso-8601=seconds -u -r /home/foo/www/bar.php
>> 2016-10-26T08:56:39+00:00

对于许多动态URL,可以根据基础数据上次更改的时间轻松计算lastmod日期,或者您可以根据适用时的任何定期更新使用近似值。即使您使用大致的日期或时间戳,您也可以帮助抓取工具避免抓取自上次访问抓取以来未发生更改的网址。这样做的结果是Web服务器的带宽和CPU要求将会降低。Lastmod代表最后一次修改,对于不会发生太大变化的页面非常有用,因此不会浪费带宽来抓取非新的信息。


总而言之

创建成功的站点地图只是流程的一部分。创建之后,您需要提交它,然后允许它被搜索引擎抓取并编入索引。将您的站点地图编入索引后,您将有更好的机会发现该站点并覆盖目标受众。应该注意的是,提供的元数据越多,搜索引擎为相关搜索查询呈现您的网站的可能性就越大。不要被所有已制定的规则和标准所淹没。所有这些都是创建的,以便站点地图以最佳方式继续工作,从而使他们继续使用户受益。创建站点地图并不困难,现在互联网上实际上有可用的发电机。无论您决定采用哪种方式来创建站点地图,都不要忘记所有重要的指导原则并仔细检查以确保它们得到遵守。您很快就会创建蓬勃发展的站点地图,这些站点地图可以帮助您成功抓取和编制索引。

寒枫总监

来电咨询

18868949445

微信咨询

寒枫总监

TOP