湖州网站建设:控制搜索引擎的抓取和索引

2019.07.17 mf_web

197

控制抓取和索引

自动网络抓取工具是一种重要的工具,可以帮助抓取和索引互联网上的内容。网站管理员利用这一优势,因为它允许他们以有利于他们品牌的方式策划他们的内容,并使抓取者远离不相关的内容。在这里,您将找到控制网站内容的抓取和索引的标准方法。所描述的方法(大多数情况下)由所有主要搜索引擎和网络爬虫支持。大多数网站都没有默认设置来限制搜索结果中的抓取,索引和服务链接,因此一开始您就不必对内容做任何事情。如果您希望将网站中包含的所有页面编入索引,则无需修改任何内容。没有必要制造机器人。

开始

搜索引擎将经历两个重要阶段,使搜索结果中的网站内容可供用户抓取和编制索引。抓取是指搜索引擎的抓取工具(机器人)访问公开可用的网页。在大多数情况下,这只意味着机器人查看网页,并将按照人类的方式跟随页面上的链接。索引是收集有关页面的信息,以便它可以显示在搜索结果页面中。爬网和索引之间的区别至关重要。许多人往往对这两者感到困惑,并且可能导致网页出现或不出现在搜索结果中。可以对页面进行爬网但不对其进行索引,但很少会对页面建立索引但不会对其进行爬网。此外,如果您的目标是阻止对页面建立索引,则需要允许对URL进行爬网或至少尝试对其进行爬网。

在这里,您将获得有关控制抓取和索引方面的帮助,以便您可以最好地确定您希望抓取机器人访问自己的内容的方式,以及您希望如何在搜索结果中显示您的内容用户。

在特定情况下,您可能不希望爬虫访问服务器的某个区域。是因为有限的服务器资源,URL或链接结构的问题。如果是这种情况,将会有一个永无止境的URL数量,并且不可能对所有这些URL进行爬网。

其他时候,您需要控制内容的索引方式以及在搜索结果中的显示方式。您可能根本不希望您的网页被编入索引,或者希望它们在没有内容的某个部分的情况下显示。

注意:在控制对私有内容的访问时,请勿使用这些方法。您应该使用更安全的方法来隐藏不适合公众的内容。

另外:页面可以编入索引但永远不会被抓取 - 这些进程不依赖于彼此。如果页面具有足够的可用信息并且被认为与用户相关,则搜索引擎可能决定在搜索结果中对其进行索引,即使它从未被抓取过。这就是能够控制对哪些内容进行爬网和编制索引的重要性。

通过使用机器人爬行时每个页面中包含的一些信息,可以以一种仅一次影响一个页面的方式控制索引。您可以使用嵌入在HTML页面顶部的特定元标记,或者使用网站上所有内容提供的标题上的特定HTTP元素 - 这两种方法都可以让您控制页面的索引方式。

ROBOTS.TXT的

使用robots.txt文件时,它必须位于主机目录的顶层,并且必须可以通过正确的协议和端口号访问。robots.txt最广泛接受的协议是http和https。Google还会接受使用FTP协议的robots.txt文件,并使用匿名登录。文件中列出的指令仅适用于托管文件的主机,协议和端口号。另请注意,robots.txt文件的URL区分大小写。

获取robots.txt文件时,结果将是完全允许,完全禁止或有条件允许。可以使用几乎任何文本编辑器创建robots.txt文件,只要它允许创建标准ASCII或UTF-8文本文件即可。不要使用文字处理器,因为它们有时会添加意外的字符并会弄乱代码。

不确定robots.txt文件是什么样的?以下是一些让您熟悉的示例。

要允许抓取所有内容,您将看到:

user-agent:* 
disallow 

或者您将看到

user-agent:* 
allow:/ 

虽然这两个条目都是完全有效的,但如果您确实希望对所有内容进行爬网,则您不必创建和使用robots.txt文件,实际上建议不要使用。

要禁止整个网站被抓取,您会看到:

user-agent:* 
disallow:/

要禁止抓取网站的特定部分,您会看到以下内容:

user-agent:* 
disallow:/ junk / 
disallow:/ calendar / 

应该注意的是,如果你想阻止访问网站上的私人内容,你应该使用正确的身份验证,不要依赖robots.txt。如果您确实使用robots.txt阻止私有内容,它仍然可以编入索引但不会被抓取,并且任何人都可以看到robots.txt文件,因此可能会泄露您的私人内容并显示其位置。

要允许访问单个爬网程序,您将看到:

user-agent:Googlebot-news 
disallow:

user-agent:* 
disallow:/

要允许访问除一个之外的每个爬虫,您将看到:

user-agent:unwantedbot 
disallow:/ 

user-agent:* 
disallow:


机器人元标记和X机器人标记

可以在标题部分的HTML页面顶部添加漫游器元标记。它将指示搜索引擎是否将索引网站上的特定页面。此标记适用于所有搜索引擎,当您在代码中指定用户代理的名称而不是“机器人”时,您可以控制更改允许或阻止的搜索引擎。此代码看起来像<meta name =“robots”value =“ noindex ”/>

在存在不是HTML的内容(如文档文件)的情况下,它也可以被搜索引擎爬行和索引。发生这种情况时,无法在各个页面上添加元标记,而是使用HTTP标头指示响应。网站的访问者将无法看到标题,并且实际上不是内容的一部分。一个的x机器人标签将被包括在报头中。


API- GOOGLE用户代理

此用户代理特定于Google,并将提供任何推送通知消息。应用程序开发人员可以请求这些通知,以便不再需要不断轮询服务器,以确定资源是否与以前不同。为了确保没有人滥用此服务,Google要求开发人员在允许他们注册域名作为他们希望接收邮件的地址之前证明他们拥有域名。

API-Google将使用HTTP POST请求发送所有推送通知。如果由于某些事情可能是暂时的而导致此处失败,那么API将会再次发送通知。如果这仍然无效,那么API-Google将继续尝试,有时甚至会持续几天。

API- Google以不同于为您网站的服务器创建的推送通知请求的数量,正在发生的重试次数以及正在监控的资源的更新速度来访问网站。因此,API-Google的流量模式可能是一致的,也可能是零星的 - 一切都取决于它。

当您是具有多个单独拥有/管理的子域的域的管理员时,其中一个管理员可能已放置发送推送通知的应用程序。如果您要阻止API-Google,建议您首先联系可能已设置适用的应用程序的任何管理员。此外,您可以使用常规robots.txt指令阻止API-Google访问您的网站。如果这样做,您需要在robots.txt文件中指定API-Google作为用户代理。可以将Google-Google与Googlebot分开控制,因为它们遵循不同的指令。

API-Google使用HTTPS来提供推送通知,并且它要求网站拥有有效的SSL证书。无效的证书包括:自我分配的证书,已撤销的证书以及由不受信任的来源签名的证书。要停止重试请求,应用程序应该设计得很好,并且应该在几秒钟内响应通知消息。

API-Google使用的IP地址时不时会发生变化,个人可以将用户代理设置为他们想要的任何内容。确保Google访问该网站的最佳方法是使用反向DNS查找 - 这类似于您验证尝试访问您的服务器的机器人是否是真正的Googlebot的方式。在这种情况下,您需要在日志中查找与API-Google用户代理关联的任何IP地址,并且查找会将域标识为“googlebot.com”。


谷歌的爬行者

Crawler实际上是一个通用术语,用于描述任何机器人或蜘蛛程序,用于通过跟踪从一个网页到下一个网页的链接来自动扫描和发现网站。Googlebot是Google的主要抓取工具,被广泛使用。

当robots.txt文件中有多个用户代理时,最具体的用户代理就是Google将遵循的用户代理。如果您希望所有Google都能够抓取您的网页,您实际上根本不需要robots.txt文件。如果您的目标是阻止或允许任何Google抓取工具访问您的任何内容,可以通过将Googlebot指定为用户代理来完成。


总结

您作为网站管理员可以完全自定义您的网站上包含的内容,这些内容在搜索结果中进行了抓取,编入索引和投放。可以打开或阻止内容进行抓取和编制索引,以及执行此操作的多种方式中的哪一种取决于您。但必须记住,网站中包含的被视为私有的任何私人信息(如用户信息列表)应保留在某种加密状态。这是因为机器人并不总是完美的,并且确实发生了编码的人为错误。您希望发生的最后一件事是通过向公众提供您的用户信息而显得不值得信任。Google为网站站长提供了许多资源来处理他们的站点地图等。另一方面,如果您的内容无需阻止抓取和编制索引,则无需为编辑网站或网页的任何代码而采取任何操作。只要知道如果你不采取任何行动,所有内容都是公平的游戏,可以被抓取,编入索引并提供给搜索引擎。

寒枫总监

来电咨询

18868949445

微信咨询

寒枫总监

TOP