兰溪网站建设:所有关于Robots.txt文件

2019.07.23 mf_web

85

创建网站的人使用称为robots.txt文件的东西来告诉搜索引擎机器人等网络机器人如何抓取他们网站上的特定网页。REP是一套规则,规定机器人如何抓取或不抓取网络并处理他们遇到的内容。robots.txt文件是其中的一部分,表示某些网络抓取工具是否可以通过允许(或不允许)某些用户代理的行为来抓取网站的各个部分。

了解robots.txt非常重要,因为它可以真正帮助或真正伤害您的网站。请继续阅读,以便了解需要采取哪些措施来充分利用您的网站。


什么是机器人txt


ROBOTS.TXT文件是否重要?     

如果您没有正确使用robots.txt,它确实会损害您的排名,因为该文件控制搜索引擎蜘蛛或抓取工具如何查看您的网页并与之交互。机器人读取你的robots.txt文件(如果你有的话)并告诉他们是否应该抓取你的网站,如果是,请告诉他们在多大程度和时间。

谷歌机器人首先看到的是网站的robots.txt。它这样做是为了查看它是否有权爬行。你的robots.txt文件是机器人的一套说明,如果你知道你在做什么,你可以让它说出你想要的任何东西。您甚至可以设置延迟,以便机器人抓取,但是在您在robots.txt文件中指定的时间段之后。

如何判断你是否有Robots.txt文件

有办法告诉您是否已经有robots.txt文件。最常见的是输入您的根域URL,然后在其末尾添加/robots.txt。例如,如果您的网站是www.fansofthegrimreaper.com,请输入www.fansofthegrimreaper.com/robots.txt。如果没有.txt页面,那么您当前没有正在运行的robots.txt文件。

这可能有好有坏,具体取决于您对网站的处理方式。如果您有robots.txt磁贴,则必须通过阻止不希望阻止的内容来确保它不会损害您的排名。

拥有Robots.txt文件的原因     

虽然您不一定需要robots.txt文件,但在某些情况下,启动并运行一个文件是有益的。如果您想要阻止来自某些搜索引擎的内容,或者您希望微调来自信誉良好的机器人的访问权限,则必须让robots.txt正常运行。或者,也许您的网站是实时的,但您仍在编辑它,所以您不想在搜索引擎中显示它。

您可以配置robots.txt以符合所有条件。大多数网站管理员都具有创建,自定义和成功利用robots.txt文件的功能和权限。

何时没有Robots.txt文件     

如果您的网站相对简单,没有错误,并且不包含您希望从搜索引擎中阻止的任何文件,那么您就不需要拥有robots.txt文件。即使您没有robots.txt文件,搜索引擎机器人仍然可以完全访问您的网站,因此没有理由担心他们无法找到您。事实上,他们可能会发现你比拥有robots.txt文件更容易,特别是如果它配置不当或包含错误。

如果你想要任何人和每个人,更多,更好,找到你的网站,看到它的一切,你最好的选择是根本没有robots.txt文件。这没有任何问题,这是一种普遍的做法。不要觉得你错过了搜索引擎排名的一些关键工具。事实上,如果没有robots.txt文件,您可能会享有比其他方式更高的排名。


如何创建机器人txt


如何创建ROBOTS.TXT文件    

如果您可以复制和粘贴,那么您也可以创建robots.txt文件。它非常简单,不需要编程技巧。Microsoft Word或记事本就足够了。无需使用代码编辑器。那太过分了。有无数网站提供有关如何设置robots.txt文件的说明。

只需查找具有所需内容的示例,然后将文本复制并粘贴到您自己的文件中。不要害怕,因为它很容易检查并查看您的文件是否正确设置,因为它是为了制作或修复它。有许多在线工具可以免费为您提供帮助。

Robots.txt文件应该说什么?     

robots.txt文件有三个主要功能:它将允许,它将禁止,或者它将部分允许您的网站被抓取。如果您希望抓取整个网站,则有三种选择。首先,您不能拥有robots.txt文件,这意味着您的网站上根本不存在。当机器人爬行时,它会立即寻找robots.txt文件。如果找不到,那么它将访问您所有页面上的所有内容,因为没有任何消息告诉它。

您还可以制作空白或空的robots.txt文件。这与没有一个目的的目的相同。当机器人访问时,它将没有任何内容可供阅读,它将再次浏览所有材料。如果您不希望机器人抓取您的任何内容,则必须设置完全禁止的robots.txt文件。但要小心,因为这意味着Google和所有其他搜索引擎都不会索引或永远显示您的网站。不建议使用此方法。

为什么你应该使用Robots.txt文件    

如果您经历了创建网站的时间,麻烦和费用,您可能希望人们查看它并且如果他们不知道它存在就能找到它。当试图提高搜索引擎排名时,爬虫是你最好的选择。有时,您可能不希望您的网站充斥着机器人爬行,至少是立即。

一个例子就是如果你有一个页面仍然有点草稿。或者,爬行延迟可能会派上用场,以免您的服务器因过多流量而过载。您也可能不希望您的内部搜索引擎页面显示在其他任何地方,因为它在上下文中没有意义。  


如何测试您的ROBOTS.TXT文件

如果您设置了禁止或部分禁止robots.txt文件,最好检查并确保它正常工作。有几种免费工具可以做到这一点。他们可以告诉您是否阻止了对Google重要的文件,并向您显示您的robots.txt文件所说的内容。

调用所有机器人txt


打电话给所有机器人     

robots.txt文件非常类似于访问您网站的机器人的一组说明。如果要对所有机器人使用相同的说明,您可以留下特定机器人的特定说明或使用“通配符”。Googlebot和bingbot是可能会访问您网站的机器人的两个例子。一般来说,当机器人访问您的网站时,这是一件好事,前提是您没有任何您不希望被编入索引的信息或图形。

如果是这种情况,或许可以再考虑将您的私人内容发布到网站上。如果你有一张你不想让别人看到的照片,它不应该在互联网上。但是,如果您是一名专业摄影师想要出售您的作品,那么您将需要小心不要盗取您的图像。

虽然您可能希望机器人能够找到您的网站,因为您想要寻找新客户,但您可能不希望您尝试销售的实际图片显示在搜索引擎结果中。如果您这样做,请确保其受版权保护或其上有水印,以便无法轻松下载或以其他方式被盗。如果您有一张您认为与您的网站无关的图片,那么您可能希望在robots.txt文件中部分禁止该图片。

什么是爬网延迟以及您应该关注的原因

有时机器人可以在你想要之前爬行,这至少可以说是不可取的。Yahoo,Yandex和Bing是机器人的几个例子,通常很快就会到达。你可以通过在robots.txt中对你的块应用Crawl-delay:10来保持它们。这将使他们在爬行之前和重新进入您的网站之前等待十秒钟。如果您的网站因流量陷入困境,这将有所帮助。

如果您正在编辑实时网站,此方法也很有用,这样访问者就不会在不知不觉中发生在正在进行的工作中。这可能会导致他们认为网站低于标准,永远不会返回。如果延迟爬虫,这将减少发生这种情况的风险。

你可能不想抓到的东西

在某些情况下,您可能不希望机器人抓取您网站上的某些内容。这可能包括您拍摄的个人摄影或您不希望公开的信息比现有的更多。或者,也许您有一个仅在您的网站内搜索的内部搜索栏。

这很好,但您不希望Google显示某人的搜索查询结果可能已显示的页面。这可能是无用的,或者更糟糕的是,将潜在的新访问者混淆到您的网站,他们不会花时间去寻找相关信息。

你应该避免什么关于Robots.txt文件     

爬行延迟有时很有用,但你必须小心,因为它们很容易造成弊大于利。如果您有一个包含许多页面的大型网站,这可能会特别有害。您还应该避免阻止僵尸程序爬过整个网站,因为您将永远不会出现在搜索引擎结果中。

除非你为自己制作某种剪贴簿,否则你是一个非常私人的人,由于某种原因仍然想要上网,所以你必须出现在搜索引擎结果中。事实上,许多人花费了大量的时间和金钱来提高他们的排名。通过在您的网站上禁止爬虫,您可以在脚下拍摄自己。


结论

决定是否要使用robots.txt文件非常重要,如果您决定使用它,则说明它已正确配置。错误的robots.txt文件可能阻止机器人索引您的页面或页面,这将对您的搜索引擎排名产生不利影响。事实上,你可能根本就没有露面。重要的是要记住,如果您想要机器人抓取您网站上的任何内容,那么不使用robots.txt文件并不一定是件坏事。这是一种非常常见且有用的做法,也是完全可以接受的做法。

Robots.txt只是众多方法中的一种,您可以通过搜索引擎排名来改进(或不改进,取决于您最终想要做什么)。有些人活得最好。其他人更喜欢保密。这是您的网站,您可以随心所欲地使用它。

寒枫总监

来电咨询

18868949445

微信咨询

寒枫总监

TOP