上虞网站建设:如何阻止访问您的网站内容

2019.07.17 mf_web

127

阻止访问在线内容

阻止网站上的网址时,您可以阻止Google将某些网页编入索引,以便在Google的搜索引擎结果中显示。这意味着,当人们浏览搜索结果时,他们将无法查看或导航到已被阻止的网址,并且他们将看不到任何内容。如果您希望避免在Google的搜索结果中看到任何内容页面,则可以执行一些操作来完成此任务。

控制与GOOGLE共享的内容

大多数人可能不会再考虑这个问题,但是有些人会想要隐藏Google的任何内容。

您可以保证数据安全。您可能希望自己的网站上存在大量私人数据,以防止用户无法访问。这可能是会员的联系信息。需要从Google阻止此类信息,以便Google的搜索结果页面中不会显示成员的数据。

摆脱第三方的内容。网站可以共享由第三方来源呈现的信息,并且可能在因特网上的其他地方可用。在这种情况下,当Google的搜索结果中包含大量重复内容时,Google会在您的网站中看到更少的价值。您将能够阻止重复的内容,以改善Google将看到的内容,从而在Google的搜索结果中提升您的网页。

隐藏网站访问者不太有价值的内容。如果您的网站在网站上的多个位置具有相同的内容,则可能会对您使用Google搜索获得的排名产生负面影响。您可以执行网站范围内的搜索,以便更好地了解您的重复内容的位置,并了解这与用户及其如何浏览网站的关联方式。每次用户输入搜索查询时,某些搜索功能将生成并显示自定义搜索结果页面。如果未阻止,Google会逐个抓取所有这些自定义搜索结果页面。因此,Google将能够看到包含许多类似网页的网站,并且实际上会将此重复内容归类为垃圾内容。这导致Google搜索将此网站推向搜索结果页面中的列表的下方。

使用ROBOTS.TXT阻止URL

Robots.txt文件位于网站的根目录,指示您不希望搜索引擎抓取工具访问的网站部分。它使用“机器人排除标准” - 一种包含一小组命令的协议,这些命令将指示允许Web爬虫访问的位置。

这可以用于网页,并且应该仅用于控制爬网,以便通过复制内容不会使服务器不堪重负。记住这一点,不应该用它来隐藏Google搜索结果中的页面。其他页面可能指向您的页面,页面将被编入索引,完全忽略robots.txt文件。如果您想阻止搜索结果中的页面,还有其他方法,如密码保护。

Robots.txt还会阻止图片文件显示在Google搜索结果中,但不会禁止其他用户链接到特定图片。

  • 在构建文件之前,应该知道robots.txt的限制,因为存在一些风险。还有其他一些机制可以确保在网络上找不到URL。

    • robots.txt提供的指令只是指令。它们无法强制执行爬虫行为,只能将它们指向正确的方向。像Googlebot这样众所周知的抓取工具会尊重给出的指令,其他人可能不会。

    • 每个爬虫都会以不同方式解释语法。虽然如前所述,众所周知的爬虫将遵守指令,但每个爬虫都可以不同地解释指令。了解解决Web爬虫问题的正确语法至关重要。

    • Robots.txt指令无法阻止从其他站点引用您的链接。谷歌很好地遵循robots.txt中的指令,但他们仍然可以找到并从网络上的其他地方索引被阻止的URL。因此,链接和其他公开信息可能仍会显示在搜索结果中。

注意:要知道当您组合多个指令进行爬网和索引时,可能会导致指令相互抵消。

了解如何创建robots.txt文件。首先,您需要访问域的根目录。如果您不知道如何操作,请与您的网络托管服务商联系。

与robots.txt相关的语法非常重要。在最简单的形式中,robots.txt文件将使用两个关键字--Disallow和user-agent。术语Disallow是一个针对用户代理的命令,它将告诉他们不应该访问此特定链接。用户代理是Web爬虫软件,其中大多数都是在线列出的。与此相反,要让用户代理访问特定URL,该特定URL是不允许的父目录中的子目录,您将使用允许术语授予访问权限。

  • Google的用户代理包括Googlebot(适用于Google搜索)和Googlebot-Image(适用于图片搜索)。大多数用户代理将遵循为您的网站设置的规则,但可以通过为特定Google用户代理制定特殊规则来覆盖这些规则。

    • 允许:这是子目录中的URL路径,该子目录具有您要取消阻止的阻止的父目录。

    • 阻止:这是您要阻止的URL路径。

    • 用户代理:这是先前规则将应用于的机器人的名称。

当用户代理和允许或禁止在一起时,它被视为文件中的单个条目,其中操作仅应用于指定的用户代理。如果您想将此指向多个用户代理,请列出星号(*)。

然后,您需要确保保存了robots.txt文件。请确保执行以下操作,以便网络抓取工具能够查找和识别您的文件。

  • 将robots.txt文件另存为文本文件。

  • 将文件放在网站的最高级目录(或域的根目录)中。

  • 该文件必须命名为robots.txt。

    • 示例:网站抓取工具可以发现保存在sample.com根目录且网址为http://www.sample.com/robots.txt的robots.txt文件,但如果robots.txt文件位于网页抓取工具无法找到http://www.sample.com/not_root/robots.txt等网址。

有一个专门针对robots.txt 的测试工具,它会显示该文件是否成功阻止Google的网络抓取工具访问您网站上的特定链接。该工具能够像Googlebot一样运行,并验证一切正常。

要测试该文件,请按照以下说明操作:

  • 打开站点的测试工具,并滚动代码以查找将突出显示的逻辑错误和语法警告。

  • 在您网站上的页面的URL中输入位于页面底部的文本框。

  • 选择您要模拟的用户代理。这将位于下拉菜单中。

  • 选择TEST按钮。

  • 该按钮将显示“已接受”或“已阻止”,表示是否已成功阻止网页抓取工具访问该网址。

  • 必要时,您需要编辑该文件,然后重新测试它。注意:此页面上所做的更改不会保存到您的站点!您需要采取其他措施。

  • 您需要将更改复制到您自己站点中的robots.txt文件中。

robots.txt测试工具有一些限制。知道在工具中进行的更改不会自动保存到您自己的Web服务器。您必须如前所述复制更改。测试人员工具也只会使用Google的用户代理或Googlebot等抓取工具发送文件。Google不对其他网络抓取工具解释robots.txt文件的方式负责。

最后,您将在编辑后提交文件。在编辑器中,单击“提交”。从测试仪页面下载您的代码,然后将其上传到域的根目录。验证,然后提交实时版本。

通过受密码保护的目录阻止URL

当您的私人信息或内容不想包含在Google的搜索结果中时,这是阻止私人链接的最有效方式。您应该将它们存储在网站服务器上受密码保护的目录中。将阻止所有Web爬网程序访问受保护目录中包含的此内容。

使用元标记阻止搜索索引

当您在网页的HTML编码中包含noindex元标记时,可以阻止页面显示在Google搜索中。Googlebot会抓取该页面并查看元标记,然后将从搜索结果中完全删除该页面 - 即使其他网站链接到该页面也是如此。注意:为了使此元标记起作用,robots.txt文件不会妨碍页面。如果此文件被阻止,则抓取工具将不会看到noindex元标记,并且如果其他网页链接到该标记,则可能仍会在搜索结果中显示。

当您无法访问服务器的根目录时,noindex标记非常有用,因为这是允许通过每个页面单独控制网站的区域。如果您希望阻止大多数搜索引擎为您网站上的特定网页编制索引,请在页面的<head>部分使用元标记<meta name =“robots”content =“noindex”>。如果您只想阻止Google为该网页编制索引,请将“robots”换成“googlebot”。各种搜索引擎抓取工具将以不同方式解释noindex指令,并且页面可能仍然出现在来自某些搜索引擎的搜索结果中。

在阻止来自特定内容的访问时,您实际上可以帮助Google发现您的元标记。因为他们必须抓取页面才能真正看到元标记,Googlebot可能会错过noindex标记。如果您知道您尝试阻止的网页仍会显示在搜索结果中,那么自添加该标记以来,Google可能尚未抓取该网站。您需要通过实施Google抓取工具向Google发送抓取页面请求。如果内容仍然显示,则robots.txt文件可能会停止在Google的网络抓取工具中看到该链接,因此无法看到该标记。如果您要从Google取消阻止该页面,则需要编辑robots.txt文件 - 可以直接从robots.txt测试工具进行操作。

选择停用GOOGLE本地和类似的GOOGLE产品

您可以在抓取内容后阻止其显示在不同的Google媒体资源上。这包括Google Local,Google Hotels,Google Flights和Google Shopping。当您选择不在这些插座上显示时,已爬网的内容将不会列在其上。目前在任何这些平台上显示的任何内容将在退出后的30天内删除。选择退出Google本地时,您将在全球范围内选择退出。对于Google的其他媒体资源,退订将适用于Google域上托管的服务。

最新案例

联系电话 400-6065-301

留言