公认的能够很好地应用robots.txt的爬

所有这些问题的解决方案始终相同:使用 robots.txt 测试器。不幸的是,谷歌并没有直接向我们提供他们的服务,但有几个免费的。并非每个人都正确应用所有规则,但大多数人都会这样做。另一种选择是使用市场上虫并查看其工作原理(例如Screaming Frog允许您指定自己的robots.txt文件并查看如何使用它进行爬行)。

情况2.索引不以爬行为条件

不是谷歌进去了,而是它不进去就索引了。
也就是说,在大多数情况下,Google 遵循相同的流程:它抓取您企业的页面,当它有内容时,它会将它们编入索引。但是,即使您不让 Google 通过 robots.txt 访问该 ,Google 也可以通过其他两种方式了解您网站上的 并将其编入索引:

a) 该 之前已编入索引

如果某个 过去已经被索引和抓取,那么 Google 就已经拥有您的数据并且知道如何处理它。当您屏蔽 robots.txt 中的网址时,Google 会停止抓取它,但这并不会删除它已经知道的信息。可能需要很长时间(有时超过一个月)才能将其从结果中删除,因此即使它被阻止,它也会继续提供。

在 Google Search Console 中,您将看到这些网址为“正常”,并且在适当的时候它们将被“阻止”。您唯一能做的就是在某些 robots.txt 测试程序 海外数据 中验证您是否正确执行了阻止操作(例如,检查相关 是否确实被阻止)。

 

海外数据

如果您希望对 取消索引,您有两种选择,但都不是完全完美的:

让它在 robots.txt 中保持畅通无阻,并在上面放置一个元标记noindex:这将阻止索引,但不会抓取。尽管很多时候,如果您取消索引,然后(当它已经取消索引时)您阻止它,它不会再给您带来问题。
在 Google Search Console 中执行手 您可能会在文章中发现她 动取消索引:这只能暂时解决问题(90 天),然后可能会重新编制索引。但至少它可以让您快速离开该 。

就我个人而言,我宁愿不做任何

事情,如果你对 robots.txt 进行操作,那是为了抓 捷克数字数据 取问题,而不是索引,除非 有问题并且我们不希望任何人看到它,否则不会有太大影响是否已索引。否则,如果您需要它尽快从索引中消失,我会选择手动取消索引,然后在 90 天内监控其状态。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注