前面我们介绍了一篇WordPress网站如何设置robots.txt的文章,可能说的还不太全面。Robots.txt文件告诉搜索引擎如何抓取网站,那么,该如何优化robots.txt文件来改进SEO。下面将介绍如何为SEO创建一个完美的robots.txt文件。
什么是robots.txt文件?
Robots.txt是一个文本文件,网站所有者可以创建该文件来告诉搜索引擎机器人如何抓取和索引其网站上的网页。它通常存储在根目录中,robots.txt文件的基本格式如下所示:
- User-agent: [user-agent name]
- Disallow: [URL string not to be crawled]
- User-agent: [user-agent name]
- Allow: [URL string to be crawled]
- Sitemap: [URL of your XML Sitemap]
可以使用多行说明来允许或禁止特定URL并添加多个站点地图。如果不禁止URL,则搜索引擎机器人会假定他们可以抓取它。以下是robots.txt示例文件:
- User-Agent: *
- Allow: /wp-content/uploads/
- Disallow: /wp-content/plugins/
- Disallow: /wp-admin/
- Sitemap: https://example.com/sitemap_index.xml
在上面的robots.txt示例中,允许搜索引擎在WordPress上传文件夹中抓取和索引文件。之后,禁止搜索机器人抓取插件和索引插件以及WordPress管理员文件。最后,提供了XML站点地图的URL。
网站需要Robots.txt文件吗?
如果网站没有robots.txt文件,那么搜索引擎仍会抓取网站并将其编入索引。但是,无法告诉搜索引擎他们不应抓取哪些页面或文件夹。当第一次创建博客并且没有很多内容时,不会产生太大影响。
但是,随着网站不断增长并且内容逐渐增多,就希望更好地控制网站的抓取和索引方式。这就是网站为什么需要Robots.txt文件的原因。搜索机器人对每个网站都有一个抓取配额,他们在爬网会话期间抓取一定数量的页面。如果他们没有完成对网站上的所有网页的抓取,那么他们将返回并在下一个会话中继续抓取。这将会导致网站索引速度降低。
可以通过禁止搜索机器人尝试抓取不必要的页面(如WordPress管理页面,插件文件和主题文件夹)来解决此问题。通过禁止不必要的页面,可以保存爬网配额。有助于搜索引擎抓取网站上的更多网页,并尽快为其编制索引。
使用robots.txt文件的另一个好处是,阻止搜索引擎索引网站上不想公布的文章或页面。隐藏不想公布的内容并不是最安全的方式,但是可以防止它们出现在搜索结果中。
最理想的Robots.txt文件应该是什么样的?
许多流行的博客使用非常简单的robots.txt文件。它们的内容可能会有所不同,具体取决于特定网站的需求:
- User-agent: *
- Disallow:
- Sitemap: http://www.example.com/post-sitemap.xml
- Sitemap: http://www.example.com/page-sitemap.xml
此robots.txt文件允许所有机器人索引所有内容,并为其提供指向网站的XML站点地图的链接。
对于WordPress网站,我们建议在robots.txt文件中使用以下规则:
- User-Agent: *
- Allow: /wp-content/uploads/
- Disallow: /wp-content/plugins/
- Disallow: /wp-admin/
- Disallow: /readme.html
- Disallow: /refer/
- Sitemap: http://www.example.com/post-sitemap.xml
- Sitemap: http://www.example.com/page-sitemap.xml
这告诉搜索机器人索引所有WordPress图像和文件。它不允许搜索机器人索引WordPress插件文件,WordPress管理后台,WordPress自述文件和联盟链接。
通过将站点地图添加到robots.txt文件,可以轻松地让Google机器人找到网站上的所有网页。
现在你已经了解了一个理想的robots.txt文件,让我们来看看如何在WordPress中创建一个robots.txt文件。
如何在WordPress中创建Robots.txt文件?
有两种方法可以在WordPress中创建robots.txt文件。
方法1:使用Yoast SEO插件
如果使用的是Yoast SEO插件,那么它会附带一个robots.txt文件生成器。可以通过它直接创建和编辑robots.txt文件。
转到WordPress管理后台SEO >> 工具页面,然后单击文件编辑器链接。
下一页,Yoast SEO页面将显示现有的robots.txt文件。如果没有robots.txt文件,那么Yoast SEO将生成robots.txt文件。
默认情况下,Yoast SEO的robots.txt文件生成器会将以下规则添加到robots.txt文件中:
- User-agent: *
- Disallow: /
它会阻止所有的搜索引擎抓取,需要删除此文本内容。删除默认文本后,可以添加自己的robots.txt规则。建议使用上面分享的最理想的robots.txt格式。
方法2:使用FTP手动创建
使用FTP客户端连接服务器,在网站的根文件夹中找到并编辑robots.txt文件。
如果找不到此文件,那么可能没有robots.txt文件,这种情况下,可以继续创建一个。
Robots.txt是一个纯文本文件,可以将其下载到本地计算机并使用任何纯文本编辑器(如记事本或notepad++)进行编辑。保存更改后,将其上传回网站的根文件夹。
如何测试Robots.txt文件?
创建robots.txt文件后,最好使用robots.txt测试工具对其进行测试。有很多robots.txt测试工具,但我们建议使用Google Search Console中的工具。登录Google Search Console帐户,然后切换到旧的Google搜索控制台网站即可。
或者使用百度站长工具中的Robots检测工具。
最后的想法
优化robots.txt文件的目的是阻止搜索引擎抓取不想公开的网页。例如,wp-plugins文件夹中的页面或WordPress管理文件夹中的页面。
SEO专家流传一个优化“秘诀”说,阻止WordPress类别,标签和存档页面将提高抓取速度并导致更快的索引和更高的排名。这是不正确的,这也违反了Google的网站管理员指南。
我们建议您按照上述robots.txt格式为网站创建robots.txt文件。
80%的人都看过的文章
- 网站优化中,该如何正确认识这4种链接?
- WordPress 捐赠插件漏洞,导致网站遭受零日攻击
- 为什么品牌营销需要使用社交媒体
- 提高网站安全性的6种方法
- 零基础一步一步开始WordPress网站SEO指南(四)
- WordPress 成为 SEO 结果表现最佳的 CMS
- WordPress网站如何设置robots.txt
- 大量WordPress网站被挂上了恶意代码