有关如何优化robots.txt文件以改进SEO。Robots.txt文件告诉搜索引擎如何抓取您的网站,这使其成为一个非常强大的SEO工具。在本文中,我们将向您展示如何为SEO创建一个完美的robots.txt文件。
什么是robots.txt文件?
Robots.txt是一个文本文件,网站所有者可以创建该文件来告诉搜索引擎机器人如何抓取和索引其网站上的网页。
它通常存储在根目录中,也称为您网站的主文件夹。robots.txt文件的基本格式如下所示:
User-agent: [user-agent name]
Disallow: [URL string not to be crawled]
User-agent: [user-agent name]
Allow: [URL string to be crawled]
Sitemap: [URL of your XML Sitemap]
您可以使用多行说明来允许或禁止特定URL并添加多个站点地图。如果您不禁止URL,则搜索引擎机器人会假定他们可以抓取它。
以下是robots.txt示例文件的外观:
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/
Sitemap: https://example.com/sitemap_index.xml
在上面的robots.txt示例中,我们允许搜索引擎在我们的WordPress上传文件夹中抓取和索引文件。
之后,我们禁止搜索机器人抓取插件和索引插件以及WordPress管理员文件夹。
最后,我们提供了XML站点地图的URL。
你的WordPress网站有Robots.txt文件吗?
如果您没有robots.txt文件,那么搜索引擎仍会抓取您的网站并将其编入索引。但是,您将无法告诉搜索引擎他们不应抓取哪些页面或文件夹。
当您第一次创建博客并且没有大量内容时,这不会产生太大影响。
但是,随着您的网站不断增长并且您拥有大量内容,您可能希望更好地控制网站的抓取和索引方式。
安全的方式。
您可以通过禁止搜索机器人尝试抓取不必要的页面(如WordPress管理页面,插件文件和主题文件夹)来解决此问题。
Robots.txt案例
许多流行的博客使用非常简单的robots.txt文件。它们的内容可能会有所不同,具体取决于特定网站的需求:
User-agent: *
Disallow:
Sitemap: http://www.example.com/post-sitemap.xml
Sitemap: http://www.example.com/page-sitemap.xml
此robots.txt文件允许所有机器人索引所有内容,并为其提供指向网站的XML站点地图的链接。
对于WordPress网站,我们建议在robots.txt文件中使用以下规则:
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /refer/
Sitemap: http://www.example.com/post-sitemap.xml
Sitemap: http://www.example.com/page-sitemap.xml
这告诉搜索机器人索引所有WordPress图像和文件。它不允许搜索机器人索引WordPress插件文件,WordPress管理区域,WordPress自述文件和联盟链接。
通过将站点地图添加到robots.txt文件,您可以轻松地让Google机器人找到您网站上的所有网页。
现在你已经了解了一个robots.txt文件,如何在WordPress中创建一个robots.txt文件。
如何在WordPress中创建Robots.txt文件?
有两种方法可以在WordPress中创建robots.txt文件。您可以选择最适合您的方法。
方法1:使用Yoast SEO编辑Robots.txt文件
如果您使用的是Yoast SEO插件,那么它会附带一个robots.txt文件生成器。
您可以使用它直接从WordPress管理区域创建和编辑robots.txt文件。
只需转到WordPress管理员中的SEO»工具页面,然后单击文件编辑器链接。
在Yoast SEO页面将显示您现有的robots.txt文件。
如果您没有robots.txt文件,那么Yoast SEO将为您生成robots.txt文件。
默认情况下,Yoast SEO的robots.txt文件生成器会将以下规则添加到您的robots.txt文件中:
User-agent: *
Disallow: /
然后你可以自己添加。
删除默认文本后,您可以添加自己的robots.txt规则。可以参考上面分享的规则。
完成后,请不要忘记点击“保存robots.txt文件”。
方法2.使用FTP手动编辑Robots.txt文件
对于此方法,您将需要使用FTP客户端来编辑robots.txt文件。
连接FTP客户端。
进入网站根文件夹中看到robots.txt文件。
如果您没有看到,那么您可能没有robots.txt文件。在这种情况下,您可以继续创建一个。
Robots.txt是一个纯文本文件,可以下载到电脑并使用任何纯文本编辑器(如Notepad或TextEdit)进行编辑。
保存更改后,上传回网站的根文件夹。
如何测试你的Robots.txt文件?
创建robots.txt文件后,最好使用robots.txt测试工具对其进行测试。
有很多robots.txt测试工具,但我们建议使用Google Search Console中的工具。
只需登录您的Google Search Console帐户,然后切换到旧版的Google搜索控制台网站即可。
这会将您带到旧的Google Search Console界面。在“抓取”菜单下的robots.txt测试工具。
该工具将自动获取您网站的robots.txt文件,测试错误和警告时。
分享本站Robots.txt写法
在浏览器中输入:http://你的域名/robots.txt,会显示默认robots,如下内容:
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/
这是由WordPress自动生成的,意思是告诉搜索引擎不要抓取后台程序文件。
但这是远远不够的,比较完整的WordPress站点robots.txt文件内容如下:
User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/cache/ Disallow: /wp-content/themes/ Disallow: /author/ Disallow: /trackback/ Disallow: /feed/ Disallow: /comments/ Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/
简单说下,它只列了禁止访问的目录:
- /cgi-bin/ 这个是服务器的 cgi 目录,所以肯定不能索引。
- /wp-admin/ 和 /wp-includes/,一个是 WordPress 后台,一个是 WordPress 程序运行的一些必须库,都无需索引。
- /wp-content/ 目录下,插件(/plugins/),主题(/themes/)和缓存(/cache/)都不应该索引的,剩下主要的是 /uploads/ 目录是存放图片和附件,是应该让搜索引擎,特别是图片搜索引擎索引。剩下你自定义的一些目录,就看你自己需求来设置是否让搜索引擎索引。
- /author/是某个作者的所有文章列表,基本都是重复内容了,所以也不让索引。
- /trackback/ 和 */trackback/,trackback 目录和原来的文字基本一样,完全的重复内容。
- /feed/ 和 */feed/,Feed 中也是重复内容。
- /comments/ 和 */comments/,留言页面也是重复内容。
最后
优化robots.txt文件的目的是阻止搜索引擎抓取不公开的网页。例如,wp-plugins文件夹中的页面或WordPress管理文件夹中的页面。