当前位置:首页> 正文

网站快速收录技巧二:搜索引擎最先爬行的robots文件-robots文件

你是否也在为网站收录少、询盘少而困惑?你是否也在苦苦寻找网站快速收录的技巧?

你是否因为网站收录问题而被老板“刁难”?

你是否很想掌握网站快速收录的使用技巧?

那么接下来的系列文章将使你拨开云雾见日出!

请持续关注。。。

网站快速收录技巧二:搜索引擎最先爬行的robots文件

上次给大家分享的基础篇,对于网络运营小白比较浅显易懂,网络运营老司机就直接可以忽略了。

那么今天小编分享的内容呢,可能很多网络运营小伙伴没有见过,不过也很简单,很好懂。接下来小编就絮叨絮叨。

想提升网站的收录量,首先你得知道搜索引擎是如何收录网站的文章的。

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。

spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。你可以在您的网站中创建一个纯文本文件robots.txt,在文件中声明该网站中不想被robot访问的部分或者指定搜索引擎只收录特定的部分。

比如你在百度上很难搜到淘宝、天猫、京东等网站的店铺及其商品信息,为什么呢?就是这些平台禁止百度蜘蛛(BaiduSpider)进行爬行和收录。

先给大家看一下淘宝的robots文件是怎么写的,看下面截图:

网站快速收录技巧二:搜索引擎最先爬行的robots文件

很多情况下,robots文件是为了屏蔽Spider对我们网站一些内容进行收录的,比如我们的网站后台管理系统。那么robots文件对网站收录又有什么作用呢?

Spider是通过网页内部的链接发现新的网页,但是如果没有连接指向的网页怎么办?或者用户输入条件生成的动态网页怎么办?能否让网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页?这就是sitemap,最简单的 Sitepmap 形式就是 XML 文件,在其中列出网站中的网址以及关于每个网址的其他数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度等等),利用这些信息搜索引擎可以更加智能地抓取网站内容。sitemap作为另一个课题,小编将单独拿出来讲,在这里先不赘述。

那么,Spider怎么知道这个网站有没有提供sitemap文件,或者说网站管理员生成了sitemap(可能是多个文件),爬虫怎么知道放在哪里呢?

由于robots.txt的位置是固定的,于是大家就想到了把sitemap的位置信息放在robots.txt里。这样你在更新sitemap之后,Spider在抓取robots的时候就会自动抓取sitemap上面的内容,提升网站的收录效率。给大家看一下小编的网站的robots文件是怎么写的。大家可以仿照着做一做哦。

网站快速收录技巧二:搜索引擎最先爬行的robots文件

需要注意的是:robots.txt本身也是需要抓取的,出于效率考虑,一般爬虫不会每次抓取网站网页前都抓一下robots.txt,加上robots.txt更新不频繁,内容需要解析。通常爬虫的做法是先抓取一次,解析后缓存下来,而且是相当长的时间。假设网站管理员更新了robots.txt,修改了某些规则,但是对爬虫来说并不会立刻生效,只有当爬虫下次抓取robots.txt之后才能看到最新的内容。尴尬的是,爬虫下次抓取robots.txt的时间并不是由网站管理员控制的。当然,有些搜索引擎提供了web 工具可以让网站管理员通知搜索引擎那个url发生了变化,建议重新抓取。注意,此处是建议,即使你通知了搜索引擎,搜索引擎何时抓取仍然是不确定的,只是比完全不通知要好点。

今天的文章就介绍到这里,关于robots文件有什么疑问的,可以在留言处留言交流。robots文件工具,可以在百度一下。

敬请关注《网站快速收录技巧》系列文章第三篇《搜索引擎自动收录功能》,微信关注“szqwyx”即可查看哦!关注后回复“robots文件”可获得《robots文件12种使用方法》的文档下载链接。

展开全文阅读

相关内容