SEO 中的爬行、抓取、索引和收录

作者: 林石列 分类: 互联网 发布时间: 2017-07-31 21:43

搜索引擎的基本原理:首先使用搜索引擎蜘蛛,沿着网站的 URL 「爬行」,每爬一个 URL,就保存该 URL 到待抓取库,然后访问待抓取库中的 URL,对该页面的内容进行「抓取」,解析 HTML 的内容,系统判断该页面内容的质量,考虑是否值得「收录」,如果值得收录,那就将该 URL 在搜索引擎系统中建立「索引」。

开头的这段话分别介绍四个动作,那就是「爬行」、「抓取」、「收录」和「索引」,也是今天这篇文章讨论的内容?

什么是爬行?
爬行是指搜索引擎的爬虫机器人,我们称之为「搜索引擎蜘蛛」,从已知网站的URL 出发,沿着网站的每个URL地址,新发现的 URL 进行不断的爬行,并将新发现的 URL 地址保存在待抓取的地址库中。

什么是抓取?
抓取是指访问在爬行中获取到的待抓取地址库中的 URL,并且将这些 URL 的页面进行解析,将其解析到的内容(HTML 代码)保存在数据库中。

什么是索引?
索引是指将前面解析出来,并且认为是「有价值内容」的页面,在数据库中建立对应关系,形成索引库。当用户在搜索引擎中针对某个关键词进行搜索,根据关键词和索引的关系,将页面反馈给到用户,这也是搜索引擎的基本工作原理。也就是说,只有添加了索引的 URL 才能被用户在搜索引擎中搜索出来。

什么是收录?
其实收录的意思就是指 URL 的信息在搜索引擎的索引库中建立了索引,所以收录和索引是一样的意思,索引是指机器索引,对于网页来说,是被机器收录。

nofollow 属性是什么?
在网站页面中,通常会存在一些链接,我们可以对这些链接设置nofollow属性。nofollow属性的意义就是告诉爬虫蜘蛛:这个 URL 地址不要继续爬行,就当作不是链接来处理。为什么会存在 nofollow属性呢?最根本的作用就是:对于外链,尤其是质量差外链(比如付费广告),站长需要添加 nofollow属性来减少网站 RP 值的外流,保持网站的权重。虽然爬虫蜘蛛在某个页面爬到某个 URL 有nofollow属性,停止爬行。但是在别的地方再遇到这个 URL 的时候,并且没有nofollow属性,这个 URL 还是会被蜘蛛爬行,抓取,甚至是建立索引,将其收录。

noindex 标签是什么?
在网页头部信息中,添加meta noindex标签信息,告诉搜索引擎,我这个网页不要添加索引,不要让用户在搜索引擎中搜索出来。具有noindex标签的页面,搜索引擎蜘蛛是会爬行并且抓取的,因为爬行和抓取是在索引的前面的,只是到解释到该页面的HTML内容的时候,发现存在noindex标签,只会将其内容保存起来,但是不会对页面建立索引,用户也就不能在搜索引擎搜索到该页面。

robots.txt 是什么?
robots.txt 亦称之为 robots 协议,一般存在于网站的根目录下,一般直接访问「www.xxxx.com/robots.txt」都能看到 robots.txt 的内容。robots 协议会告诉搜索引擎蜘蛛,该网站下哪些页面可以抓取,哪些页面不可以抓取。robots 协议并不是所有的搜索引擎都遵守,但是主流搜索引擎都是遵守 robots 协议的。所以说,robots 协议并不是行业规范,也是一种约定俗称。

最后几点补充
无论是nofollownoindex还是 robots 协议,当然还有其他的一些搜索引擎规则,这些属性、标签和协议,并不是一开始,所有的搜索引擎都遵守。比如说,对于 robots 协议,直到 2008 年,Google、雅虎、百度这些主流的搜索引擎才一致承认这样的协议,承诺自家的搜索引擎蜘蛛将会遵守 robots 协议上面的内容取爬取网站的内容。所以,搜索引擎就是一个不断完善,不断进步的产品,无论是技术还是准则,都是一个迭代的过程。

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!

发表评论

电子邮件地址不会被公开。 必填项已用*标注

This site uses Akismet to reduce spam. Learn how your comment data is processed.

%d 博主赞过: