|
网站用户通道和爬虫通道应该怎么做发表时间:2019-06-05 09:21网址:http://www.wzhykj.com 可能有很多朋友在网络上搜索过网站通道,但是还不是非常了解,下面详细地讲解一下。 网站通道有两种概念,一种是人行通道,另一种是搜索引擎爬虫通道。人行通道是指通过在搜索引擎中输入一个关键词,在搜索结果中找到网站,点击进入网站的着陆页,再到达页面,最后到达网站的内部,然后通过内容查看吸引用户的东西。这样就形成了一个路线,这条路线就是人行通道。这条路线是非固定的,因为用户进入网站后,浏览哪些页面是无法预测的,但是初始点相同,都是网站的着陆页。这里只需要简单了解一下即可。 我们重点要研究的是搜索引擎爬虫通道,当搜索引擎爬虫进入网站抓取内容的时候,它是从网站的头部或者尾部抓取,中间是没有搜索引擎爬虫进入通道的。所以在设计网站的时候,要考虑到搜索引擎爬虫从网站的头部或者尾部进入网站后,应该让它在网站内部如何爬行、如何抓取。要让搜索引擎爬虫按照自己的意思爬行,优先收录网站的主要页面,而不要让它在网站内没有目标地任意走动。 例如,搜索引擎爬虫想要抓取http://www.miren8.com网站的fengxiongjianfei.html这个文件,搜索引擎爬虫首先需要解析fengxiongjianfei.html文件属于哪个文件夹,假设它的上一级文件夹是jianfei,爬虫再解析jianfei的上一级文件夹在哪里,假设是fengxiong,再解析fengxiong属于哪儿,假如是网站的一个频道或者一个分类,搜索引擎爬虫必须得弄清楚这个关系之后,才能按照这个路径去抓取。这是理想化的路径,但是搜索引擎也可以通过其他的路径来抓取到这个页面。例如www.miren8.com这个网站,假设fengxiong是网站分类里的一个频道,jianfeifangfa是导航里面的一个分类,jianfeifangfa底下有个jianfei文件夹,fengxiongjianfei.html被包含在jianfei文件里面,现在网站里面有一个jianfeifengxiong频道,jianfeifengxiong下面有yundongjianfei小分类,小分类下面有一个yundongjianfei.html页面,yundongjianfei.html里面有个链接指向了fengxiongjianfei.html文件,这样,搜索引擎抓取页面的路径,搜索引擎先从网站抓取到fengxiong频道,再到jianfeifengxionga文件夹,再到yundongjianfei文件夹,再fengxiongjianfei.html页面,最后到达fengxiongjianfei.html页面。当然还有其他的方法来抓取,但是这些都不是最优化的。第一个图中www.miren8.com/fengxiongjianfei.html是最短的路径,那有的人会说,直接在首页里面给fengxiongjianfei.html做个链接,这是不是更短的?没错是更短的,但是网站的首页不可能将每一个页面都在首页直接做链接,所以要优化网站通道。 在优化搜索引擎通道前,先了解几个概念:主通道、次通道、末通道。网站导航,即一级导航、二级导航、三级导航,这些导航之间互相链接,构成一个循环圈,这个是主通道;二级导航内部的一些分导航和分类直接构成的循环圈是次通道;产品详细页、文章详细页构成的是末通道。了解了这些概念后,那么搜索引擎通道究竟能为网站做什么?通道的作用是给搜索引擎爬虫制定一个路线,当搜索引擎爬虫进入网页以后,它从首页进入导航,再从导航进入二级分类首页页面,再进入二级分类的详细页面,再进入最末页面。这样的通道是搜索引擎最简单的爬行通道。但是试想一下,网站内容不单纯只有这么一点儿,而且网站的内容也不是单纯只有一条路线,所以必须给搜索引擎构造出路线,让它按照我们构造的主要路线进行爬行。构造出路线后,可以将想让搜索引擎抓取和主要让搜索引擎抓取的内容依靠在搜索引擎通道附近,这样搜索引擎在行走这条路的时候,会优先抓取路线上的内容。同样两个新闻类的网站,如果一个网站进行网站架构设计、网站通道设计,而另一个网站没有,那么这两个网站发布同样的内容后,肯定是优化过网站架构和通道的网站抓取速度快。 网站通道由无数个循环圈构成,循环圈由无数个链接构成,如果在这些循环圈中将关键词有效地插入进去,对网站排名是很有帮助的。对于内容多的网站,可以多插入一些关键词,因为网站所能承受的能力范围比较大,多加入一些关键词,也看不出来是在作弊。但是对于内容少的网站,插入的关键词要把握一个度,如果每个页面都有故意给搜索引擎叠加关键词的痕迹,会被搜索引擎认为是在作弊。具体怎么插入关键词会在下面的章节中详细讲解,这里只是简单地提及一下,至于这个度该如何把握,笔者认为,做到自然即可,使用户和搜索引擎读起来比较顺,千万不要将一些与网站内容毫不相关的关键词加在页面上。例如网页游戏的页面,如果是写一些关于公司的成长经历的内容,在里面加一个“魔兽使用攻略”类似的关键词,看起来非常别扭,读起来也不顺口,所以不能过度。黑帽SEO和白帽SEO,它们只有一线之隔,越接近这个度的边缘越好,作用也越明显,这是白帽追寻的原则,如果超过了这个度,便成黑帽了。从SEO诞生开始,一些黑帽技术只是昙花一现,过不了多久黑帽技术就会被搜索引擎辨认出来。但是不要误解了,并不是所有做内部优化的人都是白帽,做外部链接的人都是黑帽,这是两种情况,不能混为一谈。 网站通道是通过链接指向度给搜索引擎展现的,通常所说的网站链接指向了哪里,其实也是无形中给网站构建了一个通道,让搜索引擎爬向链接指向的页面。所以网站通道为提高网站的收录量和收录速度做准备,为搜索引擎蜘蛛和页面搭起了一座桥梁,方便搜索引擎反复行驶。 如果网站规模比较小,平均每天只发布1篇文章,感觉不出来网站收录的比率(网站发布数量与收录数量的比值),但是对于一些大型的网站来说,每天发布几百篇文章,只收录十几篇,说明网站的通道出现了严重问题,需要给通道疏通一下。疏通网站通道最常用的方法是检查死链,如果网站出现了死链,整个网站通道处于死循环状态,搜索引擎爬虫进入后就像在走迷宫,摸不清方向,这样的网站搜索引擎是不会喜欢的。 所以大型网站必须要仔细考虑网站通道的建设,因为这关系到搜索引擎蜘蛛抓取网站的次数和速度,直接影响到网站的整体运营。网站只有被收录了,才能有希望在搜索引擎中获得排名,才能被用户搜索到,网站通道混乱,即使每天发布很多文章,收录的也会非常少。曾经有一个朋友建设了一个大型的新闻门户网站,每天发布上百篇文章,但由于网站通道非常混乱,再加上文章质量非常差,结果搜索引擎只收录了几十页,所以说网站通道是无形的杀手。网站上线后,类似于关键词叠加,关键词密度过高,文章内容质量差,这些问题都容易改正,但是网站通道修改非常困难,修改一个地方,就会牵连到网站许多地方,所以在网站建设前期策划的时候,一定要仔细想想网站通道该如何构建。 前面章节中提到网站URL优化,对一些文件夹、页面名称都要加上网站的关键词,这对网站通道起到了一个引导性的作用。当然,在处理这些页面的时候不能每个页面都用同样的关键词,如果这样做,明显有问题。可以变换关键词,用关键词的同义词来做,这样会给搜索引擎一个很好的指导,让搜索引擎知道这个页面非常重要,或者这个文件夹里面的内容比较重要,同时也给搜索引擎一个主次之分,不会让它觉得这个文件夹里的内容都是一样的。网站的通道由我们设计,具体的细节主要体现在链接度、URL关键词链接的引导和死链的疏通这三点上。这些细节方面应尽量策划全面,尤其在死链方面,一定要杜绝,如果一个网站大部分链接都是死链,那么这个网站离死站也就不远了。 当通道构建完毕之后需要检测一下这个通道到底是构成成功还是失败,最好的检测办法是在通道周边辅佐上已经发布好的文章、公司产品,或者是一些比较重要的内容,然后观察网页收录的时间和速度。如果成功,主通道周围的页面最先被收录或者最快被收录,然后是次通道,最后是末通道。如果发现次通道的内容被优先抓取,说明主通道的链接度没有次通道高,次通道反客为主变成主通道了,因此要给主通道增加链接度,让它将主力位置抢过来。 网站通道除了要考虑在最优化情况下哪个路径是最短路径,还要考虑用户的体验性,不可能一个首页全部是链接,那样链接度非常高,而且给用户的印象也非常不友好,所以必须要人为地构建通道,让搜索引擎按照构建的通道来爬行。 搜索引擎爬虫通道与网站的树形目录结构有些类似,但是还有一定的区别。从树形结构最顶端进来之后,下面有很多节点,搜索引擎爬虫进入哪个节点,取决于网站的栏目权重。因此要让所有栏目的权重一样,这样搜索引擎才会将网站所有的栏目都抓取,否则就会将权重高的栏目网站抓取。 网站通道必须最优化,以最短的路径去抓取,这样抓取的几率才会越大。就像前几节讲到的URL深度、URL命名、URL尽量要控制在三层以内,如果网站的路径都是按照这样来优化,三层以内路径的页面都能抓取到,而且还会给搜索引擎一个很清楚的概念,该去网站哪个频道里面抓取、通过一个什么样的路径去抓,都一目了然。千万不能只重视网站的内容,不重视网站的通道,搜索引擎爬虫进来后,不能随便抓取一处地方就是死链,或者从网站首页进来后无限地循环下去,搜索引擎对这样的网站只有放弃,即使网站内容再精彩、再丰富也是白费,因为搜索引擎蜘蛛是看不见的。 通道按照什么样的形式或者通过什么样的技巧让爬虫按照我们的意思去爬行,导航只是一个方面,最重要的是链接度,如果所有人都推荐一个人的网站,都投票,那么网站排名就会非常好。内部的链接也要这样构成,把分类导航页和同一分类下的所有页面的链接全部指向这个分类的首页。做SEO优化要照顾到网站的所有内容,导航只是其中的一部分,况且只规划好导航是没有用的,搜索引擎对通道还不是很明确,如果每一个栏目内的所有页面都指向这个栏目的首页,搜索引擎爬虫就会知道,这个栏目非常重要,来抓取网站的时候,就会直接进入栏目的通道进行抓取。 总结:通过上面的学习,应该知道网站URL的优化与网站的架构优化有重要的关系,网站架构优化好后,直接固定了搜索引擎蜘蛛大概要走的路线。不论是URL优化、质量的检测,还是平时一些文章发布的技巧,目的就是构造一个对搜索引擎比较畅通的通道,这个通道的作用是希望搜索引擎能在最短的时间内抓取网站的内容。 构成通道的基本要素是网站内部各个页面或者关键词或各个链接之间构成的一个个小的循环圈,由它们构成了网站最基础的元素,网站架构设计的优劣直接决定了网站通道的路径。在考虑网站建构设计的时候,要根据网站的主题思想,设计好如何让搜索引擎在网站内部进行爬行,这样,我们既能掌控搜索引擎,让搜索引擎完全抓取网站的内容,而且也能掌控搜索引擎何时能抓取到网站的内容。或者抓取哪些内容,所以做好具体工作,能简单地知道搜索引擎能抓取到网站的哪些内容,在什么时候抓取网站的内容,抓取网站多少内容,应该把内容放在哪里给搜索引擎爬虫抓取,这才是网站通道存在的概念和意义。
文章分类:
新闻动态
|