您好,游客注册登录繁體
有问题找尘埃 SEO教程学习群
首页 >> SEO高级教程 >> 浅谈影响蜘蛛抓取的因素

浅谈影响蜘蛛抓取的因素

福建SEO 2016-04-21 0
浏览次数162

许多站长都会遇到这种情况,网站内容更新一两个月了怎么百度都不收录呢?这时候你就需要知道搜索引擎的工作原理了,毕竟SEO是针对搜索引擎进行操作的。

 

想要被百度收录,首先肯定是要让搜索引起蜘蛛来我们网站抓取页面的。蜘蛛的任务很简单,就是顺着链接不断的抓取互联网上,自己还没有收录过的网页和链接。然后将自己抓取到的网页信息和链接信息存储到自己的网页数据库里。

我们知道了网站想要收录和排名,第一步就是必须能够被蜘蛛抓取到,那么哪些因素会造成蜘蛛无法正常抓取我们的网页呢?

1、网址不能太长:百度建议网址的长度不要超过256个字节,(一个英文字母占一个字节的空间,一个中文汉字占两个)。这时候我们就要进行URL优化了,URL尽量在三层以内,例如:http://tieba.baidu.com/aaa/bbb/new.php。URL尽量简短,这样才有利于蜘蛛爬取。

2、网址中不要包含中文:百度对中文网址的抓取效果都是比较差的,所以站长在网址内千万不要带中文。

3、服务器质量太差:如果你选择的服务器商质量太差,经常瘫痪,总是打不开,那么也会影响蜘蛛的抓取效果的。

4、robots.txt屏蔽:每个网站上线之前,站长都会写一份关于搜索引擎与站点之间的协议,即robots.txt。有的SEOer由于疏忽,在robots.txt文件里面屏蔽了想要被蜘蛛抓取的路径或者页面,那么蜘蛛就会认为站长不想我抓取这些东西,这样就会影响到蜘蛛对于我们网站的抓取效果。

5、文章原创性太低:蜘蛛就是抓取自己还没收录过的网站和链接,当发现抓取的这篇文章和以前自己抓过的内容差不多,蜘蛛就会放弃掉。百度在判断的过程中,会把一部分认为重复性比较高的页面删除掉。

6、js、图片、flash、iframe框架、嵌套table等:由于搜索引擎的蜘蛛目前最擅长的还是分析文字和链接,对于图片、视频等的识别还是比较困难的。当你一个网站当中这些东西存在太多,并且没有做好站内优化的话,那么搜索引擎就会很难识别出该页面的内容,而对于这种页面,蜘蛛极有可能当作垃圾网站进行过滤掉。

一般来说只要网站内容不是太差,搜索引擎蜘蛛都会过来爬行抓取的。看了上述的介绍,相信许多新老站长都知道怎么样提高搜索引擎蜘蛛的抓取了吧。当你遇到蜘蛛不抓取的时候,就要考虑自己网站是哪个方面做的不够好。把url优化好,多写点内容可读性高的文章,做好robots.txt,屏蔽掉一些不利于蜘蛛抓取的内容这样就不怕蜘蛛不来抓取和收录我们的网站了。

 

版权声明:本文著作权归尘埃SEO所有,欢迎分享本文,谢谢支持!

转载请注明:浅谈影响蜘蛛抓取的因素 | 尘埃SEO博客

全部评论:0