网站页面代码长度对收录的影响
此前在百度站长平台的站长学院中,百度官方的工程师分享了这样一个案例,一个网站主题内容由js生成,没有对用户访问做优化,但是对搜索引擎爬虫做了很多有针对性的优化,表面看起来十分完美,但是却没有被百度收录。究其原因发现,这个网站将图片二进制内容直接放到了html中,导致页面长度过长,从而没有被百度收录。可能很多站长看了这个案例会纳闷,做了好多年网站,还从没遇到这样的案例。难道页面长度也是影响网站收录的重要因素吗。
分析这个问题,首先我们要了解什么是网站页面长度。这里所谓的页面长度并非直观意义上浏览网站页面所看到的长度。而是指的页面代码长度。一般的网站,都会将图片的链接或者路径直接加到html代码中,对页面长度没有太大影响,而这个网站的案例并不多见,它直接将图片的二进制内容放到html代码中,也就是直接使用了base64编码,才导致了网站不收录的情况。
百度站长平台给出的分析原因:
1、网站针对爬虫爬取做的优化,直接将图片二进制内容放到了html中导致页面长度过长,网站页面长度达164k;
2、 站点优化后将主体内容放于最后,图片却放于前面;
3、爬虫抓取内容后,页面内容过长被截断,已抓取部分无法识别到主体内容,最终导致页面被认定为空短而不收录。
工程师建议:
1、不建议站点使用js生成主体内容,如js渲染出错,很可能导致页面内容读取错误,页面无法抓取
2、 如站点针对爬虫爬取做优化,建议页面长度在128k之内,不要过长
3、针对爬虫爬取做优化,请将主体内容放于前方,避免抓取截断造成的内容抓取不全
其实这个问题,一般网站都不会出现,只是极少数网站会采用如此不合理的页面优化方式。不过也给广大网站提了个醒,在平时优化网站时,页面长度也是衡量一个页面质量能否被收录的主要因素之一。
网站前端和内容上,页面过长是否影响收录?
分析完了网站页面长度导致不收录的原因,可能有人要问,我的网站页面长度都控制在合理范围内,也不是js生成的主题内容,为什么收录效果还是一般。这个问题,就要考虑网站前端页面的设计,以及内容长度上对于收录的影响了。在这里,笔者也给出了一下几点建议:
1、文章建议设置摘要栏,并且不建议文章开头使用图片。现在很多网站的文章,都会设置摘要。一般摘要不易过长,大概50-100个字即可。这样不仅提高了用户的阅读体验,对于搜索引擎抓取也起到了很好的促进作用。像百度,就比较喜欢摘要设置合理的文章内容。现在有很多网站,在发布内容时,喜欢配图。图文结合的文章确实有利于阅读,也受搜索引擎欢迎。但是如果正文以图片开头的话,百度首先抓取到的是图片,然后再抓取内容,这样的文章其实是不利于抓取的。所以建议将图文放置在文章中间的位置,并且设置摘要,这样的内容才是搜索引擎最喜欢抓取的样式。
2、文章过长建议设置分页。现在很多网站喜欢发长文,有的网站设置了分页,而有的网站则是一拉到底,内容很长。不仅不利于用户阅读,搜索引擎爬虫也不喜欢这样的文章。太长,用户一直要下拉滚动条,如果图片太多,还会影响加载速度。同理,搜索引擎爬虫也存在抓取困难的问题。久而久之,便会降低对网站的内容评价,影响收录。
3、频道栏目页文章不宜设置过多条数。现在的频道栏目页图文摘要的形式成为主流,进而增加了页面下拉的长度。如果设置过长,用户浏览体验不佳,更不利于搜索引擎爬虫抓取。频道栏目页的显示条数,宜设置在30条左右。此前笔者的网站设置了每页显示50条,普遍用户反映不方便浏览。通过测试,百度抓取的效果也不是很理想。频道栏目的文章摘要,也应该统一为固定的字数,50-100字最佳。因为规范的图片和摘要,也是搜索引擎爬虫抓取衡量网站质量的重要因素。能够手动设置最好,因为在摘要中手动设置适当的关键词,也有利于页面和文章的收录。
今天讲了这么多,最重要的还是页面的规范。即使你的网站做的再漂亮,在优化中不遵从网站页面的规范,收录也不会得到明显的提升。