现在大部分的统计程序都统计的是客户访问网站的各项数据,而对于一个新站,或进行SEO实验的网站,想要了解搜索引擎的蜘蛛爬行程序访问网站的规律及其相关数据,这就需要一套单独的统计程序。
其实程序原理非常简单,可以用PHP+MYSQL来实现。
首先各个搜索引擎的蜘蛛都有名字,可以据此判断都有哪些搜索引擎访问了你的网站。根据访问的URL可以判断都访问了那些页面;另一个重要的数据是可以推断出从首页链接来的蜘蛛爬行了哪些网页,可以根据这些数据重新调整首页文章链接分布,将最希望被索引的文章放到蜘蛛最先进入的区域。 在一个首页中,不是每个区域里的链接都会被蜘蛛直接爬行,例如左侧的文章列表优势就高于右侧的热点文章。
当然,被搜索引擎索引并不代表马上就会出现在搜索引擎中。原因有多方面,新站如果想出现在搜索引擎的搜索结果中需要一段时间,一般会两个星期左右时间,我最快的速度是不到72小时新站的数据就被显示在搜索结果中。另一方面,不是所有被爬行过的页面都会出现在搜索结果中,搜索引擎会自己判断哪些是需要剔除的网页内容、哪些是排在搜索结果靠前或靠后的网页。
总之,这个程序有助于SEOer观察研究搜索引擎蜘蛛的规律、还可以帮助我们对网站优化不断改进。
Tags: 搜索引擎优化
能否具体解释一下,如何实现通过蜘蛛名字判断哪些搜索引擎访问了网站呢。
比如说有一个搜索引擎爬虫的ip数据库,通过ip地址可以判断是哪个爬虫来访。
通过这个方法,还可以做到为搜索引擎爬虫呈现特制的页面,使爬虫能够访问到普通用户访问不到的内容。但这种方法也属于黑帽的一种,需要承担被发现惩罚的风险。
不过据我所知,NewYork Times(纽约时报)的官网用的就是这种方法来使搜索引擎可以抓取到所有新闻内容,而普通用户访问时,却需要登录。但google有一个白名单,多年来没有对他惩罚。现在看来,google的原则是只要这种技巧的目的不是恶意的,可以容忍,所以,类似这种需要登录访问的内容,也不妨一试。不知百度的政策是什么样的,具体说说啊。
这个肯定就是你想要的效果
http://tarr.cn/logs/view.php
对!你这个统计的非常详细!