msgbartop
天一心搜索引擎优化SEM工作室
msgbarbottom

09 五 09 如何知道搜索引擎何时访问过你的网站?

在我的文章<针对搜索引擎的统计程序>中,boyuan提出以下问题”

能否具体解释一下,如何实现通过蜘蛛名字判断哪些搜索引擎访问了网站呢。
比如说有一个搜索引擎爬虫的ip数据库,通过ip地址可以判断是哪个爬虫来访。
通过这个方法,还可以做到为搜索引擎爬虫呈现特制的页面,使爬虫能够访问到普通用户访问不到的内容。但这种方法也属于黑帽的一种,需要承担被发现惩罚的风险。
不过据我所知,NewYork Times(纽约时报)的官网用的就是这种方法来使搜索引擎可以抓取到所有新闻内容,而普通用户访问时,却需要登录。但google有一个白名单,多年来没有对他惩罚。现在看来,google的原则是只要这种技巧的目的不是恶意的,可以容忍,所以,类似这种需要登录访问的内容,也不妨一试。不知百度的政策是什么样的,具体说说啊。

第一个问题其实就是如何用程序来实现这个功能.如果你有耐心不怕麻烦完全可以阅读服务器的系统日志,上面详细记载了来访时,蜘蛛名字,蜘蛛地址,蜘蛛IP,访问页面等数据.但是用程序实现的话只需要蜘蛛名字和访问时间还有来访页面这些条件基本能实现所需要的功能.在php中$_SERVER['HTTP_USER_AGENT']函数可以获取到蜘蛛的名字,比如百度的蜘蛛是Baiduspider,谷歌的蜘蛛是Googlebot,MSN的蜘蛛是MSNbot.蜘蛛的地址有多个,每个分工是不同的,比如百度Baiduspider的地址http://www.baidu.com/search/spider.htm 负责搜索页面而Baiduspider-cpro是检查联盟广告.

第二种情况在谷歌网站中文管理员博客确实有提到过,但我真不知道百度如何处理这种情况.如果你的内容只提供给注册会员浏览,而搜索引擎又可以全部搜索,那么会员才可以浏览的内容是否在搜索结果中显示呢?类似<纽约时报>的媒体文章适合这种方法,因为在搜索结果中显示的是文章的部分摘要,但对纯靠文章内容收费的网站则希望搜索结果不要显示任何内容.通常的做法是对访问者和蜘蛛一视同仁,只将标题提供给蜘蛛索引.

09 五 09 域名在搜索引擎中的优化

.cn的域名没有.com在搜索引擎中受到重视;.org的域名往往能获得较高的权重。

当然以上的说法只是建立在网站内容完全一样的情况下,选哪个域名能更好的获得搜索引擎的信任。我看到有的文章解释.org的域名只有正规团体组织可以申请,但实际上以个人身份申请我就申请了好几个。

如果你做的是中文站,那就不要考虑过分使用英文优化域名,英文域名对你的中文站不会起到太大的作用。

最后一点是想重要强调的。www.xxx.com与xxx.com,通常前一个域名解析到主机上,而后一个域名使用URL转向到前一个域名上并且选择不隐藏选项。为什么要这么做呢?如果两个域名都解析到一个空间上,搜索引擎都会索引两个域名下的网页,这就在搜索结果中产生了两个雷同页,会被搜索引擎判罚。大家可以在浏览器中敲入各大门户网站的顶级域名就会发现都是用了URL转向功能到www域名下,比如sohu.com;sina.com等等。

08 五 09 针对搜索引擎的统计程序

现在大部分的统计程序都统计的是客户访问网站的各项数据,而对于一个新站,或进行SEO实验的网站,想要了解搜索引擎的蜘蛛爬行程序访问网站的规律及其相关数据,这就需要一套单独的统计程序。

其实程序原理非常简单,可以用PHP+MYSQL来实现。

首先各个搜索引擎的蜘蛛都有名字,可以据此判断都有哪些搜索引擎访问了你的网站。根据访问的URL可以判断都访问了那些页面;另一个重要的数据是可以推断出从首页链接来的蜘蛛爬行了哪些网页,可以根据这些数据重新调整首页文章链接分布,将最希望被索引的文章放到蜘蛛最先进入的区域。 在一个首页中,不是每个区域里的链接都会被蜘蛛直接爬行,例如左侧的文章列表优势就高于右侧的热点文章。

当然,被搜索引擎索引并不代表马上就会出现在搜索引擎中。原因有多方面,新站如果想出现在搜索引擎的搜索结果中需要一段时间,一般会两个星期左右时间,我最快的速度是不到72小时新站的数据就被显示在搜索结果中。另一方面,不是所有被爬行过的页面都会出现在搜索结果中,搜索引擎会自己判断哪些是需要剔除的网页内容、哪些是排在搜索结果靠前或靠后的网页。

总之,这个程序有助于SEOer观察研究搜索引擎蜘蛛的规律、还可以帮助我们对网站优化不断改进。