垃圾搜索Windows Live的真面目

比尔盖茨退休了,巴尔默上台了,微软出现了新变化,盗版用户的操作系统桌面开始黑屏了。虽然黑屏方式非常愚蠢,但me并不认为打击盗版是不应该的,不管是不是微软牵头,在版权维护方面,me一直态度明确且坚决。微软是很多人(尤其是所谓电脑技术型高级用户)不喜欢,me也很不喜欢。me不喜欢它是有原因的,两年半前因为强行捆绑msn和浏览器IE关联让me恶心的不行,写了篇无可奈何花落去--微软的集成方式,今天,因为它的恶意搜索机器人泛滥,严重干扰了搜索引擎市场份额的精确统计,并且对所有网站构成了洪水攻击,me要写这篇垃圾搜索windows live的真面目。对坏蛋,要坚决斗争之,呵呵。

查阅后台来访统计(me当然用的是me自己开发的StatPressCN啦,呵呵)数据时,发现有不少来自微软live.com搜索引擎的关键词太过普通(比如twitter、april、reply等),于是奇怪起来,me何德何能,居然在如此常见的关键词搜索中排名靠前。但诡异的是,me点击到来源的参考页面(也就是live.com)去,翻了n页都没有找到“天高云淡”的身影。仔细检查网址和关键词,都没有错啊,真是出鬼了。

一直没有功夫弄清楚这个问题,现在StatPressCN的主体功能开发终于告一段落。出于对数据精确性的高标准严要求,me再次沉静下来努力把它搞清楚。

StatPressCN中以搜索引擎、参考页面和IP为关键词进行搜索,得到如下结果:

Windows Live 59.108.96.22 http://cnweb.search.live.com/results.aspx?q=%E5%85%B3%E4%BA%8EBaidu%E5%92%8CGoogle&form=QBRE3
Windows Live 61.148.115.186 http://cnweb.search.live.com/results.aspx?q=%E8%89%BA%E6%9C%AF+%E7%94%9F%E6%B4%BB++%E5%90%8D%E8%A8%80&form=QBRE
Windows Live 61.178.180.181 http://search.live.com/results.aspx?q=%E5%8C%85%E5%90%AB%E6%98%9F%E6%9C%9F%E5%86%9C%E5%8E%86%E7%9A%84%E5%88%B7%E6%9C%BA%E5%8C%85&src=IE-SearchBox
Windows Live 61.183.129.114 http://search.live.com/results.aspx?q=motorola+a1200+%E5%A4%A9%E9%AB%98%E4%BA%91%E6%B7%A1&go=&form=QBRE
Windows Live 64.111.114.111 http://cnweb.search.live.com/results.aspx?q=twitter&go=&form=QBRE
Windows Live 65.55.109.10 http://search.live.com/results.aspx?q=gtalk
Windows Live 65.55.109.100 http://search.live.com/results.aspx?q=april&form=QBHP
Windows Live 65.55.109.100 http://search.live.com/results.aspx?q=print&form=QBHP
Windows Live 65.55.109.100 http://search.live.com/results.aspx?q=twitter
Windows Live 65.55.109.100 http://search.live.com/results.aspx?q=twitter&form=QBHP
Windows Live 65.55.109.101 http://search.live.com/results.aspx?q=twitter

奇怪的是那些看起来无效的搜索都源自某些有规律的IP,形如65.55.109.10、65.55.109.100、65.55.109.101等。拿65.55.109.35做关键词在Google中搜索了下,发现这个IP好像来自己微软官方。这就奇怪了,既然是微软官方的,并且号称搜索引擎,那为什么都是无效搜索呢。

拿live.com query term在Google中搜索,没有找到有价值的信息,继续拿live.com search term identify做关键词在Google中搜索,终于找到了相关研究和信息。让我们来看看是怎么回儿事儿。

有人发现了和me类似的情况—— Live.com Sexually Explicit Search Terms症状也是无效搜索来源,本以为是其他冒牌伪装的垃圾访问,后来确实是微软官方行为后,还以为是微软为了防止两性类话题而做的额外检查,另外一个帖子讨论结果认为可能是微软在完善自己的live.com搜索引擎时手动检查结果而导致的不良访问。大家主观上还是没有恶意冤枉微软意图的。

The Art of Web的仔细分析和研究彻底暴露了这件事的真相:此事是微软官方行为,属恶意或者不负责任的垃圾访问,有靠此行为认为提高市场份额统计数据的作假嫌疑,且行动是隐秘进行的,持续时间很长了,更严重的是在网友批露后变换了代码仍然在搞。据说微软官方进行了回应,不但不道歉,不按照行业规矩接受机器人协议,还希望大家能接受它这种行为,并且以可能会丧失掉来自live.com的流量为由威胁大家不要屏蔽它,呵呵,自我感觉真好啊,真够无耻啊。

刚在Google的市场份额还在叹息windows live的份额也下滑了,没想到就这十几个点的占有率也是掺了大水份的啊!想想微软这么大的块头和高级的技术平台,感觉真够滑稽的。当看戏了,闹剧啊!

刚又在数据库中搜了下,发现以65.55.109.开头的IP几乎全部涉案。建议大家把来自search.live.com且IP以65.55.109.开头的所有来访全部屏蔽了吧。

——————————————(更新:2008年10月27日)

已经升级了StatPressCN,删除了687条来自Windows live的无效搜索数据(有效的当然要保留),并且能够识别无效来访,在统计系统中不做记录。

—————————————(更新:2008年10月27日)

StatPressCN中统计系统更新(StatPressUpdate)后,发现还有不少Windows Live的无效搜索,检查发现以65.55.110开头的IP也全军覆没了。更新banip.dat数据后在进行统计系统升级,又删除了785条记录。再看搜索引擎占比(即市场份额约数),Windows Live立马从两位数降为个位数了,最近三十天的搜索占比为2.8%,所有统计时间内的占比为4.6%。又发现65.55.165和65.55.232也全军覆没了,共删除399条记录。经过如是修正后,Windows Live的占比从16%下降至了0.2%,唉,微软啊,不行就算了,何必装象呢!

—————————————(更新:2008年11月17日)

偶用中国站长网的查询工具得到如下结果:

Windows Live垃圾搜索示样
Windows Live垃圾搜索示样

百度和Google收录的是几百条,人家Windows Live可是几千条啊,呸,垃圾Live。