垃圾搜索Windows Live的真面目

比尔盖茨退休了,巴尔默上台了,微软出现了新变化,盗版用户的操作系统桌面开始黑屏了。虽然黑屏方式非常愚蠢,但me并不认为打击盗版是不应该的,不管是不是微软牵头,在版权维护方面,me一直态度明确且坚决。微软是很多人(尤其是所谓电脑技术型高级用户)不喜欢,me也很不喜欢。me不喜欢它是有原因的,两年半前因为强行捆绑msn和浏览器IE关联让me恶心的不行,写了篇无可奈何花落去--微软的集成方式,今天,因为它的恶意搜索机器人泛滥,严重干扰了搜索引擎市场份额的精确统计,并且对所有网站构成了洪水攻击,me要写这篇垃圾搜索windows live的真面目。对坏蛋,要坚决斗争之,呵呵。

查阅后台来访统计(me当然用的是me自己开发的StatPressCN啦,呵呵)数据时,发现有不少来自微软live.com搜索引擎的关键词太过普通(比如twitter、april、reply等),于是奇怪起来,me何德何能,居然在如此常见的关键词搜索中排名靠前。但诡异的是,me点击到来源的参考页面(也就是live.com)去,翻了n页都没有找到“天高云淡”的身影。仔细检查网址和关键词,都没有错啊,真是出鬼了。

一直没有功夫弄清楚这个问题,现在StatPressCN的主体功能开发终于告一段落。出于对数据精确性的高标准严要求,me再次沉静下来努力把它搞清楚。

StatPressCN中以搜索引擎、参考页面和IP为关键词进行搜索,得到如下结果:

Windows Live 59.108.96.22 http://cnweb.search.live.com/results.aspx?q=%E5%85%B3%E4%BA%8EBaidu%E5%92%8CGoogle&form=QBRE3
Windows Live 61.148.115.186 http://cnweb.search.live.com/results.aspx?q=%E8%89%BA%E6%9C%AF+%E7%94%9F%E6%B4%BB++%E5%90%8D%E8%A8%80&form=QBRE
Windows Live 61.178.180.181 http://search.live.com/results.aspx?q=%E5%8C%85%E5%90%AB%E6%98%9F%E6%9C%9F%E5%86%9C%E5%8E%86%E7%9A%84%E5%88%B7%E6%9C%BA%E5%8C%85&src=IE-SearchBox
Windows Live 61.183.129.114 http://search.live.com/results.aspx?q=motorola+a1200+%E5%A4%A9%E9%AB%98%E4%BA%91%E6%B7%A1&go=&form=QBRE
Windows Live 64.111.114.111 http://cnweb.search.live.com/results.aspx?q=twitter&go=&form=QBRE
Windows Live 65.55.109.10 http://search.live.com/results.aspx?q=gtalk
Windows Live 65.55.109.100 http://search.live.com/results.aspx?q=april&form=QBHP
Windows Live 65.55.109.100 http://search.live.com/results.aspx?q=print&form=QBHP
Windows Live 65.55.109.100 http://search.live.com/results.aspx?q=twitter
Windows Live 65.55.109.100 http://search.live.com/results.aspx?q=twitter&form=QBHP
Windows Live 65.55.109.101 http://search.live.com/results.aspx?q=twitter

奇怪的是那些看起来无效的搜索都源自某些有规律的IP,形如65.55.109.10、65.55.109.100、65.55.109.101等。拿65.55.109.35做关键词在Google中搜索了下,发现这个IP好像来自己微软官方。这就奇怪了,既然是微软官方的,并且号称搜索引擎,那为什么都是无效搜索呢。

拿live.com query term在Google中搜索,没有找到有价值的信息,继续拿live.com search term identify做关键词在Google中搜索,终于找到了相关研究和信息。让我们来看看是怎么回儿事儿。

有人发现了和me类似的情况—— Live.com Sexually Explicit Search Terms症状也是无效搜索来源,本以为是其他冒牌伪装的垃圾访问,后来确实是微软官方行为后,还以为是微软为了防止两性类话题而做的额外检查,另外一个帖子讨论结果认为可能是微软在完善自己的live.com搜索引擎时手动检查结果而导致的不良访问。大家主观上还是没有恶意冤枉微软意图的。

The Art of Web的仔细分析和研究彻底暴露了这件事的真相:此事是微软官方行为,属恶意或者不负责任的垃圾访问,有靠此行为认为提高市场份额统计数据的作假嫌疑,且行动是隐秘进行的,持续时间很长了,更严重的是在网友批露后变换了代码仍然在搞。据说微软官方进行了回应,不但不道歉,不按照行业规矩接受机器人协议,还希望大家能接受它这种行为,并且以可能会丧失掉来自live.com的流量为由威胁大家不要屏蔽它,呵呵,自我感觉真好啊,真够无耻啊。

刚在Google的市场份额还在叹息windows live的份额也下滑了,没想到就这十几个点的占有率也是掺了大水份的啊!想想微软这么大的块头和高级的技术平台,感觉真够滑稽的。当看戏了,闹剧啊!

刚又在数据库中搜了下,发现以65.55.109.开头的IP几乎全部涉案。建议大家把来自search.live.com且IP以65.55.109.开头的所有来访全部屏蔽了吧。

——————————————(更新:2008年10月27日)

已经升级了StatPressCN,删除了687条来自Windows live的无效搜索数据(有效的当然要保留),并且能够识别无效来访,在统计系统中不做记录。

—————————————(更新:2008年10月27日)

StatPressCN中统计系统更新(StatPressUpdate)后,发现还有不少Windows Live的无效搜索,检查发现以65.55.110开头的IP也全军覆没了。更新banip.dat数据后在进行统计系统升级,又删除了785条记录。再看搜索引擎占比(即市场份额约数),Windows Live立马从两位数降为个位数了,最近三十天的搜索占比为2.8%,所有统计时间内的占比为4.6%。又发现65.55.165和65.55.232也全军覆没了,共删除399条记录。经过如是修正后,Windows Live的占比从16%下降至了0.2%,唉,微软啊,不行就算了,何必装象呢!

—————————————(更新:2008年11月17日)

偶用中国站长网的查询工具得到如下结果:

Windows Live垃圾搜索示样
Windows Live垃圾搜索示样

百度和Google收录的是几百条,人家Windows Live可是几千条啊,呸,垃圾Live。

Google的市场份额

在me心目中,Google无论技术实力、具体展现以及道德高度都是其他所谓对手不可比拟的,me也一直用它。在国内,百度市场份额领先的事实me一直不愿承认,再加上me的blog统计数据也支撑着一点。从数据来看,Google的份额领先且在逐渐攀升。

但这个月却出现了异常情况,国内搜索百度超越了Google。实在让me想不通,因三鹿奶粉事件,百度的名誉受损严重,但为什么大家用的还是越来越多呢。看来,不能不承认谷歌就是在吃母公司Google的技术老本,除了卖广告外,啥推广动作都没有做,或者是无效动作。惨就一个字。

立此存照,下表切自2008年10月25日,me的blog后台统计数据(源自WordPress的统计插件StatPressCN)。

搜索引擎

(最近三十天内)

访问
Baidu 1600
42.7%
Google cn 1238
33%
Windows Live 385
10.3%
Google 320
8.5%
Google Images 68
1.8%
Soso 63
1.7%
Google tw 39
1%
Google hk 12
0.3%
Google Cache 4
0.1%
Sogou 3
0.1%
*vs*

搜索引擎

(开启统计以来)

访问
Google cn 4327
40.4%
Baidu 3026
28.3%
Windows Live 1792
16.7%
Google 995
9.3%
Soso 184
1.7%
Google tw 133
1.2%
Google Images 127
1.2%
Google hk 47
0.4%
Yahoo cn 20
0.2%
Sogou 13
0.1%

从数据看:

最近三十天搜索引擎前三甲:Google的市场份额为33%+8.5%+1.8%+1%+0.3%+0.1%=44.7%;Baidu的市场份额为42.7%;Windows Live的为10.3%。搜索引擎市场份额 - http://sheet.zoho.com

所有时间内的统计前三甲:Google为40.4%+9.3%+1.2%+1.2%+0.4%=52.5%;Baidu为28.3%;Windows Live为16.7%。搜索引擎份额 - http://sheet.zoho.com

Google从原来的52.5%下滑至44.7%,Baidu从28.3%上升至42.7%,Windows Live则从16.7%下滑至10.3%。对Google来讲,要命的是失去的份额全部被Baidu拿去了。

另外,几乎消失的迟暮英雄是Yahoo,总体统计还有0.2%,在最近三十天的统计中已经消失。

——————————(更新:2008年10月27日)

发现微软的搜索引擎存在严重作弊行为(见垃圾搜索Windows Live的真面目 ),升级StatPressCN后,得到了最新准确数据如下:

搜索引擎

(最近三十天内)

访问
Baidu 1678
46.8%
Google cn 1288
35.9%
Google 310
8.6%
Windows Live 102
2.8%
Google Images 66
1.8%
Soso 60
1.7%
Google tw 37
1%
Google hk 12
0.3%
WordPressCN 8
0.2%
Google Cache 4
0.1%
*vs*

搜索引擎

(开启统计以来)

访问
Google cn 4423
46%
Baidu 3164
32.9%
Google 1005
10.4%
Windows Live 442
4.6%
Soso 187
1.9%
Google tw 134
1.4%
Google Images 127
1.3%
Google hk 47
0.5%
Yahoo cn 21
0.2%
Google Blog 13
0.1%

排位格局变化不大,就是微软的水份挤掉后份额大幅度下降了而已。嘲笑微软ing!

把所有无效搜索(垃圾数据)删除后,微软的份额居然只有0.2%了,唉何必装象呢,微软!

搜索引擎

(最近三十天内)

访问
Baidu 1689
48%
Google cn 1300
36.9%
Google 313
8.9%
Google Images 66
1.9%
Soso 61
1.7%
Google tw 36
1%
Google hk 13
0.4%
Windows Live 8
0.2%
WordPressCN 8
0.2%
Google Cache 6
0.2%
*vs*

搜索引擎

(开启统计以来)

访问
Google cn 4454
48.1%
Baidu 3193
34.5%
Google 1013
10.9%
Soso 188
2%
Google tw 134
1.4%
Google Images 127
1.4%
Google hk 48
0.5%
Yahoo cn 21
0.2%
Google Blog 13
0.1%
Sogou 13
0.1%

搜索引擎份额 - http://sheet.zoho.com

twitter on 2008-04-16

  • http://answers.polldaddy.com/ 哈,这个投票网站不错。谢谢ocde! #
  • 那个棒棒的投票网站应该感谢gongliang才对,呵呵,所有好事都归ocde了,惯性使然啊。对gongliang表示歉意! #
  • 吃着碗里的,还真必须得把这锅。市场的变化不但体现在规模的快速成长方面,还有其中形式的多元化。老是盯着自己的一亩三分地,怎么说目光都不算长远,心胸都不算宽广。 #
  • 在中国这个社会中经商最缺乏的就是“真”。诚然斯然。 #
  • 共享贴必评,当然是通过twitter了。规矩一。 #
  • 如果麦当劳是被像微软Windows那样被标准化了的化,那中式餐馆就是像Linux那样的开源模式。 http://tinyurl.com/5bjr2w #
  • WP-POLLs好复杂,并且不兼容WP2.5。刚找了个memedex-polls,还要到网站去创建帐号,并且感觉该网站很外化,只好再等等了。 #
  • 订阅了 http://www.answers.com/ 的WINE word of the day,感觉对自己是很大的挑战,一方面是e文水平不够,另外是对酒的知识也非常有限。想找个入门级别的酒类相关网站! #
  • 成功管理的一些关键词:热忱、引导、谋略、行动、绩效、竞争、责任、权力、批评、监督、鼓励。晕,太全了! #
  • 多品牌和重金投入研发似乎应该互为膀臂,在企业发展到一定程度积累了足够的财富资源时,此法稳妥长远,尤其是目前所处行业尚未充分发展。 http://tinyurl.com/4fq6ol #
  • Poll: “今天您的心情如何?” http://poll.fm/bapk/ #
  • 貌似PollDaddy的服务不是很稳定。刚注册一个免费帐号后想提交一个Poll,服务器居然宕了,提示服务不可用。 #
  • 又见李敖说话,呵呵。me最佩服的就是老李说话总是拿得出证据,货真价实的证据。 http://tinyurl.com/66z87j #

Powered by Twitter Tools.