博客首页|TW首页| 同事录|业界社区
2009-05-08

            有人称互联网、浏览器、鼠标、搜索引擎是人类在20世纪最伟大的技术发明,每过7、8年就有一次大的进步。

            不是嘛,过了7、8年,互联网开始进化为“移动的”,浏览器用户在从IE向Firefox移民,鼠标很快就会飞起来了,变成像Wii那样、或者根本就要被淘汰了 – 自从iPhone开创了用手指点点触触的“猿人操作法”,手势电脑(Gesture Computing)正在悄悄地在成为一种趋势,而搜索呢,不必说,肯定是互联网上的主要战场,重点攻打对象当然不外乎是Google啦,谁叫Google变得这么大,超级大国总是要做好被挨打的准备的,以前大家攻打微软,7、8年之后,风向可能会转,嘿嘿。

            4月28日“Google抢新闻事件”也许是一个新的攻城信号。

            那天被媒体纷纷扬扬誉为“Google杀手”、“互联网圣杯”的搜索引擎Wolfram Alpha千呼万唤始出来首次在媒体曝光,宣布其服务将于今年五月正式推出。小小一家创业公司的一举一动引起Google出动PR干将们匆匆忙忙于当天在Google Blog和各大媒体上也宣布即将推出“结构数据搜索”服务,灭火似的打压Wolfram Alpha的媒体风光,然后此地无银三百两地解释说Google和Wolfram Alpha在同一天宣布重要新业务一事“纯属巧合”,嘿嘿嘿嘿。
 
            这Wolfram Alpha的闷葫芦里到底卖的是什么药呢?

            媒体已经把Wolfram Alpha捧上天了,说它将引起互联网上的一场大革命,说它是一种在网络上前所未见、能了解问题,并针对问题提供量身打造答案的“搜索引擎”。

            据发明Wolfram Alpha的沃夫朗解释说,Wolfram Alpha真正的创新之处,在于它能立刻将“你要找的东西”送到你面前,而不是像Google那样,只是把“可能相关的东西”递给你。比如在被问到“珠穆朗玛峰有多高?”之类的问题时,Wolfram Alpha不仅会直接给出答案,还会提供一整页来源可靠的相关资讯,诸如它的地理位置、附近城镇、相关山岳与图表等。

            沃夫朗还说,倘若用户要求比较珠穆朗玛峰的高度与旧金山金门大桥的长度,这也一点都难不倒Wolfram Alpha;倘若你想知道美国前总统肯尼迪被暗杀当天的伦敦天气,Wolfram Alpha也能交叉查核并提供解答。若问“什么是升D大调?”,Wolfram Alpha会弹奏出该音阶;倘若你键入“抛10次,4次正面向上”,Wolfram Alpha会猜到你想知道抛硬币的机率。甚至连芝加哥下一次日蚀的时间,或国际太空站现在究竟在哪里,Wolfram Alpha都能立刻给你答案……

            反正还没有见到庐山真面目,就只能任人摆布、听人天花乱坠地忽悠了。

            至少,目前Google仍然是我心目中的最爱,但是这并不等于说我对它没有一丝的遗憾,那就是,Google搜索的基本构架和7、8年前那个兼职的斯坦福大学研究生给我讲述的是一模一样的,没什么根本性的改进。7、8年来Google到底有没有专注于做“搜索”、把搜索做到极致?Google收购Blogger、Picasa、Youtube……这和“搜索”有关系吗?这和当年微软吃掉WordPerfect、Lotus 123、Netscape是否如出一辙?瞧,没钱的时候,Google想出了绝妙的创新模式,颠覆了所有的搜索前辈,后来有钱了,创新不必自己去苦思苦想,拿点儿银子去交换吧……想想可不是嘛,微软曾经想控制桌面,Google现在想控制眼球……是想称霸世界做老大呢,还是把一件事情做到最好做到极致?这是两件不可以同日而语的事情,Google啊Google,你千万别成为下一个微软!

            Google诞生的7、8年前,比尔盖茨写过一本如今已经被人遗忘了的宏著:《前面的路》。盖茨提出了一个令人提壶灌顶的问题:历史上的每一个行业老大,都只能在一个行业周期里称王称霸,没有一个行业巨人能够跨越一个行业的周期,成为金枪不倒的长青树。盖茨立志让微软(天啊,这名字起得就有问题,怎么能叫自己“微软”啊……软啦,伟哥没吃够)金枪永远不倒,所以微软在用Windows垄断了操作系统之后,便竭尽全力用Office逼迫桌面就范,然后再撕去脸皮、不惜一切代价用IE干掉了Netscape成为浏览器里的楚霸王……风萧萧兮易水寒,壮士一去兮不复还,尽管这样,微软还是软了、老了,还是没能够挺过一个行业的周期,再来个第二春,盖茨没料到IT的第二个行业周期竟然是“网络”,眼看到了自己嘴边的第二口水却让Google给一把夺去喝了,盖茨痛失街亭。

            网络之争莫过于“搜索引擎”。

            这搜索引擎到底该算谁是鼻祖呀?一万年太久,咱就从1994年诞生的Alta Vista开始吧,它后来被Yahoo给收购了。Yahoo起初只是个网址目录,后来收购了Alta Vista (全文搜索)、Alltheweb (FTP搜索) 、Inktomi(爬虫实时搜索)、Overture(广告点击搜索),一时间便成了全副武装的搜索引擎了;当年搜索四大天王还有Infoseek(被富家弟子迪斯尼高价买去玩了几年给关闭了),Excite(被AskJeeves和InfoSpace贱买后瓜分了),Lycos(好像改姓了朴还是金还是李,反正被韩国人买去了)……第一代的搜索引擎,差不多玩的都是简单的“配对”游戏,关键字配对、URL配对、Mega Tag配对……

            Google用关键字和网页的“相关性”把它的前辈们都给废了。所谓“相关性”简单地说就是“大家在看的东西就是你要找的东西”,当然大家在看的东西并不一定就是你要找的东西,“相关性”至多是80/20,而不是搜索的极致。Google的看家本领就是把你键入的“关键字”和最多人在看的具有你键入的关键字的页面对应后,立马按人气高低排列在你面前,凭这一点它从VC那里搞到了大钱,又上了纳斯达克,成为了世界上最大的互联网公司,也够厉害的吧?!

            有人说Yes,也有人说不……Wolfram Alpha就是一个跳出来和Google叫板、和“相关性”PK一比高下的新一代搜索引擎。虽然还没有用过Wolfram Alpha,无法多加评论,但是可以肯定这一盘对抗赛绝对不会是搜索引擎决胜负的最后一战。7、8年之后回头再来看今天的搜索引擎,那一定都像是一堆“新石器时代”的兵器,7、8年之后的搜索引擎,将会朝什么方向发展呢?

搜索的途径和方式 – 渠道

            搜索会无孔不入、无所不在,人们将可以在各种移动设备终端上、各种显示设备终端上,以任何方法键入、或用自然语言输入关键字、语句、特定搜索结构进行搜索,搜索的结果将包括文字、图片、音乐、视屏……

语义搜索 – 结构改进

            Google的关键字和网页“相关性”的搜索结果有相当的误差率,因为包含关键字的相关网页很可能并非是你要找的答案。语义索引(Latent Semantic Indexing),即语义搜索,简单地说就是通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关,当然语义搜索还关心网页的主题、结构等因素来帮助精准确定搜索结果。

多媒体搜索结果 – 媒体形态

            今天的搜索结果以文字为主,未来的搜索结果将是多媒体立体状态的,所有相关的信息、图片,录像,新闻、文章、声音、图表……尽搜眼底。

语言实时翻译 – 信息量倍增

            高精度的翻译工具将打破语言的隔阂,让丰富的网络资源不会因为语言的障碍而被闲置和浪费。

准确性 – 技术突破

            如果用80/20的原理来看今天的搜索,80%的搜索答案存在于20%的搜索结果里面,而在20%的搜索结果里找到你最终要找的答案,得花80%甚至更多的精力;将来的搜索是90/10,甚至99/01,99%的搜索答案存在于1%的搜索结果里,花1%的精力,可以找到99%你要的答案。

个性化、智能化 – 理解用户、把你搞透、把你搞定
            未来的搜索将完全配合你所处的地理位置、你的心情、习惯、爱好、知识结构、工作方法、思维习惯、朋友圈子、社会关系、家庭情况、人际交往……问题是,为你量身订制的精准搜索结果是否需要牺牲个人的隐私为代价??

            搜索引擎如果掌握了以下两样东西,便可以模拟人的思维方式,成为你的贴身助理,甚至可能变成你的上司(帝),你会什么都相信它都听它的:

            1.    你的“Click Stream”– 击键流
            2.    你的“Mind Stream”– 思维流

            所为“击键流”,就是指人们在搜索时不断键入电脑的字眼,对于搜索引擎来说,这些字眼就是搜索指令,你每一次击键,都是对于前一次搜索的矫正。我们不是经常玩“六度分离”(Six degrees of separation)游戏吗?理论上说,能搞到你的6次“击键流”,搜索引擎就一定能找到你所要的东东。

            “思维流”那就更有意思了,其实很多时候我们在网络上搜索,并不一定知道我们要找什么明确的目标,我们在网上悠逛、在网上探索、在网上冒险,我们不知道今天会网购到什么宝贝,不知道会遇上什么网友,不知道可能会淘到什么惊喜……这就是网络的乐趣和魅力,就是为什么我们如此喜爱网络,这时候,搜索引擎可要担纲更大的任务了,不是简单地帮你完成6次搜索,而是要当你的终生向导、知音和情人了……

            7、8年以后的搜索引擎天晓得是什么摸样,反正将来人们从月亮上看地球,还可以看到第八奇观:互联网 — 搜索引擎是上面的炮台。

            不过今天的搜索引擎,还处在“新石器”时代,瞧这搜索引擎的诸侯大战,简直就是没完没了:网址搜索说它目录全,关键字搜索就笑了,关键字搜索说它数据多,垂直搜索就笑了,垂直搜索说它结果细,手机搜索就笑了,手机搜索说它误差不超过20米,语义搜索就笑了,语义搜索说它结果准,知识搜索就笑了,知识搜索说它智商高,维基搜索就笑了,维基搜索说它有权威性,分类搜索就笑了,分类搜索说它商铺旺,竞价搜索就笑了,竞价搜索说它价格低,人肉搜索就笑了,人肉搜索说它味道鲜,博客搜索就笑了,博客搜索说它雷人多,图片搜索就笑了,图片搜索说它最专注,音乐搜索就笑了,音乐搜索说它MP3一首也不漏,蓝色大山就笑了,蓝色大山说它的反恐搜索武器精良拉登分子一个也逃不掉……

注:
1. 蓝色大山,即IBM。IBM在Almaden的搜索实验室叫WebFountain,荒无人烟的不毛之地上的这个搜索基地,外人进门恐怕需要凭美国国防部长签发的通行证,WebFountain搜索引擎火力和Google相比可不是一个级别的,Google要花1-2个礼拜全部更新一次Web数据,WebFountain只用不到24小时,Google的搜索是给业余选手打打关键字凑合着搜的,WebFountain是要经过专业训练才能使用的。蓝色大山用WebFountain为美国国防部打造了反恐搜索引擎,为美国内政部打造了反洗钱搜索引擎,工夫非一日之寒,哼哼。

2. 四月二十八日Google用来“冲会场”宣布的“结构数据搜索”(Structural Data Search)和它1、2年前宣布的“通用搜索”(Universal Search)有什么差别?Google兜里还真没什么其它新名堂可以拿出来露两手了吗?有谁知道吗?