郑昀@玩聚SD 20081108
以下是我的一家之言,仅供参考。
引子
谷歌、百度、雅虎,以及新上线的有道,都在测试更多类型的OneBox。比如在Google里搜素“population of China”,OneBox中会显示“China — Population: 1,321,851,888 (July 2007 est.)”,这里我们姑且把OneBox模式称为聚合。
搜索引擎中的聚合,从简单的搜索结果聚合,到简单信息聚合,直至目前的语义聚合,让人看到了整合搜索的曙光。
搜索和聚合是一个事物的两面。
搜索提供信息参考。聚合则为无目的而来者提供探索路径,为有目的而来者提供条理化知识。二者都需要尽可能地猜测来者目的。
大家都说搜索往往不知道搜索者所为何来,所以只能千人一面地提供搜索结果。最近Miguel Carrasco建议微软Live Search应该利用好人们在facebook等社区中的身份和活动信息,从而预先掌握用户输入关键词的目的,也就是SNS和Search整合在一起。Google的整合搜索也是如此,都是希望在尽可能多地理解用户的需求之后提供所需要的答案。
在更了解来者目的之后,揉合在搜索中的聚合将发挥更大传递知识作用。
搜索和聚合合二为一。
搜索中的聚合,独立出来则可成为一个产品,合进去则成为Google OneBox中所展示的碎片聚合能力。譬如,搜索关键词“李开复”,谷歌搜索结果中,第一页先展现视频搜索结果的OneBox,接下来展示新闻搜索结果。
大多数网民熟悉的互联网搜索和聚合技术仍然依赖相对简单的模式匹配:将搜索关键字与Web网页上的词汇进行匹配,然后根据一些因素对搜索结果进行排名,例如搜索词汇出现的频率,搜索词汇出现的位置或者是指向具体结果网页的链接数量等等。
所以,目前百度、雅虎或谷歌的OneBox所展现的信息结构,都还只是信息的搜索结果,或者针对不同领域的数据简单聚合,如搜索股票名称或代码则展示该股票的实时行情。
垂直聚合和语义
接下来,搜素引擎为了丰富OneBox的聚合,就必须切入每一个垂直领域。
不同垂直领域特性不同,比如用户可能搜索的是一个饭馆名字(譬如你在谷歌搜索“全聚德烤鸭店 北京”),那么为了更智能地聚合出用户可能需要的信息,而不仅仅是简单罗列地图和联系电话,那么搜索引擎就必须切入这个生活搜索的垂直领域,或者与人合作。
和Google Product Search一样,微软Live Search也早已将它的Product Live Search嵌入到了搜索结果中,只不过缺少了Google Checkout这种在线支付的集成。如果你输入N95或G10搜索,你将会看到OneBox中除了产品图片、价格区间、比价等,还出现了产品评论聚合以及打分星级。对于N95手机,列出很多个用户评论分类指标:一般评论、特色、易用性、电池寿命、声音质量等。对于G10相机,则列出画面质量、轻便性和大小指标。这个细节说明垂直做得够深才行。
微软Product Live Search的语义特色,在于它自动汇总了这些用户关心指标的评论,并计算了正面负面情感因素,从而可以列出对于Nokia N95手机的电池寿命只有19%的正面评论,定价可承受性只有64%的正面评价等等进一步的统计信息。
这些,其实就是语义聚合的力量。如何做到呢?
在语义聚合引擎中,每一个查询都在一些“本体(Ontology)”的上下文范围内执行,来自本体的一些提示信息可以提高搜索的准确性。
什么是本体呢?简单地说,本体给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的确定词汇外延的有关规则的定义;其目标是捕获相关的领域的知识,提供对该领域知识的共同理解,确定领域内通用的词汇,并给出这些词汇和词汇之间相互关系的明确定义。
在语义检索中,使用的是概念匹配,即自动抽取文档的概念,加以标引,用户在系统的辅助下选用合适的词语表达自己的信息需求,然后在两者之间执行概念匹配,即匹配在语义上相同、相近、相包含的词语。
基于本体的智能聚合引擎的基本设计思想如下:
(1)在领域专家的帮助下,建立相关领域的本体;
(2)收集信息源中的数据,并参照已建立的Ontology,把收集来的数据按规定的格式存储在元数据库(关系数据库、知识库等)中:
(3)对用户检索界面获取的查询请求,查询转换器按照Ontology把查洵请求转换成规定的格式,在Ontology的帮助下从元数据库中匹配出符合条件的数据集合;
(4)检索的结果经过定制处理后,返回给用户。
有了这么模型之后,实际上就可以复制到不同垂直领域。在分领域做好之后,可以很容易地嵌入到搜索结果中。当然是在尽可能获知用户目的前提下。玩聚网有一个智能语义聚合应用框架,在股票方面做了一些尝试,比如汇总股评和专家点评,计算看多看空倾向,计算买入卖出建议,也有点这个意思。从这个意义来看,微软收购语义建模能手Powerset,未尝不是给自己的搜索输送炮弹。
搜索们做了OneBox+垂直聚合,又揉合了语义进去之后,算是能见到整合搜索的曙光,接下来就要看如何整合入SNS等社区所包含的身份信息了,以便更深刻地理解用户随时随刻变化的搜索需求。
郑昀@玩聚SD 20081108
《站长Z周刊》 约稿 链接地址: http://www.chinaz.com/z/
分享到:
相关推荐
搜索引擎聚合源码
高端聚合搜索源码,导航网站源码,聚合搜索引擎(自动换壁纸+实时天气预报) 效果演示:http://jhss.cszhan.top/ 聚合搜索导航搜索自动换壁纸时时天气预报简易大气个人导航源码HTML源码 到手时有些问题修复了一下...
114生活百宝箱-实用工具大全,包含万年历,数学计算器,聚合搜索,公交查询,城市地图,网址导航,火车查询,家常菜谱,长度换算器,航班查询,房产计算工具,身份证查询,星座运程,电视预告,天气预报,邮编区号,...
超强的聚合搜索代码,内含多种搜索。是做站最好的搭配。
帮企聚合推送【七合一搜索引擎聚合推送工具】支持百度搜狗神马必应头条360等搜索引擎站长平台url推送收录.zip
115聚合搜索小偷,PHP环境,无需数据库支持!
MP3聚合搜索引擎,英文版,不支持中文,php开源
聚合热门搜索引擎, 随时切换, 用户操作更快捷;聚合常用网站链接, 网站导航让用户操作更方便;程序增加了:实时热点排行榜,今日热门搜索排行榜,世说新词排行榜等人性化板块安装方法:直接把已下载的源码解压,放在...
E桶金聚合搜索引擎的几大特点: 1.轻松聚合百度,Google及国内某大型聚合搜索引擎的搜索,给网民展现更好的搜索结果。 2.聚合搜索结果可选择保存到本地,使下次的搜索速度飞快。 3.完善的关键词竞价广告机制:...
1、网盘聚合搜索源码,目前支持纳米盘、飞速网资源抓取! 2、可自设关键词抓取资源
聚合搜索1.10版源码 整合了百度,谷歌等搜索引擎数据。 WebSite 页面源代码 +GetHtml.aspx 生成HTML入口 +/Yule.aspx 娱乐 +/Renwu.aspx 人物 +/Auto.aspx 汽车 +/OnlineGames.aspx 网游 +/It.aspx IT +/...
元搜-聚合搜索引擎系统全部免费共享-致力打造搜索行业内扩展性能最好、功能最多、系统最稳定、最个性化的免费聚合搜索引擎系统! 一。网站管理系统(共分为七个选项) 1、网站基本配置:网站的基础设置都在这里...
9158聚合搜索源码,修改自115聚合搜索源码
聚合搜索源码 综合搜索源码 仿百度源码 演示:www.678home.cn 个人网址www.527dp.com 按摩床 www.021mf.com
聚合百度和搜狗的搜索,大型综合搜索asp.net2.0的
详细介绍了如何实现地图app中附近地点搜索及聚合标记功能
聚合搜索V5.0泛目录站群源码,防配资中国网站热点频道,具体可以查看http://www.xu57.com/redian/
ZL聚合搜索引擎源码是一个搜索引擎小偷,主要聚合百度和google的搜索结果,有2个广告位,在INC文件夹下,搜索框上面那一排随时切换的文字在JS文件夹下那个TIPS里面修改。主页您直接用DW或者记事本修改,呵呵,谢谢...
谷姐网聚合搜索源码 4.0 安装配置说明: 1、修改配置文件config.php,有详细注释,方便修改。 2、网页搜索结果页面有两处广告,搜索结果上面广告:inc/topad.php ,侧边广告:inc/sidebarad.php ,用记事本打开...
基于网络FLASH开发的网络播放器,功能强大,打开网页既可实时在线播放 ,各个地方省电视台集合于一身,高速,高清线路,集成淘宝网,聚合搜索。 电视直播带淘宝客聚合搜索版 v1.1更新 1.修复酷6列表显示错误。...