深蓝海域KMPRO

企业级搜索引擎的特点

2009-08-01 03:20

  企业网络基础设施的逐步完善,企业业务系统和应用系统纷纷上马,导致企业积累的信息资源迅速膨胀,甚至出现了诸如“拯救被信息淹没的企业”这样的呼吁。于是,企业级搜索引擎的发展日益引人注目。与互联网搜索引擎相比较,企业级搜索引擎具有以下特点:

  GB级索引数据量

  面向企业本身的数据或与企业相关的数据,索引库规模在GB级,数据量至多以千万条计。

  多源异构数据类型

  多源异构的复杂数据结构,结构化(关系型数据库)、非结构化(HTML、Office系列、文档文件系统和邮件系统等)和半结构化(XML等)数据资源;以文本、数值以及多媒体形式存在的数据资源,可能分布在不同介质的载体和操作管理平台上。

  数据实时更新

  企业内部的搜索结果往往关系到企业的运营与决策,因此必须实时反应企业信息更新,动态更新索引,保证数据一致性。

  内容相关性

  数据源中相互链接的程度不高,只能是基于内容的相关性排序。

  严格的安全性

  做为企业级搜索引擎应能够继承数据库原有的安全机制,更要能让用户在其访问权限范围内返回相应的查询结果。

  全面搜索

  衡量搜索引擎性能的指标之一是查全率(Recall),即检索出的相关结果与网络资源库中所有相关结果的比率。互联网搜索引擎无法做到全面搜索,因为任何一个搜索引擎服务商都无法穷尽互联网上的每个网页。而企业级搜索引擎在某些应用中,是不允许有所遗漏的检索。

  准确搜索

  衡量搜索引擎性能的另一个指标是查准率(Precision),即检索出的相关结果与检索出的所有结果的比率。互联网搜索引擎受到海量数据(TB级甚至更高)和庞大用户数的限制,相对而言,企业级搜索引擎在提高信息检索结果的精度上,可以走得更远。

  对一个检索系统来讲,查全率和查准率不可能两全其美,目前有的企业级搜索引擎通过提供更加复杂细致的检索选项和检索表达式,或者是提供一些可调节的系统参数,来部分满足两全其美的需求。

  个性化检索

  基于智能代理技术(Intelligent Agents Technology)的信息过滤和个性化服务。

相关推荐