深蓝海域KMPRO

搜索引擎未来发展动向

2017-02-22 09:41

搜索引擎未来发展动向
        搜索引擎已成为一个新的研究、开发领域。因为它要用到信息检索、人工智能、计算 机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和 技术,所以具有综合性和挑战性。又由于搜索引擎有大量的用户,有很好的经济价值,所 以引起了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活跃, 并出现了很多值得注意的动向。
  1.十分注意提高信息查询结果的精度,提高检索的有效性用户在搜索引擎上进行 信息查询时,并不十分关注返回结果的多少,而是看结果是否和自己的需求吻合。对于一 个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。解 决查询结果过多的现象目前出现了几种方法:一是通过各种方法获得用户没有在查询语句 中表达出来的真正用途,包括使用智能代理跟踪用户检索行为,分析用户模型;使用相关 度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关(及其相关的程度),哪些 不相关,通过多次交互逐步求精。二是用正文分类(Text Categorization)技术将结果分 类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。三是进行站点类 聚或内容类聚,减少信息的总量。
  2.基于智能代理的信息过滤和个性化服务
  信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模型(如We b知识、信息处理、与用户兴趣相关的信息资源、领域组织结构)、用户模型(如用户背景 、兴趣、行为、风格)知识进行信息搜集、索引、过滤(包括兴趣过滤和不良信息过滤) ,并自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适 应信息和用户兴趣动态变化的能力,从而提供个性化的服务。智能代理可以在用户端进行 ,也可以在服务器端运行。
  3.采用分布式体系结构提高系统规模和性能
  搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有千秋。但 当系统规模到达一定程度(如网页数达到亿级)时,必然要采用某种分布式方法,以提高 系统性能。搜索引擎的各个组成部分,除了用户接口之外,都可以进行分布:搜索器可以 在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度;索引器可 以将索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上

相关推荐