搜索引擎在知识管理中的应用思路
来源: 时间:2009-08-17 23:34 作者:
海量信息,给我们带来苦恼! 1、 大量数据、文档、信息堆积,需要通过搜索引擎,能够直接找到文件中的关键信息。 2、 上了多套软件系统,每个都有自己的数据库,能否通过一个搜索引擎,跨越OA、ERP、MIS等系统里面,找到自己所需的信息?
解决方案 ·JAVA内核的全文搜索引擎! ·为您解决海量信息检索、跨信息孤岛的搜索问题! ·支持word、excel、ppt、pdf、txt等多种文档格式的全文搜索!
 |
真正的全文检索,确保搜索准确率! 全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。 |
 |
强大的索引引擎,确保执行效率! 一个全文检索应用的优异程度,根本上由全文检索引擎来决定。因此提升全文检索引擎的效率即是我们提升全文检索应用的根本。 |
核心技术 搜索引擎是以中文信息处理技术与数据挖掘技术为核心技术,以智能检索、智能分析和智能处理为核心功能的产品,本公司产品基于如下核心技术模块: (1)索引文件格式独立于应用平台。以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件。 (2)实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优化的目的。 (3)优秀的面向对象的系统架构,方便扩充新功能。 (4)强大的查询引擎,用户无需自己编写代码即使系统可获得强大的查询能力,实现了布尔操作、模糊查询(Fuzzy Search[11])、分组查询等等。
智能处理 网络爬虫/Spider技术 自动摘要 自动消重 信息指纹技术 自动索引、自动更新 自动正文抽取 智能分析 主体检测/追踪 关联分析与趋势分析 智能检索 全文检索 网页快照 文件编码自动识别 分布式检索系统,不限节点
功能特色 网络爬虫 支持广度与深度搜索算法 支持用户名与密码自动登录 验证码处理 图片及其它相关文件自动下载
索引器 索引形式与格式自定义 支持从数据库直接索引 支持直接保存入数据库,自定义隐射关系
分词器 上百万精选词库 基于语义分析,词性、词频标注 人名、地名、单位名自动识别、未登录词识别 支持自定义词库
接口 提供查询、索引维护、应用开发接口 提供JAVA、ASP.NET、PHP、Perl多语言接口
其它特色 支持外部插件
| 全文检索和数据库应用最大的不同在于:让最相关的头100条结果满足98%以上用户的需求 |
| |
kmpro全文搜索引擎 |
数据库 |
| 索引 |
将数据源中的数据都通过全文索引一一建立反向索引 |
对于LIKE查询来说,数据传统的索引是根本用不上的。数据需要逐个便利记录进行GREP式的模糊匹配,比有索引的搜索速度要有多个数量级的下降。 |
| 匹配效果 |
通过词元(term)进行匹配,通过语言分析接口的实现,可以实现对中文等非英语的支持。 |
使用:like "%net%" 会把netherlands也匹配出来,多个关键词的模糊匹配:使用like "%com%net%":就不能匹配词序颠倒的xxx.net..xxx.com |
|
匹配度
|
有匹配度算法,将匹配程度(相似度)比较高的结果排在前面。 |
没有匹配程度的控制:比如有记录中net出现5词和出现1次的,结果是一样的。 |
|
结果输出
|
通过特别的算法,将最匹配度最高的头100条结果输出,结果集是缓冲式的小批量读取的。 |
返回所有的结果集,在匹配条目非常多的时候(比如上万条)需要大量的内存存放这些临时结果集。 |
|
可定制性
|
通过不同的语言分析接口实现,可以方便的定制出符合应用需要的索引规则(包括对中文的支持) |
没有接口或接口复杂,无法定制 |
|
结论
|
高负载的模糊查询应用,需要负责的模糊查询的规则,索引的资料量比较大 |
使用率低,模糊匹配规则简单或者需要模糊查询的资料量少 |
|
kmpro搜索引擎 其他开源全文检索系统 增量索引和批量索引 可以进行增量的索引(Append),可以对于大量数据进行批量索引,并且接口设计用于优化批量索引和小批量的增量索引。 很多系统只支持批量的索引,有时数据源有一点增加也需要重建索引。 数据源 kmpro搜索引擎没有定义具体的数据源,而是一个文档的结构,因此可以非常灵活的适应各种应用(只要前端有合适的转换器把数据源转换成相应结构), 很多系统只针对网页,缺乏其他格式文档的灵活性。 索引内容抓取 kmpro搜索引擎的文档是由多个字段组成的,甚至可以控制那些字段需要进行索引,那些字段不需要索引,近一步索引的字段也分为需要分词和不需要分词的类型: 需要进行分词的索引,比如:标题,文章内容字段 不需要进行分词的索引,比如:作者/日期字段 缺乏通用性,往往将文档整个索引了 语言分析 通过语言分析器的不同扩展实现: 可以过滤掉不需要的词:an the of 等, 西文语法分析:将jumps jumped jumper都归结成jump进行索引/检索 非英文支持:对亚洲语言,阿拉伯语言的索引支持 缺乏通用接口实现 查询分析 通过查询分析接口的实现,可以定制自己的查询语法规则: 比如: 多个关键词之间的 + - and or关系等 并发访问 能够支持多用户的使用
欢迎交流 网站: http://www.kmpro.cn 北京深蓝海域信息科技有限公司
|