浅谈数字图书馆跨库检索的现状和发展
【摘要】:数字图书馆的跨库检索是一种近几年才兴起的服务方式,但也已成为数字图书馆领域的研究热点,无论是在功能还是技术上都发展迅速。文章探讨目前数字图书馆跨库检索的相关技术及其发展。
【关键词】:跨库检索; 异构数据库; XML; 中间件
1. 跨库检索简介
跨库检索也称联邦检索(Federated Search),数据库检索(Multi-Database Search)或集成检索(Integrated Access),是以多个分布式异构数据源为对象的检索系统,这种系统向用户提供统一的检索接口,将用户的检索要求转化为不同数据源的检索表达式并发地检索本地的和广域网上多个分布式异构数据源,并对检索结果进行整合,在经过去重和排序等操作后,以统一结果呈现给用户。跨库检索的发展不仅方便了用户的信息获取,而且还在一定程度上提高了数据库的利用率,促进了资源共享。
目前,国内外已经有不少跨库统一检索系统,美国在这个领域处于领先地位,他们早先在跨库统一检索领域的研究成果之一就是提出了三个数字图书馆系统模型。第一个是伊利诺依大学的Interspace系统,第二个是斯坦福大学的Infobus系统,第三个是密执根大学的UMDL系统。另外还有后来的美国新墨西哥州莫斯阿拉莫斯国家实验室研究图书馆研究开发的FlashPoint系统,加利福尼亚大学的SearchLight系统等。
我国的数字图书馆研究起步较晚,但是也研究开发出了多个数字图书馆跨库检索系统,主要有清华大学的同方异构统一检索平台(USP)、中国科学院文献情报中心开发的集成检索系统(CSDL)、中国高等教育文献保障系统(CALIS)统一检索系统、CNKI知网技术有限公司开发的CNKI跨库检索系统等等。
2. 跨库检索的相关技术
跨数据库检索需要用到数据的整合技术,目前对异构数据源的数据整合方式主要有以下两种:
一种是将各种异构数据库的部分数据导入一个数据库系统中,为了整合不同类型的数据,必须将一些非传统的数据类型转化成新的数据类型。这种方法的优点是检索反应速度快,不会因个别数据库访问失败而影响整体检索效率。缺点是收录的数据库数量不能太多,只能实现对有限数据库的集中和检索。
第二种方法是利用中间件技术进行异构数据库数据整合,这种方法不需要改变原始数据的存储和管理方式。采用中间件技术,对来自用户的查询请求,分

