2.1、检索和搜索引擎类开源软件

大纲
1、开放源码软件的政策和战略
    1.1美国    1.2欧盟     1.3英国    1.4联合国
2、主要的数字图书馆开放源码系统和软件
    2.1检索和搜索引擎类开源软件     2.2门户类开放源码软件
    2.3OAI、OpenURL、Z39.50等标准和协议接口类开放源码软件
    2.4机构仓储类开放源码软件     2.5内容管理类开放源码软件
    2.6知识技术类开源软件     2.7其它重要的开源软件
3、数字图书馆开放源码软件的研究和交流
    3.1eIFL(图书馆电子信息协会)     3.2IFLA(国际图联)     3.3DLF(数字图书馆联盟)     3.4美国图书馆和信息技术协会(LITA)     3.5D-Lib期刊     3.6Oss4Lib和Code4Lib
4、开放源码软件在数字图书馆中的应用实例分析
    4.1NSDL:转向基于Fedora的框架的数字图书馆  4.2CDL:开放源码软件构建数字保存仓储
    4.3IIPC:构建基于开放源码软件的Web存档方案
5、结论


数字图书馆关注开放源码软件的原因多种多样。很多人认为是开放源码软件成本低廉是其中的主要原因,开放源码软件的获取相当于是免费的,而且没有昂贵的升级费用;也有一些人认为开放源码软件的灵活性和可扩充性是一个重要因素,因为与商用系统的缓慢演化、用户需求满足度不高相比,使用开放源码软件可以让图书馆“定制”符合自己需要的系统;有些研究者看到,因为利用成本低廉,开放源码软件在数字图书馆的研究方面和在构建数字图书馆原型系统方面有着较强的优势;还有一些研究者认为,通过参与使用开放源码软件的数字图书馆项目,可以增强图书馆信息技术人员的专业能力,提高整体的竞争力[1]。

中国科学院文献情报中心曾经自己利用Ctree开发过一套全文检索系统,但使用了Lucene之后,我们决定放弃对原有全文检索引擎的升级和维护。

目前在开放源码软件中,已经有很多高性能、多功能的而且能够复合数字图书馆所需功能的全文检索和Web搜索引擎。表1是经过选择的几个主要开源软件。其中Lucene[26]和Nutch[27]是通用的检索和搜索软件,Cheshire3、Zebra和Pears是支持数字图书馆检索接口的检索引擎[28][29][30],而Heritrix是一个支持Web存档的网页爬虫(Crawler)[31],在很多WEB资源的长期保存项目中都有着应用[32],而OpenSiteSearch[33]和ARC[34]分别是基于Z39.50和OAI-PMH的搜索引擎。

表1主要的检索和搜索引擎类开源软件

软件名称

开发团体

主要特点

环境

Lucene

Apache Software Foundation

高性能、多功能全文索引和检索引擎。

Java

Nutch

Apache Software Foundation

基于Lucene的搜索引擎,除了全文检索之外,还带有网页爬虫、链接图库、以及HTML及其它格式文件的解析器。

Java

Cheshire3

UC Berkeley

University. of Liverpool

XML索引和检索引擎,支持多种标准如SRW/U CQLZ39.50 OAI

Python, C

Heritrix

Internet Archive Web Team

支持Web存档的网页爬虫

Java

Zebra

Index Data

多功能的结构文本索引和检索引擎,支持多种输入格式,如email, XML, MARC,支持Z39.50SRU接口

C

Pears

OCLC

文本存储和索引系统。支持MarcXML等数据结构,支持Z39.50接口

Java

OpenSiteSearch

OpenSiteSearch

基于JavaZ39.50 元搜索引擎。最初源代码来源于OCLCSiteSearch

Java

Arc

Old Dominion University

基于OAI-PMH协议的整合检索引擎。包括了一个收割器,能够收割支持OAI-PMH协议的数据库。

Java

版权所有© 2008 中国科学院国家科学图书馆 制作维护:中国科学院国家科学图书馆信息系统部
地址:北京中关村北四环西路33号 邮政编码: 100190