“数字图书馆开放源码相关资源

1.索引和搜索引擎

Lucene
     Lucene作为一个优秀的全文检索引擎,其系统结构具有强烈的面向对象特征。首先是定义了一个与平台无关的索引文件格式,其次通过抽象将系统的核心组成部分设计为抽象类,具体的平台实现部分设计为抽象类的实现,此外与具体平台相关的部分比如文件存储也封装为类,经过层层的面向对象式的处理,最终达成了一个低耦合高效率,容易二次开发的检索引擎系统。

Nutch
     总体上Nutch可以分为2个部分:抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据做成反向索引,搜索程序则对反向索引搜索回答用户的请求。抓取程序和搜索程序的接口是索引,两者都使用索引中的字段。抓取程序和搜索程序可以分别位于不同的机器上。

Heritrix
     Heritrix是一个纯由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源。Heritrix最出色之处在于它的可扩展性,开发者可以扩展它的各个组件,来实现自己的抓取逻辑。

2.图书馆自动化系统

在信息技术不断发展的同时,国外主要的图书馆自动化系统厂商不断将这些相关技术纳入其产品体系,营造了许多新的图书馆自动化系统功能和新的业务增长点。这些主要的图书馆自动化系统,代表了将来的发展方向。与国外这些图书馆自动化系统相比,国内图书馆自动化系统的发展仍然任重而道远。

3.机构仓储建设

Dspace
     DSpace系统是由麻省理工学院图书馆和HP实验室合作开发的构建数字知识库系统的开源软件,其功能和服务设计很大程度上遵循了OAIS参考模型,集信息采集、描述、存储、保藏、发布利用等多种功能和服务于一体,为大学和研究机构长期存储且有效利用其科研产出提供了可靠的解决方案。基于DSpace系统建立数字知识库,各个学术机构就能集中保存其研究者的研究成果及智慧结晶,并开放给其他学者参考使用,机构间也可通过合作的方式,交流彼此的典藏作品,从而形成一种崭新的学术传播方式。

Fedora
     和同类的仓储系统(~DDSpace、Eprints等)相 比,Fedo ra有层次清晰、组织严密的体系结构。Fedora的基本理念是:数字仓储管理数字对象,但不用了解数字对象的内容。具体的说,数字仓储保存各种类型的数据(例~Zl:lJPEG、SGML等),但它对某些特殊格式的内在结构则不必了解 用户对格式和表示之间的转换需求都在仓储外层实现。因此,数字对象的存储形态与其被发布或表示给用户的形态很可能是不同的。Fedora数字仓储的交互通过RAP仓储访问协议实现,数字对象本身的版权和许可等管理信息也需要通过RAP的安全管理机制进行管理。

E-Print
     由英国南安普敦大学(university of Southampton)开发,在2001年发布,开放源代码。到2004年3月V2.3版本发布时,已经由120个存档项目使用这个软件,网址:www.eprints.org。

4.长期保存系统

Daitss
     佛罗里达图书馆自动化中心(Florida Center for Library Automation ,FCLA)于2007年5月14日发布了基于GPL标准的DAITSS(Dark Archive in the Sunshine State)资源档案库。 DAITSS是由FCLA开发的,用于佛罗里达州的数字资源保存,服务于佛罗里达州的各公立大学图书馆(http://www.fcla.edu/digitalArchive)。DAITSS实现了保存策略的标准化,并且向前兼容支持的文件格式。目前支持的文件格式约为10种,包括JFIF(JPEG)、 JEG2000、TIFF、WAVE、XML、Quicktime、AVI和PDF等。

DAITSS设计时严格遵守OAIS参考模型的要求,没有提供公共用户接口,但可以作为其他系统(如数字图书馆系统和公共机构资源库)的备份。

5.门户建设

Liferay
     Liferay代表了完整的J2EE应用_2],使用了 web,日B以及JMS等技术,特别是其前台界面部分 使用Struts框架技术,基于XML的Portlet配置文件 可以自由地动态扩展,支持访问Web服务来获取一 些远程信息,使用Apahce Lucene实现全文检索功 能。

U-Portal
     由(JA-SIG)开发的uPortal基于的Java, XML, and XSL项目, 发行版包括WEB服务频道,权限,用户组管理等等。UPortal让你可以自己增加你的机构需要的新特性。它着眼于高等教育机构,一些商业组织也用它来作为构建协同社区的框架。这种框架包括插入式的被成为频道的组件,它提供用户感兴趣的信息。用户可以根据其在机构中角色选择关心的频道,同时还可以定制自己站点喜欢的样式。

Jetspeed
     Jetspeed是一个开放源代码的企业信息门户(EIP)的实现, 使用的技术是Java和XML. 用户可以使用浏览器, 支持WAP协议的手机或者其它的设备访问Jetspeed架设的信息门户获取信息. Jetspeed扮演着信息集中器的角色, 它能够把信息集中起来并且很容易地提供给用户。

6.知识技术类

Protégé
     Protege是斯坦福大学开发的本体论编辑和知识获取软件。开发语言为Java, 为开放源码软件. 由于其优秀的设计和众多的插件, Protege成为目前使用最广泛的本体论编辑器之一。它可用来建立OWL。

Gate
     GATE是一个应用广泛的信息抽取的开放型基础架构,为用户提供图形化的开发环境,被许多自然语言处理项目尤其是信息抽取研究项目所采用。GATE设计的三个主要目的是: 1) 为语言处理软件提供基础架构,提供文本处理的总体组织结构。 2) 提供可重用的用于自然语言处理的组件和类库,从而能够嵌入到各种不同语言处理的应用程序中。 3) 提供语言工程的开发环境,为语言处理软件的研究和开发提供一种方便的图形化的环境,为用户提供全面的开发帮助和可视化的调试机制。

Weka
     WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是由新西兰怀卡托(Waikato)大学开发的机器学习 软件,纯Java技术实现的开源软件,遵循于GNU General Public License, 跨平台运行,集合了大量能承担数据挖掘任务的机器学习算法,分类器 实现了常用ZeroR算法、Id3算法、J4.8算法等40多个算法,聚类器实现 了EM算法、SimpleKMeans算法和Cobweb算法3种算法,能对数据进行 预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。 WEKA系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现 今最完备的数据挖掘工具之一。

7.可视化类型

Jung
     JUNG是一个软件库,提供了一种共同语言和可扩展的建模,分析和可视化的数据,可派代表作为图形或网络。用Java写的,这使得它成为基础应用,可利用广泛内置功能的Java API ,以及现有第三方的Java库。目前的JUNG包括实施了一些算法图论,数据挖掘,以及社会网络分析,如日常的聚类,分解,优化,随机图生成,统计分析,计算与网络的距离,流动,重要措施(中心,网页,访问,等等)。 它也提供了一个可视化的框架,可以很容易构建工具,互动探索网络数据。用户可以使用其中一种算法的布局提供,或使用框架,以创建自己的自定义布局。此外,过滤机制提供了允许用户将其注意力集中,或者他们的算法,对具体部分图表。

Prefuse
     prefuse是一个用户界面包用来把有结构与无结构数据以具有交互性的可视化图形展示出来.这包括的数据有任何可以被描述成一组实体(或节点)或者可以被连接在一起的一些关系(或边缘).prefuse支持的数据包括具有层次性(如:文件系统,组织图),网络(网络拓扑,网站链接),和甚至是没有连接的数据集。

版权所有© 2008 中国科学院国家科学图书馆 制作维护:中国科学院国家科学图书馆信息系统部
地址:北京中关村北四环西路33号 邮政编码: 100190