优胜从选择开始,我们是您最好的选择!—— 第一学术网(北京鼎新文化传媒有限公司)
010 - 86226008
483825188@qq.com
您的位置:网站首页 > 科技论文 > 正文

数字信息资源长期保存元数据技术研究进展

作者:张晓娟,唐长乐来源:《情报科学》日期:2020-03-24人气:944

数字信息资源不仅便于存储管理,更有利于开发利用,它推动了人类社会的信息交流。当计算机网络普遍应用后,为了更有效地组织网络信息资源,起源于计算机科学领域的元数据受到信息界的广泛关注,它主要用于支持数据的操作,比如描述、识别、发现、检索、权利管理和保存。实施数字信息资源的长期保存也离不开元数据的支持,包括描述数字对象的基本属性及保存需求[1]。而这种符合长期保存需要的元数据就是保存元数据,它在数字信息资源长期保存中起着非常重要的作用。

就目前而言,对数字信息资源长期保存元数据研究情况进行系统梳理的文章[2],最近的是2007年,其研究内容已经不能很好的反映当前该领域的研究现状,因此有必要对其进行研究进展的重新梳理。由于长期保存元数据研究涉及众多主题,包括管理视角:概念、框架、评估,技术视角:生成与保存、互操作、语义化,以及专门领域的保存元数据研究。本文主要从技术视角出发,系统梳理数字信息资源长期保存元数据技术的研究进展,具体而言主要包括保存元数据的生成与保存、互操作和语义化。

1 数字信息资源长期保存元数据生成与保存研究

保存元数据的生成与保存是数字信息资源进行长期保存元数据的关键技术,它是保存元数据框架标准的具体应用和实践,也是保存元数据互操作和语义化的基础。

1.1 保存元数据的生成

保存元数据的生成主要指保存元数据元素取值信息的获取。保存元数据方案为生成规范的保存元数据奠定了基础。保存元数据的生成是依据保存元数据方案规定的保存元数据生成对应的取值信息,保存元数据的取值信息来源于数字信息长期保存管理的全过程。保存元数据的生成可分为人工生成和自动生成。人工生成类似于传统的信息著录,一般由信息资源管理的专业人员根据元数据方案对数字信息资源进行手工录入。自动生成主要采用元数据自动生成工具按照元数据方案的设定对数字信息资源的元数据进行自动析出。

学者们针对保存元数据的生成方式进行了讨论。黄如花和邱春艳认为自动生成保存元数据是减轻人员工作负担和提升不同数字资源保存库互操作性的最佳方式,可通过元数据记录的收割、内容抽取、自动标引、数据挖掘、社会标签等多种方式实现[3]。杨淑萍从数字信息资源保护的角度出发,认为通过自动析出数字信息资源中的元数据可以更加高效地实现数字信息资源的长期保护,因此有必要设计元数据自动析出工具,实现自动化运作[4]。Greenberg将元数据的自动生成分为收割(harvesting)和抽取(extraction),前者是指利用算法程序自动提取数字信息资源已有的元数据信息,类似网页数字资源中的META标签信息;后者是指从数字信息资源本身的内容中挖掘元数据信息,类似通过分析网页数字资源中BODY标签下的内容信息从中提取与元数据元素相关的值信息[5]。Ivano等针对元数据自动生成技术进行了讨论,认为元数据的自动生成离不开正则表达式、规则解析器和机器学习算法[6]。Dobreva等认为在保存元数据的摄入阶段,运用元数据自动生成很有必要,它既可为更多的数字对象提供元数据,提高元数据质量,还能减少元数据内容的冗余性。他们还认为虽然目前的元数据生成研究主要针对一般的元数据,而不是集中于保存元数据,但它们能为保存元数据的自动抽取研究提供借鉴思路[7]。

保存元数据记录的自动生成需要保存元数据工具来实现。为此,学者们及相关机构围绕保存元数据生成工具展开了研究和讨论。保存元数据的自动生成工具既能按照既定的元数据标准进行操作,也能适应不同的数字信息资源管理环境实施应用,它是开展数字信息资源长期保存活动重要工具[8]。Greenberg分析了元数据自动生成应用工具的制约因素,包括标准类目控制、自动化技术的更新、工具的可用性和有效性、工具之间的兼容性等,并在此基础上介绍了美国国会图书馆自动生成元数据应用项目(Automatic Metadata Generation Applications,AMeGA),该项目主要研究数字信息资源元数据自动生成工具的功能需求,并强调了专家意见在元数据自动生成工具功能需求设计中的重要意义[9]。Smith和Nelson对遵循PREMIS保存元数据框架标准的元数据生成工具JHOVE、KEA、Open Summarizer、MD5等进行实验分析,认为保存元数据的生成完全可以通过这些工具进行自动化操作,而不需要特定的网络服务器或者额外的管理活动进行干预[10]。Deborah等比较了DROID Tool and PRONOM Registry、NLNZ Metadata Extraction Tool、JHOVE、GDFR、Xena和NOID等元数据生成和抽取工具[11],其中Metadata Extraction Tool是由新西兰国家图书馆开发的用于提取电子文件长期保存元数据的开源工具软件,提取结果以XML文件格式输出,软件可同时兼容Windows以及Unix操作系统,并支持的多种文件格式。英国的数字保存联盟(Digital Preservation Coalition,DPC)在2013年发布的技术观察报告Preservation metadata( edition)中对与PREMIS保存元数据生成相关的工具进行了比较,包括JHOVE、DROID、PREMIS Creation Tool、HandS和PREMIS in METS Toolbox,具体如表1所示[12]。在另一项调查中,约55.4%的机构选择开源工具JHOVE,进行保存元数据的自动生成和抽取[13]。

1.2 保存元数据的保存

由于保存元数据本身也是一种数字信息,也存在真实、完整与可利用等问题,因此需要对生成后的保存元数据进行合理的保存维护。保存元数据的保存主要涉及保存元数据的存储方式问题。

黄如花和邱春艳认为保存元数据的保存一般有两种形式。一种方式是对保存元数据进行单独存储,与数字对象的保存独立开来,这种方式在图书馆中采用的较多。另一种则是将保存元数据和数字对象集中起来,统一进行封装保存。这两种方法各有利弊,分开独立存储的好处在于容易实现,且花费的成本也较低,但缺点是保存元数据记录丢失的风险较高;封装保存的好处是安全性高,但管理不便,并且经济成本较高[3]。刘家真和廖茹从组织机构保管元数据的方式角度出发,认为元数据有两种存储方式,即元数据分布式存储和元数据集中式存储。前者是指在各机构搭建各自的元数据库,将元数据储存在本地,并自行开展维护和安全保障工作;后者是指将各个单位分散的元数据集中存储,将所有元数据集中存储在一个元数据库中进行操作和维护,两者也各有优缺点[14]。杨淑萍提出建立通过元数据存储仓对保存元数据进行集中存储,既能确保对数字信息资源的长期获取和管理、利于管理者的开展保管活动、便于用户的获取利用,也能兼容各个保存系统,从而实现互操作。同时,保存元数据仓储的设计应当遵循普遍接纳的标准,以确保能够对数字对象进行长期的管理、获取、保密和存储等操作[4]。元数据分布存储、集中式存储和元数据存储仓为保存元数据选择合适的存储方式提供了借鉴和思路。

Doyle等针对3D数字信息提出了一个保存元数据框架,并研究了将3D数字对象与保存元数据进行封装的方法[15]。Duerr等人研究了将OAIS和PREMIS应用于科研数据,认为收集和存储保存元数据是科研数据管理过程的重要组成部分,保存元数据存储系统的建立是实现保存元数据有效管理的前提[16]。PREMIS工作组于2015年6月发布的最新版本的保存元数据标准——PREMIS3.0数据字典,对保存元数据的保存也有规定,该标准认为在数据库系统中存储元数据元素具有快速访问、易更新、查询和报表使用方便等优点。将元数据记录与存储在存储库中的数字对象一起保存也具有优势:更难将元数据从内容中分离,并能将应用于内容的保存策略也应用于元数据。PREMIS3.0推荐使用这两种方式存储关键元数据[17]。

1.3 保存元数据生成与保存研究评述

总体上看,目前对数字信息资源长期保存元数据的生成与保存研究主要围绕生成与保存的方式及相关工具展开。在保存元数据的生成上,保存元数据的自动生成得到更多关注,尤其是在实践中如何选择适合本机构需求的元数据自动生成工具、如何通过自动化生成工具确保将保存元数据标准以更加准确、规范和高效的方式开展应用,相较于国内,国外有着更为丰富多样的元数据自动生成工具可供选择;在保存元数据的保存上,无论是分布存储、集中存储、建立专门的保存元数据存储系统或者在数据库系统中存储都各有优缺点,但相关国际标准机构更为推荐采用集中封装保存的方式。实际上无论何种保存方式,都需要考虑到组织机构的资源类型特点、应用需求、相应的成本预算等问题。

2 数字信息资源长期保存元数据互操作研究

促进数字信息资源的共享和持续利用是长期保存活动的根本目标。数字资源共享性强,但与传统资源相比,其共享依赖于不同系统间的交互,而不同系统所采用的元数据标准各异,例如检索系统和保存系统分别采用了描述性元数据标准和保存元数据标准,要达到两者之间的有效衔接,实现跨平台信息检索和信息资源共享,则必须考虑元数据互操作问题。基于共同需求的保存系统之间也存在着互操作问题,它们采用的保存元数据标准在元数据数量、命名、结构、语义等方面的差异,阻碍了元数据的复用和管理。Day认为许多元数据标准和格式被制定出来用于支持数字对象的管理和长期保存,却也给数字信息保存系统的互操作带来了不少问题[18]。因此保存元数据的互操作也是数字信息资源长期保存元数据的重要技术。

IEEE给出了互操作的四个定义:①互操作是指多个或多个系统或组成要素交换信息并使用信息的能力;②互操作是指实现提供有用功能的各机器单元之间的高效合作;③通过一致遵循一组标准实现互异机器在网络环境下的合作;④在互异网络环境中,两个或多个系统或者组成要素进行交换和使用交换后的信息的能力[19]。不难发现,系统之间的互异性体现在不同的层面,包括句法、数据方案、语义和系统层面[20]。事实上,前三项都主要体现为信息资源组织层面上的元数据差异。例如句法互异主要涉及不同数字信息资源元数据在协议、编码和语言上的差异;数据方案层面的互异主要表现为不同元数据标准在使用的数据模型、数据结构上的差异;语义层面的互异主要表现为不同元数据元素在命名、概念抽象上的差异。Gilliland在Introduction to Metadata一书中,将互操作定义为“实现不同类型的计算机、网络、操作系统和应用程序有效地协同工作,无须事先沟通的能力,目的是以可用和有意义的方式交换信息”。她认为在数字信息长期保存领域有三个层面的互操作,即特定数字仓储或信息资源的语义互操作、语法互操作和结构互操作[21]。事实上Gilliland更多的是从资源组织层面考虑,涉及的是保存元数据在语义、语法和结构上的互操作问题。基于以上分析,我们可以从保存元数据标准层面和元数据自身层面(资源组织层面)考虑保存元数据的互操作问题。

2.1 保存元数据标准层面互操作

在保存元数据标准层面,互操作要解决的问题有,对异构系统间互操作能力的支持、在保存元数据术语上的相互理解。对异构系统间互操作能力的支持,即指制定的各种保存元数据标准不仅能为其宿主保存系统所操作,而且还应尽可能为其他不同的异构保存系统所接收,例如档案馆的数字信息资源长期保存系统和图书馆、博物馆的长期保存系统之间的互操作就涉及这方面的内容。这就需要对保存元数据框架和数据模型进行整合,并综合考虑各种系统的保存功能需求;保存元数据术语上的相互理解,即指各种保存元数据标准需要有统一的术语定义以便于规范和理解某些重要概念。这就需要为保存元数据的制定提供一个通用的概念术语定义集。

OAIS参考模型统一了长期保存系统的功能需求和保存术语定义;PREMIS保存元数据标准为各类保存元数据标准提供了统一的保存元数据框架和模型,以及共享的保存元数据术语定义(用自然语言定义的共享词汇)。朱德红认为在同一个框架OAIS下开发保存系统和制订元数据格式,将能够促进不同领域系统间的互操作和信息的共享,进而为数字信息资源的长期保存打好坚实的基础[22]。黄如花和邱春艳认为数字化仓储多采用不同的元数据标准进行建设,因此在保存元数据的选择和应用过程中,需要实现不同保存元数据标准之间的互操作,特别是与其他系统之间的互操作问题[3]。

Day等认为数字存储库中保存元数据的互操作可以通过对已有元数据标准的收割和复用实现,而系统和项目内部保存元数据可以通过基于现有标准的交换格式实现互操作(例如元数据编码与传输标准METS)[23]。在具体实践研究方面,Pawletko等人在实际项目中开展了较为细致的研究。信息冗余、计划继承和软件迁移带来了同一系统不同版本之间的互操作问题,而不同存储系统采用不同的设计标准也给存储系统之间带来了互操作问题,为此Caplan等介绍了面向可互操作的存储库计划(Towards Interoperable Preservation Repositories,TIPR),该计划是由博物馆和图书馆服务研究所资助的一个项目,并开发了用于创建和测试的存储库交换包(RXP)。该交换包可以在不同的保存库之间传输复杂的数字对象。TIPR项目不是在许多不同的存储库类型之间构建翻译器,而是定义了一个基于元数据编码与传输标准METS和PREMIS保存元数据标准的元数据文件包,作为中介信息包的RXP,可以当作所有存储库读写的通用语言[24]。可见采用PREMIS保存元数据标准作为互操作的通用标准能广泛支持不同存储系统之间的数据交换和共享。尽管不同机构采用的数字信息资源长期保存方法和工具存在差异,但各个机构之间仍应进行数字资源的共享,因此需要实现分布式长期保存。鉴于此,Iorio介绍了基于PREMIS保存元数据框架的存档信息包档案预备计划(Archives Ready to the AIPs Transmission a PREMIS Based Project,ARTAT-PBP),该项目旨在为现有的数字资源存储库提供一层能与其他存储库交换的保存元数据层。该保存元数据层采用PREMIS保存元数据框架标准,作为需要交换数字资源的合作组织网络中的交换语言,通过整合不同存储系统的保存元数据与PREMIS保持一致,克服互操作问题,实现分布式长期保存的共同目标[25]。

2.2 保存元数据自身层面互操作

在元数据自身层面,互操作要解决的问题有:交换格式的互操作、标记格式的互操作、编码规则互操作、元素内容互操作、元素语义互操作、数据内容互操作和通信协议互操作。由于保存元数据基本采用XML/RDF语言作为标记语言、采用METS/SOAP格式作为交换格式,所以保存元数据在这两个方面的互操作比较容易实现,而数据内容的转化则比较复杂,往往涉及词表转化甚至是自然语言处理的问题,这方面的研究较少,因此保存元数据的互操作问题的难点主要集中在元素结构、语义和编码规则上。

国内学者对元数据互操作问题进行了大量持续的理论和方法研究,然而基本着眼于描述性元数据的互操作问题,对于保存元数据的互操作问题很少涉及。例如王芳和王小丽分析数字档案元数据EAD的结构及其与DC的映射、EAD记录向OAI转换的技术原理,并提出了基于OAI—PMH协议的数字档案馆互操作框架及功能[26]。毕强、韩毅等人提出了基于元数据本体的方法对数字图书馆互操作进行研究,重点讨论了基于本体的元数据结构转换与语义关联,采用XSLT语言,将特定领域内不同结构的元数据进行转换,使领域内的元数据实现互操作[27]。

国外学者则在保存元数据互操作方面有不少的研究。由于保存元数据的标准较多,不同标准中的元数据格式各异,需要实现不同格式的互操作。Roorda和Van Horik介绍了数据归档和网络服务组织(Data Archiving and Networked Services,DANS)参与的“电子数据迁移至中间XML格式”项目(Migration to Intermediate XML for Electronic Data,MIXED),该项目致力于开发能实施长期保存文件归档格式智能迁移策略的开源软件。智能迁移涉及将特定类型的数据格式(如电子表格和数据库)转换为中间XML格式文件,包含元数据、内容以及数字对象标识符等信息。中间XML格式文件存储在长期保存的标准数据格式库(Standard Data Formats for Preservation,SDFP)中。并且MIXED项目中开发的软件已经被作为通用框架,并包含了一些可被调用的插件,可以被视为长期保存文件格式转换的存储库[28]。Guenther和Wolfe介绍了《METS中的PREMIS指南》(PREMIS in METS Guidelines),它是按照元数据编码和传输标准(METS),应用PREMIS数据字典中的保存元数据的最佳实践指南。由于METS是一种XML模式,它提供了将各种形式的元数据与数字对象或数字对象链接集成的容器格式,采用METS能在数字保存系统中提供许多灵活的功能,并支持许多不同的元数据结构,能够实现保存元数据格式的互操作[29]。Shukair等人针对政府数字信息资源构建了各类元数据库,包括各种可重复使用的元数据模型、元数据方案、分类大纲和编码列表,其中包括保存元数据标准。由于这些元数据库针对不同的范围、目标群体、实施技术和最终用户界面,尽管它们包含的语义内容通常可以重复使用甚至可以绕过最初设计时的作用域,然而他们的物理隔离和信息描述的异质性阻碍了通用概念的复用和跨库搜索,为此,为了实现多库之间的语义互操作,他们设计了一个名为《元数据资产描述》的元数据方案,并从本体层面出发实现不同元数据库之间的语义互操作[30]。

2.3 保存元数据互操作研究评述

总体而言,目前对数字信息资源长期保存元数据的互操作研究可以分为标准层面以及元数据自身层面两个方面。在标准层面上,协调不同的保存元数据标准,既需要考虑到不同保存系统的需求,解决不同保存系统对应用标准的支持问题,也需要解决不同标准术语之间的协调问题,从目前的研究现状来看,通过采用统一的保存元数据模型或框架(例如OAIS、PREMIS)再结合机构实际需求进行相应拓展调整,能最大程度提高标准层面保存元数据的互操作性;在保存元数据自身层面,标记语言和交换格式由于基本采用了统一的语言和格式,所以这两个方面的互操作较为容易实现,目前学界较为关注元数据语义、元素结构及编码规则上的互操作问题,中间格式转换、本体技术、元数据库的应用成为实现保存元数据互操作的重要方式。

3 数字信息资源长期保存元数据语义化研究

随着语义技术的不断发展,保存元数据也越来越重视语义技术的融合与应用,与传统简单的元数据描述相比,语义技术的引入可以促进保存元数据对数字资源内容的深层揭示,提升内容挖掘的深度,同时,语义技术也进一步提高了保存元数据在细粒度和交互操作方面的性能[31]。保存元数据语义化研究是保存元数据技术的重要研究领域,保存元数据语义化可以从其自身和实施操作两个方面实现。

3.1 保存元数据自身发展中的语义化

在自身发展中,保存元数据主要通过应用OWL本体语言、采用RDF格式存储和管理元数据[3]。PREMIS(Preservation Metadata:Implementation Strategies working group)是为达到建立通用保存元数据框架标准的目的而展开的,该项目始于2003年6月,是由美国联机计算机图书馆中心(Online Computer Library Center,OCLC)和研究图书馆小组(Research Libraries Group,RLG)共同资助建立的专家工作组,该项目旨在借鉴OAIS参考模型,并通过设定数字保存的核心元数据元素建立一个在数字信息领域能够得到广泛支持的、通用的保存元数据框架标准。自2005年PREMIS1.0发布之后,通过系列的维护活动和编委会的努力,PREMIS先后于2008年、2011年、2012年、2014年、2015发布了PREMIS2.0、PREMIS2.1、PREMIS2.2、PREMIS2.3和PREMIS3.0。在PREMIS 2.2以前只有XML Schema格式用于表示PREMIS数据字典。从PREMIS 2.2开始,PREMIS OWL本体便与PREMIS的XML Schema 一起发布,它以RDF编码格式来表示PREMIS元数据字典。这种本体并不是取代XML而是在某些适合使用RDF的领域对XML的补充,例如查询和发布保存元数据或将特定仓储库连接到外部的注册库。OWL本体为保存仓储提供了关联数据功能,允许使用RDF检索语言SPARQL进行查询。它将PREMIS保存元数据与其他遵循关联数据的数据集整合在一起,如格式登记和词汇控制库,从而允许不同数据库之间的互联[32]。PREMIS 3.0关于OWL本体的使用有新的规定,它推荐在使用OWL本体表示PREMIS时可使用URIs作为保存元数据元素的值;为了便于扩展,PREMIS 3.0增加了一些扩展组件,这些组件可使用其他的元数据补充PREMIS的语义单元,也可使用父容器范围内的其他合适的元数据替换PREMIS的语义单元,但在PREMIS OWL本体中去除了扩展组件,因为将不同的词汇组合到相同的描述中本身就是RDF的一个内置的能力[33]。

3.2 保存元数据实施应用中的语义化

在具体的实施应用中,语义化的丰富主要体现在不同环节对语义化技术的应用。包括利用RDF三元组描述保存元数据记录、本体资源规范并充实保存元数据的取值、关联数据用于数字资源的组织、应用于特殊类型资源保存元数据的建设等方面[3]。

法国SPAR项目以OAIS参考模型为标准构建数字信息保存系统SPAR(Système de Préservation et d' Archivage Réarti-Distributed Preservation and Archiving System),该保存系统以METS作为保存元数据的封装格式,同时为了提高数据管理的灵活性和系统功能的可扩展性,该系统以RDF三元组建立与METS之间的关联,在OAIS信息模型的基础上对RDF和METS文件进行映射和索引,并利用URIs结构为每一类保存元数据建立了一个本体[34]。为了进一步提高数据对象之间、元数据之间的关联性,SPAR项目正考虑将关联数据技术应用到数字信息保存系统中[35]。

Doerr介绍了文化遗产保护领域的CIDOC-CRM(International Committee for Documentation of the International Council of Museums—Conceptual Reference Model)概念参考模型[36]。该模型由国际博物馆理事会国际文献委员会设计,提供了定义和形式结构,用于描述文化遗产文献中使用的隐含和明确的概念和关系,旨在通过提供可以映射到任何文化遗产信息的共同和可扩展的语义框架来促进对文化遗产信息的共同理解;它分析了数据和元数据结构背后的共同概念,以支持数据转换、调试和融合,因此它可以作为支持图书馆、档案馆、博物馆保存信息和元数据整合的高等级交互性本体标准[37]。同时。该概念模型的研究者致力于推动其成为领域专家和实施者的通用语言,以制定信息系统的要求,并作为概念建模良好实践的指导。通过这种方式,可以为不同的文化遗产信息资源提供必需的“语义连接”[38]。2000年9月,在CIDOC CRM SIG和ISO/TC46/SC4/WG9的共同努力下,CIDOC CRM开始向国际标准发展;2006年9月9日起,作为国际标准ISO 21127:2006发布;2014年12月经修订发布新的国际标准ISO 21127:2014;2017年10月CIDOC发布了最新的CRM6.2.2。

保护科学数据基础设施(Science data infrastructure for preservation)是在欧洲设立的一个项目,为科学数据保存提供通用的基础设施服务,主要侧重于地球科学。该项目旨在通过定义共同保护政策、保存元数据和语义的统一以及地球科学领域通用基础设施的部署来确保地球科学数据的长期保存[39]。交互式多媒体技术在当代表演艺术中广泛使用,包括音乐作品,安装艺术,舞蹈等,表演者和多媒体系统之间的交互可以在各种不同的方法中进行,比如身体运动和乐器演奏,由此所产生的互动多媒体数字资源(Interactive Multimedia Performance Digital Resources)也需要长期保存。Kia等介绍了一种描述交互式多媒体数字资源及其内部关系以支持保存过程的本体方法,提出的本体元数据框架CASPAR是CIDOC概念参考模型(CIDOC-CRM)的扩展[40]。Doyle等认为在保存3D数据的情况下,保存元数据可以支持保存后的3D数字对象的后处理。然而,目前缺少一个支持与3D对象相关联的语义数据的保存元数据框架。他们认为开发这样一个框架的两个最大挑战包括预测框架中应该包含哪些语义信息,以及应该以何种格式进行建模。因此,他们描述了一种保存元数据框架,它将与3D对象相关联的语义数据存储在人体测量数据库中,从而为其他用户提供此类数字资源提供参考[41]。

3.3 保存元数据语义化研究评述

数字信息资源保存元数据的语义化主要体现在保存元数据标准自身发展中的语义化以及保存元数据应用过程中的语义化。目前的研究中,PRMEIS保存元数据框架标准作为最为通用的保存元数据标准参考框架之一,自2.2以后逐渐增加与本体相关的语义组件,提高了保存元数据在细粒度和交互操作方面的性能。国外对保存元数据应用过程中的语义化研究较为重视,有许多不同的研究项目针对多种数字信息资源采取了多种语义化技术,这些技术的采用既丰富了数字信息资源保存的描述层次与深度,又提高了多种数字资源之间的交互性,同时也为其他机构将保存元数据在实践中进行语义化应用提供了参考借鉴。

4 总结与展望

自1998年Michael Day[42]首次采用了“Preservation Metadata”(保存元数据)的概念以来,数字信息资源长期保存元数据这一研究领域至今已近二十年之久,以往对该领域的研究梳理较早,已不能反映最新进展,本文从技术视角系统梳理了保存元数据三个方面的研究进展,总体而言,其研究呈现出如下的特点和趋势:

(1)数字信息资源长期保存元数据的生成与保存研究是保存元数据的关键技术。在保存元数据生成方面,自动化的生成研究仍将是热点问题,它既可为更多的数字对象提供元数据,提高元数据质量,还能减少元数据内容的冗余性,大大减轻人工生成的压力;在保存元数据的保存方面,保存元数据的封装保存技术在将来的研究中会受到更多的重视。

(2)数字信息资源长期保存元数据的互操作研究着眼于标准层面和元数据自身层面,对标准间的互操作性,既需要考虑标准制定的通用性和规范性,还需要考虑标准实际的适用性。保存元数据自身层面的互操作要解决交换格式的互操作、标记格式的互操作、编码规则互操作、元素内容互操作、元素语义互操作、数据内容互操作和通信协议互操作。随着本体技术的发展,未来研究将更多的集中于保存元数据在语义层面的结构转换与语义管理。

(3)数字信息资源长期保存元数据的语义化既是提高保存元数据细粒度、增加信息资源描述准确度的重要方式,也是提高信息对象关联度、实现交互操作的重要方法。保存元数据的语义化研究离不开本体语言以及RDF、XML等语言格式的支持,未来研究将更重视多种语义化技术的融合。

期刊知识

客服一号: 卜编辑

客服二号: 林编辑

地址:北京市通州区北京鼎新文化传媒有限公司 ICP备案号:京ICP备14054149号-4

【免责声明】:第一学术网 所提供的信息资源如有侵权、违规,请及时告知。

版权所有:第一学术网(北京鼎新文化传媒有限公司)

扫码联系客服
扫码联系客服

核心期刊为何难发?

论文发表总嫌贵?

职院单位发核心?

扫码联系客服

论文发表不再有疑惑

论文写作全系列课程

扫码了解更多

轻松写核心期刊论文