首页 >> 跨学科 >> 情报文献学
数字信息资源长期保存元数据技术研究进展
2020年03月30日 19:54 来源:《情报科学》 作者:张晓娟/唐长乐 字号

内容摘要:

关键词:

作者简介:

Overviews on Technology of Long-term Preservation Metadata for Digital Information Resources

 

  作者简介:张晓娟(1964- ),女,湖北人,武汉大学信息资源研究中心教授,武汉大学信息管理学院博士,武汉大学图书情报实验教学示范中心博士生导师,主要从事数字信息资源管理研究;唐长乐,武汉大学信息管理学院。武汉 430072

  原发信息:《情报科学》第20188期

  内容提要: [目的/意义]保存元数据是解决数字信息资源长期保存问题的关键要素,目前对这一领域相关技术的研究进展进行梳理的文章较少、时间也较早,通过重新系统梳理当前研究进展,可以把握研究趋势,为进一步深入研究提供参考。[方法/过程]文章从技术视角出发,围绕保存元数据的生成保存、互操作和语义化,系统梳理了数字信息资源长期保存元数据技术研究进展。[结果/结论]文章指出未来研究将聚焦在保存元数据自动化生成和封装保存研究、保存元数据基于本体的语义层面互操作研究以及保存元数据的多种语义技术融合研究。

  [Purpose/significance]Preservation metadata is the key factor to solve the problem of long-term preservation of digital information resources.At present,there are few articles on the progress of research in this field,and the time is far from now.Through the systematic review of the current research progress,we can grasp the research trend,and provide reference for further research.[Method/process]From the perspective of technology,this paper systematically reviews the research process of long-term preservation metadata from aspects of generation and preservation 、interoperability and semanticization.[Result/conclusion]The authors point out that future research will focus on the study of preservation metadata automatic generation and encapsulated preservation,the study of semantic level interoperability of preservation metadata based on ontology and multiple semantic technology fusion of preservation metadata.

  关键词:数字信息资源/长期保存/保存元数据技术/研究进展/生成保存/互操作/语义化  Digital information resource/Long-term preservation/Preservation metadata technology/Overview/Generation and preservation/Interoperability/semanticization

  标题注释:教育部人文社会科学重点研究基地重大项目(13JJD870004)。

 

  数字信息资源不仅便于存储管理,更有利于开发利用,它推动了人类社会的信息交流。当计算机网络普遍应用后,为了更有效地组织网络信息资源,起源于计算机科学领域的元数据受到信息界的广泛关注,它主要用于支持数据的操作,比如描述、识别、发现、检索、权利管理和保存。实施数字信息资源的长期保存也离不开元数据的支持,包括描述数字对象的基本属性及保存需求[1]。而这种符合长期保存需要的元数据就是保存元数据,它在数字信息资源长期保存中起着非常重要的作用。

  就目前而言,对数字信息资源长期保存元数据研究情况进行系统梳理的文章[2],最近的是2007年,其研究内容已经不能很好的反映当前该领域的研究现状,因此有必要对其进行研究进展的重新梳理。由于长期保存元数据研究涉及众多主题,包括管理视角:概念、框架、评估,技术视角:生成与保存、互操作、语义化,以及专门领域的保存元数据研究。本文主要从技术视角出发,系统梳理数字信息资源长期保存元数据技术的研究进展,具体而言主要包括保存元数据的生成与保存、互操作和语义化。

  1 数字信息资源长期保存元数据生成与保存研究

  保存元数据的生成与保存是数字信息资源进行长期保存元数据的关键技术,它是保存元数据框架标准的具体应用和实践,也是保存元数据互操作和语义化的基础。

  1.1 保存元数据的生成

  保存元数据的生成主要指保存元数据元素取值信息的获取。保存元数据方案为生成规范的保存元数据奠定了基础。保存元数据的生成是依据保存元数据方案规定的保存元数据生成对应的取值信息,保存元数据的取值信息来源于数字信息长期保存管理的全过程。保存元数据的生成可分为人工生成和自动生成。人工生成类似于传统的信息著录,一般由信息资源管理的专业人员根据元数据方案对数字信息资源进行手工录入。自动生成主要采用元数据自动生成工具按照元数据方案的设定对数字信息资源的元数据进行自动析出。

  学者们针对保存元数据的生成方式进行了讨论。黄如花和邱春艳认为自动生成保存元数据是减轻人员工作负担和提升不同数字资源保存库互操作性的最佳方式,可通过元数据记录的收割、内容抽取、自动标引、数据挖掘、社会标签等多种方式实现[3]。杨淑萍从数字信息资源保护的角度出发,认为通过自动析出数字信息资源中的元数据可以更加高效地实现数字信息资源的长期保护,因此有必要设计元数据自动析出工具,实现自动化运作[4]。Greenberg将元数据的自动生成分为收割(harvesting)和抽取(extraction),前者是指利用算法程序自动提取数字信息资源已有的元数据信息,类似网页数字资源中的META标签信息;后者是指从数字信息资源本身的内容中挖掘元数据信息,类似通过分析网页数字资源中BODY标签下的内容信息从中提取与元数据元素相关的值信息[5]。Ivano等针对元数据自动生成技术进行了讨论,认为元数据的自动生成离不开正则表达式、规则解析器和机器学习算法[6]。Dobreva等认为在保存元数据的摄入阶段,运用元数据自动生成很有必要,它既可为更多的数字对象提供元数据,提高元数据质量,还能减少元数据内容的冗余性。他们还认为虽然目前的元数据生成研究主要针对一般的元数据,而不是集中于保存元数据,但它们能为保存元数据的自动抽取研究提供借鉴思路[7]。

  保存元数据记录的自动生成需要保存元数据工具来实现。为此,学者们及相关机构围绕保存元数据生成工具展开了研究和讨论。保存元数据的自动生成工具既能按照既定的元数据标准进行操作,也能适应不同的数字信息资源管理环境实施应用,它是开展数字信息资源长期保存活动重要工具[8]。Greenberg分析了元数据自动生成应用工具的制约因素,包括标准类目控制、自动化技术的更新、工具的可用性和有效性、工具之间的兼容性等,并在此基础上介绍了美国国会图书馆自动生成元数据应用项目(Automatic Metadata Generation Applications,AMeGA),该项目主要研究数字信息资源元数据自动生成工具的功能需求,并强调了专家意见在元数据自动生成工具功能需求设计中的重要意义[9]。Smith和Nelson对遵循PREMIS保存元数据框架标准的元数据生成工具JHOVE、KEA、Open Summarizer、MD5等进行实验分析,认为保存元数据的生成完全可以通过这些工具进行自动化操作,而不需要特定的网络服务器或者额外的管理活动进行干预[10]。Deborah等比较了DROID Tool and PRONOM Registry、NLNZ Metadata Extraction Tool、JHOVE、GDFR、Xena和NOID等元数据生成和抽取工具[11],其中Metadata Extraction Tool是由新西兰国家图书馆开发的用于提取电子文件长期保存元数据的开源工具软件,提取结果以XML文件格式输出,软件可同时兼容Windows以及Unix操作系统,并支持的多种文件格式。英国的数字保存联盟(Digital Preservation Coalition,DPC)在2013年发布的技术观察报告Preservation metadata( edition)中对与PREMIS保存元数据生成相关的工具进行了比较,包括JHOVE、DROID、PREMIS Creation Tool、HandS和PREMIS in METS Toolbox,具体如表1所示[12]。在另一项调查中,约55.4%的机构选择开源工具JHOVE,进行保存元数据的自动生成和抽取[13]。

  1.2 保存元数据的保存

  由于保存元数据本身也是一种数字信息,也存在真实、完整与可利用等问题,因此需要对生成后的保存元数据进行合理的保存维护。保存元数据的保存主要涉及保存元数据的存储方式问题。

  黄如花和邱春艳认为保存元数据的保存一般有两种形式。一种方式是对保存元数据进行单独存储,与数字对象的保存独立开来,这种方式在图书馆中采用的较多。另一种则是将保存元数据和数字对象集中起来,统一进行封装保存。这两种方法各有利弊,分开独立存储的好处在于容易实现,且花费的成本也较低,但缺点是保存元数据记录丢失的风险较高;封装保存的好处是安全性高,但管理不便,并且经济成本较高[3]。刘家真和廖茹从组织机构保管元数据的方式角度出发,认为元数据有两种存储方式,即元数据分布式存储和元数据集中式存储。前者是指在各机构搭建各自的元数据库,将元数据储存在本地,并自行开展维护和安全保障工作;后者是指将各个单位分散的元数据集中存储,将所有元数据集中存储在一个元数据库中进行操作和维护,两者也各有优缺点[14]。杨淑萍提出建立通过元数据存储仓对保存元数据进行集中存储,既能确保对数字信息资源的长期获取和管理、利于管理者的开展保管活动、便于用户的获取利用,也能兼容各个保存系统,从而实现互操作。同时,保存元数据仓储的设计应当遵循普遍接纳的标准,以确保能够对数字对象进行长期的管理、获取、保密和存储等操作[4]。元数据分布存储、集中式存储和元数据存储仓为保存元数据选择合适的存储方式提供了借鉴和思路。

  Doyle等针对3D数字信息提出了一个保存元数据框架,并研究了将3D数字对象与保存元数据进行封装的方法[15]。Duerr等人研究了将OAIS和PREMIS应用于科研数据,认为收集和存储保存元数据是科研数据管理过程的重要组成部分,保存元数据存储系统的建立是实现保存元数据有效管理的前提[16]。PREMIS工作组于2015年6月发布的最新版本的保存元数据标准——PREMIS3.0数据字典,对保存元数据的保存也有规定,该标准认为在数据库系统中存储元数据元素具有快速访问、易更新、查询和报表使用方便等优点。将元数据记录与存储在存储库中的数字对象一起保存也具有优势:更难将元数据从内容中分离,并能将应用于内容的保存策略也应用于元数据。PREMIS3.0推荐使用这两种方式存储关键元数据[17]。

  1.3 保存元数据生成与保存研究评述

  总体上看,目前对数字信息资源长期保存元数据的生成与保存研究主要围绕生成与保存的方式及相关工具展开。在保存元数据的生成上,保存元数据的自动生成得到更多关注,尤其是在实践中如何选择适合本机构需求的元数据自动生成工具、如何通过自动化生成工具确保将保存元数据标准以更加准确、规范和高效的方式开展应用,相较于国内,国外有着更为丰富多样的元数据自动生成工具可供选择;在保存元数据的保存上,无论是分布存储、集中存储、建立专门的保存元数据存储系统或者在数据库系统中存储都各有优缺点,但相关国际标准机构更为推荐采用集中封装保存的方式。实际上无论何种保存方式,都需要考虑到组织机构的资源类型特点、应用需求、相应的成本预算等问题。

作者简介

姓名:张晓娟/唐长乐 工作单位:

转载请注明来源:中国社会科学网 (责编:李秀伟)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们