“大学数字图书馆国际合作计划”项目的电子书实践与发展

“大学数字图书馆国际合作计划”项目的电子书实践与发展


2024年4月16日发(作者:)

30

“大学数字图书馆国际合作计划”项目的电子书实践与发展

金佳丽,黄晨

摘要“大学数字图书馆国际合作计划”(CADAL)项目至今走过了20年的历程,始终坚持

OEB开放电子书规范,以共建共享为理念,以用户需求为导向,以技术革新为契机,不断调整电子

书的内容格式和前端浏览方式,对电子书进行边界拓展和深度解析,积极探索电子书服务模式的转

型升级。

关键词电子书数字图书馆CADAL知识服务

引用本文格式金佳丽,黄晨.“大学数字图书馆国际合作计划”项目的电子书实践与发展[J].图书

馆论坛,2022,42(10):25-30.

ThePracticeandDevelopmentofCADALE-bookProject

JINJiali&HUANGChen

AbstractIthasbeen20yearssincetheestablishmentofChinaAcademicDigitalAssociativeLibrary

(CADAL).Overthepasttwodecades,CADALalwaysadherestotheOpeneBooksPublicationStructureandthe

conceptofco-buildingandsharing,andregardsuserneedsastheguidanceandtechnologicalinnovationasan

tentforma

bookservicemethods.

Keywords

sametime,CADALexpandsthebreadthanddepthofe-booksandexploresthetransformationandupgradingofe-

e-books;digitallibraries;CADAL;knowledgeservices

0引言

2000年,中美两国计算机科学家共同发

起倡议,建设中美百万册书数字图书馆项目

(MillionBookProject,MBP)。这一倡议得到中

国教育部、美国国家科学基金会和印度科学院的

重视与支持,最终发展成为一个全球数字图书馆

项目(UniversalDigitalLibrary,UDL),开始了全

球最早的大规模数字化资源工程。2001年,项

目中方被教育部定名为“高等学校中英文图书数

字化国际合作计划”(China-AcademicDigital

AcademicLibrary,CADAL),与中国高等教育

文献保障系统(CALIS)共同构成中国高等教育文

献保障体系(CADLIS)。2009年,项目更名为

◎2022年第10期◎

“大学数字图书馆国际合作计划”(China

AcademicDigitalAssociativeLibrary,CADAL)。

如今CADAL已经成为一个拥有多学科、多类

型、多语种海量数字资源,面向公众开放的全球

最大的公益性数字图书馆,是国家创新体系的重

要信息基础设施之一。从最初的图书数字化到

数字图书馆进而走向智慧图书馆,技术的进步

带来了知识传播的革命。本文将目光聚焦到电

子书,梳理电子书在内涵、组织形式、呈现方

式、检索技术、阅读体验、服务模式等方面的

发展变迁,回顾CADAL在电子书方面的实践与

发展,以期在总结经验教训的基础上,科学规

划,赋能升级,实现从数字化、网络化向智能化

时代的跨越。

25

30

1基于OEB的电子书技术与特征

作为全球数字图书馆项目(UDL)的一部分,

CADAL创立的初衷是希望所有人不论何时何地

都可以通过互联网访问到全人类的知识。要建这

样一个百万册图书、TB量级的数字图书馆,如

何将电子书以最优质便捷的方式开放给全球用户

成为首要思考的问题。经过中方潘云鹤院士和美

方RajReddy教授等专家的共同研讨,在项目建

设之初,首先确立以电子图书框架结构标准

OEBPS(OpeneBookPublicationStructure)作为

工程实施标准。OEBPS标准建立于XML体系基

础上,具有可互操作性、可扩展性、开放性和易

用性等优点,是被业界广泛采用的一种开放框架

规范

[1]

确定好遵循的标准后,CADAL将数字资源

分成两个等级——典藏级和发布应用级。典藏级

文件(ArchiveFile)指数字对象采集过程所获得原

始图像文件、原始音频文件、原始视频文件经

过加工处理后得到的高精度、无压缩(或高品质

压缩)的文件;发布应用级文件(Application

File)指典藏级文件经过加工处理后得到的用于

网上在线浏览的文件或特定应用的各类派生文

件。CADAL对每个类型的数字资源分别制定了

加工和应用等级标准,表1是图书期刊数字对

象的等级标准。由表1可见,典藏级图像文件

采用的是TIFF、JPEG文件格式,而发布应用

级文件的文件格式和压缩格式直接关系到用户

的阅读体验,所以一直在随着技术发展和用户

需求的变化而不断调整,大致经历了3个阶段:

一是基于DjVu的网络发布,二是基于Flash的

便捷浏览,三是基于国际图像互操作框架(IIIF)

的互动浏览。

1.1基于DjVu的网络发布

CADAL在创建之初就确定了高精度的扫描

标准,因此在网络条件下,如何传输和呈现高精

度图像成为一个技术难点。在考察了当时互联网

传输最常见的GIF和JPG格式之后,中美双方的

计算机专家经过讨论,决定采用DjVu作为这一

项目的电子书网络传输格式。

DjVu是1996年AT&T实验室开发的一种针

对高解析度、高质量彩色扫描文档的发布技术,

它的压缩效率比JPEG和GIF等格式彩色文档优

5~10倍,比TIFF格式的黑白文档好3~8倍。与

PDF相比,如果数字化文档含有图片,DjVu将小

于PDF封装。更重要的是,CADAL获得了

AT&T实验室的授权,可以免费使用该项压缩技

术。于是,在CADAL项目一期,采用卡内基梅

隆大学提供的转换软件,将扫描文件转码为DjVu

格式的发布文件。项目二期建设中,浙江大学的

技术中心进一步将扫描、图像处理、元数据编

辑、导航生成与格式转换等电子书生成环节集成

为一个生产系统,通过DjVu来完成电子书的封

装和发布。

1.2基于Flash的便捷浏览

CADAL数字资源以DjVu格式上网发布后,

用户需要下载DjVu插件以支持浏览器解析阅

读。尽管DjVu插件只有600KB(同类型的

AcrobatReader是6M)且免费,但是由于DjVu

的应用并不普及,很多用户不愿意额外安装这一

插件。为了进一步提升用户阅读体验,CADAL

决定放弃DjVu插件,改为浏览器兼容性更好、

受欢迎度更高的FlashPlayer

插件。Adobe公司的Flash

Player在各主流操作系统中

均可用,也支持各类浏览

器。据MillwordBrown公司

2011年的调查显示,接近

99%的网络用户安装有Flash

Player10及其更高版本

[3]

表1图书期刊数字对象等级标准

[2]

主要参数

级别许可的加工方法

位深、颜色、分辨率文件格式压缩

24位、彩色、≥600dpiJPEG、JP2JPEG2000裁边、纠偏

8位、灰度、≥600dpiJPEG、JP2JPEG2000裁边、纠偏

典藏级

1位、黑白、≥600dpiTIFFCCITT-G4裁边、纠偏、去噪、对齐版心

24位、彩色、≥150dpiDjVuDjVu压缩裁边、纠偏、格式转换

8位、灰度、≥150dpiDjVuDjVu压缩裁边、纠偏、格式转换

发布级

裁边、纠偏、去噪、对齐版心、

应用1位、黑白、≥150dpiDjVuDjVu压缩

拼接、格式转换

26

另外,随着CADAL二期加入音视频多媒体资源

的数字化,FlashPlayer更有利于这些数字资源

的展示。这样就形成了CADAL网站前端以Flash

形式展示,后台图像实时转换的服务模式。这种

情况,一直持续到2019年Flash没落,CADAL

门户网站重新升级。

1.3基于国际图像互操作框架(IIIF)的互动浏览

随着CADAL门户网站的二次升级,2021年

3月,CADAL开始着手实现国际图像互操作框架

下的图像文件转换与图像文件在线浏览。国际图

像互操作框架(InternationalImageInteropera-

bilityFramework,IIIF)是由全球各地图书馆、博

物馆、美术馆、档案馆等机构推出的一项国际化

技术通用标准,旨在让不同机构的资源传输速度

更快、质量更高、成本更低。在IIIF框架下,用

户可以实现基于图像服务器的图片管理,可自由

进行缩放,快速显示高清超大可视化图片;实现

基于带标注的图片管理,在图片上做数字化标

注,可用于多模态知识图谱的创建;同时,还可

以对图像进行OCR识别,得到OCR文件保存到

索引服务器,转换为注释列表,通过结合mani-

fest上传服务器,实现全文检索。最重要的是,

提升报纸、图形图像类型资源的加载速度和用户

浏览体验。

电子书格式选择是资源建设和利用的基础,

关系到资源共享与用户体验,需要大胆探索、小

心论证。纵观国内外电子书市场,各大电子书平

台都有自己的电子书格式,国内如北大方正

(ApabiReader)的CEB格式、清华同方的CAJ格

式、超星的PDG格式,国外如Adobe公司的

PDF格式、微软公司的LIT格式、Amazon公司

的KFX格式。这种五花八门、各自为营的格式壁

垒增加了阅读障碍,与CADAL作为公益性数字

图书馆所坚持的开放共享原则是相背离的。20年

来CADAL始终坚持OEB开放电子书规范,以共

建共享为理念,以用户需求为导向,以技术革新

为契机,不断调整电子书的内容格式和前端浏览

方式,力求实现电子资源的易获取、高清度、全

开放,从而不断提升用户的阅读体验。

◎2022年第10期◎

30

2从电子书到知识空间

电子书一词由Electronicbook翻译而来,其

基本概念学界尚未有定论。有研究认为,电子书

的内涵随着时间的发展不断变化,1998-2002

年多从电子阅读器的角度出发研究电子书,2002

年至今,从内容角度来看待电子书已经成为共

[4]

。有学者根据发行前有无印刷版,将电子

书分为天生的电子书和转换的电子书

[5]

;也有

学者将电子书分为:Ebook1.0、Ebook2.0和

Ebook3.0。Ebook1.0是将传统图书数字化,

Ebook2.0是只有数字化形态的原生电子书,

Ebook3.0是集成了文字、图表、声音、视频、

动画及其他功能(如交互)模块等要素的多媒体读

[6]

。CADAL的电子书也经历了一个内涵和外延

不断拓展的过程。

2001-2012年是CADAL的数据积累阶段,

整个项目全身心地致力于海量文献资源的数字

化。10年间在20余所高校建立数字资源加工中

心,形成杭州、深圳两个加工基地,月加工能力

2,100万页,最终共数字化250万册图书。表2

列出数字资源加工贡献度较高的前10所高校。

在采集加工过程中,数字对象的载体形式不断扩

展。首先进行的是纸本文献的数字化,包括图

书、期刊、报纸、古籍、侨批、科技报告、书

画、手稿、印章等各种类型的文本资源。接着,

将音视频、老照片、文献缩微胶卷纳为数字化对

象。此外,还开发了“2.5维扫描技术”对甲

骨、竹简等浅浮雕文献载体进行数字化

[7]

表2CADAL数字资源加工册数TOP10高校

单位加工册数

浙江大学图书馆630,574

北京大学图书馆121,969

复旦大学图书馆114,942

华中科技大学图书馆78,091

武汉大学图书馆73,353

北京师范大学图书馆72,656

四川大学图书馆71,461

中国人民大学图书馆70,169

西安交通大学图书馆66,403

南京大学图书馆62,455

27

30

2013年,CADAL的数字资源积累已经是一

览众山小,于是转向对已有海量资源的整合和挖

掘,思考泛在的数字环境下,如何将分散、多

样、异构、非结构性的数字资源整合在一起,

成为有机的整体,使之能够有效地被保存、发

现和获取。对此,CADAL项目专家提出要打破

单本“书”的概念,建设超媒体阅读体验空间。

超媒体阅读体验空间突破了传统的“文字+

二维图像”的展示模式,开始将传统文本、图

像、音视频数据融入到虚拟现实环境中进行展

示。例如,CADAL网站上的《红楼梦菜谱》(王

柏春,1992)

[8]

讲述了《红楼梦》中的饮食文化,

并列出雪塔燕窝、金银蹄膀、红烧果子狸等63

道菜的菜谱,讲述每道菜的原料、操作方法、风

味特色、营养分析,并对菜的历史进行回溯。

CADAL将这本书上的相关信息通过标题、关键

词、作者、内容分类特征等元数据进行关联,从

而展示出更全面的信息(见图1)。在介绍雪塔燕窝

一菜时,附上金丝燕的图片,燕窝形成过程的视

频,产地泉州、崖州、万宁的链接和介绍,配料

熟火腿、水香菇的图片及介绍,清代袁枚《随园

食单》对燕窝的记载,红楼梦各章节涉及到燕窝

的场景,制作雪塔燕窝的视频等等。这样就把单

一的文本信息进行扩充,综合链接文本、图像、

音视频等多种资源来揭示一个知识单元,形成一

个超媒体阅读体验空间,给读者以视觉、听觉上

的全方位信息,开创了新型的数字阅读模式。

3基于电子书内涵拓展的服务转型升级

回首CADAL20年发展,服务模式的每一次

升级都离不开对电子书的挖掘和再发现。早在

2013年,CADAL确立了从“数字图书馆走向智

[9]

慧图书馆,进而升华到知识中心”的目标之后,

结合跨媒体、人工智能、大数据处理等技术,开

始对电子书进行边界拓展和深度解析,打破单本

书籍孤立的知识组织形式和呈现形式,将其以边

界互联的知识网络与细粒度化的知识元形式呈

现,积极探索知识服务新模式。

3.1跨媒体检索

探索的第一步是打破不同类型数字资源边

界,将数字图书馆联通成一个开放的数字环境。

为此,首先要解决“异构鸿沟”(Heterogeneity

Gap)和“语义鸿沟”(SemanticGap)这两个科学

难点

[10]

。对此,CADAL在超媒体阅读空间探索

实践的基础上,借助机器学习提出“跨媒体”思

想,通过学习、推理及其他智能型处理,来实现

从一种媒体类型到另外一种媒体类型的跨越,即

“媒体跨越、语义关联”。其实质是寻找不同类型

媒体间的相关性。跨媒体检索与传统的多媒体检

索技术的本质区别在于,后者集中在基于内容的

单模态特征分析与检索,主要研究单模态数据集

的相似度度量问题;而跨媒体检索要解决不同模

态的多媒体对象之间相关性匹配问题

[11]

。比如,

输入一张爆炸画面的图像数据,可以检索到一段

爆炸声音的音频。跨媒体搜索支持任一种

媒体形式的输入,支持任一种媒体形式的

结果,挖掘多媒体对象语义及关系,建立

统一的跨媒体索引机制。经过长期努力,

CADAL项目的技术专家在跨媒体计算领

域取得一系列成果,不仅完成“跨媒体

海量信息融合与智能内容搜索引擎产品

开发”(“863计划”重点项目课题,编号:

2006AA010107)等多个重点项目,而且申

请了“一种基于深度神经网络的跨媒体排

序方法”(中国,CN2.1)等

图1“红楼菜谱”样例展示

[9]

多项专利。

28

3.2知识抽取与知识元关联发现

科技的发展使得信息获取更便捷,人们在学

习研究时不再是苦于没有书读,而是面对太多的

图书与信息,无从下手。CADAL团队认识到,

对海量信息的处理将是大数据时代的关键和用户

的核心需求。因此,在将数字图书馆变成一个跨

学科、跨媒介的海量知识总库后,CADAL开始

着手资源的细粒度化,以知识元为单位深度解析

电子书,进行知识抽取与知识元关联发现。

知识概念之间的先后关系对科研教学来说至

关重要。例如,想学习“条件随机场”的知识,

首先要知道“隐马尔可夫模型”。无论是课程辅

导还是自主学习,需要以合理的顺序组织知识。

CADAL的技术专家提出了一种特定领域的概念

提取方法和基于非监督学习的图书概念前后序关

系抽取方法

[12]

。借助海量电子教科书,获取每本

书的章节序列,通过无监督聚类方法对语义相似

的章节进行聚类来获取学习对象,创建出类似于

地铁地图一样的学习图,基于ILP技术从学习图

中选择一组信息量高、流畅且冗余度低的学习

路径,帮助用户提高知识学习效率

[13]

。这样

CADAL可针对某一领域的图书,自动抽取其核

心概念以及概念间的前后序关系,构建“领域知

识空间”,帮助用户推荐学习资料;也可以某个

概念为核心,将分散在不同图书中的知识综合起

来,形成专题,方便用户全面学习某个知识点。

CADAL研发的用于知识图谱构建实体关系

的抽取工具、文献影响力评估工具等,根据用户

的检索请求,对学术信息资源进行细粒度知识元

加工和封装,把相关知识元抽取出来,汇聚成个

性化的知识信息,甚至编辑成一本新的专属电子

书,可以满足不同用户的个性化知识需求。

CADAL将电子书内容细粒度化到知识元,并通

过知识元之间的语义关联,形成知识网络,大大

拓展了电子书的深度和广度,为数字人文的研究

与实践奠定了基础。

3.3知识服务

基于一系列关键技术的突破,CADAL项目

深入挖掘海量资源,成功实现了一系列的知识服

务,如图书专题自动生成、基于内容的智库文献

◎2022年第10期◎

30

影响力评估、中国书法知识服务

[14]

、中国文学编

年史知识服务

[15]

、中医药知识服务

[16]

、工程科技

知识服务等。以中医药知识服务为例,图2展示

了其基本路径。

图2中医药知识服务的演示过程

[17]

中医药是一个知识密集型的研究领域,面对

这样一个大规模的知识工程,CADAL首先从已

有的中医典籍中抽取中药、方剂、诊断、病案等

信息,并将其细粒度化为知识元,构建中医药知

识库,通过跨媒体检索技术提供百科全书式的知

识集成与搜索服务。在此基础上,借助语义理

解、自然语言处理等技术,CADAL进一步提供

面向科研的知识发现服务和面向临床实践的决策

支持服务,如中药的相关性查询和推荐、产地分

析、方剂对比。为了挖掘方剂成分的加减变化与

药物性味等深层次信息,CADAL开发了方剂用

量统计工具、方剂贡献度计算工具、方剂功效组

成分析工具,最终以可视化的方式多维度地将知

识结构与内容呈现出来(见图3),为用户提供完

整、系统的知识图谱。

图3中草药知识可视化

[18]

29

30

近年CADAL一直致力于数字图书馆服务模

式的转型升级。服务模式的转型要以用户需求为

导向,重点还是回归电子书内容本身,从信息资

源管理向知识资源管理转变,信息组织向知识组

织转变,实现用户个性化需求驱动的知识元聚合

和知识协同,由文献服务走向知识服务。

4结语

CADAL项目自启动以来,始终着眼于全球

资源共建共享和人类文明共同进步,以“共建共

享”为理念,致力于资源的全开放获取。如今

CADAL已收录有超过280万册中英文电子书,

数据总量达1.4PB,服务2,500余所国内外学术

机构,是我国高校图书馆最大规模的知识整合平

台之一。从CADAL关于电子书的一系列实践和

发展中可以看出,从二十年前将纸质图书扫描成

电子文档开始,电子书的概念内涵和外延一直在

不断拓展和演化。如今的电子书早已打破了单本

书的界限而成为一个个按需重构的“知识空

间”,对电子书进行深入挖掘与解析,是数字图

书馆服务模式转型升级的基础。由此,学术数字

图书馆也从单个的服务系统升级为开放的数字环

境,成为一种“基于知识内容、应用环境和应用

群体有机交互的数字化知识化服务机制”

[19]

参考文献

[1]薛崧,郑龔.基于OEB规范电子书的结构及优化[J].

现代图书情报技术,2004(11):10-13.

[2]数字对象加工与应用等级标准[EB/OL].[2021-07-

29].http:///upload/specificationDocument/

bs_.

[3]高沫.AdobeFlash平台若干新技术在富媒体课程直播

系统中的应用[D].上海:上海交通大学,2011.

[4]安小兰.电子书概念辨析及其意义[J].出版发行研

究,2012(12):52-55.

[5]聂华.电子书的发展及其对图书馆的影响[J].大学图

书馆学报,2005,23(2):28-33.

[6]程三国,马学海.把握电子书产业的发展步伐[J].出

版科学,2012,20(2):10-14.

[7]《甲骨王朝》纪录片拍摄组入驻CADAL项目管理中

心[EB/OL].[2020-09-29].https:///in⁃

dex/showAnnountment?id=290.

[8]红楼梦菜谱[EB/OL].[2021-07-27].https://cadal.

/cx/reader/reader/book/?channel=

30

1&code=45648e78c3294046b09c86d0a0d2e70e&epage=

-1&ipinside=0&netuser=0&spage=1&ssno=33195465

&userid=1230488&bookType=1.

[9]潘云鹤:数字图书馆的发展趋势[EB/OL].[2020-

09-29].https:///index/meetingInformation.

[10]ZhangH,GaoX,WuP,-mediadis⁃

tancemetriclearningframeworkbasedonmulti-view

correlationminingandmatching[J].WorldWide

Web,2016,19(2):181-197.

[11]张鸿,吴飞,庄越挺.跨媒体相关性推理与检索研究

[J].计算机研究与发展,2008,45(5):869-876.

[12]LuW,ZhouY,YuJ,textractionand

prerequisiterelationlearningfromeducationaldata[J].

ProceedingsoftheAAAIConferenceonArtificialIn⁃

telligence,2019,33:9678-9685.

[13]LuW,MaP,YuJ,apsforefficient

knowledgelearningbysummarizingmassiveelectron⁃

ictextbooks[J].InternationalJournalonDocument

AnalysisandRecognition,2019,22(2):99-111.

[14]YangX,WuJ,GaoP,gy-basedmod⁃

elforChinesecalligraphysynthesis[J].Computer

GraphicsForum,2013,32(7):11-20.

[15]YeZ,LingZ,WuJ,-depthutilizationof

Chineseancientmaps:ahybridapproachtodigitizing

mapresourcesinCADAL[C]//JCDL’10:Proceed⁃

ingsofthe10thannualjointconferenceonDigital

k:ACM,2010:263–272.

[16]WeiW,YinZ,WeiB,logy-based

domainmodelingframeworkforknowledgeservicein

digitallibrary[J].AdvancesinIntelligentSystemsand

Computing,2014,278:373-383.

[17]庄越挺.开创数字图书馆新局面-CADAL项目主题

报告[EB/OL].[2010-04-01].https:///

index/meetingInformation.

[18]张寅.知识计算与智能服务前沿进展[EB/OL].[2021-

05-11].https:///index/meetingInformation.

[19]张晓林.从数字图书馆到E-Knowledge机制[J].中国

图书馆学报,2005,31(4):5-10.

作者简介金佳丽(通信作者,*************.cn),硕士,

浙江大学图书馆馆员,浙江大学信息资源

分析与应用研究中心研究人员;黄晨,研究

馆员,CADAL项目管理中心副主任,浙江

大学信息资源分析与应用研究中心主任,

浙江大学图书馆副馆长。

收稿日期2021-08-26

(责任编辑:史江蓉;英文编辑:杨继贤)


发布者:admin,转转请注明出处:http://www.yc00.com/news/1713201535a2202936.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信