2024年4月16日发(作者:)
30
“大学数字图书馆国际合作计划”项目的电子书实践与发展
金佳丽,黄晨
摘要“大学数字图书馆国际合作计划”(CADAL)项目至今走过了20年的历程,始终坚持
OEB开放电子书规范,以共建共享为理念,以用户需求为导向,以技术革新为契机,不断调整电子
书的内容格式和前端浏览方式,对电子书进行边界拓展和深度解析,积极探索电子书服务模式的转
型升级。
关键词电子书数字图书馆CADAL知识服务
引用本文格式金佳丽,黄晨.“大学数字图书馆国际合作计划”项目的电子书实践与发展[J].图书
馆论坛,2022,42(10):25-30.
ThePracticeandDevelopmentofCADALE-bookProject
JINJiali&HUANGChen
AbstractIthasbeen20yearssincetheestablishmentofChinaAcademicDigitalAssociativeLibrary
(CADAL).Overthepasttwodecades,CADALalwaysadherestotheOpeneBooksPublicationStructureandthe
conceptofco-buildingandsharing,andregardsuserneedsastheguidanceandtechnologicalinnovationasan
tentforma
bookservicemethods.
Keywords
sametime,CADALexpandsthebreadthanddepthofe-booksandexploresthetransformationandupgradingofe-
e-books;digitallibraries;CADAL;knowledgeservices
0引言
2000年,中美两国计算机科学家共同发
起倡议,建设中美百万册书数字图书馆项目
(MillionBookProject,MBP)。这一倡议得到中
国教育部、美国国家科学基金会和印度科学院的
重视与支持,最终发展成为一个全球数字图书馆
项目(UniversalDigitalLibrary,UDL),开始了全
球最早的大规模数字化资源工程。2001年,项
目中方被教育部定名为“高等学校中英文图书数
字化国际合作计划”(China-AcademicDigital
AcademicLibrary,CADAL),与中国高等教育
文献保障系统(CALIS)共同构成中国高等教育文
献保障体系(CADLIS)。2009年,项目更名为
◎2022年第10期◎
“大学数字图书馆国际合作计划”(China
AcademicDigitalAssociativeLibrary,CADAL)。
如今CADAL已经成为一个拥有多学科、多类
型、多语种海量数字资源,面向公众开放的全球
最大的公益性数字图书馆,是国家创新体系的重
要信息基础设施之一。从最初的图书数字化到
数字图书馆进而走向智慧图书馆,技术的进步
带来了知识传播的革命。本文将目光聚焦到电
子书,梳理电子书在内涵、组织形式、呈现方
式、检索技术、阅读体验、服务模式等方面的
发展变迁,回顾CADAL在电子书方面的实践与
发展,以期在总结经验教训的基础上,科学规
划,赋能升级,实现从数字化、网络化向智能化
时代的跨越。
25
30
1基于OEB的电子书技术与特征
作为全球数字图书馆项目(UDL)的一部分,
CADAL创立的初衷是希望所有人不论何时何地
都可以通过互联网访问到全人类的知识。要建这
样一个百万册图书、TB量级的数字图书馆,如
何将电子书以最优质便捷的方式开放给全球用户
成为首要思考的问题。经过中方潘云鹤院士和美
方RajReddy教授等专家的共同研讨,在项目建
设之初,首先确立以电子图书框架结构标准
OEBPS(OpeneBookPublicationStructure)作为
工程实施标准。OEBPS标准建立于XML体系基
础上,具有可互操作性、可扩展性、开放性和易
用性等优点,是被业界广泛采用的一种开放框架
规范
[1]
。
确定好遵循的标准后,CADAL将数字资源
分成两个等级——典藏级和发布应用级。典藏级
文件(ArchiveFile)指数字对象采集过程所获得原
始图像文件、原始音频文件、原始视频文件经
过加工处理后得到的高精度、无压缩(或高品质
压缩)的文件;发布应用级文件(Application
File)指典藏级文件经过加工处理后得到的用于
网上在线浏览的文件或特定应用的各类派生文
件。CADAL对每个类型的数字资源分别制定了
加工和应用等级标准,表1是图书期刊数字对
象的等级标准。由表1可见,典藏级图像文件
采用的是TIFF、JPEG文件格式,而发布应用
级文件的文件格式和压缩格式直接关系到用户
的阅读体验,所以一直在随着技术发展和用户
需求的变化而不断调整,大致经历了3个阶段:
一是基于DjVu的网络发布,二是基于Flash的
便捷浏览,三是基于国际图像互操作框架(IIIF)
的互动浏览。
1.1基于DjVu的网络发布
CADAL在创建之初就确定了高精度的扫描
标准,因此在网络条件下,如何传输和呈现高精
度图像成为一个技术难点。在考察了当时互联网
传输最常见的GIF和JPG格式之后,中美双方的
计算机专家经过讨论,决定采用DjVu作为这一
项目的电子书网络传输格式。
DjVu是1996年AT&T实验室开发的一种针
对高解析度、高质量彩色扫描文档的发布技术,
它的压缩效率比JPEG和GIF等格式彩色文档优
5~10倍,比TIFF格式的黑白文档好3~8倍。与
PDF相比,如果数字化文档含有图片,DjVu将小
于PDF封装。更重要的是,CADAL获得了
AT&T实验室的授权,可以免费使用该项压缩技
术。于是,在CADAL项目一期,采用卡内基梅
隆大学提供的转换软件,将扫描文件转码为DjVu
格式的发布文件。项目二期建设中,浙江大学的
技术中心进一步将扫描、图像处理、元数据编
辑、导航生成与格式转换等电子书生成环节集成
为一个生产系统,通过DjVu来完成电子书的封
装和发布。
1.2基于Flash的便捷浏览
CADAL数字资源以DjVu格式上网发布后,
用户需要下载DjVu插件以支持浏览器解析阅
读。尽管DjVu插件只有600KB(同类型的
AcrobatReader是6M)且免费,但是由于DjVu
的应用并不普及,很多用户不愿意额外安装这一
插件。为了进一步提升用户阅读体验,CADAL
决定放弃DjVu插件,改为浏览器兼容性更好、
受欢迎度更高的FlashPlayer
插件。Adobe公司的Flash
Player在各主流操作系统中
均可用,也支持各类浏览
器。据MillwordBrown公司
2011年的调查显示,接近
99%的网络用户安装有Flash
Player10及其更高版本
[3]
。
表1图书期刊数字对象等级标准
[2]
主要参数
级别许可的加工方法
位深、颜色、分辨率文件格式压缩
24位、彩色、≥600dpiJPEG、JP2JPEG2000裁边、纠偏
8位、灰度、≥600dpiJPEG、JP2JPEG2000裁边、纠偏
典藏级
1位、黑白、≥600dpiTIFFCCITT-G4裁边、纠偏、去噪、对齐版心
24位、彩色、≥150dpiDjVuDjVu压缩裁边、纠偏、格式转换
8位、灰度、≥150dpiDjVuDjVu压缩裁边、纠偏、格式转换
发布级
裁边、纠偏、去噪、对齐版心、
应用1位、黑白、≥150dpiDjVuDjVu压缩
拼接、格式转换
26
另外,随着CADAL二期加入音视频多媒体资源
的数字化,FlashPlayer更有利于这些数字资源
的展示。这样就形成了CADAL网站前端以Flash
形式展示,后台图像实时转换的服务模式。这种
情况,一直持续到2019年Flash没落,CADAL
门户网站重新升级。
1.3基于国际图像互操作框架(IIIF)的互动浏览
随着CADAL门户网站的二次升级,2021年
3月,CADAL开始着手实现国际图像互操作框架
下的图像文件转换与图像文件在线浏览。国际图
像互操作框架(InternationalImageInteropera-
bilityFramework,IIIF)是由全球各地图书馆、博
物馆、美术馆、档案馆等机构推出的一项国际化
技术通用标准,旨在让不同机构的资源传输速度
更快、质量更高、成本更低。在IIIF框架下,用
户可以实现基于图像服务器的图片管理,可自由
进行缩放,快速显示高清超大可视化图片;实现
基于带标注的图片管理,在图片上做数字化标
注,可用于多模态知识图谱的创建;同时,还可
以对图像进行OCR识别,得到OCR文件保存到
索引服务器,转换为注释列表,通过结合mani-
fest上传服务器,实现全文检索。最重要的是,
提升报纸、图形图像类型资源的加载速度和用户
浏览体验。
电子书格式选择是资源建设和利用的基础,
关系到资源共享与用户体验,需要大胆探索、小
心论证。纵观国内外电子书市场,各大电子书平
台都有自己的电子书格式,国内如北大方正
(ApabiReader)的CEB格式、清华同方的CAJ格
式、超星的PDG格式,国外如Adobe公司的
PDF格式、微软公司的LIT格式、Amazon公司
的KFX格式。这种五花八门、各自为营的格式壁
垒增加了阅读障碍,与CADAL作为公益性数字
图书馆所坚持的开放共享原则是相背离的。20年
来CADAL始终坚持OEB开放电子书规范,以共
建共享为理念,以用户需求为导向,以技术革新
为契机,不断调整电子书的内容格式和前端浏览
方式,力求实现电子资源的易获取、高清度、全
开放,从而不断提升用户的阅读体验。
◎2022年第10期◎
30
2从电子书到知识空间
电子书一词由Electronicbook翻译而来,其
基本概念学界尚未有定论。有研究认为,电子书
的内涵随着时间的发展不断变化,1998-2002
年多从电子阅读器的角度出发研究电子书,2002
年至今,从内容角度来看待电子书已经成为共
识
[4]
。有学者根据发行前有无印刷版,将电子
书分为天生的电子书和转换的电子书
[5]
;也有
学者将电子书分为:Ebook1.0、Ebook2.0和
Ebook3.0。Ebook1.0是将传统图书数字化,
Ebook2.0是只有数字化形态的原生电子书,
Ebook3.0是集成了文字、图表、声音、视频、
动画及其他功能(如交互)模块等要素的多媒体读
物
[6]
。CADAL的电子书也经历了一个内涵和外延
不断拓展的过程。
2001-2012年是CADAL的数据积累阶段,
整个项目全身心地致力于海量文献资源的数字
化。10年间在20余所高校建立数字资源加工中
心,形成杭州、深圳两个加工基地,月加工能力
2,100万页,最终共数字化250万册图书。表2
列出数字资源加工贡献度较高的前10所高校。
在采集加工过程中,数字对象的载体形式不断扩
展。首先进行的是纸本文献的数字化,包括图
书、期刊、报纸、古籍、侨批、科技报告、书
画、手稿、印章等各种类型的文本资源。接着,
将音视频、老照片、文献缩微胶卷纳为数字化对
象。此外,还开发了“2.5维扫描技术”对甲
骨、竹简等浅浮雕文献载体进行数字化
[7]
。
表2CADAL数字资源加工册数TOP10高校
单位加工册数
浙江大学图书馆630,574
北京大学图书馆121,969
复旦大学图书馆114,942
华中科技大学图书馆78,091
武汉大学图书馆73,353
北京师范大学图书馆72,656
四川大学图书馆71,461
中国人民大学图书馆70,169
西安交通大学图书馆66,403
南京大学图书馆62,455
27
30
2013年,CADAL的数字资源积累已经是一
览众山小,于是转向对已有海量资源的整合和挖
掘,思考泛在的数字环境下,如何将分散、多
样、异构、非结构性的数字资源整合在一起,
成为有机的整体,使之能够有效地被保存、发
现和获取。对此,CADAL项目专家提出要打破
单本“书”的概念,建设超媒体阅读体验空间。
超媒体阅读体验空间突破了传统的“文字+
二维图像”的展示模式,开始将传统文本、图
像、音视频数据融入到虚拟现实环境中进行展
示。例如,CADAL网站上的《红楼梦菜谱》(王
柏春,1992)
[8]
讲述了《红楼梦》中的饮食文化,
并列出雪塔燕窝、金银蹄膀、红烧果子狸等63
道菜的菜谱,讲述每道菜的原料、操作方法、风
味特色、营养分析,并对菜的历史进行回溯。
CADAL将这本书上的相关信息通过标题、关键
词、作者、内容分类特征等元数据进行关联,从
而展示出更全面的信息(见图1)。在介绍雪塔燕窝
一菜时,附上金丝燕的图片,燕窝形成过程的视
频,产地泉州、崖州、万宁的链接和介绍,配料
熟火腿、水香菇的图片及介绍,清代袁枚《随园
食单》对燕窝的记载,红楼梦各章节涉及到燕窝
的场景,制作雪塔燕窝的视频等等。这样就把单
一的文本信息进行扩充,综合链接文本、图像、
音视频等多种资源来揭示一个知识单元,形成一
个超媒体阅读体验空间,给读者以视觉、听觉上
的全方位信息,开创了新型的数字阅读模式。
3基于电子书内涵拓展的服务转型升级
回首CADAL20年发展,服务模式的每一次
升级都离不开对电子书的挖掘和再发现。早在
2013年,CADAL确立了从“数字图书馆走向智
[9]
慧图书馆,进而升华到知识中心”的目标之后,
结合跨媒体、人工智能、大数据处理等技术,开
始对电子书进行边界拓展和深度解析,打破单本
书籍孤立的知识组织形式和呈现形式,将其以边
界互联的知识网络与细粒度化的知识元形式呈
现,积极探索知识服务新模式。
3.1跨媒体检索
探索的第一步是打破不同类型数字资源边
界,将数字图书馆联通成一个开放的数字环境。
为此,首先要解决“异构鸿沟”(Heterogeneity
Gap)和“语义鸿沟”(SemanticGap)这两个科学
难点
[10]
。对此,CADAL在超媒体阅读空间探索
实践的基础上,借助机器学习提出“跨媒体”思
想,通过学习、推理及其他智能型处理,来实现
从一种媒体类型到另外一种媒体类型的跨越,即
“媒体跨越、语义关联”。其实质是寻找不同类型
媒体间的相关性。跨媒体检索与传统的多媒体检
索技术的本质区别在于,后者集中在基于内容的
单模态特征分析与检索,主要研究单模态数据集
的相似度度量问题;而跨媒体检索要解决不同模
态的多媒体对象之间相关性匹配问题
[11]
。比如,
输入一张爆炸画面的图像数据,可以检索到一段
爆炸声音的音频。跨媒体搜索支持任一种
媒体形式的输入,支持任一种媒体形式的
结果,挖掘多媒体对象语义及关系,建立
统一的跨媒体索引机制。经过长期努力,
CADAL项目的技术专家在跨媒体计算领
域取得一系列成果,不仅完成“跨媒体
海量信息融合与智能内容搜索引擎产品
开发”(“863计划”重点项目课题,编号:
2006AA010107)等多个重点项目,而且申
请了“一种基于深度神经网络的跨媒体排
序方法”(中国,CN2.1)等
图1“红楼菜谱”样例展示
[9]
多项专利。
28
3.2知识抽取与知识元关联发现
科技的发展使得信息获取更便捷,人们在学
习研究时不再是苦于没有书读,而是面对太多的
图书与信息,无从下手。CADAL团队认识到,
对海量信息的处理将是大数据时代的关键和用户
的核心需求。因此,在将数字图书馆变成一个跨
学科、跨媒介的海量知识总库后,CADAL开始
着手资源的细粒度化,以知识元为单位深度解析
电子书,进行知识抽取与知识元关联发现。
知识概念之间的先后关系对科研教学来说至
关重要。例如,想学习“条件随机场”的知识,
首先要知道“隐马尔可夫模型”。无论是课程辅
导还是自主学习,需要以合理的顺序组织知识。
CADAL的技术专家提出了一种特定领域的概念
提取方法和基于非监督学习的图书概念前后序关
系抽取方法
[12]
。借助海量电子教科书,获取每本
书的章节序列,通过无监督聚类方法对语义相似
的章节进行聚类来获取学习对象,创建出类似于
地铁地图一样的学习图,基于ILP技术从学习图
中选择一组信息量高、流畅且冗余度低的学习
路径,帮助用户提高知识学习效率
[13]
。这样
CADAL可针对某一领域的图书,自动抽取其核
心概念以及概念间的前后序关系,构建“领域知
识空间”,帮助用户推荐学习资料;也可以某个
概念为核心,将分散在不同图书中的知识综合起
来,形成专题,方便用户全面学习某个知识点。
CADAL研发的用于知识图谱构建实体关系
的抽取工具、文献影响力评估工具等,根据用户
的检索请求,对学术信息资源进行细粒度知识元
加工和封装,把相关知识元抽取出来,汇聚成个
性化的知识信息,甚至编辑成一本新的专属电子
书,可以满足不同用户的个性化知识需求。
CADAL将电子书内容细粒度化到知识元,并通
过知识元之间的语义关联,形成知识网络,大大
拓展了电子书的深度和广度,为数字人文的研究
与实践奠定了基础。
3.3知识服务
基于一系列关键技术的突破,CADAL项目
深入挖掘海量资源,成功实现了一系列的知识服
务,如图书专题自动生成、基于内容的智库文献
◎2022年第10期◎
30
影响力评估、中国书法知识服务
[14]
、中国文学编
年史知识服务
[15]
、中医药知识服务
[16]
、工程科技
知识服务等。以中医药知识服务为例,图2展示
了其基本路径。
图2中医药知识服务的演示过程
[17]
中医药是一个知识密集型的研究领域,面对
这样一个大规模的知识工程,CADAL首先从已
有的中医典籍中抽取中药、方剂、诊断、病案等
信息,并将其细粒度化为知识元,构建中医药知
识库,通过跨媒体检索技术提供百科全书式的知
识集成与搜索服务。在此基础上,借助语义理
解、自然语言处理等技术,CADAL进一步提供
面向科研的知识发现服务和面向临床实践的决策
支持服务,如中药的相关性查询和推荐、产地分
析、方剂对比。为了挖掘方剂成分的加减变化与
药物性味等深层次信息,CADAL开发了方剂用
量统计工具、方剂贡献度计算工具、方剂功效组
成分析工具,最终以可视化的方式多维度地将知
识结构与内容呈现出来(见图3),为用户提供完
整、系统的知识图谱。
图3中草药知识可视化
[18]
29
30
近年CADAL一直致力于数字图书馆服务模
式的转型升级。服务模式的转型要以用户需求为
导向,重点还是回归电子书内容本身,从信息资
源管理向知识资源管理转变,信息组织向知识组
织转变,实现用户个性化需求驱动的知识元聚合
和知识协同,由文献服务走向知识服务。
4结语
CADAL项目自启动以来,始终着眼于全球
资源共建共享和人类文明共同进步,以“共建共
享”为理念,致力于资源的全开放获取。如今
CADAL已收录有超过280万册中英文电子书,
数据总量达1.4PB,服务2,500余所国内外学术
机构,是我国高校图书馆最大规模的知识整合平
台之一。从CADAL关于电子书的一系列实践和
发展中可以看出,从二十年前将纸质图书扫描成
电子文档开始,电子书的概念内涵和外延一直在
不断拓展和演化。如今的电子书早已打破了单本
书的界限而成为一个个按需重构的“知识空
间”,对电子书进行深入挖掘与解析,是数字图
书馆服务模式转型升级的基础。由此,学术数字
图书馆也从单个的服务系统升级为开放的数字环
境,成为一种“基于知识内容、应用环境和应用
群体有机交互的数字化知识化服务机制”
[19]
。
参考文献
[1]薛崧,郑龔.基于OEB规范电子书的结构及优化[J].
现代图书情报技术,2004(11):10-13.
[2]数字对象加工与应用等级标准[EB/OL].[2021-07-
29].http:///upload/specificationDocument/
bs_.
[3]高沫.AdobeFlash平台若干新技术在富媒体课程直播
系统中的应用[D].上海:上海交通大学,2011.
[4]安小兰.电子书概念辨析及其意义[J].出版发行研
究,2012(12):52-55.
[5]聂华.电子书的发展及其对图书馆的影响[J].大学图
书馆学报,2005,23(2):28-33.
[6]程三国,马学海.把握电子书产业的发展步伐[J].出
版科学,2012,20(2):10-14.
[7]《甲骨王朝》纪录片拍摄组入驻CADAL项目管理中
心[EB/OL].[2020-09-29].https:///in⁃
dex/showAnnountment?id=290.
[8]红楼梦菜谱[EB/OL].[2021-07-27].https://cadal.
/cx/reader/reader/book/?channel=
30
1&code=45648e78c3294046b09c86d0a0d2e70e&epage=
-1&ipinside=0&netuser=0&spage=1&ssno=33195465
&userid=1230488&bookType=1.
[9]潘云鹤:数字图书馆的发展趋势[EB/OL].[2020-
09-29].https:///index/meetingInformation.
[10]ZhangH,GaoX,WuP,-mediadis⁃
tancemetriclearningframeworkbasedonmulti-view
correlationminingandmatching[J].WorldWide
Web,2016,19(2):181-197.
[11]张鸿,吴飞,庄越挺.跨媒体相关性推理与检索研究
[J].计算机研究与发展,2008,45(5):869-876.
[12]LuW,ZhouY,YuJ,textractionand
prerequisiterelationlearningfromeducationaldata[J].
ProceedingsoftheAAAIConferenceonArtificialIn⁃
telligence,2019,33:9678-9685.
[13]LuW,MaP,YuJ,apsforefficient
knowledgelearningbysummarizingmassiveelectron⁃
ictextbooks[J].InternationalJournalonDocument
AnalysisandRecognition,2019,22(2):99-111.
[14]YangX,WuJ,GaoP,gy-basedmod⁃
elforChinesecalligraphysynthesis[J].Computer
GraphicsForum,2013,32(7):11-20.
[15]YeZ,LingZ,WuJ,-depthutilizationof
Chineseancientmaps:ahybridapproachtodigitizing
mapresourcesinCADAL[C]//JCDL’10:Proceed⁃
ingsofthe10thannualjointconferenceonDigital
k:ACM,2010:263–272.
[16]WeiW,YinZ,WeiB,logy-based
domainmodelingframeworkforknowledgeservicein
digitallibrary[J].AdvancesinIntelligentSystemsand
Computing,2014,278:373-383.
[17]庄越挺.开创数字图书馆新局面-CADAL项目主题
报告[EB/OL].[2010-04-01].https:///
index/meetingInformation.
[18]张寅.知识计算与智能服务前沿进展[EB/OL].[2021-
05-11].https:///index/meetingInformation.
[19]张晓林.从数字图书馆到E-Knowledge机制[J].中国
图书馆学报,2005,31(4):5-10.
作者简介金佳丽(通信作者,*************.cn),硕士,
浙江大学图书馆馆员,浙江大学信息资源
分析与应用研究中心研究人员;黄晨,研究
馆员,CADAL项目管理中心副主任,浙江
大学信息资源分析与应用研究中心主任,
浙江大学图书馆副馆长。
收稿日期2021-08-26
(责任编辑:史江蓉;英文编辑:杨继贤)
发布者:admin,转转请注明出处:http://www.yc00.com/news/1713201535a2202936.html
评论列表(0条)