从羊皮卷到数字图书馆

发布时间:2010-11-03来源:浙江日报


    说到读书这个事儿,当代人有充足的理由来忆苦思甜一番。想当年,全世界最伟大的图书馆,始建于公元前3世纪的亚历山大图书馆,总共藏书约5.4万卷(一说50万卷左右)。这5.4万卷书来得可不简单,其收集的过程历时数百年。历代埃及国王怀着“收集全世界的书”,实现“世界知识总汇”的梦想,前赴后继地采取包括征用、抢夺、欺骗等在内的一切手段,才实现了这一宏伟的目标。其中一个有名的传说是托勒密三世从雅典档案馆借出所有的手稿原本,并仿造了大量的副本归还给希腊,而真迹原件却被送往了亚历山大图书馆。与收集的难度相对应,保管和使用这些以羊皮卷为主的书籍也是非常艰难的任务,只有最杰出的学者如欧几里德、阿基米德等才被允许在图书馆中工作及生活。
    
    
今天,以我们熟悉的浙江图书馆为例,藏书总量达到421万册,中国最大的实体图书馆——中国国家图书馆,其藏书量更达到惊人的2500多万册。不过和全球最大图书馆——美国国会图书馆相比,前两者就不算什么了,后者的藏书量是2.1亿册。所谓的知识爆炸、信息爆炸,由此可见一斑。
    
    
但是读书人的愿望总是没有止境的。图书馆再大再好,用起来最好还是能够方便一点。笔者的一位学历史的朋友,写毕业论文的时候为了查阅相关古籍原档,一路从北京南下,历济南、南京、上海、苏州等名城,直到杭州文澜阁,前后数月遍访十余家图书馆,终于基本找齐了所需材料。朋友感慨说:这样的浪漫长征,一次就足够了。想要的书没有、藏书太分散、借阅太麻烦、检索不方便、甚至是借了书还要还等等,导致了传统图书馆向“分布式数字化多媒体”图书馆的演化成了一种必然的选择。本文介绍的“大学数字图书馆国际合作计划(CADAL)”项目及其技术就与此有关。
    
    
这一项目是中美两国学者共同发起的,旨在建设面向教育和科研的包含100万册图书的数字图书馆,其中中英文书籍各50万册(这是一期的目标,二期又增加了150万册)。本项目在国内第一期由浙江大学和中国科学院研究生院联合牵头(第二期由浙江大学牵头),北京大学等16家高校参与建设和运行管理。项目指导委员会中方负责人为潘云鹤教授,美方负责人为Raj Reddy教授。截至2006年7月,已经完成了102万册图书的数字化。中文书籍中以中文古籍与民国书刊最为珍贵,而且由于这些书籍没有版权问题,目前已经对社会开放。
    
    
从技术上讲,本项目有哪些创新之处呢?主要有3方面的新技术被运用到这一数字图书馆平台上。一是本平台不仅能检索书籍,也能检索多媒体资料。书籍的检索不稀奇,多媒体资料的检索则是计算机图形图像方面一种最新的技术。比如你电脑中有一段姜文和徐帆的电影视频片段,你不确定它是哪部影片,那么你就可以将这段视频上传到检索系统中,系统就会给你答案,原来是《唐山大地震》。系统具体的做法比较复杂,简单地说是通过提取视频的特征,并和图书馆中所存原始视频的特征进行对比而实现的。二是提出了一种基于网格查询的高效检索技术。这种技术可以理解为读者进行查询的时候,数台服务器同时为其工作,从而达到高效检索的目的。三是针对数字图书馆的中国书法资源,提出并实现了根据形状相似性进行书法字检索的技术,创建了基于样例、手写体、键盘文本输入等多种方式的书法字内容检索平台,实现了书法字书写过程再现、基于综合推理方法的新风格书法字生成、以及基于真迹模型的计算机辅助书法作品真伪鉴别系统。比方说你手里有一幅标明为张大千的字画,就可以自行扫描,并将图片上传到数据库中,数据库将会帮助你判断这幅字画是否是大师的真迹。这里面用到了大量人工智能的方法和技术,也是现代技术对传统文化的一种巨大贡献。
    
    
最后一点,这是一个教育性公益性的图书馆。对于那些不存在知识产权争议的作品,是面向所有公众开放的。在不远的未来,一台能上网的电脑就能帮助读书人遨游真正的知识海洋。从羊皮卷到数字化多媒体技术,尽管图书馆的形式不断演化,但是实质始终未变,那就是:知识是属于整个人类的。
    
    (2010-11-03)