数字化图书馆让知识数字化地栖居
人类正在建造一个高度数字化的社会,现代技术的发展正在对人类信息组织、知识传播、学习方式等各个方面进行着革命性的冲击;互联网的迅猛发展,大大缩短了现实世界的时空距离,加速了全球信息一体化的进程。互联网成为人类学习、交流的重要途径。但是网上信息传播的无序又为准确获取信息制造了重重障碍。当人类面临在信息世界里迷失的危险时,数字图书馆应运而生了,于是知识换了一个方式存在着……
数字化图书馆技术篇:多快好省
数字图书馆与传统图书馆的区别有很多,最简单的一点就是,传统图书馆所收藏的图书、期刊、报纸等资源都是原子形式的,而数字图书馆所保存的都是比特的形式。虽然,现在电子出版物越来越多,然而大多数的出版社推出的书籍依然是以印刷品的形式出现的。
因此,就目前而言,数字图书馆资源建设主要内容仍然是将印刷版资料数字化。当今社会是一个信息爆炸增长的时代,每天的报刊、杂志、图书和电视等各种传媒所传送的信息是海量的,如何对所需信息快速查阅成为信息时代急需解决的头等大事。对于数字图书馆而言,其首要解决的技术就是如何将所有的信息、资料、重要参考文献的各种信息载体如文字、声音、视频和图像等快速准确地进行数字化
如何将原子转化为比特,一般有两种方法:一是简单的图像扫描方式,优点是生产成本低、可以保留原始版面,但却缺乏数字化信息最重要的检索功能,且空间占用大,显示效果较差,而且不能从版面上摘录文字;一是传统的录校排方式,优点是空间小,能实现文本摘录和全文检索,缺点是只有文本信息,不能保留原印刷版的全部完整信息,如公式、图表、版式等,而且这种方法生产成本高,错误率高,根本形不成规模化生产能力。
以上两种手段无论是制作技术还是使用效果都远远落后于信息时代的发展需求。如何将上述两种方式的优点结合起来,又能实现工业化的规模作业,是数字图书馆建设中的一个非常关键性的技术问题。
为此,书生科技公司开发了全息数字化技术,它的出现使数字图书馆的建设在技术上发生了质的飞跃和突破。采用该技术制作的全息电子出版物能完整保留原出版物的全部信息,包括全部文字信息和全部版面信息,同时支持全文检索等多种检索方式,制作过程所需人工工作量也不多。
那么,"全息"两个字的含义究竟是什么呢?首先,顾名思义,全息的含义就是全部的信息,经过处理的产品能够反映印刷版出版物的所有信息,不仅包括文字内容,而且还包括版式版面信息及色彩等。就如同照相那样,原汁原味地反映印刷版出版物的本来面目。而要完整地展现印刷版出版物的全部信息,主要有两种方式,一是以文本为主要展示方式,适用于那些公式、图表、图像比例较低的出版物;一是以扫描图像为主要展示方式,主要适用于那些公式、图表、图像所占比例较高的出版物,例如统计学、书法等图书。
全息第二个含义就是能够对处理后的产品进行摘录编辑和打印。通过文本排版实现全息化的产品可以直接通过文本摘录对所选内容进行编辑和打印,而通过图像方式实现全息化的产品其文字部分可以通过图像摘录OCR识别后进行摘录、编辑和打印。