荀子有云:“君子生非异也,善假于物也。” 如今,互联网与数据库技术的迅猛发展,为文史研究领域带来了全新的变革。文史研究正日益借助数据库的力量,并显现出从传统数据库向知识库转变的显著趋势。以下将介绍目前中国文史研究中不可或缺的古籍目录 / 全文数据库,它们各具特色与优势,相互配合,共同推动着学术研究的进步。从使用者的角度而言,衡量古籍库的关键因素主要包括大容量、准确性、便利性和整合性。同时,数据库的开发者们也仍在持续不断地对现有数据库进行拓展与完善。
一、古籍目录数据库
古籍目录数据库是利用计算机技术对古籍进行编目,这是古籍整理工作的基础。在建设古籍目录数据库的过程中,需要结合作品的外部信息,如作者、版本、出版年代等,以便读者能够更加便捷地进行检索和利用。同时,还需对图书目录的内容进行精心的选择与编排,以保持与其他古籍数据库形式上的一致性。
古籍目录数据库涵盖了广泛的信息资源,包括综合性、地方性以及专题文献等多个维度。通过诸如 “全国古籍普查登记基本数据库”“中华古籍书目数据库”(其中包含《中国古籍总目》《中国古籍善本总目》)以及 “中国历代典籍总目” 等标志性项目,充分彰显了数据资源的深度与广度。这些资源凭借其丰富的文献集合、便捷的检索机制、严谨的分类体系、持续的内容更新以及开放的资源共享政策,极大地提升了古籍文献的可获取性,显著提高了学术研究的效率。
现阶段古籍书目数据库的建设成果主要集中于公共图书馆和少数商业机构,重要的目录数据库如下:
数据库名 | 所属单位 | 数量(万条) |
全国古籍普查登记基本数据库 | 国家图书馆·国家古籍保护中心 | 94 |
中国历代典籍总目 | 国家图书馆、北京大学 | 240 |
“学苑汲古”高校古文献资源库 | 北京大学图书馆等 | 60 |
中华古籍书目数据库 | 古联(北京)数字传媒科技有限公司 | 90 |
中文古籍联合目录及循证平台 | 上海图书馆 | 60 |
国家珍贵古籍名录数据库 | 国家图书馆·国家古籍保护中心 | 1.3 |
中文古籍书目数据库 | 台湾图书馆 | 84 |
中国古籍影印丛书查询系统 | 国家图书馆出版社 | 7 |
在具体功能方面,古籍目录数据库提供了丰富多样的检索方式,以满足不同使用场景的需求。这些检索方式包括目录的全文通检、分字段检索以及高级检索等,各自具有独特的优势。然而,它们也存在一定的局限性。例如,全文通检的结果往往是简单的堆叠,缺乏深度的筛选与整合;分类检索和高级检索在覆盖范围上可能受到一定限制;知识化检索则可能因知识体系的复杂性而存在模糊性。尽管如此,通过综合运用这些检索工具,学者们可以根据具体的研究需求和情况,灵活选择最合适的检索方式,从而实现高效且精准的文献查找。
对于古籍书目资源的使用者而言,他们通常重点关注以下四个方面:首先,馆藏资源目录,这对于学者查找和使用古籍至关重要;其次,古代各类公、私、专科目录,这些目录有助于查询书籍的流传情况以及某一时期的分类状况;再次,现代出版目录,方便用户利用各类出版物;最后,推荐目录,为学习和治学方法提供指导。古籍目录类数据库需要解决这四个问题,而在数据库的实际利用中,前三个方面尤为重要。
“学苑汲古” 高校古文献资源库有效解决了高校间的古籍文献查询与互借问题;“全国古籍普查登记基本数据库” 基于古籍普查成果,拓宽了馆藏资源的查询范围;“影印古籍丛书查询系统” 解决了已出版影印书的查询问题;“中华古籍书目数据库” 涉及以上前三个问题,但尚未能彻底综合解决。
古籍目录数据库通过其多元化的类型与功能设计,不断实现资源的整合。这不仅在保护与传承文化遗产方面发挥着核心作用,还极大地便利了学术界对古籍文献的探索与应用。然而,相较于古籍文本内容,大多数数据库用户机构对古籍书目的重视程度仍然不足,导致数据库的利用相对有限。总体而言,研究者对古籍书目查询已经有了一定的解决方案,但这些方案仍有待进一步完善,以更好地满足学术研究和文化传承的需求。
二、古籍全文检索数据库
古籍全文检索数据库是汇集了大量古籍文献全文的数字化平台,借助文本识别、信息检索等先进技术,帮助用户在海量的古籍文献中迅速且精准地定位到所需的具体内容。这类数据库通常具备关键词检索、全文检索以及高级检索等多种功能,为研究人员和爱好者提供了高效便捷的文献查询途径,满足学术研究或个人兴趣的需求。
识典古籍
“识典古籍”是北京抖音信息服务有限公司开发和运营的古籍智能检索、阅读和整理平台。为促进中华古籍资源在网络环境下的利用与传播,抖音集团于2022年3月向北京大学教育基金会捐赠,支持古籍的数字化与智能化开发与利用。双方以“北京大学-字节跳动数字人文开放实验室”为合作平台,由北京大学数字人文研究中心提供设计指导和提供古籍图文数据。双方致力于向公众提供免费的古籍数字化平台,向社会开放访问。北京大学数字人文研究中心从多种渠道采集古籍书影和相关数据资料,并组织人员对古籍书影、文本、结构、标点、专有名词等展开整理和校对工作,北京大学提供的相关古籍图文数据版权归北京大学所有;同时进行学术宣传和推广活动。


传统的古籍数据库专指按照数据结构来组织、存储和管理数据的仓库。大容量才能满足尽可能多的数据需求。下图以三大古籍库为例,截止2023年初,“中国基本古籍库”已升级到V8.0版,“中华经典古籍库”也以每年一次的扩展速度更新到第10期,“鼎秀古籍全文检索平台”已升级到2.0版,名为“文心阁古籍数据库”,在原“鼎秀古籍全文检索平台”21,000种古籍基础上又增加了10,305种,古籍总数为31,305种,仍以数据扩展速度和超大容量保持绝对领先优势。但据《中国古籍总目》(中国古籍总目编纂委员会编,中华书局2012年出版)所著录的现存20万种中国古籍的总量来看,古籍数据库还有很大的提升空间。


中华经典古籍库
依托中华书局创办的“籍合网”平台,以中华书局等16家专业出版社古籍图书为核心数据,同时借助“籍合网”平台组成以“中华经典古籍库”为核心的数据集群。这些数据库中的绝大部分都是由“籍合网”提供平台和技术、由专家提供相关数据合作而完成的。
中国基本古籍库
依托北京爱如生数字化技术研究中心,采用古籍数字化再造技术,对不同时代、不同尺寸、不同版式、不同字体的各类古籍刻本、抄本、写本、稿本和批校本进行数字化处理,制成既保持原貌,又可以进行检索和编辑的数字文本,使其以数据库的形式,再现于计算机和网络。已取得《中国方志库》初集二集、《中国谱牒库》初集二集、《中国金石库》初集、《中国丛书库》初集、《中国类书库》初集、《中国辞书库》、《儒学经典库》初集、《道教经典库》初集、《中国俗文库》初集、《历代别集库》四集、《敦煌文献库》初集等阶段性成果。 二、基本古籍数字定本工程 此工程于2009年启动,其目标是达成足堪信赖并可以直接引用的数字善本。工程分2个部分进行,第一个部分是对一千种核心古籍(如十三经 、二十四史、先秦诸子 、历代名家集)的数字文本精审细校,实现零错误率,确保其可以直接引用;第2个部分是对九千种基本古籍(各学科基本文献)的数字文本逐字勘改,实现万分之一以下的错误率,确保其符合或好于国家标准。
鼎秀古籍全文检索平台
是一款实现全文检索的古籍典藏数据库,收藏国内外各古籍文献收藏单位和个人文献收藏者的古籍文献资源。 1、收录范围涉及广:广泛收录中国大陆及港澳台地区公共机构、私人藏家、研究机构及博物馆所藏历代古籍资源,特色古籍采录海外所藏中国古籍,尤以日本、韩国数量最多。 2、收录时间跨度长:收录从先秦至民国撰写并经写抄、刻印、排印、影印的历朝历代汉文古籍。 3、收录版本涵盖全:版本包含稿抄本、刻本、石印本、铅印本、活字本等均有收录。在版本选择时,尤以同类版本中保存良好的为先,要求书籍品相好,避免虫蛀、漫漶情况。 4、收录分类设置专:著录规则分类标准沿用“经、史、子、集”传统分类的基础上增设丛书部。 5、收录内容数量大:收录海量古籍文献。是全文检索古籍库中数量最为庞大的。
相较而言,“中国基本古籍库”与“鼎秀古籍全文检索平台”偏于资料性,在规模效应上具有较大优势;而“中华经典古籍库”偏于研究性,在合作与创新上具有较大优势。
准确性是古籍库的另一要件。“中华经典古籍库”的准确性最高。“中华经典古籍库”所收录数据资源为中华书局、凤凰出版社、华东师范大学出版社、上海书店出版社、上海书画出版社、浙江古籍出版社、浙江人民美术出版社、西泠印社出版社、天津古籍出版社、齐鲁书社、三晋出版社、巴蜀书社、辽海出版社、三秦出版社、岳麓书社、大象出版社等多家专业出版社已出版的古籍整理本,其纸本图书在教学和科研中已被广泛征引,学术性已得到学界普遍认可。“中华经典古籍库”以这些古籍整理图书为原始文本,利用计算机技术进行了精准的数字化编辑工作,对每一个标准字符集外的古籍用字都一一处理,并修改了原书中的一些错误,因此其数据质量相较纸版图书更优,且该数据库提供原版图书图片与数据库文字予以全面对照,页码一一对应,研究者可以放心地复制、引用相关文献,极大地节省了研究者录入、复核文献时所耗费的精力和时间,而可将主要精力放在文本研究上。


“中国基本古籍库”和“鼎秀古籍全文检索平台”二者性质较类似,所收数据均为先秦至民国的各类古籍文献的影印本图片及OCR数据。因为影印本的漫漶、模糊、缺损、页面误排等,尽管OCR数据经过了初步的人工核对,但其数据的准确性仍亟待提高,仍需要使用者与影印本图片仔细核对才能放心使用。同时,研究者除了仔细复核OCR数据外,还要进行自行断句、标点。因此,使用这种未经仔细校勘、整理的古籍OCR数据,既要求使用者要足够细心,又要求使用者有足够的小学句读能力。综合来看,与“中华经典古籍库”相比,“中国基本古籍库”和“鼎秀古籍全文检索平台”的数据在准确性和便利性上都存在较大的不足和差距。这也是“中华经典古籍库”后来居上,被众多研究者青睐的重要原因。
在特色功能方面,“中华经典古籍库”的引用功能极其便利,可以同时生成引用文献及引用格式(包括作者、书名、卷次、出版社、出版时间、页码等详细信息),这对于研究者来说极为便利实用。同时,“中华经典古籍库”还有读者反馈和在线客服,提供了便利的反馈渠道,便于使用者及时咨询,也便于数据库开发方及时发现问题。
在拓展功能方面,“中华经典古籍库”所在的“籍合网”平台还有纪年换算、自动标点、文字识别等工具。这些功能非常实用,进一步增加了数据库使用的便利性,也无疑提升了用户体验。以自动标点为例,“籍合网”的“自动标点”的准确率可达97%以上,研究者只需将主要精力放在个别错误标注处的修正上即可。“自动标点”已成为古籍整理者的得力助手,“自动标点的初加工+专家的仔细审核把关”将成为古籍整理的一种新通行方式。此外,“中华经典古籍库”中还有一种强大的拓展功能,即其古籍图书资源均已经研究者权威、深度整理,其标点、断句、分段、注、疏、眉批、专名、注释、系年、考证等研究成果可以直接促进中国古代文史教学与研究,可供师生借鉴、整理、汇总以往的古籍整理成果,展开进一步的科研工作。
全國古籍普查登記基本數據庫
全國古籍普查登記工作是“中華古籍保護計劃”的首要任務,中心任務是通過每部古籍的身份證——“古籍普查登記編號”和相關信息,建立古籍總台賬,全面瞭解全國古籍的存藏情況。“全國古籍普查登記基本數據庫”發佈的內容主要包括普查編號、索書號、題名、著者、版本、册數、館藏單位等信息。系統支持用戶按照題名、著者、版本、收藏單位、普查編號、索書號等字段進行簡單檢索(單一字段檢索)或高級檢索(組合字段檢索),支持繁簡共檢,檢索結果可按照普查編號和題名進行排序,同時可按照單位進行導航。國家古籍保護中心將根據普查工作進展,陸續發佈古籍普查數據。
书同文古籍数据库
北京书同文数字化技术有限公司成立于2000年,前身是《文渊阁四库全书》电子版工程中心,专注于中国经典古籍善本、历史文献档案的数字化以及汉字信息技术处理的应用研发、生产和销售。
尚古汇典
由上海古籍出版社研发运营的古籍数字化综合服务平台。以上海古籍出版社的古籍为主,同时收录上海世纪出版集团内、外相关出版机构的资源。包括上海辞书出版社、中西书局等出版机构。收录的资源涵盖经、史、子、集各部,包含“中国古典文学丛书”、“中国近代文学丛书”、“十三经注疏”、“清诗话”、“中国历代书目题跋丛书”、 “商周青铜器铭文暨图像集成”、历代大家全集、地方文献等经典系列,资源保留了图书的前言、注释、校勘等整理成果,数据准确,内容权威。已上线资源第一期共3亿字1170 种;第二期共2亿字507 种;第三期共3亿字1300余种。第四期共2亿字500余种,余2024年初上线。
瀚堂典藏數據庫
北京時代瀚堂科技有限公司是一家位於海淀上地北京留學人員海淀創業園區內的高科技公司,由在北美的留學人員回國創立。公司融合國內和北美地區先進的中英文資訊提取和中英文全文庫技術,包括自然中文處理、檢索引擎、知識管理、資料發現和檔案加密等先進技術,專注于中英文資料庫產品的引進和開發建設,及其在書刊出版、數據服務和檔案管理等行業的應用。依靠領先的技術、豐富的產品內容、優秀的本地化服務,獲得了廣大用戶的好評。
汉典重光
“汉典重光”项目由阿里巴巴公益基金会、四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆合作开展,旨在寻觅流散海外的中国古籍并将其数字化、公共化,通过古籍与先贤对话,与优秀传统文化对话。2019年,阿里巴巴和四川大学提出“数字化回归”设想,获得中文藏书量排名全美第三的加州大学伯克利分校支持并达成共识,将伯克利东亚图书馆的中文古籍善本逐步数字化。
汉籍数字图书馆
《汉籍数字图书馆》是陕西师范大学出版总社开发制作的大型汉字古籍数据库产品,由多位文、史、哲及技术专家历时十多年精心打造的正规网络出版物。于2010年正式出版发行,2016年9月最新成果“汉籍”2.0版全新上线,新版以服务读者古籍研究学习为核心理念,调整了核心数据库结构,优化了古籍目录与图版资源的组织架构,平台功能更加贴近读者需求,资源覆盖面大幅提升。

中国历代墓志数据库
“中国历代墓志数据库”是浙江大学图书馆古籍碑帖研究与保护中心制作的数据库。数据库主要收入历代墓志为主的拓片资源。“中国历代墓志数据库”现有各种墓志、拓片数据6800余条。所收资源包括两大部分内容:
一、浙江大学图书馆馆藏拓片。浙江大学图书馆现收藏有民国拓片300余种1500张左右,近三年新购墓志拓片3800余种近5000张。以上拓片已录入数据库300余种,其余拓片正在陆续加入数据库中。
二、公开发表的历代墓志资料。对于已经公开发表的墓志资料,通过扫描识别等方法,将已经公开发表的墓志资料的全文和图像录入数据库中,以提供全文检索。
现已经录入数据库的有《隋代墓志铭汇考》、《唐代墓志汇编》(正、续)等数据资料6300余条。对于部分只有文字资料的公开发表资料,如《唐代墓志汇编》,碑帖中心通过人工比对,利用《隋唐五代墓志汇编》、《千唐志斋藏志》、《北京图书馆藏中国历代石刻拓本汇编》等墓志图像工具书,补足图像,共补图像约3000余张,完善了墓志数据的内容。

中华碑刻典藏与汉字研究平台
中华碑刻典藏与汉字研究平台是北师大汉字实验室在民俗典籍文字研究中心研发的“近代碑刻数字化研究平台”的基础上继续打造的。改版后的平台除继承原平台对近代碑刻资源(宋元明清)及字形的搜集、整理、加工、保存、检索等功能外,对释文进一步补充、校对,对字形重新切分、整理;相较于原平台,现有字形可准确定位到其来源拓片,方便用户回溯,这是此次改版的一大亮点。本次改版的另一亮点是,增加了北师大图书馆的特藏碑刻拓片,资源更加丰富、多样。另外,平台的交互界面也做了全新设计,功能更清晰,使用更方便,界面更友好。

CBETA 漢文大藏經
中華電子佛典協會 (Chinese Buddhist Electronic Text Association 簡稱 CBETA) 由「北美印順導師基金會」、「菩提文教基金會」與「中華佛學研究所」於1998 年 2 月 15 日贊助成立。其目的為免費提供電子佛典資料庫以供各界作非營利性使用。2001年2月由「西蓮教育基金會」繼續協助此案的進行。CBETA 電子佛典集成以《大正藏》T01-55 & T85 為基礎,秉持「重複不錄」原則,針對《大正藏》以外現有各大藏經進行篩選,並汲取近代佛學研究整理成果,以建構一個完整的佛教漢文數位典藏。