Towards Automated Chinese Ancient Character Restoration

A Diffusion-Based Method with a New Dataset

李昊龙1 杜承豪 姜梓恒 张一凡 马嘉玮 叶晨

研究背景

拓本与手稿是中国文化遗产与历史信息的重要载体,广泛应用于艺术、考古、历史学及文化研究等领域。然而,古代汉字因长期暴露于自然环境中,受风化侵蚀、人为损坏等因素影响,面临严重的字符缺损问题。

现有方法的局限:

专家人工修复成本极高 通用掩码无法模拟真实腐蚀 现有数据集规模小、多样性低

论文动机

碑刻拓片在不同历史时期呈现出独特的自然侵蚀过程,这种随时间推移而逐渐发展的腐蚀模式为古文字修复提供了关键线索。理解并建模这种自然侵蚀的时空演化规律,是构建高效修复算法的重要前提。

不同时期的碑刻拓片呈现出自然侵蚀过程

不同时期的碑刻拓片呈现出自然侵蚀过程

论文主要创新

ARMCD:The Chinese Ancient Rubbing and Manuscript Character Dataset

15,553

真实古文字图像

42

权威拓本与手稿

200+

书法家作品

1600年

时间跨度(200–1800 AD)

  • 包含 15,093 张未腐蚀字符图像与 460 张真实腐蚀字符图像
  • 从真实腐蚀图像中提取局部侵蚀,提供专业合成掩码,超越现有通用矩形掩码策略

各朝代字符分布 (Dynasty Distribution)

Dynasty Character Examples

从晋代至清代,收录各朝代腐蚀与未腐蚀古汉字真实图像。

数据集分布 (Dataset Distribution)

ARMCD Dataset Distribution

ARMCD 各拓本与手稿的字符数量分布。

专业合成掩码示例 (Mask Examples)

Mask Examples

从真实腐蚀图像中提取局部侵蚀区域,生成专业合成掩码,精准模拟自然腐蚀分布。

拓本与手稿来源示例 (Examples of Source Materials)

Source Materials

原始采集材料与字符提取示例。

DiffACR:首个基于扩散模型的古文字修复框架

DiffACR 将侵蚀过程建模为一种特殊的"冷扩散(Cold Diffusion)"降级过程,通过从腐蚀图像中直接提取先验掩码(Prior Mask)引导修复,无需额外辅助信息。

Erosionfication

将未腐蚀图像逐步迭代退化为腐蚀图像的前向过程

Prior Mask 提取

直接从腐蚀字符图像中提取局部侵蚀先验掩码

Cold Diffusion 反转

以先验掩码为条件,逆向去除腐蚀实现字符修复

架构总览 (Overview of ARMCD and DiffACR)

Figure 3: Overview of proposed ARMCD and DiffACR

1数据集构建(ARMCD)

  • 从 42 份权威拓本与手稿中提取 15,553 张真实古文字图像
  • 从 460 张真实腐蚀图像中提取专业合成掩码,模拟真实侵蚀分布

2修复流程(DiffACR)

  • 前向:对未腐蚀字符执行 Erosionfication 构造训练对
  • 反向:以 Prior Mask 为条件引导网络逐步恢复原始字符

性能对比 (SOTA Comparison)

Method MAE ↓ PSNR ↑ SSIM ↑ FID ↓ LPIPS ↓
DNCNN 0.0873 21.04 0.9065 75.12 0.3925
Cycle-Dehaze 0.1025 16.97 0.8862 92.19 0.4215
VDN 0.0619 21.46 0.9457 64.65 0.3078
CIDG 0.0567 21.88 0.9271 49.96 0.2623
SCCGAN 0.0324 17.72 0.8976 36.59 0.1914
SGGAN 0.0308 19.92 0.9673 33.24 0.0842
IPT 0.0169 23.73 0.9727 22.68 0.0777
SwinIR 0.0195 24.08 0.9983 18.53 0.0483
CharFormer 0.0226 24.38 0.9886 15.44 0.0557
DiffACR (Ours) 0.0187 22.25 0.9988 12.87 0.0494

注:加粗表示在同类指标最优,下划线表示次优结果。

数据来源 (Data Collection)

233

宣示表(钟繇)

小楷,魏晋楷书走向成熟的代表作。点画遒劲朴茂,字形宽博扁方,吸取隶书波磔意趣,笔意厚实自然;真迹不传,存宋刻拓本,为历代小楷范本,深刻影响二王及后世诸家。

587

东方朔画像赞(颜真卿)

楷书碑刻,唐天宝十三年(754年)作。颜真卿早年楷书代表作,结体宽博开张,笔画清劲雄壮、峭拔有力,中锋运笔居多,筋骨之美已初显颜体宏阔气象。

167

麻姑仙坛记(颜真卿)

楷书碑刻,唐元和年间(约813年)刻成。笔法锋棱分明,中锋用笔,起笔圆劲、行笔方折;字形扁方挺拔,结体严密,全篇气韵凝练,刚劲中带含蓄,为颜体楷书的重要范本。

1037

自书告身帖(颜真卿)

楷书,颜真卿晚年代表作。笔画丰腴厚重,藏锋运笔,力透纸背;结体宽博舒展,外密中疏,气势沉雄劲健;以巧寓拙,章法大开大合,气魄恢宏,为颜体楷书的极致典范。

2479

灵飞经(传钟绍京)

小楷,传为唐代钟绍京所书。笔势圆劲起伏,字形精妙富变化,纵有行横无列,布局自然灵动;刚柔兼济,楷行相融,风姿秀媚沉着,为历代习小楷者必临经典。

234

教弟子言(柳公权)

楷书,创作于中晚唐时期。骨力遒劲、结构严谨,以“内紧外松”的结字特征完美诠释了“柳骨”清刚峻拔、法度森严的艺术神韵。

75

山堂诗帖(蔡襄)

行书,北宋熙宁九年(1066年)作。师法晋人,兼资虞世南、颜真卿,点画含蓄、折转流畅,布字疏密有致,风骨秀逸,天真烂漫,为蔡襄存世稀珍之作。

68

归去来辞(苏轼)

楷书带行意。字形方正宽博,提按分明,方圆兼备;中宫略收,外阔内敛,气韵旷达率真,雄浑拙朴,为苏轼元祐年间存世稀珍之作。

391

醉翁亭记(苏轼)

楷书带行意,欧阳修撰文,苏轼手书。字形方正宽博,提按方圆兼备;中宫略收,外阔内敛,气韵旷达率真;碑刻刀痕增添苍劲厚重之感,文学与书法双峰并峙,堪称珍品。

40

寒山子庞居士诗帖(黄庭坚)

行书,又称《明叔同年帖》,黄庭坚绍圣年间所书。笔势沉稳而不失奔放,提按顿挫富有节奏,体现其行书中宫收紧、四周开张的典型风格特征。

105

松风阁诗帖(黄庭坚)

行书,崇宁元年(1102年)作。长波大撇、一波三折,中宫收紧四周开张,"荡桨笔法"舒展稳健,章法行间开阔字间紧凑,风神洒荡,现藏台北故宫博物院。

228

砥柱铭(黄庭坚)

行书长卷。凝练有力,提按分明,出锋爽利,折笔棱角分明;结体侧紧,行列紧凑,俊逸中含劲健,书卷气与金石气并存。

28

蔡行敕(宋徽宗)

行书。运笔飘逸灵动,如飘藤荡柳,布白疏朗,笔划纤细遒劲,融合宋徽宗赵佶瘦金体笔意,墨韵流畅自然,呈现"瘦而劲,秀而润"的艺术特征,现藏于辽宁博物馆。

31

秾芳诗帖(宋徽宗)

瘦金体楷书。宋徽宗赵佶以细劲挺拔的瘦金体书写,横竖笔画末端锐利顿挫,撇捺修长,字体清秀而劲挺,为其瘦金体最具代表性的大字作品之一。

2409

淳化阁帖(安思远本·关中本·肃府本·港中大本)

摹刻于北宋淳化三年(992),汇集篆、隶、楷、行、草五体,收先秦至隋唐134位书家300余件作品,中国最早大型丛帖。双钩摹勒刻石,保留笔锋浓淡枯润之微妙变化,为后世临帖传刻之典范。

191

双松图歌(张即之)

行楷大字手卷,南宋宝祐五年(1257年)书。此卷擘窠大字,神完气足,劲健雄肆,又时见险怪之态。张即之书宗唐人,结体严谨,笔法险劲,对当时书坛影响很大,北方金人亦多效其体。现藏北京故宫博物院。

562

玄妙观重修三门记(赵孟頫)

楷书兼行草笔意,元大德三年(1299)赵孟頫到苏州任职后所作。此书结字方正,左右、上下之间的呼应紧密,字形大小因其自然而由之,布白在匀称之中却又能够表现虚实之间的和谐相处。现藏于日本东京国立博物馆。

600

闲居赋(赵孟頫)

行书为主,夹带少量草意。以中锋运笔,提按分明,线条圆润挺拔;结体方正疏朗,追摹二王温润流畅,兼具颜体骨力;整体神态闲雅,笔意古朴含蓄,现藏北京故宫博物院。

275

秋兴赋(赵孟頫)

行书。笔法圆润而挺拔,中锋运笔,线条圆转含蓄;结体方正开阔,字间留白疏密有致;整体风格典雅温润,气韵宁静超逸,现藏上海博物馆。

497

玄妙观重修三门记(赵孟頫)

楷书兼行草笔意。笔法圆熟精到,中锋行笔为主,线条婀娜爽健、遒劲挺拔。融李邕之雄健、二王之秀逸,结体宽博舒展,章法疏朗严整,墨色浓淡有致,笔意流畅自然,现藏日本东京国立博物馆。

657

湖州妙严寺记(赵孟頫)

行楷。以铺毫行笔为主,兼取北碑厚重感;起收自如,浓淡枯润对比强烈;字形端庄动势兼具,章法疏密呼应,体现赵孟頫"赵体"楷行融通的高度造诣,现藏美国普林斯顿大学艺术博物馆。

769

杭州福神观记(赵孟頫)

楷书,赵孟頫晚年极成熟之作。笔法沉稳遒劲,结体端庄有度,兼融行草笔意,中锋行笔自如,布局疏密和谐,体现"人书俱老"之境,今碑已佚,墨迹现藏故宫博物院。

850

帝师胆巴碑(赵孟頫)

赵孟頫晚年楷书登峰造极之作,楷书中带有行书体态,于规整庄重中见潇洒超逸,达到了"精奥神化"之境界。

707

洛神赋(赵孟頫)

行书兼楷意。以中锋运笔为主,线条圆润挺拔,顿挫分明;字形略呈扁方,间架疏密得当;兼收二王韵致,含蓄典雅,拙中寓巧,恬淡自如,气息行云流水。

448

崑山州淮云院记(赵孟頫)

楷书,赵孟頫成熟期代表作。融合隋唐笔意,线条刚劲圆润;结体端正稳重,疏密有致,于严整中见灵动,是唐代之后楷书中兴的重要见证。

115

东铭册(姜立纲)

楷书,明代台阁体代表作。姜立纲楷书笔画浑厚清朗,横平竖直,方正端庄;结体匀称,布局严整,整体风格工稳平和,以"台阁体"享誉明代天顺至弘治年间书坛。

53

阿房宫赋(文徵明)

行书,时年八十一岁。点画清丽爽利,提按顿挫变化微妙,结体宽展匀称而富有姿态。章法疏朗自然,行间气脉贯通,墨色浓淡相宜,整体气韵温润典雅,展现文徵明晚年"人书俱老"的艺术境界,为明代吴门书派的典范之作。

74

孙逖诗(朱耷)

行草书。清初画坛“四僧”之一,号八大山人。用笔简洁凝练,线条圆润而内含骨力,结体奇崛夸张,收放自如,空灵超逸,意境深邃。

512

南唐四百九十六字(赵之谦)

楷书。清末书家赵之谦在同治年间所书,金石气息浓厚,融篆隶笔意于楷法之中,笔画枯润相兼、起收稳健,刚柔并济,为晚清碑学与帖学结合的典范。

671

出师表(长炗)

楷书,明治十七年(1884年)日本书家长炗所书。融合颜真卿宽博厚重与柳公权刚劲挺拔两家楷法,结体端正劲健,笔画沉稳遒逸,现藏日本早稻田大学。

10

黄庭经(王羲之)

小楷,东晋永和十二年(356年)作,笔法精微严谨,行笔稳健流畅,收笔含蓄内敛。结体宽博疏朗,兼具隶书古朴意趣与楷书法度。

100

中岳嵩高灵庙碑

隶楷过渡体,北魏太延年间(435—440年)刻制。方笔为主,兼用圆笔,横画多见隶书燕尾,捺画逆锋一波三折;笔力沉劲,结字古拙浑厚,雄健峻拔,被誉为"隶楷变体源流的重要实物"。

30

石婉墓志

碑刻正书(魏碑),北魏永平元年(508年)刻制。笔力雄健,横画宽细相间,竖画劲挺,常带点磔之势;结体方整略有张散,古朴生动,骨力遒劲;刀法与笔意兼备,为北魏墓志碑刻精品。

64

孔子庙堂碑(虞世南)

楷书碑刻,初唐书法典范。以圆笔为主,笔锋饱满润泽;"外柔内刚",起收含蓄温润而内藏劲道;字形稍长挺拔,"疏可走马,密不透风",体现虞世南"君子藏器"的书法理念,为初唐楷书极则。

45

放生池碑(颜真卿)

楷书。该碑延续了方严正大,朴拙雄浑,大气磅礴的“颜体”特色,点画更为精到,以正面示人,略显清秀,极具个性。

50

颜勤礼碑(颜真卿)

楷书,唐大历十四年(779年)作,现藏西安碑林。横细竖粗,藏锋护尾,方圆兼用;"外紧内松",字中宫开阔,整体博大而不散;笔势起伏丰富,浑厚劲健,为颜体楷书艺术的集大成之作。

30

玄秘塔碑(柳公权)

楷书,唐会昌元年(841年)作。横轻竖重,撇尖锐而捺粗重,中宫紧凑四周外张;结构严谨富变化,骨力筋健,线条挺拔,章法凝炼,是柳公权楷书成熟期最高水平的代表,为历代学"柳体"正宗范本。

54

淳化阁帖(安思远本·关中本·肃府本·港中大本)

摹刻于北宋淳化三年(992),汇集篆、隶、楷、行、草五体,共十卷,收先秦至隋唐逾千年书家墨迹。双钩摹勒刻石,既有帝王端庄稳健,又有二王行草纵逸,为中国最早大型丛帖,奠定法帖传刻之典范。

17

九歌(李倜)

行书,元代与赵孟頫齐名的书家。笔法直溯魏晋,深得二王精髓,点画精到,结字舒展,气息古朴典雅。纸本有虫蛀。

60

三希堂法帖

清乾隆十二年(1747年)宫廷刻制,收魏晋至明末134位书家300余件作品,五体俱备。刀法精细,线条浑厚富石质感;章法兼顾行草的行云流水与楷书的方折刚健,为清代宫廷摹刻书法巨制。