甲骨文信息处理技术发展史

从拓片临摹到多模态大模型 · 1899—2026

四大范式演变

1899 – 1990
🖋️ 传统专家主导

人工释读、拓印临摹、分期断代。郭沫若、罗振玉等建立五期断代法·两系说。

隐性知识难传递
1990 – 2012
💻 计算机辅助图像

直方图均衡、SIFT/HOG特征、轮廓匹配。语义鸿沟明显,对噪声敏感。

几何图案匹配
2012 – 2022
🧠 深度表示学习

Faster R-CNN, YOLO, ResNet, GAN增强。零样本识别兴起,长尾分布仍是挑战。

数据驱动CNN
2022 – 至今
🌐 大多模态模型

GPT-4V, OracleSage, OracleAgent。跨模态释读与视觉-语言对齐推理。[14]

LMM+智能体

📜 每个阶段对应数据形态:实物拓片 → 数字化扫描 → 任务导向标签数据集 → 多模态细粒度语义标注。

36个数据集 · 按任务分类

任务数据集年份类型样本数类别数关键特性
识别YinQiWenYuan_detection [2]2020拓片9,823-边界框检测
OracleBone-80002020拓片128,770-大规模拓片识别
ACCID [3]2023手写15,0852,892部首级标注,零样本
O2BR2025原始骨片800-高分辨率原始图像
拼接OB-Rejoin [4]2022拓片998249碎片边缘对应
COBD2023拓片960-二分类缀合验证
OBI-rejoin2025混合483200原始骨与拓片混合
OBFI2025原始骨片5,374110高分辨率骨片缀合
分类检索OBC306 [5]2019拓片309,551306大规模长尾分布
HWOBC [6]2020手写83,2453,881手写体大规模
Oracle-MNIST [7]2024拓片30,22210均匀分布基准
OBI component 202024手写10,25720部件级检索
OracleRC2023拓片2,005202部首原型检索
释读EVOBC [8]2024混合229,17013,714六阶段字形演变
HUST-OBC [9]2024手写140,05310,999现代汉字对齐
ACCP2024混合346,34488,901细粒度部首拆解
PictOBI-20k2025手写15,17580象形字视觉释读
新兴OBIMD [10]2024混合10,077-多模态:框+组+阅读顺序
Oracle-P15k [11]2025混合14,542239结构对齐生成/去噪
RMOBS2025手写>20,000900部首边界框+语义概念

📊 总计36个数据集 识别4个 拼接4个 分类检索19个 释读8个 新兴4个

核心任务与技术方法

识别与检测 [12]

Faster R-CNN, YOLOv5/v8, 对比学习解耦噪声。多标签注释提升精度。

YOLO系列SSD

碎片拼接 [13]

轮廓匹配(链码)+Siamese网络验证纹理连续性。SFF-Siam, S3-Net。

边缘CNN验证

分类与检索 [14]

零样本学习(OracleGCD)、自监督对比(OBI-CMF)、跨模态STSN网络。

广义类别发现

释读与生成 [15]

扩散模型演化现代汉字、视觉问答(V-Oracle)、OracleSage图结构推理。

思维链推理

关键挑战与局限

  • 🔒 数据源壁垒:3D扫描/高清照片被机构垄断,缺乏开源标准化。
  • 📉 长尾分布:大量未释读罕见字样本极少,模型易过拟合。
  • 🌀 异构数据表示:原始骨、拓片、手摹多形态难以统一建模。
  • 🌫️ 噪声鲁棒性:骨裂、斑点、伪影与真实笔画混淆。
  • 📏 评估指标不足:缺乏统一的拼接/释读指标,人工评估协议缺失。
  • 🧩 语义鸿沟:早期方法仅视字符为几何图案,忽略语境。

未来研究方向

文本到甲骨文生成

扩散模型驱动长尾数据增强与修复。

甲骨文基础模型

统一多任务、多模态的专业领域大模型。

多智能体协作

整合工具库与知识图谱,自主推理验证。

3D重建修复

NeRF/3DGS处理原始甲骨三维数据。

改进评估指标

结构加权IoU、部首完整性分数等。

AIGC文化传播

商代风格艺术生成,甲骨文教育创新。

参考文献

  1. Chen, Z. et al. Oracle bone inscriptions information processing: a comprehensive survey. npj Heritage Science 14, 220 (2026).
  2. Liu, G., Xing, J. & Xiong, J. Spatial pyramid block for oracle bone inscription detection. In Proc. 2020 9th Int. Conf. Software and Computer Applications, 133–140 (2020).
  3. Diao, X. et al. Toward zero-shot character recognition: a gold standard dataset with radical-level annotations. In Proc. 31st ACM Int. Conf. Multimedia, 6869–6877 (2023).
  4. Zhang, C. et al. Data-driven oracle bone rejoining: a dataset and practical self-supervised learning scheme. In Proc. 28th ACM SIGKDD, 4482–4492 (2022).
  5. Huang, S. et al. OBC306: A large-scale oracle bone character recognition dataset. In 2019 Int. Conf. Document Analysis and Recognition (ICDAR), 681–688 (2019).
  6. Li, B. et al. HWOBC – a handwriting oracle bone character recognition database. J. Phys.: Conf. Ser. 1651, 012050 (2020).
  7. Wang, M. & Deng, W. A dataset of oracle characters for benchmarking machine learning algorithms. Sci. Data 11, 87 (2024).
  8. Guan, H. et al. An open dataset for the evolution of oracle bone characters: EVOBC. Preprint at https://arxiv.org/abs/2401.12467 (2024).
  9. Wang, P. et al. An open dataset for oracle bone character recognition and decipherment. Sci. Data 11, 976 (2024).
  10. Li, B. et al. OBIMD: A Multi-modal Dataset for Contextual Interpretation of Oracle Bone Inscriptions. Sci. Data 13, 681 (2026).
  11. Li, J. et al. Oracle-P15k: A Structure-aligned Oracle Bone Inscription Dataset for Character Generation and Denoising. (2025).
  12. Fujikawa, Y. et al. Recognition of oracle bone inscriptions by using two deep learning models. Int. J. Digit. Hum. 5, 65–79 (2023).
  13. Yuan, J. et al. SFF-Siam: a new oracle bone rejoining method based on siamese network. IEEE Comput. Graph. Appl. 43, 22–32 (2023).
  14. Wan, X. et al. Enhancing Oracle Bone Character Category Discovery via Character Component Distillation and Self-Merged Pseudo-Label. Symmetry 16, 1098 (2024).
  15. Qiao, R. et al. Making Visual Sense of Oracle Bones for You and Me. In Proc. IEEE/CVF Conf. Computer Vision and Pattern Recognition (CVPR), 12656–12665 (2024).

注:以上为文中直接引用的代表性文献。更全面的数据集与技术文献清单可参见综述 [1] 及其中所引的200余篇参考文献。