甲骨文信息处理技术发展史

四大范式演变

1899 – 1990

🖋️ 传统专家主导

人工释读、拓印临摹、分期断代。郭沫若、罗振玉等建立五期断代法·两系说。

隐性知识难传递

1990 – 2012

💻 计算机辅助图像

直方图均衡、SIFT/HOG特征、轮廓匹配。语义鸿沟明显，对噪声敏感。

几何图案匹配

2012 – 2022

🧠 深度表示学习

Faster R-CNN, YOLO, ResNet, GAN增强。零样本识别兴起，长尾分布仍是挑战。

数据驱动CNN

2022 – 至今

🌐 大多模态模型

GPT-4V, OracleSage, OracleAgent。跨模态释读与视觉-语言对齐推理。^[14]

LMM+智能体

📜 每个阶段对应数据形态：实物拓片 → 数字化扫描 → 任务导向标签数据集 → 多模态细粒度语义标注。

36个数据集 · 按任务分类

任务	数据集	年份	类型	样本数	类别数	关键特性
识别	YinQiWenYuan_detection ^[2]	2020	拓片	9,823	-	边界框检测
	OracleBone-8000	2020	拓片	128,770	-	大规模拓片识别
	ACCID ^[3]	2023	手写	15,085	2,892	部首级标注，零样本
	O2BR	2025	原始骨片	800	-	高分辨率原始图像
拼接	OB-Rejoin ^[4]	2022	拓片	998	249	碎片边缘对应
	COBD	2023	拓片	960	-	二分类缀合验证
	OBI-rejoin	2025	混合	483	200	原始骨与拓片混合
	OBFI	2025	原始骨片	5,374	110	高分辨率骨片缀合
分类检索	OBC306 ^[5]	2019	拓片	309,551	306	大规模长尾分布
	HWOBC ^[6]	2020	手写	83,245	3,881	手写体大规模
	Oracle-MNIST ^[7]	2024	拓片	30,222	10	均匀分布基准
	OBI component 20	2024	手写	10,257	20	部件级检索
	OracleRC	2023	拓片	2,005	202	部首原型检索
释读	EVOBC ^[8]	2024	混合	229,170	13,714	六阶段字形演变
	HUST-OBC ^[9]	2024	手写	140,053	10,999	现代汉字对齐
	ACCP	2024	混合	346,344	88,901	细粒度部首拆解
	PictOBI-20k	2025	手写	15,175	80	象形字视觉释读
新兴	OBIMD ^[10]	2024	混合	10,077	-	多模态：框+组+阅读顺序
	Oracle-P15k ^[11]	2025	混合	14,542	239	结构对齐生成/去噪
	RMOBS	2025	手写	>20,000	900	部首边界框+语义概念

📊 总计36个数据集识别4个拼接4个分类检索19个释读8个新兴4个

核心任务与技术方法

识别与检测 ^[12]

Faster R-CNN, YOLOv5/v8, 对比学习解耦噪声。多标签注释提升精度。

YOLO系列SSD

碎片拼接 ^[13]

轮廓匹配(链码)+Siamese网络验证纹理连续性。SFF-Siam, S3-Net。

边缘CNN验证

分类与检索 ^[14]

零样本学习(OracleGCD)、自监督对比(OBI-CMF)、跨模态STSN网络。

广义类别发现

释读与生成 ^[15]

扩散模型演化现代汉字、视觉问答(V-Oracle)、OracleSage图结构推理。

思维链推理

关键挑战与局限

🔒 数据源壁垒：3D扫描/高清照片被机构垄断，缺乏开源标准化。
📉 长尾分布：大量未释读罕见字样本极少，模型易过拟合。
🌀 异构数据表示：原始骨、拓片、手摹多形态难以统一建模。

🌫️ 噪声鲁棒性：骨裂、斑点、伪影与真实笔画混淆。
📏 评估指标不足：缺乏统一的拼接/释读指标，人工评估协议缺失。
🧩 语义鸿沟：早期方法仅视字符为几何图案，忽略语境。

未来研究方向

文本到甲骨文生成

扩散模型驱动长尾数据增强与修复。

甲骨文基础模型

统一多任务、多模态的专业领域大模型。

多智能体协作

整合工具库与知识图谱，自主推理验证。

3D重建修复

NeRF/3DGS处理原始甲骨三维数据。

改进评估指标

结构加权IoU、部首完整性分数等。

AIGC文化传播

商代风格艺术生成，甲骨文教育创新。

参考文献

Chen, Z. et al. Oracle bone inscriptions information processing: a comprehensive survey. npj Heritage Science 14, 220 (2026).
Liu, G., Xing, J. & Xiong, J. Spatial pyramid block for oracle bone inscription detection. In Proc. 2020 9th Int. Conf. Software and Computer Applications, 133–140 (2020).
Diao, X. et al. Toward zero-shot character recognition: a gold standard dataset with radical-level annotations. In Proc. 31st ACM Int. Conf. Multimedia, 6869–6877 (2023).
Zhang, C. et al. Data-driven oracle bone rejoining: a dataset and practical self-supervised learning scheme. In Proc. 28th ACM SIGKDD, 4482–4492 (2022).
Huang, S. et al. OBC306: A large-scale oracle bone character recognition dataset. In 2019 Int. Conf. Document Analysis and Recognition (ICDAR), 681–688 (2019).
Li, B. et al. HWOBC – a handwriting oracle bone character recognition database. J. Phys.: Conf. Ser. 1651, 012050 (2020).
Wang, M. & Deng, W. A dataset of oracle characters for benchmarking machine learning algorithms. Sci. Data 11, 87 (2024).
Guan, H. et al. An open dataset for the evolution of oracle bone characters: EVOBC. Preprint at https://arxiv.org/abs/2401.12467 (2024).
Wang, P. et al. An open dataset for oracle bone character recognition and decipherment. Sci. Data 11, 976 (2024).
Li, B. et al. OBIMD: A Multi-modal Dataset for Contextual Interpretation of Oracle Bone Inscriptions. Sci. Data 13, 681 (2026).
Li, J. et al. Oracle-P15k: A Structure-aligned Oracle Bone Inscription Dataset for Character Generation and Denoising. (2025).
Fujikawa, Y. et al. Recognition of oracle bone inscriptions by using two deep learning models. Int. J. Digit. Hum. 5, 65–79 (2023).
Yuan, J. et al. SFF-Siam: a new oracle bone rejoining method based on siamese network. IEEE Comput. Graph. Appl. 43, 22–32 (2023).
Wan, X. et al. Enhancing Oracle Bone Character Category Discovery via Character Component Distillation and Self-Merged Pseudo-Label. Symmetry 16, 1098 (2024).
Qiao, R. et al. Making Visual Sense of Oracle Bones for You and Me. In Proc. IEEE/CVF Conf. Computer Vision and Pattern Recognition (CVPR), 12656–12665 (2024).

注：以上为文中直接引用的代表性文献。更全面的数据集与技术文献清单可参见综述 [1] 及其中所引的200余篇参考文献。