我无法直接访问你提供的链接及其中的代码文件,但已从你给出的对话内容中提取核心信息转到当前会话,关键要点如下:
用纯 C++ 实现验证程序,功能与之前 Python 版一致,无 Python 依赖,需用到 ONNX Runtime C++ 库和 Hugging Face Tokenizers C++ 库。
- 安装 ONNX Runtime C++ 库(加载推理 ONNX 模型)
- 安装 Hugging Face Tokenizers C++ 库(链接:https://github.com/huggingface/tokenizers)
- 准备文件:tokenizer.json(分词字典)、model.onnx(模型文件)
- 输入中文句子,验证 tokenizer 分词结果(是否含<unk>)
- 通过两次推理对比,验证 ONNX 模型 “固定输入→固定输出” 的特性
- 含 preprocess_chinese 函数,用于正则过滤文本、清理特殊字符
Linux 环境下需链接 ONNX Runtime、Tokenizers 和 Eigen 库(需示例编译命令可进一步说明)
需要我基于这些信息整理完整的 C++ 代码,或补充常见问题排查清单吗?