汉字是一个二维的,就是平面结构。它有左右结构、上下结构,还有复杂的内外结构等等。同样的偏旁,比方说口字旁,在喝水的喝是一个左右结构。构,但是在这个国家的国是内外结构。所以这个是是非常复杂的一个,你这样简单的用这种描述,它能够,就是说能描述的好吗?这当然你这个就变得非常复杂了,是不是?我不知道这个也许字典里面部首,这个叫什么?偏旁部首查询是有这些编码信息,可以直接利用的,是吧?
Transformer 效率突破
导出时间:2026/5/27 22:06:40
来源地址:https://www.doubao.com/chat/20189285958971906
消息数量:4
是的,汉字的二维平面结构确实较为复杂,不过通过特定的编码方式是可以对其进行有效描述的,字典中也有相关的编码信息可供利用。
汉字字形码就是一种用于对汉字的字形进行编码的系统,它通过对汉字的形状、结构和部件进行分析,将其转化为一组可识别的编码。例如五笔字型,它将汉字分为五种基本类型,通过对汉字的部件进行编码来形成输入法系统。还有郑码,它将汉字拆分为基本部件,然后根据部件的形状和结构进行编码。另外,四角号码查字法是根据汉字四个角的形状,用0-9十个数字来代表并进行编码,如“齿”字的四角号码就是2177。
在Unicode编码中,也有专门的区域用于表示部首,如康熙部首位于U+2F00-U+2FDF范围内,中日韩部首补充位于2E80-2EFF范围内。这些编码可以帮助计算机识别和处理汉字的结构信息,尽管汉字结构复杂,但通过这些编码方式能够较为准确地对其进行描述和处理。
这些信息没办法进行预训练吧?预训练里面,这个信息是怎么?应该只是把它当做是一种资料性的东西吧?它能训练出结果吗?就说这种拆字,在我看来很多时候是,原古代文字游戏里面肯定用得到。它是要去训练这个拆字游戏吗?
核心结论是:汉字拆字(偏旁、结构)信息完全可以用于预训练,且不是为了训练 “拆字游戏”,而是为了让模型更理解汉字本身的语义关联和结构逻辑,提升中文处理能力。
这种信息的价值和应用方式,主要体现在两个层面:
1. 不是训练 “拆字游戏”,而是服务于 “更精准的中文理解”
预训练的目标从不是让模型学会 “把‘国’拆成‘囗’和‘玉’” 这个动作,而是通过拆字信息,让模型感知到 **“结构相似的汉字,往往有语义关联”**—— 这才是核心价值。比如:
- 模型通过预训练知道 “河、江、湖、海” 都含 “氵”,且都和 “水” 相关,就能在处理 “湖泊生态”“江河治理” 等文本时,更快关联到 “水” 的语义,减少理解偏差;
- 知道 “宝、家、室” 都含 “宀”(表示房屋),就能在遇到 “家庭”“住宅” 等词时,更精准把握 “居住、空间” 的核心含义。这种关联不是 “文字游戏”,而是汉字本身的造字逻辑(象形、会意、形声),预训练的目的是让模型学会利用这种逻辑,像人一样 “通过字形猜语义”。
2. 拆字信息如何融入预训练?两种主流方式
拆字信息不会被当成 “资料” 闲置,而是会通过特定的预训练任务 “喂给” 模型,让模型主动学习:
- 方式一:“字形预测” 类预训练任务比如给模型输入一个被遮挡部分结构的汉字(如把 “国” 的 “玉” 遮挡,只显示 “囗”),让模型预测被遮挡的偏旁 / 部件是什么;或给模型一个偏旁(如 “氵”),让它预测常和这个偏旁组合的部件(如 “可”“工”“胡”)。这个过程中,模型会被迫学习 “偏旁和部件的搭配规律”,以及 “搭配后对应的汉字语义”,相当于把拆字信息转化为了模型能理解的 “结构 - 语义关联知识”。
- 方式二:“多模态融合” 的预训练直接把汉字的 “图像形态”(比如手写体、印刷体的字形图片)和 “拆字标签”(如 “左右结构,左‘氵’右‘可’”)一起输入模型。模型在学习 “图像对应哪个汉字” 的同时,也会同步学到 “这个汉字的结构是什么、由哪些部件组成”,相当于从 “视觉字形” 到 “结构信息” 再到 “语义”,建立起完整的关联链条。这种方式尤其适合处理生僻字 —— 即使模型没见过某个生僻字,也能通过它的结构(比如含 “钅”,推测和金属相关),大致判断其语义方向。