DeepSeek R1 大模型采用的是 Byte - level BPE(BBPE)分词算法,它是 BPE 算法的进阶版。
BPE 在构建词汇表时,会从由数据集中每个独特字符或单词及其频率组成的初始词汇表开始。算法会反复查找文本中出现频率最高的一对相邻符号(或字符),并将它们合并为一个新符号,添加到词汇表中,这就是 merge 操作。该过程持续到预定的合并次数或达到所需的词汇量为止。
- 表示范围更广:BPE 以英文字符作为最基础的元素,而 BBPE 是用 byte 字节构建最基础词表。无论何种语言,底层都可用字节表示,如 UTF - 8 编码,因此 BBPE 可以适用于任何模型,能处理各种语言的文本,而不限于英文等特定语言。
- 更好地处理稀有词和新词:由于采用字节级别表示,对于一些罕见的字符组合或新出现的词汇,BBPE 能更灵活地进行处理,将其分解为字节单元进行表示,而不是像传统 BPE 可能无法处理或处理效果不佳。这并不意味着单纯地产生更多长词,而是更合理地处理各种词汇,包括长词、稀有词和新词等,提升模型对不同文本的处理能力。