中美关系与台湾问题探讨

保存时间:2026/3/29 21:26:40


BBPE 对 BPE 的改进
内容由豆包 AI 生成
上次我们谈到 Deepseek R1 大模型里面的词汇表,就 vocabulary, 它使用的是 BPE 格式,那么我又看到它有所谓的 merge 就是这个,我怀疑是把所谓的每两个 BPE 或多个 BPE 合并。这方面你有没有一些资料,就是说在基本的词汇表,他又去做了一些合并,是不是所谓的 byte BPE 就是 B BPE 这种形式或者说 B B P E, 它是怎样对 B P E 改进的?是更多的长的词吗?
DeepSeek R1 大模型采用的是 Byte - level BPE(BBPE)分词算法,它是 BPE 算法的进阶版。

BPE 的 merge 操作

BPE 在构建词汇表时,会从由数据集中每个独特字符或单词及其频率组成的初始词汇表开始。算法会反复查找文本中出现频率最高的一对相邻符号(或字符),并将它们合并为一个新符号,添加到词汇表中,这就是 merge 操作。该过程持续到预定的合并次数或达到所需的词汇量为止。

BBPE 对 BPE 的改进

  • 表示范围更广:BPE 以英文字符作为最基础的元素,而 BBPE 是用 byte 字节构建最基础词表。无论何种语言,底层都可用字节表示,如 UTF - 8 编码,因此 BBPE 可以适用于任何模型,能处理各种语言的文本,而不限于英文等特定语言。
  • 更好地处理稀有词和新词:由于采用字节级别表示,对于一些罕见的字符组合或新出现的词汇,BBPE 能更灵活地进行处理,将其分解为字节单元进行表示,而不是像传统 BPE 可能无法处理或处理效果不佳。这并不意味着单纯地产生更多长词,而是更合理地处理各种词汇,包括长词、稀有词和新词等,提升模型对不同文本的处理能力。
参考 9 篇资料
BBPE是如何处理稀有词和新词的?
BBPE和WordPiece有什么区别?