编辑推荐

网易数帆开源API网关与容器云项目，让云原生生产落地“多快好

网易汪源：统一负载与多云环境的“开放姿态”，才是云原生

网易数帆如何用 Kubernetes“原语”搞定云原生中间件

快手打新挤爆券商系统，网易数帆推出券商稳定性保障方案

探索智慧校园新模式，网易有数在教育行业的实践分享

金融行业大数据治理之路——数据模型篇

基于Spark的大规模语言模型训练（中篇）

阿凡达2018-08-21 12:33

Witten-Bell平滑的物理意义：使用高阶模型的概率是，使用低阶模型的概率是。从折扣角度来说，Witten-Bell估计给训练语料中未出现事件分配的总的概率是，而Good-Turing估计分配的是，这是两者的区别所在。

要训练获得ARPA格式的Witten-Bell语言模型，相对于公式（4），即转化为计算：

1) 条件概率：（8-1）

2) 回退权重：（8-2）

3) 一阶条件概率： (8-3)

公式（8-3）中的为词典大小；公式（8-1）与（8-2）即为Witten-Bell插值平滑算法在训练时需要估计的两类概率参数：回退权重计算简单，条件概率计算较复杂。

2.2 Witten-Bell回退平滑

回退模型，在计算高阶ngram时，直接使用高阶ngram的最大似然概率（或折扣后的概率），而不与低阶的(n-1)gram进行插值。可以将Witten-Bell的插值模型调整为回退模型（略去推导，直接给出结论）。

1) 条件概率：（9-1）

2) 回退权重：（9-2）

3) 一阶条件概率为：（9-3）

公式（9-1）与（9-2）即为Witten-Bell回退平滑算法在训练时需要估计的两类概率参数：此时条件概率计算简单，但回退权重计算较复杂。

三、Witten-Bell插值平滑的分布式实现

根据第一节中数据分治思想，将词典进行分块处理，并根据子块词典分别统计ngram词频；在每个子块内进行语言模型参数估计，最后再进行合并，生成最终的语言模型。通过这种方式可以很方便地转换成分布式训练。大体的流程图如下：

图2 基于数据分治的语言模型训练

目前的开源工具IRSTLM采用的是这种方案，其训练流程可参见附录1。但其所实现的Witten-Bell和Knerse-Ney只是近似实现，而不是严格概率意义的语言模型（无法计算PPL，只是相对大小）；且尚未引入分布式框架，而是在单机上进行分块训练。

本文所实现的Witten-Bell将是严格概率意义的语言模型。根据数据分治思想，以及插值平滑和回退平滑对比分析，可知：

表1 Witten-Bell的插值平滑与回退平滑参数对比

1）数据分治：对于以单词为前缀的所有ngram构成的子块，只能统计得到以为前缀的相关词频数值，包括、、等；因此，插值平滑中的回退权重以及回退平滑中的条件概率是可以在单个子块内部精确实现。但插值平滑的条件概率和回退平滑的回退权重依赖为前缀的(n-1)gram的条件概率，这在分布式训练中需要通过访问其他节点来实现，需要大量的查找计算和过高的带宽，而不利于分布式。