算法拾遗：XGBoost

本文介绍XGBoost的基本思想。

一个包含$K$树棵的集成模型中，每棵树的预测结果是一个实数值（回归树），如果我们把每棵树看作是一个函数$f_k$，则对于样本$x_i$的预测结果为这些树的输出之和： $$\hat y_i=\phi(x_i)=\sum_{k=1}^K f_k(x_i)$$ 我们的目标就是求解最优的$K$棵树。

对于树模型来说，假设有$T$个叶子结点，每棵树会把输入$x$映射到某一个叶子结点$q(x)$上，并输出该叶子节点上预设的值$w_{q(x)}$。上面用$q$来表示一棵树形成的独特映射（将输入映射到叶子结点），而$w$表示叶子结点上的值向量，这二者实际上就代表了一棵树。

现在我们考虑这样一个模型的损失函数： $$L(\phi)=\sum_il(\hat y_i,y_i) + \sum_{k=1}^K \Omega(f_k)$$ 其中第一项为所有样本上的误差之和，比如平方误差；后一项为正则项，用于限制每棵树的复杂度，复杂度越大惩罚越大，其定义为： $$\Omega(f_k)=\gamma T+\frac{1}{2} \lambda ||w||^2$$ 可以看到其实际上为叶子节点数量$T$与权重$w$的平方和的加权和。

我们使用迭代的策略来一棵一棵计算上面的树模型，假设在第$t$轮添加的树对应函数为$f_t$，则在前$t-1$棵树已经确定的情况下，损失函数为： $$L(\phi_t)=\sum_i l(\hat y_i^{(t-1)}+f_t(x_i),y_i)+\Omega(f_t)$$ 其中$\hat y_i^{(t-1)}$为前$t-1$棵树的预测结果。我们需要在第$t$轮计算一棵最小化$L(\phi_t)$的树，贪心地加入到模型中。

上面式中，变量为$f_t(x_i)$，我们将函数$l(\hat y_i^{(t-1)}+f_t(x_i),y_i)$在$\hat y_i^{(t-1)}$处展开到二阶泰勒来近似： $$l(\hat y_i^{(t-1)}+f_t(x_i),y_i)\approx l(\hat y_i^{(t-1)},y_i)+g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i)$$ 其中$g_i$和$h_i$分别是损失函数$l(a, y_i)$在$a=\hat y_i^{(t-1)}$处的一阶和二阶导数。

经过近似，我们去掉式中的常量部分，即$l(\hat y_i^{(t-1)},y_i)$，将需最小化的损失函数修改为： $$L(\phi_t)\approx \sum_{i=1}^n[g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i)]+\gamma T+\frac{1}{2}\lambda\sum_{j=1}^Tw_j^2$$ 现在我们已经将$f_t$单独拿了出来，现在考虑$\sum_i f_t(x_i)$是什么？

如果$q(x_i)=j$，那么$f_t(x_i)=w_j$，因此假如集合$I_j$是所有被树映射到叶子节点$j$的样本集合，即$I_j={i| q(x_i)=j}$，那么： $$\sum_if_t(x_i)=\sum_{j=1}^T w_j|I_j|$$ 因此损失函数可以变化为： $$L(\phi_t)=\sum_{j=1}^T \big[(\sum_{i\in I_j} g_i)w_j+\frac{1}{2}(\lambda+\sum_{i\in I_j}h_i)w_j^2\big]+\gamma T$$ 上面的式子中，我们可以很快看出每个叶子结点的权值$w_j$的最优取值为： $$w_j^*=-\frac{\sum_{i\in I_j} g_i}{\lambda+\sum_{i\in I_j}h_i}$$ 上式中，$I_j$取决于当前树的结构，而其余部分均为已知的常值，也就是说，如果第$t$棵树的结构确定下来了，那么叶子节点的输出也可以按照上式直接计算出来。

我们将$w$代入损失函数： $$L(\phi_t)=-\frac{1}{2}\sum_{j=1}^T \frac{(\sum_{i\in I_j} g_i)^2}{\lambda+\sum_{i\in I_j}h_i}+\gamma T$$ 上式给出了一个确定结构的回归树加入后整个模型的损失函数，我们需要构造一棵最小化上式的树。

我们考虑迭代方式构造树，从根节点开始尝试对叶子结点增加分支，假如对叶子结点$j$增加分支，对映射到该结点的样本再进行划分，将$I_j$划分为$I_l$和$I_r$，作为新的两个叶子结点，而其余结点没有变化，那么新树的损失函数为： $$L_{new}=\gamma + L +\frac{1}{2}\Big(\frac{(\sum_{i\in I_j} g_i)^2}{\lambda+\sum_{i\in I_j}h_i}-\frac{(\sum_{i\in I_l} g_i)^2}{\lambda+\sum_{i\in I_l}h_i}-\frac{(\sum_{i\in I_r} g_i)^2}{\lambda+\sum_{i\in I_r}h_i}\Big)$$ 显然，我们希望划分后产生的新树的损失函数最小，实际上就是要找到一个最优的划分，使得上式最小化，如果把对应结点的式子看作该结点的score，那么就是需要新结点的score之和最大。如果上式最小化后，$L_{new}>=L$，则显然在结点$j$处不可再划分了。

一种简单的划分办法就是遍历所有可能的划分点，假设输入的样本$x$具有$d$维的特征，一共有$n$个样本，那么对每一种特征，首先对其进行排序，而后遍历这$n$个样本的$n-1$种划分，计算新树的score，确定最优划分点。时间复杂度为$O(dnlgn)$。这种算法比较精确，当然比较慢，有一些近似算法可以给出一些划分点的proposal以减少遍历的次数，不过比较复杂这里就不阐述了。

以上是xgboost（实际上是gradient boosting tree）的基本思想，通过上述算法即可针对样本集构造出一个集成树模型，后续就是系统实现的问题了，本文不涉及。