揭秘Kaggle神器xgboost

在的很多比赛中，我们可以看到很多喜欢用，而且获得非常好的表现，今天就来看看到底是什么以及如何应用。

本文结构：

什么是？

：

项目地址：

是由 Chen ~/最初开发的实现可扩展，便携，分布式 (GBDT, GBRT or GBM) 算法的一个库，可以下载安装并应用于 C++，，R，Julia，Java，Scala，，现在有很多协作者共同开发维护。

所应用的算法就是 tree，既可以用于分类也可以用于回归问题中。

那什么是？

是的其中一种方法，所谓，就是将弱分离器 f_i(x) 组合起来形成强分类器 F(x) 的一种方法。

所以有三个要素：

就是通过加入新的弱学习器，来努力纠正前面所有弱学习器的残差，最终这样多个学习器相加在一起用来进行最终预测，准确率就会比单独的一个要高。之所以称为，是因为在添加新模型时使用了梯度下降算法来最小化的损失。

第一种的实现就是 ( )。

就是将多个弱分类器，通过投票的手段来改变各个分类器的权值，使分错的分类器获得较大权值。同时在每一次循环中也改变样本的分布，这样被错误分类的样本也会受到更多的关注。

为什么要用？

前面已经知道，就是对 tree 的实现，但是一般来说，的实现是比较慢的，因为每次都要先构造出一个树并添加到整个模型序列中。

而的特点就是计算速度快，模型表现好，这两点也正是这个项目的目标。

表现快是因为它具有这样的设计：

下图就是与其它和 trees 实现的效果比较，可以看出它比 R, ，Spark，H2O 中的基准配置要更快。

另外一个优点就是在预测问题中模型表现非常好，下面是几个的赛后采访链接，可以看出的在实战中的效果。

怎么应用？

先来用做一个简单的二分类问题，以下面这个数据为例，来判断病人是否会在 5 年内患糖尿病，这个数据前 8 列是变量，最后一列是预测值为 0 或 1。

数据描述：

下载数据集，并保存为 “pima--.csv“ 文件：

1. 基础应用

引入等包

. it

分出变量和标签

= ('pima--.csv', =",")

X = [:,0:8]

Y = [:,8]

将数据分为训练集和测试集，测试集用来预测，训练集用来学习模型

seed = 7

= 0.33

, , , =

(X, Y, =, =seed)

有封装好的分类器和回归器，可以直接用建立模型，这里是的文档：

#-.

model = ()

model.fit(, )

的结果是每个样本属于第一类的概率，需要用 round 将其转换为 0 1 值

= model.() = [round(value) ]

得到 : 77.95%

= (, )print(": %.2f%%"% ( * 100.0))

2. 监控模型表现

可以在模型训练时，评价模型在测试集上的表现，也可以输出每一步的分数，只需要将

model = ()

model.fit(, )

变为：

model = () = [(, )] model.fit(, , s=10, =

"", =, =True)

那么它会在每加入一颗树后打印出

[31] -:0.

[32] -:0.

[33] -:0.

并打印出 Early 的点：

. Best :[32] -:0.

3. 输出特征重要度

还有一个优点是可以给出训练好的模型的特征重要性，

这样就可以知道哪些变量需要被保留，哪些可以舍弃。

需要引入下面两个类：

和前面的代码相比，就是在 fit 后面加入两行画出特征的重要性

model.fit(X, y)

(model)

.show()

4. 调参

如何调参呢，下面是三个超参数的一般实践最佳值，可以先将它们设定为这个范围，然后画出，再调解参数找到最佳模型：

接下来我们用来进行调参会更方便一些：

可以调的超参数组合有：

下面以学习率为例：

先引入这两个类

. d

设定要调节的 = [0.0001, 0.001, 0.01, 0.1, 0.2, 0.3]，和原代码相比就是在 model 后面加上 grid 这几行：

model = ()

= [0.0001, 0.001, 0.01, 0.1, 0.2, 0.3]

= dict(=)

kfold = (=10, =True, =7)

= (model, , ="", =-1, cv=kfold)

= .fit(X, Y)

最后会给出最佳的学习率为 0.1

Best: -0. using {‘’: 0.1}

print("Best: %f using %s"% (., .))

我们还可以用下面的代码打印出每一个学习率对应的分数：

means = .[''] stds = .[''] = .[''], stdev, param inzip(means, stds, ):

print("%f (%f) with: %r"% (mean, stdev, param))-0.(0.) with: {'': 0.0001}

-0.(0.) with: {'': 0.001}

-0.(0.) with: {'': 0.01}

-0.(0.) with: {'': 0.1}

-0.(0.) with: {'': 0.2}

-0.(0.) with: {'': 0.3}

前面就是关于的一些基础概念和应用实例，下面还有一些学习资源供参考：

学习资源

Chen 的讲座：

讲义：

入门教程：

安装教程：

应用示例：

最好的资源当然就是项目的主页：

参考：

2017中国人工智能大会（CCAI 2017）| 7月22日-23日杭州

本届CCAI由中国人工智能学会、蚂蚁金服主办，由CSDN承办，最专业的年度技术盛宴：

- 40位以上实力讲师

- 8场权威专家主题报告

- 4场开放式专题研讨会

- 超过100家媒体报道

- 超过2000位技术精英和专业人士参会

与大牛面对面，到官网报名：