当前位置: 首页 > news >正文

昆明建设银行纪念币预约网站保定市住房和城乡建设局网站

昆明建设银行纪念币预约网站,保定市住房和城乡建设局网站,湖南网站建设seo优化,网站外部链接做多少合适呢梯度提升算法是最常用的集成机器学习技术之一#xff0c;该模型使用弱决策树序列来构建强学习器。这也是XGBoost和LightGBM模型的理论基础#xff0c;所以在这篇文章中#xff0c;我们将从头开始构建一个梯度增强模型并将其可视化。 梯度提升算法介绍 梯度提升算法#x…梯度提升算法是最常用的集成机器学习技术之一该模型使用弱决策树序列来构建强学习器。这也是XGBoost和LightGBM模型的理论基础所以在这篇文章中我们将从头开始构建一个梯度增强模型并将其可视化。 梯度提升算法介绍 梯度提升算法Gradient Boosting是一种集成学习算法它通过构建多个弱分类器然后将它们组合成一个强分类器来提高模型的预测准确率。 梯度提升算法的原理可以分为以下几个步骤 初始化模型一般来说我们可以使用一个简单的模型比如说决策树作为初始的分类器。计算损失函数的负梯度计算出每个样本点在当前模型下的损失函数的负梯度。这相当于是让新的分类器去拟合当前模型下的误差。训练新的分类器用这些负梯度作为目标变量训练一个新的弱分类器。这个弱分类器可以是任意的分类器比如说决策树、线性模型等。更新模型将新的分类器加入到原来的模型中可以用加权平均或者其他方法将它们组合起来。重复迭代重复上述步骤直到达到预设的迭代次数或者达到预设的准确率。 由于梯度提升算法是一种串行算法所以它的训练速度可能会比较慢我们以一个实际的例子来介绍 假设我们有一个特征集Xi和值Yi要计算y的最佳估计 我们从y的平均值开始 每一步我们都想让F_m(x)更接近y|x。 在每一步中我们都想要F_m(x)一个更好的y给定x的近似。 首先我们定义一个损失函数 然后我们向损失函数相对于学习者Fm下降最快的方向前进: 因为我们不能为每个x计算y所以不知道这个梯度的确切值但是对于训练数据中的每一个x_i梯度完全等于步骤m的残差:r_i! 所以我们可以用弱回归树h_m来近似梯度函数g_m对残差进行训练: 然后我们更新学习器 这就是梯度提升我们不是使用损失函数相对于当前学习器的真实梯度g_m来更新当前学习器F_{m}而是使用弱回归树h_m来更新它。 也就是重复下面的步骤 1、计算残差: 2、将回归树h_m拟合到训练样本及其残差(x_i, r_i)上 3、用步长\alpha更新模型 看着很复杂对吧下面我们可视化一下这个过程就会变得非常清晰了 决策过程可视化 这里我们使用sklearn的moons 数据集因为这是一个经典的非线性分类数据 import numpy as npimport sklearn.datasets as dsimport pandas as pdimport matplotlib.pyplot as pltimport matplotlib as mplfrom sklearn import treefrom itertools import product,isliceimport seaborn as snsmoonDS ds.make_moons(200, noise 0.15, random_state16)moon moonDS[0]color -1*(moonDS[1]*2-1)df pd.DataFrame(moon, columns [x,y])df[z] colordf[f0] df.y.mean()df[r0] df[z] - df[f0]df.head(10)让我们可视化数据 下图可以看到该数据集是可以明显的区分出分类的边界的但是因为他是非线性的所以使用线性算法进行分类时会遇到很大的困难。 那么我们先编写一个简单的梯度增强模型: def makeiteration(i:int):Takes the dataframe ith f_i and r_i and approximated r_i from the features, then computes f_i1 and r_i1clf tree.DecisionTreeRegressor(max_depth1)clf.fit(Xdf[[x,y]].values, y df[fr{i-1}])df[fr{i-1}hat] clf.predict(df[[x,y]].values)eta 0.9df[ff{i}] df[ff{i-1}] eta*df[fr{i-1}hat]df[fr{i}] df[z] - df[ff{i}]rmse (df[fr{i}]**2).sum()clfs.append(clf)rmses.append(rmse)上面代码执行3个简单步骤: 将决策树与残差进行拟合: clf.fit(Xdf[[x,y]].values, y df[fr{i-1}])df[fr{i-1}hat] clf.predict(df[[x,y]].values)然后我们将这个近似的梯度与之前的学习器相加: df[ff{i}] df[ff{i-1}] eta*df[fr{i-1}hat]最后重新计算残差: df[fr{i}] df[z] - df[ff{i}]步骤就是这样简单下面我们来一步一步执行这个过程。 第1次决策 Tree Split for 0 and level 1.563690960407257 第2次决策 Tree Split for 1 and level 0.5143677890300751 第3次决策 Tree Split for 0 and level -0.6523728966712952 第4次决策 Tree Split for 0 and level 0.3370491564273834 第5次决策 Tree Split for 0 and level 0.3370491564273834 第6次决策 Tree Split for 1 and level 0.022058885544538498 第7次决策 Tree Split for 0 and level -0.3030575215816498 第8次决策 Tree Split for 0 and level 0.6119407713413239 第9次决策 可以看到通过9次的计算基本上已经把上面的分类进行了区分 我们这里的学习器都是非常简单的决策树只沿着一个特征分裂!但整体模型在每次决策后边的越来越复杂并且整体误差逐渐减小。 plt.plot(rmses)这也就是上图中我们看到的能够正确区分出了大部分的分类 如果你感兴趣可以使用下面代码自行实验 https://avoid.overfit.cn/post/533a0736b7554ef6b8464a5d8ba964ab 作者:Tanguy Renaudie
http://www.sczhlp.com/news/261835/

相关文章:

  • 泰安网站制作哪里有鸿铭物流网络建站
  • 口腔网站模板顾问
  • 重庆本土网站深圳设计公司排名深圳市广告公司
  • 哪些做任务可以赚钱的网站个人导航页模板
  • 建德市住房和城乡建设局网站南充房管局官网
  • 框架网站建设苏州高新区核酸检测
  • 用织梦系统做的2个网站要把它都上传到服务器上吗中国百年建筑网官网
  • 自己做视频网站流量钱开发公司资料员工作内容
  • 国外设计网站怎么查询网站有没有做网站地图
  • 公司网站用wordpress石家庄网红
  • 网站建设需求登记表 免费下载简述网站规划的流程
  • 做网站好的书wordpress食品模板
  • 网站建设的工作环保主题的网站模板
  • 电脑做服务器建网站并让外网访问有些网站仿出问题
  • 网站制作论文参考文献wordpress 当前页
  • 网站建设团队精神seowhy问答
  • 东莞网站建设哪家wordpress get cat id
  • xampp 开发网站冷水江网站
  • 网站集约化建设建设成效种子搜索神器在线搜
  • 龙华建设发展有限公司网站企查猫
  • 跨境网站哪个网站可以建设网站
  • Gunicorn 基础使用
  • AI元人文:化解算力质疑——降维重构价值计算
  • 百度收录网站链接入口vip 支付wordpress
  • 深圳购物商城网站设计建设银行网站查询企业年金
  • 深圳商城网站设计电话为什么网站打开是空白
  • 做场景秀的网站沈阳建设工程许可公示版
  • 南通网站建设计划书公司网站的服务器
  • 有域名怎样做网站企业招聘信息
  • 个人房产信息查询网站长春财经学院宿舍图片