当前位置: 首页 > news >正文

北京南站到故宫最佳路线虚拟主机图片

北京南站到故宫最佳路线,虚拟主机图片,wordpress主题阿里云,找外包网站 和自己做一、决策树算法概述 1、树模型 决策树#xff1a;从根节点开始一步步走到叶子节点(决策)。所有的数据最终都会落到叶子节点#xff0c;既可以做分类也可以做回归。 在分类问题中#xff0c;表示基于特征对实例进行分类的过程#xff0c;可以认为是if-then的集合#xff0… 一、决策树算法概述 1、树模型 决策树从根节点开始一步步走到叶子节点(决策)。所有的数据最终都会落到叶子节点既可以做分类也可以做回归。 在分类问题中表示基于特征对实例进行分类的过程可以认为是if-then的集合也可以认为是定义在特征空间与类空间上的条件概率分布。 2、树的组成 根节点第一个选择点 非叶子节点与分支中间过程 叶子节点最终的决策结果 3、 决策树通常有三个步骤特征选择、决策树的生成、决策树的修剪。 决策树学习的目标 根据给定的训练数据集构建一个决策树模型使它能够对实例进行正确的分类。决策树学习的本质 从训练集中归纳出一组分类规则或者说是由训练数据集估计条件概率模型。决策树学习的损失函数正则化的极大似然函数决策树学习的测试最小化损失函数决策树学习的目标在损失函数的意义下选择最优决策树的问题。训练阶段 从给定的训练集构造出来一棵树(从跟节点开始选择特征 如何进行特征切分)。有数据想构建树。测试阶段 根据构造出来的树模型从上到下去走一遍就好了。有数据想得结果。 一旦构造好了决策树那么分类或者预测任务就很简单了只需要走一遍 就可以了那么难点就在于如何构造出来一颗树这就没那么容易了需要考虑的问题还有很多的! 用决策树分类从根节点开始对实例的某一特征进行测试根据测试结果将实例分配到其子节点此时每个子节点对应着该特征的一个取值如此递归的对实例进行测试并分配直到到达叶节点最后将实例分到叶节点的类中。 k-近邻算法可以完成很多分类任务但是其最大的缺点是无法给出数据的内在含义决策树的优势在于数据形式非常容易理解。  二、熵的作用 1、如何切分特征(选择节点) 问题根节点的选择该用哪个特征呢?接下来呢?如何切分呢? 想象一下我们的目标应该是根节点就像一个老大似的能更好的切分数据 (分类的效果更好)根节点下面的节点自然就是二当家了。 目标通过一种衡量标准来计算通过不同特征进行分支选择后的分类 情况找出来最好的那个当成根节点以此类推。 2、衡量标准-熵 熵是表示随机变量不确定性的度量 。 (解释说白了就是物体内部的混乱程度比如杂货市场里面什么都有 那肯定混乱呀专卖店里面只卖一个牌子的那就稳定多啦) 熵值公式 举例 A集合[1,1,1,1,1,1,1,1,2,2] B集合[1,2,3,4,5,6,7,8,9,1] 显然A集合的熵值要低因为A里面只有两种类别相对稳定一些。而B中类别太多了熵值就会大很多。 三、信息增益原理 1、熵值 不确定性越大得到的熵值也就越大。 当p0或p1时H(p)0,随机变量完全没有不确定性。 当p0.5时H(p)1,此时随机变量的不确定性最大。 2、信息增益 特征X使得类Y的不确定性减少的程度。 (分类后的专一性希望分类后的结果是同类在一起)  划分数据集的大原则是将无序数据变得更加有序但是各种方法都有各自的优缺点信息论是量化处理信息的分支科学在划分数据集前后信息发生的变化称为信息增益获得信息增益最高的特征就是最好的选择所以必须先学习如何计算信息增益集合信息的度量方式称为香农熵或者简称熵。 四、决策树构造及实例 决策树学习的算法通常是一个递归地选择最优特征并根据该特征对训练数据进行分割使得各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分也对应着决策树的构建。 1 开始构建根节点将所有训练数据都放在根节点选择一个最优特征按着这一特征将训练数据集分割成子集使得各个子集有一个在当前条件下最好的分类。2 如果这些子集已经能够被基本正确分类那么构建叶节点并将这些子集分到所对应的叶节点去。3如果还有子集不能够被正确的分类那么就对这些子集选择新的最优特征继续对其进行分割构建相应的节点如果递归进行直至所有训练数据子集被基本正确的分类或者没有合适的特征为止。4每个子集都被分到叶节点上即都有了明确的类这样就生成了一颗决策树。 决策树的特点 优点计算复杂度不高输出结果易于理解对中间值的缺失不敏感可以处理不相关特征数据。缺点可能会产生过度匹配的问题适用数据类型数值型和标称型 过程 首先确定当前数据集上的决定性特征为了得到该决定性特征必须评估每个特征完成测试之后原始数据集就被划分为几个数据子集这些数据子集会分布在第一个决策点的所有分支上如果某个分支下的数据属于同一类型则当前无序阅读的垃圾邮件已经正确的划分数据分类无需进一步对数据集进行分割如果不属于同一类则要重复划分数据子集直到所有相同类型的数据均在一个数据子集内。 创建分支的伪代码 createBranch() 如下图所示 检测数据集中每个子项是否属于同一类 If so return 类标签 Else寻找划分数据集的最好特征划分数据集创建分支节点for 每个划分的子集调用函数createBranch()并增加返回结果到分支节点中return 分支节点数据14天打球情况 特征4种环境变化 目标构造决策树判断当出现一种天气的情况下打不打球。 划分方式4种问题谁当根节点呢?依据信息增益 例子基于天气划分 在历史数据中(14天)有9天打球5天不打球所以此时的熵应为: 4个特征逐一分析先从outlook特征开始 Outlook sunny时熵值为0.971 Outlook overcast时熵值为0 Outlook rainy时熵值为0.971 加权计算 根据数据统计outlook取值分别为sunny,overcast,rainy的概率分别为5/14, 4/14, 5/14 熵值计算5/14 * 0.971 4/14 * 0 5/14 * 0.971 0.693 (gain(temperature)0.029 gain(humidity)0.152 gain(windy)0.048) 计算信息增益 信息增益系统的熵值从原始的0.940下降到了0.693增益为0.247。 同样的方式可以计算出其他特征的信息增益那么我们选择最大的那个相当于是遍历了一遍特征找出来了大当家然后再其余中继续通过信息增益找二当家! 找信息增益大熵值小 五、信息增益率与gini系数 决策树算法 ID3 信息增益 (有什么问题呢?)问题ID当做特征熵值为0不适合解决稀疏特征种类非常多的。C4.5 信息增益率/信息增益比 (解决ID3问题考虑自身熵)CART 使用GINI系数来当做衡量标准GINI系数(和熵的衡量标准类似计算方式不相同)连续值 进行离散化。 六、决策树剪枝策略 决策树剪枝策略 为什么要剪枝决策树过拟合风险很大理论上可以完全分得开数据(想象一下如果树足够庞大每个叶子节点不就一个数据了嘛) 预剪枝 边建立决策树过程中进行剪枝的操作(更实用)。限制深度叶子节点个数。叶子节点样本数信息增益量等。   后剪枝 当建立完决策树后来进行剪枝操作。 通过一定的衡量标准 损失gini系数叶子节点个数(叶子节点越多损失越大) 七、回归问题解决 回归问题将方差作为衡量评估标准。看标签的平均方差。 分类问题将熵值作为衡量标准。 部分参考于 【精选】机器学习笔记——决策树(Decision Tree)1_决策树节点_吃花椒的恩酱的博客-CSDN博客 【机器学习实战】3、决策树_机器学习实战决策树-CSDN博客 【精选】唐宇迪学习笔记11决策树算法_决策树的训练和测试是_小丑呀~的博客-CSDN博客
http://www.sczhlp.com/news/196687/

相关文章:

  • 做外贸怎样免费登录外国网站商城网站开发用什么框架
  • app网站开发福州做网站哪家好
  • 自己搭建网站的步骤网站设计的目的和意义
  • 广州 网站设计金融手机网站模板
  • 建筑网站绿地新里城5g空间大吗企业网站
  • 咋做个人网站企业网站界面风格设计描述
  • 大连金普新区城乡建设局网站东莞专业微网站建设推广
  • 上海徐汇区网站建设公司初创企业网站建设流程
  • 南沙做网站要多少钱电子商务网站开发分几个模块
  • 常熟做网站多少钱按wordpress 七牛设置
  • 网站改版 域名设计公司资质申请
  • 企业网站开发制作费入那里分销商城网站建设
  • 深圳建站公司兴田德润电话多少net开发网页小程序
  • 河北平台网站建设价位wordpress 加广告位
  • 新闻发布系统网站模板企业网站排名优化方案
  • 网站设计中怎么做二级页面快速排名工具免费查询
  • 另一个角度看运放
  • 读技术之外:社会联结中的人工智能10读后总结与感想兼导读
  • 网站开发维护人员望野古诗王绩
  • 建设自己公司的网站首页最新网站信息
  • 扬州外贸网站建设公司营销技巧有哪些方面
  • 网站开发程序流程图创意做网站公司
  • 北京赛车手机网站建设wordpress加载不出图
  • 潍坊网站制作游戏币网站建设
  • 电商网站建设题库网站模块分析
  • 免费wap自助建站系统电子商务网站建设风格
  • 嘉兴市网站建设wordpress使用cdn
  • 网站设计建设合同是用html制作登录注册界面
  • 推广 广州网站建设公司msn wordpress
  • 做app和网站哪个泉州建设银行网站