当前位置: 首页 > news >正文

补发周五日报10.31

所花时间:90min
今天主要学习内容主要是机器学习,上课没咋听
知识点总结
这个问题很关键,决策树是机器学习的基础算法,也是软件设计师考试中机器学习部分的高频考点!核心结论:决策树是一种基于 “分而治之” 思想的树形分类 / 回归模型,通过属性划分逐步缩小样本范围,最终输出预测结果,核心围绕 “属性选择、剪枝、终止条件” 展开。
一、核心定义与本质
决策树是一种树形结构,每个内部节点代表一个属性的划分判断,每个叶节点代表一个类别(分类任务)或预测值(回归任务)。其本质是 “贪心算法 + 分而治之”:从根节点开始,每次选择最优属性划分样本,将复杂问题拆解为多个简单子问题,直到满足终止条件,最终实现对新样本的快速预测。
二、核心组成部分
根节点:整个决策树的起点,包含全部训练样本,需选择第一个最优划分属性。
内部节点:代表一个属性的划分,每个分支对应该属性的一个取值(如 “色泽 = 红”“色泽 = 绿”)。
叶节点:决策树的终点,无后续分支,每个叶节点对应一个确定的类别(分类)或预测值(回归),类别通常取该节点样本中数量最多的类别。
分支:连接父节点与子节点的路径,对应属性的某个取值,代表划分后的样本子集。
三、关键步骤:属性选择准则
属性选择的目标是找到 “最能区分样本类别” 的属性,常用准则有 3 种:
信息增益(ID3 算法):基于信息熵计算,公式为 IG (S,A)=H (S)-H (S|A),H 为信息熵。优先选择信息增益大的属性,但倾向于选择取值多的属性(如 “身份证号”),易过拟合。
信息增益率(C4.5 算法):通过分裂信息归一化信息增益,公式为 GR (S,A)=IG (S,A)/SplitInfo (S,A),解决了信息增益的偏好问题,但可能过度偏好取值少的属性。
基尼系数(CART 算法):衡量样本集合的纯度,基尼系数越小,样本纯度越高。优先选择基尼系数最小的属性划分,计算效率高,适用于分类和回归任务。
四、避免过拟合:剪枝策略
决策树易因 “分支过细” 导致过拟合(对训练集拟合好,泛化能力差),需通过剪枝优化:
预剪枝:在决策树构建过程中提前停止分支,常用停止条件包括 “节点样本数少于预设阈值”“信息增益低于阈值”“样本类别纯度达到阈值”。优点是计算成本低、防过拟合效果直接;缺点是可能欠拟合(剪掉有用分支),对阈值敏感。
后剪枝:先构建完整决策树,再修剪冗余分支,通过验证集评估剪枝效果(如错误率是否下降)。常用方法有错误率降低剪枝(REP)、悲观错误剪枝(PEP)。优点是泛化能力强、欠拟合风险低;缺点是计算成本高,需额外验证集。
五、算法终止条件
当满足以下任一条件时,停止分支并标记为叶节点:
当前节点所有样本属于同一类别,无需进一步划分。
无剩余属性可用于划分,或剩余属性无法降低样本不确定性(如信息增益为 0),类别取该节点样本数最多的类别。
当前节点样本数量少于预设阈值,避免过拟合。
所有样本的属性值完全相同,无法区分,类别取样本数最多的类别。
六、优缺点
优点:结构直观、易解释(可可视化),无需对数据做归一化 / 标准化预处理,能处理离散型和连续型属性,鲁棒性较强。
缺点:易过拟合(需剪枝优化),对噪声数据敏感,可能产生偏斜树(某一分支过深),分类边界呈轴平行状,对复杂数据拟合能力有限。

http://www.sczhlp.com/news/251842/

相关文章:

  • CSP-S 2023 游记
  • 领地免费网站wordpress如何开启邀请码注册
  • 网站视频下载脚本网站空间费1年1200
  • 网络科技公司网站首页在线制作gif
  • 视频网站采集规则大型农村电商平台
  • 做网站的时候字体应该多大百度ai开放平台
  • 网站模版网制作营销网站模板
  • 沈阳网站制作策划建设网站实训
  • 简洁的企业网站png素材网
  • 湘潭网站建设的公司深圳关键词优化
  • 深圳网站设计+建设首选深圳市沈阳网站制作思路
  • 网站制作的合同做网站是百度包年快照
  • 网站建设协议 模板海南省住房公积金管理局网上办事大厅
  • 做网站卖链接泰安房产中介公司
  • 淘宝优惠网站建设深圳家装
  • 上海医疗网站备案表中国建设信息
  • 自助建站免费申请个人网页classipress wordpress 主题
  • 坑梓网站建设方案美团代运营
  • 网站基本常识自己在线制作logo免费头像
  • 买了域名之后如何做网站网站宣传页面模板
  • 做同城网站还有机会吗成都建设网站的
  • 网站做SEO优化免费做动态图片的网站
  • 辽阳哪里做网站wordpress函数文件夹
  • 制作网站在本机运行网站建设工资郑州
  • 网络公司网络推广服务快速优化seo软件
  • 重庆网站制作设计建筑类期刊排名
  • 网站集约化建设要求安远网站建设
  • 题解:P6811 「MCOI-02」Build Battle 建筑大师
  • [KaibaMath]1017 关于收敛数列与其子数列之间的关系定理的证明
  • Day9综合案例一