当前位置: 首页 > news >正文

公司网站建设计划书wordpress管理

公司网站建设计划书,wordpress管理,网站开发前后台整个流程,中国商标网商标查询官方网站文章目录 序言1. 样本不均衡2. 样本不均衡的影响以及样本均衡的意义3. 什么时候需要进行样本均衡/数据均衡4. 数据不均衡的解决办法 序言 数据集制作过程中需要关注样本均衡问题,学习笔记,简单记录 1. 样本不均衡 分类任务中不同类别样本数差别很大的…

文章目录

      • 序言
      • 1. 样本不均衡
      • 2. 样本不均衡的影响以及样本均衡的意义
      • 3. 什么时候需要进行样本均衡/数据均衡
      • 4. 数据不均衡的解决办法

序言

  • 数据集制作过程中需要关注样本均衡问题,学习笔记,简单记录

1. 样本不均衡

  • 分类任务中不同类别样本数差别很大的情况,样本比例大于比如4:1可以认为样本不均衡,样本不均衡现象比较常见
  • 那么到底差异多少才算失衡呢,按照google developer的说法,我们一般可以把失衡分为三个程度:
    • 少数类 : 多数类 = 20%~40%, 轻度不均衡
    • 少数类 : 多数类 = 1%~20%, 中度不均衡
    • 少数类 : 多数类 < 1%, 极度不均衡

2. 样本不均衡的影响以及样本均衡的意义

  • 样本不均衡的影响

    • 假如”好、坏”两类样本占比是1000:1,只要预测为”好”,就能得到很高的准确率,那么模型学到的不是如何分别好坏,而是”好远比坏多”这样的先验信息,这样就背离了用模型去分别好坏的初衷;
    • 导致模型不能学习更本质的特征,影响模型的鲁棒性;
  • 样本均衡的意义

    • 通过解决样本不均衡,可以减少模型学习样本比例的先验信息,以获得能学习到辨别好坏这种本质特征的模型

3. 什么时候需要进行样本均衡/数据均衡

  • (1) 简单的线性可分任务,样本是否均衡可能影响不大
  • (2) 判断样本与真实样本分布是否一致且稳定,如果不是,数据如果带有先验信息可能就有副作用
  • (3) 某一类样本非常稀少的情况,模型很可能学习不好

4. 数据不均衡的解决办法

  • 数据均衡本质上是:通过某种方法使得不同类别的样本对于模型学习中的loss(或梯度)贡献是比较均衡的。以消除模型对不同类别的偏向性,学习到更本质的特征

  • 数据均衡的方法简单记录:

  • (1) 样本层面

    • 过采样和欠采样
      • 过采样会导致样本重复,可能导致过拟合:最直接的方法是简单的复制少数类样本形成多条记录,这种方式可能导致样本特征少而可能出现过拟合的问题;经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或者通过一定规则产生新的合成样本
      • 欠采样可能导致类别间有重要差别的重要实例丢失,在过滤少量样本不影响模型训练的情况下,随机的删除一些多数类样本
    • 数据增强:
      • 使用常见的数据增强方法增加样本数据,如翻转、旋转、改变对比度、随机裁剪等
  • (2) loss层面: 主流的是代价敏感学习法cost sensitive,为不同的分类错误给与不同惩罚力度/权重

    • scikit的’class weight’方法
      • 为不同样本提供不同权重,少数类有更高权重,从而平衡各类别的学习,避免决策边界偏重多数类的现象
    • OHEM和focal loss
      • OHEM: Online Hard Example Mining, 算法的核心是选择一些困难样本(多样性和高损失的样本)作为训练的样本,针对性地改善模型学习效果;对于数据的类别不平衡问题,OHEM的针对性更强
      • Focal Loss: 在交叉熵损失函数CE的基础上增加了类别的不同权重以及困难样本的权重,使训练时更专注于难分类的样本,以改善模型的学习效果
  • (3) 模型层面:模型层面主要是选择一些对样本不均衡比较不敏感的模型,比如 逻辑回归在利用反向传播来优化参数时,数量少的那一类在反向传播求梯度时影响比较小,梯度容易向数量多的样本方向下降,所以对样本分布不均衡比较敏感。决策树基于特征的划分去创建分类树,可以强制的将不同类别样本分开,在样本不均衡上比较不敏感一些

    • 采样 + 集成学习的方法,训练若干分类器进行集成学习;采样过程是必须的,否则同样会有利于多数类
    • 异常检测:在样本类别极端不均衡的情况下,比如少数类只有几十个样本,分类问题考虑成异常检测问题可能会更好
  • (4) 决策及评估指标层面:采用不均衡的数据训练模型时,采用更好的决策和客观的评估,比如对比分类问题采用recall precision F1分数 混淆矩阵,样本不均衡时会明显改变这些指标的表现

    • 分类阈值移动:对于不均衡下模型的预测,调整模型对于不同类别偏好的的情况,如模型偏好预测负样本,偏向0,则我们分类阈值也往下调整,达到决策时类别平衡的目的
    • 低于类别不均衡的模型评估,可以采用AUC、AUPRC评估模型表现,对正负样本的比例情况不敏感

 


【参考文章】
样本不均衡的解决办法
样本不均衡介绍及解决办法

created by shuaixio, 2023.10.24

http://www.sczhlp.com/news/110292/

相关文章:

  • 如何做网站嵌入腾讯地图双轨网站开发
  • 谁有哪种浏览器网站免费的中国人做外贸网站都卖什么
  • 网站怎么做跳转链接做同城特价的网站有哪些
  • 采集网站怎么做wordpress底部跟随按钮怎么做
  • 网页制作网站素材网站建设英语要几级
  • 我公司是帮企业做网站的_现在要帮客户们的网站备案天津建设局网站首页
  • 记录---Vue3对接UE,通过MQTT完成通讯
  • 《Real-Time Rendering》第一章 介绍
  • php网站挂到linux服务器上应该这么做苏州公司建设网站
  • 广州建站费用为网站优势
  • 网站没有被收录原因网站建设收费价目表
  • 网站服务器如何做热备价东莞网站建设的公司
  • 什么是网站建设规划书wordpress不修改数据库更换域名
  • 网站开发流程 百度文库做ppt很有创意的网站
  • 网站中英文切换怎麼做问答类网站怎么做
  • 东莞网络营销平台北京seo技术
  • 合肥学校网站建设制作公司简介
  • 如何运营一个行业网站百度查重免费入口
  • 东莞著名网站建设企业网络营销课程作业
  • 桐乡建设局网站做好一个网站后
  • 了解当前各类网站建设价格大淘客优惠券网站是怎么做的
  • 什么网站自己做名片好办公室
  • 网站开发最快框架招聘做网站
  • 广州易网网站建设企业主页的特点
  • 惠州网站建设翻译网站友情链接是什么
  • 网站开发可能遇到的问题自己创建网站怎么得流量钱
  • 成都网站优化哪家好网站开发合同适用印花税
  • 金融公司网站模板北京网站开发网站建设浩森宇特
  • 网站模板放哪页面设计软件排行
  • 不用模板 网站网站建设原则包括哪些方面