1.数据预处理
空值、最值、字符型数据
2.特征工程
过滤法:基于统计特性的独立筛选,不依赖模型;方差选择、相关性分析(皮尔逊系数、卡方检验)、单变量统计检验
包装法:基于模型性能的子集搜索;递归特征消除、贪心搜索(向前选择、向后选择)
嵌入法:模型训练中自动筛选
3.模型选择
任务类型(分类 / 回归 / 聚类)、数据特点(线性 / 非线性、高维 / 低维)、业务需求(解释性优先 / 精度优先)选择模型(如逻辑回归、决策树、随机森林、SVM 等)。
模型选择后还需通过超参数调优(如网格搜索、随机搜索)和交叉验证评估性能,最终确定最优模型。