2021年国内5G发展前瞻
2.3.1.2 Wrapper(包装法) 把要使用的分类器作为特征选择的评价函数,对于特定的分类器选择最优的特征子集。其主要思想是将子集的选择看作是一个搜索寻优问题,生成不同的组合,对组合进行评价,再与其它的组合进行比较。常用方法有递归特征消除法。
2.3.1.3 Embedded(集成法) 将特征选择嵌入到模型训练当中。其主要思想是通过使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。常用方法有:基于惩罚项的特征选择法(L1、L2)、决策树的特征选择法(信息熵、信息增益)。 注:该方法与算法强相关,所以在算法实现的时候进行阐述。 2.3.2 PCA(主成分分析法) 主成分分析(Principal components analysis,PCA)是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征(旨在找到数据中的主成分,并利用这些主成分表征原始数据,从而达到降维的目的)。这是通过保留低阶主成分,忽略高阶主成分做到的。 一、 优缺点 1.优点:
2.缺点: 可能损失有用信息(由于没有考虑数据标签,容易将不同类别数据完全混合在一起,很难区分)
2.3.3 LDA(线性判别分析法) LDA是一种监督学习的降维技术,它的数据集的每个样本是有类别输出的。PCA与此不同,PCA是不考虑样本类别输出的无监督降维技术。LDA的思想是“最大化类间距离和最小化类内距离”(将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大) 1.优点:
2.缺点:
(编辑:淮南站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |