官方论文没出,大神们就在复现了
获取数据 获取数据是机器学习的第一步,例如使用公开的数据源、爬虫获取数据源、日志中获取数据、商业数据等。 数据处理 得到数据后并不一定符合使用需求,所以需要进行数据清洗、数据填充、数据格式转换,达到减小训练的数据量,加快算法的训练时间的目的。 特征工程 特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程,直接影响机器学习的效果,主要包含特征提取、特征预处理、特征降维。 算法训练 将处理之后的数据输入到合适的算法进行训练。 模型评估 使用测试集来评估模型的性能.模型性能指标有很多,比如在分类模型中常用的有错误率,精准率,召回率,F1指标,ROC等。 应用 将机器学习算法转换为应用程序执行实际任务,从而检验该算法是否可以在实际工作中正常使用。 二、特征工程 业界流传着一句话 “数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这里的数据指的就是经过特征工程处理后的数据。特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程,可见特征工程在机器学习中的重要地位。对于特征工程主要分为三步:特征抽取、特征预处理、特征降维。 注:特征工程是一个很深的学科,此处不展开阐述。 2.1 特征提取 特征提取指的就是将任意数据(如文本或图像)转换为可用于机器学习的数字特征,常用的主要包含:字典特征提取、文本特征提取、图像特征提取。 2.2 特征预处理 通过特征提取,能得到未经处理的特征,该特征具有以下问题: 量纲不同:特征可能具有量纲,导致其特征的规格不一样,容易影响(支配)目标结果,使得一些算法无法学习到其它的特征,需要进行无量纲化处理。 信息冗余:对于某些定量特征,其包含的有效信息为区间划分,需要进行二值化处理。 定性特征不能直接使用:某些机器学习算法和模型只接受定量特征的输入,则需要将定性特征转换为定量特征,可通过哑编码实现。 2.2.1 无量纲化 无量纲化使不同规格的数据转换到同一规则,常用方法有归一化和标准化 1.归一化
对原始数据进行线性变换,使得结果映射到[0,1]之间。 (编辑:淮南站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |