DALL·E发布两天就被复现？

发布时间：2021-01-30 15:10:01 所属栏目：外闻来源：互联网

导读：二、相关系数法皮尔逊相关系数(r)定义为两个变量之间的协方差和标准差的商，是反映变量之间相关关系密切程度的统计指标，其值r范围为[-1, 1]，含义为：当r 0时表示两变量正相关 r 0时，两变量为负相关当|r|=1时，表示两变量为完全相关当r=0时，表示两变

二、相关系数法

皮尔逊相关系数(r)定义为两个变量之间的协方差和标准差的商，是反映变量之间相关关系密切程度的统计指标，其值r范围为[-1, 1]，含义为：

当r > 0时表示两变量正相关
r < 0时，两变量为负相关
当|r|=1时，表示两变量为完全相关
当r=0时，表示两变量间无相关关系
当0<|r|<1时，表示两变量存在一定程度的相关。且|r|越接近1，两变量间线性关系越密切;|r|越接近于0，表示两变量的线性相关越弱

2.2.3 定性特征哑编码

大部分算法对于定性特征无法训练模型，利用哑编码(one-hot)可以将定性特征处理为定量特征用于模型训练，其基本思想是：将离散特征的每一种值看成一种状态，若该特征有N个值，则存在N种状态，例如女孩子的头发按照辫子的多少可以划分为：无辫子、一个辫子、两个辫子、多个辫子，则该特征有4种状态，利用哑编码可以表示为：

无辫子 ====》[1, 0, 0, 0]
一个辫子 ====》[0, 1, 0, 0]
两个辫子 ====》[0, 0, 1, 0]
多个辫子 ====》[0, 0, 0, 1]

2.3 特征降维

在机器学习中对维度较高的数据进行处理时会极大消耗系统资源，甚至产生维度灾难。在某些限定条件下，通过降维的方式可降低随机变量的个数，用一个低维度向量来表示原始高维度的特征。常用的降维的方式有：特征选择、PCA、LDA等。

2.3.1 特征选择

数据预处理完毕之后需要选择有意义的特征进行训练，特征选择从以下两方面考虑：

特征是否发散：若某特征不发散(例如方差接近为0)，则认为该特征无差异。

特征与目标的相关性：优先选择与目标相关性较高的特征。

常用的特征选择方式有：Filter(过滤法)、Wrapper(包装法)、Embedded(集成法)。

2.3.1.1 Filter(过滤法)

先进行特征选择，然后去训练学习器，其特征选择的过程与学习器无关。其主要思想是给每一维的特征赋予权重，权重代表该特征的重要性，然后设定阈值或者待选择阈值的个数选择特征。常用方法有方差选择法(低方差特征过滤)、相关系数法等。

一、低方差特征过滤

方差指的是各变量值与其均值离差平方的平均数，是测算数值型数据离散程度的重要方法，方差越大则表征数据的离散程度越大，反之越小。对于数据中的特征值，方差小则表示特征大多样本的值比较相近;方差大则表示特征很多样本的值都有差别。低方差特征过滤正是基于该思想，通过设定方差阈值来去掉小于该阈值的特征。方差计算公式如下：

（编辑：淮南站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

阿耳忒弥斯1号登月任	世界第二高过山车将被
EDA软件突围实行中	海外版抖音TikTok如何