加入收藏 | 设为首页 | 会员中心 | 我要投稿 淮南站长网 (https://www.0554zz.cn/)- 管理运维、图像技术、智能营销、专属主机、5G!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

DALL·E发布两天就被复现?

发布时间:2021-01-30 15:10:01 所属栏目:外闻 来源:互联网
导读:二、相关系数法 皮尔逊相关系数(r)定义为两个变量之间的协方差和标准差的商,是反映变量之间相关关系密切程度的统计指标,其值r范围为[-1, 1],含义为: 当r 0时表示两变量正相关 r 0时,两变量为负相关 当|r|=1时,表示两变量为完全相关 当r=0时,表示两变

二、相关系数法

皮尔逊相关系数(r)定义为两个变量之间的协方差和标准差的商,是反映变量之间相关关系密切程度的统计指标,其值r范围为[-1, 1],含义为:

  • 当r > 0时表示两变量正相关
  • r < 0时,两变量为负相关
  • 当|r|=1时,表示两变量为完全相关
  • 当r=0时,表示两变量间无相关关系
  • 当0<|r|<1时,表示两变量存在一定程度的相关。且|r|越接近1,两变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱

2.2.3 定性特征哑编码

大部分算法对于定性特征无法训练模型,利用哑编码(one-hot)可以将定性特征处理为定量特征用于模型训练,其基本思想是:将离散特征的每一种值看成一种状态,若该特征有N个值,则存在N种状态,例如女孩子的头发按照辫子的多少可以划分为:无辫子、一个辫子、两个辫子、多个辫子,则该特征有4种状态,利用哑编码可以表示为:

  • 无辫子 ====》[1, 0, 0, 0]
  • 一个辫子 ====》[0, 1, 0, 0]
  • 两个辫子 ====》[0, 0, 1, 0]
  • 多个辫子 ====》[0, 0, 0, 1]

2.3 特征降维

在机器学习中对维度较高的数据进行处理时会极大消耗系统资源,甚至产生维度灾难。在某些限定条件下,通过降维的方式可降低随机变量的个数,用一个低维度向量来表示原始高维度的特征。常用的降维的方式有:特征选择、PCA、LDA等。

2.3.1 特征选择

数据预处理完毕之后需要选择有意义的特征进行训练,特征选择从以下两方面考虑:

特征是否发散:若某特征不发散(例如方差接近为0),则认为该特征无差异。

特征与目标的相关性:优先选择与目标相关性较高的特征。

常用的特征选择方式有:Filter(过滤法)、Wrapper(包装法)、Embedded(集成法)。

2.3.1.1 Filter(过滤法)

先进行特征选择,然后去训练学习器,其特征选择的过程与学习器无关。其主要思想是给每一维的特征赋予权重,权重代表该特征的重要性,然后设定阈值或者待选择阈值的个数选择特征。常用方法有方差选择法(低方差特征过滤)、相关系数法等。

一、低方差特征过滤

方差指的是各变量值与其均值离差平方的平均数,是测算数值型数据离散程度的重要方法,方差越大则表征数据的离散程度越大,反之越小。对于数据中的特征值,方差小则表示特征大多样本的值比较相近;方差大则表示特征很多样本的值都有差别。低方差特征过滤正是基于该思想,通过设定方差阈值来去掉小于该阈值的特征。方差计算公式如下:

 

(编辑:淮南站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读