[特征工程] encoding_心得技巧

心得技巧

html5 HTML/Xhtml CSS XML/XSLT Dreamweaver教程 Frontpage教程心得技巧

上一篇: 《HeadFirst HTML&CSS》全书... 下一篇:实验三-电子公文传输系统1-个人贡...

[特征工程] encoding

发布时间：2022-06-28 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了[特征工程] encoding，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

参考：An Overview of Encoding Techniques | Kaggle

Method 1: Label encoding

给每个类别以一个数字label，作为分类。将类别映射到自然数数值空间上

From sklearn.PReprocessing import LabelEncoder
train=pd.DataFrame()
label=LabelEncoder()
for c in  X.columns:
    if(X[c].dtyPE=='object'):
        train[c]=label.fIT_transform(X[c])
    else:
        train[c]=X[c]

Method 2 : One hot encoding

即独热码，每一个category对应特征向量中的一位，对应位置是否为1判定是否为该类。

可以使用pd.get_dummies()或sklearn.preprocessing中OneHotEncoder

from sklearn.preprocessing import OneHotEncoder
one=OneHotEncoder(
one.fit(X)
train=one.transform(X)

Method 3 : Feature hashing/Hashing Trick

一个“one hot encoding style” 的编码方式，将数据编入特定维数的散度矩阵中，降维中使用了hash方法。

from sklearn.feature_extraction import FeatureHasher
X_train_hash=X.copy()
for c in X.columns:
    X_train_hash[c]=X[c].astype('str')      
hashing=FeatureHasher(input_type='string')
train=hashing.transform(X_train_hash.values)

Method 4 :Encoding categories with dataset statistics

尝试为模型提供较低维的每个类别的表示，且其中类似的类别的表示相近。最简单的方法是将每个类别替换为我们在数据集中看到它的次数，即用出现频率作为他们的embedding。

X_train_stat=X.copy()
for c in X_train_stat.columns:
    if(X_train_stat[c].dtype=='object'):
        X_train_stat[c]=X_train_stat[c].astype('category')
        counts=X_train_stat[c].value_counts()
        counts=counts.sort_index()
        counts=counts.fillna(0)
        counts += np.random.rand(len(counts))/1000
        X_train_stat[c].cat.categories=counts

对于循环出现的特征，例如日期，星期等，常用sincos将其转为二维空间中的数据。这是基于“循环”的性质，类似于对圆进行分割。

X_train_cyclic=X.copy()
columns=['day','month']
for col in columns:
    X_train_cyclic[col+'_sin']=np.sin((2*np.pi*X_train_cyclic[col])/max(X_train_cyclic[col]))
    X_train_cyclic[col+'_cos']=np.cos((2*np.pi*X_train_cyclic[col])/max(X_train_cyclic[col]))
X_train_cyclic=X_train_cyclic.drop(columns,axis=1)

one=OneHotEncoder()
one.fit(X_train_cyclic)
train=one.transform(X_train_cyclic)

Method 5 : Target encoding

Target encoding 通过目标数据对类别变量进行编码，使用目标对应概率或平均概率替换该类别，即出现频次相近的被视为同一类（大城市，热门项等）。这个方法比较依赖训练集与测试集合的分布，要求他们数据分布一致。另外，这种方法可能会导致过拟合。

[特征工程] encoding

X_target=DF_train.copy()
X_target['day']=X_target['day'].astype('object')
X_target['month']=X_target['month'].astype('object')
for col in X_target.columns:
    if (X_target[col].dtype=='object'):
        target= dict ( X_target.groupby(col)['target'].agg('sum')/X_target.groupby(col)['target'].agg('count'))
        X_target[col]=X_target[col].replace(target).values

为了减轻过拟合可能带来的影响，可以使用K-Fold Validation ，每次对一份样本进行目标编码时，使用的都是其他K-1份数据之中的数据。

X['target']=y
cols=X.drop(['target','id'],axis=1).columns
%%time
X_fold=X.copy()
X_fold[['ord_0','day','month']]=X_fold[['ord_0','day','month']].astype('object')
X_fold[['bin_3','bin_4']]=X_fold[['bin_3','bin_4']].replace({'Y':1,'N':0,'T':1,"F":0})
kf = KFold(n_splits = 5, shuffle = False, random_state=2019)
for train_ind,val_ind in kf.split(X):
    for col in cols:
        if(X_fold[col].dtype=='object'):
            replaced=dict(X.iloc[train_ind][[col,'target']].groupby(col)['target'].mean())
            X_fold.loc[val_ind,col]=X_fold.iloc[val_ind][col].replace(replaced).values

此外，在对特征进行编码前也需要进行特征种类的区分。常分为：

0-1数值：只有两种取值，可映射到0，1
类别数值：多个类别，这也是最常见的数据。
时序数据：时间戳等，隐含了顺序信息，可以反应趋势。

脚本宝典总结

以上是脚本宝典为你收集整理的[特征工程] encoding全部内容，希望文章能够帮你解决[特征工程] encoding所遇到的问题。

如果觉得脚本宝典网站内容还不错，欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：agg column column dataset dataset java load load php python shuffle sort String 程序员程序员

上一篇: 《HeadFirst HTML&CSS》全书... 下一篇:实验三-电子公文传输系统1-个人贡...

猜你在找的心得技巧相关文章

clion结合vcpkg以及GTest的使用 2022-07-07
EGF 2022-06-06
ExtJS 布局-Column布局（Column layout） 2022-06-05
颜色之ARGB与RGB、RGBA的区别与介绍 2022-04-15
rgba中的a是什么意思 CSS之RGBA颜色指南 2022-04-15
rootfs -根文件系统制作 2022-07-07
网页简单布局之结构与表现原则分享 2022-04-15
小项目中怎么防止Vue的闪现画面效果 2022-04-15
隐藏 Web 中的元素方法及优缺点教程详解 2022-04-15
告别硬编码让你的前端表格自动计算的实例代码 2022-04-15

全站导航更多