R 语言缺失值处理并使用SMOTE处理不平衡数据集_心得技巧

心得技巧

html5 HTML/Xhtml CSS XML/XSLT Dreamweaver教程 Frontpage教程心得技巧

上一篇: 十一、std::async深入下一篇:第十一章 Net 5.0 快速开发框架 ...

R 语言缺失值处理并使用SMOTE处理不平衡数据集

发布时间：2022-07-05 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了R 语言缺失值处理并使用SMOTE处理不平衡数据集，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

  （1）准备数据过程中，遇到了缺失值的问题。以往都是自己手动写代码，用缺失值样本所在类别的均值或者众数替换掉，结果今天发现，DMwR2包就有处理缺失值的函数，而且思想一致【大哭】

先奉上代码：

install.packages("DMwR2");
library(DMwR2) ;
knnImputation(YourDataFrame)

（2）准备用SMOTE函数时，发现DMwR包在老早之前，就从R语言 CRAN中移除了。多方搜索，找到了DMwR包的网页下载路劲：https://cran.r-PRoject.org/src/contrib/Archive/DMwR/?C=D;O=A。直接下载最新版，下载后将zip文件存放至R语言目标文件夹的library中（主要是方便以后别人需要，我可以很快找到这个东西在哪里）。

比如，我的存放路径是：D:SoftwareR-4.1.1library

那么，现在回到R语言编程界面，输入代码：install.packages("D:/Software/R-4.1.1/library/DMwR_0.4.1.tar.gz", repos=NULL, tyPE="source")，执行。【在这里我犯了一个小错，输入路径时候，把压缩包的后缀'.gz'落下了，由此走了好多弯路，解决不了，还下载R语言的2个老版本企图解决问题，不过还好问题没解决，我又发现了这个小错误。】

结果报错：“ERROR: dependency 'abind' is not available for package 'DMwR'”。于是，再手动install.packages("abind")，安装成功后，再次执行install.packages("D:/Software/R-4.1.1/library/DMwR_0.4.1.tar.gz", repos=NULL, type="source")。到这里，我的DMwR就成功了。

如果上面这个ERROR后还跟了其他的包也缺失的话，就多单独安装一下。

（3）SMOTE函数的运用

完成上述的操作，library(DMwR)即可调用SMOTE函数。

SMOTE函数如下：SMOTE(form, data, perc.over = 200, k = 5, perc.under = 200, learner = NULL, …)。

1） form是公式，直接Y~.即可（这个Y就是你因变量的名称）。值得注意的是，这里的Y，如果是数据集中是数值型的话，一定要转换成factor类型（DataFrame[,"Y"] <- factor(DataFrame[,"Y"]) 即可）；

2）data，我们的数据集，包含了因变量和很多自变量的表；

3）perc.over：指定从少数样本中采样的比例；

4）perc.under：对多数样本下采样，有多少比例的样本被选入新的数据集中；

5）k：跟K近邻的思想一致，理解为通过周围都少个邻居决定生成数据吧；

6）重点！！！！怎么确定perc.over和perc.under的输入数值呢？

这里，针对我们的数据集做几个假设：

数据集中少数样本个数：N=30
数据集中少数样本个数：M=100
想要生成的少数样本数量TarN；多数样本TarM；| TarN=60；TarM=0
perc.over：X； perc.under：Y
现在，我想生成90个少数类样本，多数类不变。怎么确定我的X和Y呢？

且看公式：

X =（TarN)*100/N = 200

Y =（M+TarM)*100*100/(X*N) = 166.6667（保留3-4位小数就可以比较精准了）

这时候，再看我们的数据集，就有N+TarN+M+TarM条数据了。这篇博客的计算公式主要参考如下链接： https://blog.csdn.net/QQ_34139222/article/details/57461398，但是在实际验证的过程中，发现该博客在Perc.over确定的时候，跟实际情况对不上。所以做了修改。经验证，上述X，Y的最终计算结果应该是木有问题的了。

最后，用SMOTE处理了数据的时候，记得一定要在原始数据集中分出一批数据，不参与Smote的扩增处理，保证一批干净的数据用于后续模型的验证。但是多次碰到一个问题，就是用SMOTE处理了数据后，在内部验证的结果都非常好，但一用前面说的干净数据集验证时，结果特别差。以前没有仔细找原因，今天特地看了一下自己的生成数据，发现一个问题：我的数据集中有很多类别型变量，但是用smote算法后，它由于是靠距离决定的，所以模拟数据的结果，所有的变量都是数值型变量。因此，生成了模拟数据后，还需要再做一步的工作是，对类别型变量做一个round(X,0)的处理，不要小数点，不要变成数值型数据。

做了这一步改进之后，结果依然很差。后续会再来一篇博客，单独思考，SMOTE后的数据，为啥这么容易过拟合的问题。希望能找到原因及破解之法。

脚本宝典总结

以上是脚本宝典为你收集整理的R 语言缺失值处理并使用SMOTE处理不平衡数据集全部内容，希望文章能够帮你解决R 语言缺失值处理并使用SMOTE处理不平衡数据集所遇到的问题。

如果觉得脚本宝典网站内容还不错，欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：hive java php python 安装安装程序员程序员算法算法

上一篇: 十一、std::async深入下一篇:第十一章 Net 5.0 快速开发框架 ...

猜你在找的心得技巧相关文章

clion结合vcpkg以及GTest的使用 2022-07-07
EGF 2022-06-06
ExtJS 布局-Column布局（Column layout） 2022-06-05
颜色之ARGB与RGB、RGBA的区别与介绍 2022-04-15
rgba中的a是什么意思 CSS之RGBA颜色指南 2022-04-15
rootfs -根文件系统制作 2022-07-07
网页简单布局之结构与表现原则分享 2022-04-15
小项目中怎么防止Vue的闪现画面效果 2022-04-15
隐藏 Web 中的元素方法及优缺点教程详解 2022-04-15
告别硬编码让你的前端表格自动计算的实例代码 2022-04-15

全站导航更多

R 语言 缺失值处理并使用SMOTE处理不平衡数据集

脚本宝典总结

R 语言缺失值处理并使用SMOTE处理不平衡数据集