适用情形


我们现在有这样一份数据,记录了近173万用户的爱好情况(数据为随机生成)。数据中每行为一个用户,每列为一个爱好属性,“y”代表有此爱好,“n”代表无此爱好,我们希望通过关联分析找出用户会倾向于同时具有哪些爱好。数据保存为csv格式,并导入R中。

此份数据中,绝大部分取值为“n”,“y”数量偏少,如果直接进行关联分析,会得到如下结果:

可见,结果得到的是同时不具有的爱好规则,与想要结果不符。因此我们需要将数据转换为购物篮数据,即如下形式的数据:

      R语言实现


要将数据从原来的格式转换为购物篮数据,首先将“n”全部转换为NA,然后使用arules包中的as(…,"transactions")函数。

d<-read.csv("guanliandata.csv")

d[d=="n"]<-NA

trans3 <- as(d, "transactions")

data_rules1<-apriori(data=d,parameter =list(support=0.03,confidence=0.3,minlen=2))

inspect(sort(data_rules1,by="support"))

最终可得到结果:

同样的方法也可把matrix,list型数据转换为购物篮数据格式,具体可以通过help("transactions-class")进行查看。





©著作权归作者所有:来自51CTO博客作者mob604756f3ed23的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. C/C++判断数据类型与顶层const与底层const的区分
  2. 10+年数据库开发工程师带你深入理解MySQL索引
  3. 免费领取面试精编和电子书
  4. 基于帕金森数据集的分类方法仿真研究
  5. 企业如何建立一体化数据分析平台?还是得说说那几家BI工具
  6. AWS 大数据实战 Lab2 - 批量数据处理(三)
  7. Python数据分析入门到实战
  8. MySQL数据库入门——常用基础命令
  9. 华为分析5.2.0重磅上线,四大亮点让数据洞察更深入

随机推荐

  1. Android(cacerts.bks)添加根证书
  2. android 透明activity
  3. 使用Android Studio创建Android Wear项目
  4. TextView 中文字滚动的必要条件
  5. Android HTTP
  6. Java代码设置Android全屏
  7. Could not find SDK_Root\tools\adb.ex
  8. android上实现蓝牙透传时遇到点问题
  9. android:layout_weight 属性对于组件长度
  10. Android获取当前网络状态