干货福利,第一时间送达



导读

相信很多朋友都了解过数据科学类竞赛,但很多时候是不知道如何下手去解决一个任务,换句话说,拿来一份数据并不知道需要哪些预处理步骤,如何做特征工程,该怎么做集成等这些问题。


今天宝器分享一份数据科学竞赛的解决方案,非常详细的讲解了思路并且附有代码讲解和数据集。


本次内容目录:


1、竞赛地址:


http://www.pkbigdata.com/common/cmpt/ANZ%20Chengdu%20Data%20Science%20Competition_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html?lang=en_US



2、竞赛任务:


预测(使用提供的数据集)客户是否订购定期存款,主要是使用数据分析和先进的机器习算法分析客户的多维银行信息和客户行为特征来设计具有高差异化能力和高精度的客户。


3、方案思路:


3.1 数据分析

*分析每个特征的分布情况,可找到的数据分布特点。
*分析特征和目标特征的相关情况,对构建特征的指导意义。  
*缺失特征情况展示。  
*PCA降维分析图  

3.2 数据预处理

*重要且缺失少的特征的补全  
*类型转编码  

3.3 特征工程

*构建分箱离散化特征  
*构建交叉特征  
*构建排序特征  
*使用贪心+模型法进行特征筛选  
*使用贪心+皮尔顿相关系数去除高相关性特征  

3.4 模型融合

*lgb模型  
*xgb模型  
*GBDT模型  
*NN+GBDT模型  
*GBDT+LR模型  
*五种模型的加权融合  


4、方案报告(限于篇幅截取部分图展示)

















5、代码+数据集汇总(篇幅原因做部分截图展示)


说明:代码含详细讲解步骤,格式为ipyb文件。



代码少部分截图:






资源获取:

  1. 以上全部内容已上传至 DA for the learner 2群

  2. 扫以下二维码即可入群,如果二维码不能扫描请后台私信或添加宝器微信拉你入群。

  3. 之前的QQ资源分享群已解散,日后会在微信2群分享资源交流。


©著作权归作者所有:来自51CTO博客作者mob604756e834f7的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. 20个Pandas代码 | 助力数据从业人员新征程!
  2. ClickHouse大数据领域企业级应用实践和探索总结
  3. 物联网时代的答案 - Apache IoTDB
  4. 【大数据成神之路】第一版更新完毕
  5. 我看好数据湖的未来,但不看好数据湖的现在
  6. 什么是Zero-Copy?
  7. 来了,SQL在线模拟器
  8. Java NIO?看这一篇就够了!
  9. 最新疫情数据报告已到达你的邮箱!

随机推荐

  1. 如何在Android中利用AIDL添加service
  2. Android(安卓)Material Design
  3. Android(安卓)新手扫盲
  4. 第八章 Android(安卓)开发常见的UI布局
  5. android 小知识
  6. Windows下Android平台搭建_2
  7. 控件的android:layout_alignParentTop属
  8. android 资源
  9. android XMl 解析神奇xstream 六: 把集合l
  10. Android Drawable Resources系列9: