大家好,最近在知乎和沙雕网友们疯狂互动的时候,碰到了这么一道题


怎么才有数据分析思路?

做数据分析经常会遇到一个问题,从一堆海量数据,不知道怎么分析,怎么得出结论,往往是因为想法枯竭,大家有什么好的方法吗?

我最近刚从这个问题脱身,挺有发言权的,赶紧来给大家输出



大学里学做海报的时候,学姐给我们传达的思想是“视觉积累比技术重要”;实习写公众号的时候,老大也教育我“80%的时间都应该花在‘看别人在说什么’上”。我想,世间之事大抵如此,都做不好一个复读机,那就更不可能做一个优秀的“人工”智能了。

 

所以,对于这个问题,我的第一个答案是“多看项目”


比如说,我是互联网行业的人,我每天手里握的数据是PV/UV/曝光/留存/转化,而我每天经受的灵魂拷问是“数据为什么降了”“新版上线留存能提高多少”...

       


 这时,我们可以参考一下参加数据比赛的一般解题流程

       

1.分析数据

分析数据,在这个语境下,应该是盘点一下手上能有怎样的数据。比如我们分析一条推送的打开率,送达/PV/UV/曝光/转化,除了这些平时我们直接关注的数据,还会有其他数据,比如,推送时间/标题长度/是否周末/用户属性balabala。

(此处我们没有评价指标,忽略)

2.抽象成数学问题

就是明确你要研究的数据,以及边界。

再拿“分析一条推送的打开率”举例,你可以把他转化成“预测一个用户是否会打开推送”,或者“预测一条推送文案的打开率”,又或者“预测一条推送的开率”

前面3个题目背后的X和y其实都是不一样的。

              

3.赛题类型

是有监督/无监督/半监督?二分类/回归/NLP...?拿前面那3个问题举例

预测一个用户是否会打开推送——有监督&二分类

预测一条推送文案的打开率——有监督&NLP&回归

预测一条推送的打开率——有监督&回归

再比如只是简简单单的做个用户画像,那可能就是个无监督的聚类问题。

4.查找资料

这不就不用多说了吧!无论是抄作业类型的找,还是漫无目的开卷有益型的找,多走走多看看总是没错的。

 

这不,我网上冲浪给大家找到了这些案例,或多或少都是按照上面给大家讲的4步来的,现在呈上来给大家开开眼。


这篇文章交媒体语料库,分析车类品牌用户的购买行为

Scottish Fold Cats,公众号:Social Listening与文本挖掘【万字干货】 如何利用Social Listening从在线垂直社区提炼有价值的信息---以汽车之家的口碑数据挖掘为例

作者开局一张纸,内容全靠爬,白手起家配合一些商业模型,最终输出了8个有效结论。

i.消费者购车目的分析

ii.了解消费者关注的典型话题

iii.从“车辆缺陷”中识别凯迪拉克的重要产品缺陷

...

       

这篇文章基于“人人都是产品经理”网站的文章数据进行数据分析,为选题作指导苏格兰折耳喵,公众号:Social Listening与文本挖掘【干货】作为一个合格的“增长***”,你还得重视外部数据的分析!

同为新媒体+数据分析从业者,我非常赞许作者用科学的方法洞察话题潮流趋势,从而指导选题这种操作。

这篇文章立足电商领域,用聚类的方法做RFM用户分类苏格兰折耳喵,公众号:Social Listening与文本挖掘【数据运营实操】如何运用数据分析对某个试运营项目进行“无死角”的复盘?




(另外,活捉以上3篇文章作者的技术专栏,见“阅读原文”)


这篇文章也是电商领域的。它从如何寻找特征维度开始讲解,用了最最最基础的决策树模型,来分析一个用户付费与否的核心差别点。


运营数据能力进阶(一):客户画像数据分析

LunaDeng人人都是产品经理

http://www.woshipm.com/data-analysis/2409661.html

              

这篇文章基于上海市链家二手房数据,构建线性回归方程,用于房价因素的判断及预测。


上海市链家二手房分析

小科,kesci

https://www.kesci.com/home/project/58d09ac197c4b112cbb80627




上面这些案例还都挺有启发性的,想看更多也可以自行搜索

(要不是为了写文章去搜的这些,我还不知道有这类骚操作,你看,“多看项目”有用吧~)

 

好,为了防止你看了以上案例,出现马冬梅名场面

 

             

 

我就再丢一个答案——提升“对于自己行业、对公司业务的理解”。

 

题主描述中所说“不知道怎么分析,怎么得出结论”,我想大抵就是对业务的不了解。


你看上面那些比较厉害的例子,或多或少都是有一些经典的理论进行支撑的,比如“汽车之家”的高大上Social Listening,还有电商的经典RFM模型。再不济,也是从实际业务中遇到的问题出发,比如自媒体的选题分析等。其背后,都是需要丰富的业务知识进行支撑。

 

再拿我自己举例子,对于我一个机器学习基础还行的新手互联网运营来说,其实给我带来更大的思路拓宽的是一些讲运营的书,比如《运营之光》之类,看了他,你才会对“互联网运营”的有更深,更结构化的认知,才不会永远都看山是山。

 

“对行业、业务的理解”和“对算法的理解”这两兄弟就好像双腿走路一样,如果其中短了一根,就会一瘸一拐走不好“数据分析”之路。

 

说到最后,其实也还是开卷有益,多看多交流,多花时间总没错的。


©著作权归作者所有:来自51CTO博客作者mb5fe18fab305a5的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. 谈谈统计学正态分布阈值原理在数据分析工作中的运用
  2. n种方式教你用python读写excel等数据文件
  3. Python地信专题 | 基于geopandas的空间数据分析—数据结构篇
  4. centos 普通用户使用root的权限
  5. pandas_profiling :教你一行代码生成数据分析报告
  6. 干货 | Bokeh交互式数据可视化快速入门
  7. 使用requests爬取拉勾网python职位数据
  8. excel VS python 谁更适合数据分析?
  9. Seaborn:一行代码生成酷炫狂拽的数据集可视化

随机推荐

  1. Java8如何让自己的代码不那么啰嗦?!
  2. 《Head First Servlets and JSP 2nd Edit
  3. 插入排序(Insertion Sort)
  4. 开发运营博客、公众号、小程序的 3 点感
  5. 同样的复杂度,为什么插入排序比冒泡排序更
  6. 从代码的改进,看参数行为化与Lambda
  7. 总是半吊子,何以卓越?
  8. 希尔排序(Shell Sort)
  9. 《Hello First HTML 与 CSS 第2版》读书
  10. 构造方法的参数太多,如何解决?