为什么你不应该成为一个“数据科学“通才？

我在数据科学辅导创业公司工作，我发现有一条建议让我自己一遍又一遍地给有抱负的学员。这真的不是我所期望的那样。

我建议他们首先考虑他们想要成为什么样的数据科学家，而不是建议一个新的库或工具，或者一些简历***。

这一点至关重要的原因在于，数据科学不是一个单一的，定义明确的领域，公司不会雇用通用的，万能的“数据科学家”，而是拥有非常专业技能的个人。

为了了解原因，想象一下你是一家试图聘请数据科学家的公司。你几乎肯定会有一个相当明确的问题，你需要帮助，而这个问题需要一些相当具体的技术知识和主题专业知识。例如，一些公司将简单模型应用于大型数据集，一些公司将复杂模型应用于小型模型，一些公司需要动态训练模型，一些公司根本不使用（传统）模型。

这些都需要完全不同的技能组合，而有一点特别奇怪的是有抱负的数据科学家收到的建议往往如此通用：“学习如何使用Python，构建一些分类/回归/聚类项目，并开始申请工作“。

我们这些在该行业工作的人承担了很多责任。在随意的对话，博客文章和演示文稿中，我们倾向于将过多的东西归入“数据科学”中。为生产构建强大的数据管道？这是一个“数据科学问题。”发明一种新的神经网络？这是一个“数据科学问题”。

这并不好，因为它往往会导致有抱负的数据科学家失去对特定问题类别的关注，而是成为所有行业的jacks（在一个已经饱含多面手的市场中，这会使得更难以引起注意或突破）。

但是，如果你不知道哪个常见的问题类可以在第一时间专注，那么很难避免成为一名多面手。这就是我将“数据科学”标题下经常混为一谈的五个问题列出来的原因：

1. 数据工程师

职位描述：您将为处理大量数据的公司管理数据管道。这意味着你要确保，当需要数据清理，预处理时，你可以从源头有效地收集和检索数据。

为什么这很重要：如果您只使用过存储在.csv或.txt文件中的相对较小（<5 Gb）的数据集，那么可能很难理解为什么会有人要建立全职工作的人和维护数据管道。这有以下几个原因：

（1）50 Gb数据集不适合您计算机的RAM，因此您通常需要其他方式将其提供给您的模型

（2）大量数据可能需要花费大量时间来处理，并且经常需要冗余存储。管理该存储需要专业的技术知识。

要求：您将使用的技术包括Apache Spark，Hadoop和/或Hive，以及Kafka。您很可能需要在SQL中拥有坚实的基础。

你要处理的问题听起来像：

“如何构建一个每分钟可处理10000个请求的管道？”

“如何清除此数据集而不将其全部加载到RAM中？”

2. 数据分析师

职位描述：您的工作是将数据转化为可操作的业务洞察。您通常会成为技术团队和业务战略，销售或营销团队的中间人。数据可视化将成为您日常工作的重要组成部分。

为什么这很重要：高技术人员通常很难理解为什么数据分析师如此重要，但他们确实如此。他们需要将经过训练，测试的模型和大量用户数据转换为易于理解的格式，以便围绕它们设计业务策略。数据分析师帮助确保数据科学团队不会浪费时间来解决无法提供商业价值的问题。

要求：您将使用的技术包括Python，SQL，Tableau和Excel。你还需要成为一名优秀的沟通者。

你要处理的问题听起来像：

“是什么推动了我们的用户增长数字？”

“我们如何向管理层解释最近用户费用的增加让人们失望？”

3. 数据科学家

职位描述：您的工作将是清理和探索数据集，并进行预测以实现业务价值。您的日常工作将涉及训练和优化模型，并经常将其部署到生产中。

为什么这很重要：如果你有一堆数据对于人类来说太大而无法解析，而且太有价值而无法被忽略，那么你需要一些方法从中汲取可被消化的见解。这是数据科学家的基本工作：将数据集转换为易于理解的结论。

要求：您将使用的技术包括Python，scikit-learn，Pandas，SQL，以及可能的Flask，Spark和/或TensorFlow / PyTorch。一些数据科学职位纯粹是技术性的，但大多数人要求你具备一定的商业意识，这样你就不会最终解决没有人的问题。

你要处理的问题听起来像：

“我们到底拥有多少种不同的用户类型？”

“我们可以建立一个模型来预测哪些产品将销售给哪些用户？”

4. 机器学习工程师

职位描述：您的工作是构建，优化和部署机器学习模型到生产。您通常会将机器学习模型视为API或组件，您可以将其插入到全栈应用程序或某种硬件中，但您也可能需要自己设计模型。

要求：您将使用的技术包括Python，Javascript，scikit-learn，TensorFlow / PyTorch（和/或企业深度学习框架），以及SQL或MongoDB（通常用于app DB）。

你要处理的问题听起来像：

“如何将此Keras模型集成到我们的Javascript应用程序中？”

“如何减少推荐系统的预测时间和预测成本？”

5. 机器学习研究员

职位描述：您的工作是找到解决数据科学和深度学习中的挑战性问题的新方法。您不会使用开箱即用的解决方案，而是制作自己的解决方案。

要求：您将使用的技术包括Python，TensorFlow / PyTorch（和/或企业深度学习框架）和SQL。

你要处理的问题听起来像：

“如何将模型的准确性提高到更接近现有技术的水平？”

“自定义优化器会帮助减少培训时间吗？”

我在这里列出的五个职位描述绝对不是孤立的。例如，在早期创业公司，数据科学家也可能必须是数据工程师和/或数据分析师。但是大多数工作会比其他工作更整齐地落入其中一个类别 - 公司规模越大，这些类别就越适用。

总的来说，要记住的是，为了获得雇佣，你通常会更好地建立一个更集中的技能组合：如果你想成为一名数据分析师，不要学习TensorFlow，如果你想成为一名机器学习研究员，不优先学习Pyspark。

相反，要考虑一下您希望帮助公司建立的价值，并善于实现这一价值。最重要的是，这是进入大门的最佳方式。

更多相关文章