伯克利RISELab推出免费在线课程，涵盖数据科学、机器学习等3门课程

据统计，数据科学是美国增长最快的工作领域之一，吸引了包括技术、制造、零售、政府和金融在内的各种行业的需求。各种各样的组织需要增强他们制定有效的数据驱动决策的能力，根据权威部门统计：入门级数据科学家的平均年薪是 118,748 美元（合人民币：744253 元）。

为了帮助更多人进入这一领域，为了让更多人享受到数据科学与人工智能带来的便利，加州大学伯克利分校决定将“数据科学基础”课程（又称 Data 8X）在网络上向所有人开放。这门在线课程基于伯克利 2015 年在校园开设的数据科学基础课程，目前每学期有 1000 多名学生注册，是伯克利历史上增长最快的一门课程。该在线课程将于 4 月 3 日正式登陆 edX（由麻省理工学院和哈佛大学创建的大规模开放在线课堂平台）。

该课程由屡获殊荣的伯克利教授授课，而课程内容设计则来自由 RISE 教员、人工智能领域大神Michael I. Jordan 领导的伯克利计算机科学与统计部门教师团队。

https://v.qq.com/x/page/h0617w5p7zb.html

课程概览

数据科学基础系列课将从头开始教授计算和推理思想。它涵盖了从测试假设，应用统计推断，可视化分布和绘制结论等所有内容，值得一提的是，所有编程作业都是在 Python 中编写代码并使用真实世界的数据集。

其中一门课程会让学生基于从不同国家收集的多年来的经济数据跟踪全球经济增长。另一门课程会使用细胞样本数据集来创建能够诊断乳腺癌的分类算法。在现实世界中进行数据科学的探索，能够使前沿的统计学和计算机科学概念更加直观，并且适合于每一个普通人。

在这个日益变得数据驱动化的世界中，Data 8X 课程为学生提供了一个机会，无论他们身处世界的哪一个角落、年纪多大、有什么样的教育背景，都可以学习如何使用、理解和应用数据科学概念。参与课程的学员只需要在网站提供的 Jupyter Notebook 编程环境下学习和完成作业，其中包含了开始编码所需的所有工具，无需任何复杂的安装过程或陡峭的学习曲线。本课程不要求学员具备任何统计学、计算机科学或编程经验。

Data 8X 系列课程共包含三门独立的在线课程，每一门课为期 5 周：

数据科学基础： 使用 Python 进行计算思维，通过使用流行的编程语言 Python，教授计算思维的基础知识，这是当今数据驱动世界的基本技能。

重采样思维： 通过重采样的推理思维教导如何使用推理思维根据随机样本中的数据对未知数作出结论。

预测和机器学习： 教授如何使用机器学习，专注于回归和分类，自动识别数据模式并做出更好的预测。

每门课程都由 edX 免费提供，整个课程可作为数据科学专业证书课程的基础。但是如果用户想要获得下面这样的一张专业证书的话，可能需要花费 $357 来报名整套课程，不过如果你只是想学习，但不需要证书来证明自己完成了课程的话，那么就没必要花这笔钱了。

授课团队

John DeNero，加州大学伯克利分校 EECS 部的吉安卡洛教学研究员。2014 年加入加州大学，致力于计算机科学和数据科学方面的本科教育。教授并共同开发了两门最大的校园课程：专业计算机科学入门（每年 3000 名学生）和数据科学入门（每年 1500 名学生）。

David Wagner，加州大学伯克利分校计算机科学教授。他在科学文献中发表了 100 多篇同行评议论文，并共同撰写了两本有关加密和计算机安全的书籍。他的研究分析并贡献了蜂窝网络，802.11 无线网络，电子投票系统和其他广泛部署的系统的安全性。

Ani Adhikari，加州大学伯克利分校统计高级讲师，在斯坦福大学获得伯克利杰出教学奖和杰出教学奖。虽然她的研究兴趣集中在统计学在自然科学中的应用，但她的主要焦点始终是教授和指导学生。她教所有级别的课程，对于数学基础薄弱的学生教授统计数据具有特别的授课方式。她同时还获得了印度统计研究所的学士学位和博士学位。

详细介绍数据科学基础

本课程教授操作数据的基本编程技巧，学习如何使用 Python 组织和操作表中的数据，并有效地可视化数据。无需编程经验。

课程中给出的例子均来自不同环境的真实数据。并非所有数据都是数字，您还将使用文本数据和地图。虽然“数据科学”这个术语相对较新，但数据科学的基本思想却不是。该课程包括从拿破仑时代到现代的数百年的强大实例。在整个过程中，潜在的线索是数据科学是一种思维方式，而不仅仅是一种方法。课程还强调解释和交流，这是所有数据科学家的基本技能。

通过这套课程，你将学会：

如何使用计算来处理数据
Python 3 的基础知识以及如何将其用作数据分析工具
可视化的基本原理和方法

重采样思维

使用来自法律，医学和足球的真实案例，了解数据科学家如何根据可用的数据对未知数作出结论。通常，我们的数据是不完整的，但我们仍然希望得出关于世界的推论，并量化我们的结论中的不确定性。这被称为统计推断。在本课程中，学习统计推断的方法，并了解如何将它们应用于实际数据集。

通过这套课程，你将学会：

推理的逻辑和概念框架
重采样方法的目的和功能
样本量与准确度之间的关系
假设检验
Bootstrap 置信区间
A / B 测试和其他假设检验
如何解释结果

预测和机器学习

数据科学家的主要职责之一是根据数据做出可靠的预测。当可用的数据量很大时，如果某些分析可以自动化，则会有所帮助。机器学习是识别数据模式并使用它们自动进行未来预测或决策的一种方式。在这个数据科学课程中，您将学习机器学习的基本概念和元素。机器学习的两种主要方法是回归和分类。当试图预测数字量时使用回归；当试图选择要分配的类别时（例如，给定有关金融交易的信息，预测其是否具有欺诈性或合法性），将使用分类。

对于回归，这门课将教你如何测量两个变量之间的相关性，并计算当基础关系为线性时进行预测的最佳拟合线，同时还会教你如何使用自举法来量化预测中的不确定性。这些技术将用广泛的例子来说明。对于分类，您将学习 k- 最近邻分类算法，学习如何测量分类器的有效性，并学习如何将其应用于现实世界的任务。

课程将突出技术背后的假设，并将提供方法来评估这些假设是否良好。它还会指出导致过于乐观或不准确的预测的陷阱。

通过这套课程，你将学会：

相关性和均值回归现象
线性回归
量化不确定性并使用自举法生成 95％置信区间
使用 k 最近邻居算法进行分类
如何评估分类器的准确性

更多相关文章

随机推荐