登陆

不交膏火也能成为数据科学家,这里有一条免费学习途径

admin 2019-11-11 219人围观 ,发现0个评论

选自towardsdatascience

作者:Rebecca Vickery

参与:魔王

怎么经过免费方法学习数据科学?数据科学家 Rebecca Vickery 从技术才能、理论和实践经历三个方面下手介绍了自己的经历。

怎么经过免费方法学习数据科学?数据科学家 Rebecca Vickery 从技术才能、理论和实践经历三个方面下手介绍了自己的经历。

在传统教育组织中读硕士学位的均匀本钱差不多在 3 万到 12 万美元之间。在线数据科学学位课程也不廉价,最低本钱为 9000 美元。假如你想学数据科学,但付出不起这笔费用,应该怎么办呢?

我在成为数据科学家之前没有经历过任何正式的专业教育。本文将共享我的个人课程表,无需付出数千美元也能学习数据科学。

该课程包括 3 个首要部分:技术才能、理论和实践经历。文中包括该学习途径中每个元素的免费资源链接,以及一些「低本钱」资源的链接。假如你想花一点钱加快学习进程,你能够把这些资源添加到课程中。本文会阐明每项资源的估计本钱。

技术才能

本课程的第一部分为技术才能。引荐我们先学习这部分内容,这样你就能够采纳实践优先的学习方法,而不是以数学理论为先。现在,Python 是数据科学范畴运用最广泛的编程言语。依据 Kaggle 2018 机器学习及数据科学调查报告,83% 的受访者在日常作业中运用 Python。因而,我引荐我们学习 Python 言语,一起也引荐我们花一点时刻学习其他言语,比方 R 言语。

Python 根底

运用 Python 履行数据科学使命之前,你需求先把握 Python 背面的根底常识。你需求一门 Python 入门课程。网上有许多免费教程,我最喜欢的是 Codeacademy 的教程,由于它们答应在浏览器内进行着手编程实践。

我引荐我们学习这个 Python 入门课程,该课程包括 Python 根底语法、函数、操控流、循环、模块和类。

课程地址:https://www.codecademy.com/learn/learn-python

运用 Python 做数据剖析

接下来,你需求充沛了解怎么运用 Python 做数据剖析,这方面有许多不错的资源。

首要,我引荐我们至少学完 dataquest.io 上数据剖析师学习途径的免费部分。Dataquest 供给完好的数据剖析师、数据科学家和数据工程师学习途径。其间许多内容,尤其是数据剖析师学习途径的内容能够免费获取。假如你资金足够,我强烈建议你付费订阅并学习这些内容。我学了这个课程,从中了解到数据科学的根底常识。数据科学家途径课程花费了我 6 个月时刻。每个月的价格从 24.5 美元到 49 美元不等,这取决于你是否购买年费会员。资金足够的话,购买年费会员更合算(https://www.dataquest.io/subscribe/)。

Dataquest 渠道(https://app.dataquest.io/dashboard)

运用 Python 做机器学习

假如你已经学完了 Dataquest 上的数据科学课程,那么你应该对运用 Python 履行机器学习的根底常识有了充沛了解。假如还没有,这方面也有许多免费资源。我引荐首要从 scikit-learn 开端学起,由于 scikit-learn 是现在最常用的机器学习 Python 库。

我很走运,在学习进程中参与了 scikit-learn 中心开发者之一 Andreas Mueller 举行的为期两天的 workshop。他发布了该课程的一切材料,包括幻灯片、课程笔记和 notebook。引荐我们先学习这份材料。

课程材料地址:https://github.com/amueller

接下来,我引荐我们学习 scikit-learn 官方文档中的一些教程。之后,我们就能够构建一些实践机器学习运用,学习模型运转背面的理论了。

scikit-learn 文档地址:https://scikit-learn.org/stable/tutorial/basic/tutorial.html

SQL

想成为数据科学家,SQL 是必不可少的一项技术,由于抽取数据是数据建模的根底流程之一。这一般需求对数据库运转 SQL query。假如你没有学完上述 Dataquest 数据科学课程,那么这里有一些免费资源可供挑选。

Codeacamdemy 有一门 SQL 入门课程,这门课实践性很强,学习进程中你能够在浏览器内进行编程。

课程地址:https://www.codecademy.com/learn/learn-sql

假如你还想了解根据云的数据库查询,那么 Google Cloud BigQuery 是不错的挑选。它有免费试用方案,你能够免费测验 query、许多公共数据集,以及阅览官方文档(https://cloud.google.com/bigquery/docs/tutorials)。

Codeacademy SQL 课程

R 言语

要想成为全面的数据科学家,只学 Python 还不行。我引荐我们学习一门 R 言语入门课程。Codeacademy 就有一门免费入门课程。

课程地址:https://www.codecademy.com/learn/learn-r。

值得注意的是,Codeacademy 的 pro 版别也供给完好的数据科学学习方案(晋级 pro 账户需求每月付出 31.99 到 15.99 美元不等,详细费用取决于预先付出多少个月)。我个人觉得 Dataquest 的课程愈加全面,但 Codeacademy 的这门课程要廉价一些。

软件工程

把握软件工程技术和最佳实践是正确的做法,这会使代码更具可读性和可扩展性。此外,当你开端将模型投入生产进程时,你需求写出高质量、测验杰出的代码,并娴熟运用版别操控等东西。

这里有两个不错的免费资源。「Python Like You Mean It」包括 PEP8 风格攻略、文档,以及面向对象的编程。

地址:https://www.pythonlikeyoumeanit.com/intro.html(有中文版)

scikit-learn 奉献攻略旨在促进开发者对 scikit-不交膏火也能成为数据科学家,这里有一条免费学习途径learn 库的奉献,但它实践上也触及最佳实践。它包括 GitHub、单元测验、debug 等论题,并且其写作布景是数据科学运用。

scikit-learn 奉献攻略地址:https://scikit-learn.org/stable/developers/contributing.小城故事html

深度学习

要想对深度学习有一个全面的了解,我觉得 fast.ai 是最好的挑选,它完全免费且没有广告。该课程包括机器学习导论、深度学习实践、核算线性代数和自然言语处理导论(代码优先)。一切课程都以实践为先,强烈引荐我们学习这些课。

课程地址:https://www.fast.ai/

fast.ai 渠道

理论

你在学习技术才能部分时,必定会遇到一些代码背面的理论常识。我引荐我们在学习实践才能的一起学习理论常识。我自己采纳的方法是:学习能够不交膏火也能成为数据科学家,这里有一条免费学习途径完结某项技术的代码(比方 KMeans),在代码运转后深化了解其概念,如惯性(inertia)。scikit-learn 文档包括 KMeans 算法背面的一切数学概念,地址:https://scikit-learn.org/stable/modules/clustering.html#k-means。

这部分将介绍重要的根底理论常识。

可汗学院简直包括以下罗列的一切概念,且可免费学习。你能够在注册可汗学院时挑选想要学习的主题,这样就能够得到量身定做的理论学习途径了。检查下图中的一切复选框,提早了解下文即将罗列的大部分理论元素。

可汗学院

数学

微积分

微积分的维基百科界说是「一门研讨改变的学识」。换句话说,微积分能够找出函数之间的形式,比方导数能够协助你了解函数跟着时刻的改变。

许多机器学习算法运用微积分优化模型功能。假如你略微了解机器学习,就必定听说过梯度下降。梯度下降便是:迭代地调整模型参数值,以找出能够最小化本钱函数的部分极小值。梯度下降是微积分在机器学习中的运用的绝佳事例。

你需求了解以下常识:

导数

  • 几许界说
  • 核算函数的导数
  • 非线性函数

链式法则

  • 复合函数
  • 复合函数的导数
  • 多个函数

梯度

  • 偏导数
  • 方向导数
  • 积分(Integrals)

线性代数

许多盛行的机器学习方法(包括 XGBoost)运用矩阵来存储输入和处理数据。矩阵和向量空间、线性方程构成了线性代数。要想了解机器学习方法的作业原理,你需求首要把握线性代数常识。

你需求学习:

向量和空间

  • 向量
  • 线性组合
  • 线性相关和线性无关
  • 向量点积和叉积

矩阵改换

  • 函数和线性改换
  • 矩阵相乘
  • 反函数
  • 转置矩阵

计算学

以下是你需求了解的重要概念:

描述性计算

  • 怎么总结数据样本
  • 不同散布类型
  • 偏斜度、峭度和会集趋势(如均值、中位数、众数)
  • 依靠性衡量,以及变量之间的联系(如相关性和协方差)

实验设计

  • 假设查验
  • 采样
  • 显著性查验
  • 随机性
  • 概率
  • 置信区间和双整体揣度(two-sample inference)

机器学习

  • 斜度揣度
  • 线性和非线性回归
  • 分类

实践经历

第三部分是实践。要想真实把握上述概念,你需求在相似实际运用的项目中运用这些技术。实践进程中,你会遇到一些问题,如数据丢掉、数据犯错,并逐步发展出该范畴的深层专业才能。这部分将罗列一些可供免费获取实践经历的当地。

「实践的意图不仅是完结潜能,还在于开发潜能,使之前不或许的事变为或许。这要求你勇于应战:走出舒适区,强制大脑或身体不断习惯。」Anders Ericsson,《Peak: Secrets from the New Science of Expertise》

「实践的意图不仅是完结潜能,还在于开发潜能,使之前不或许的事变为或许。这要求你勇于应战:走出舒适区,强制大脑或身体不断习惯。」Anders Ericsson,《Peak: Secrets from the New Science of Expertise》

Kaggle 等比赛

机器学习比赛是获取构建机器学习模型实践经历的好去处。它们供给许多数据集、待解决问题和排行榜。排行榜是衡量现有常识能否开宣布优异模型的重要方法,还能协助你发现哪些当地需求改善。

除了 Kaggle,还有许多机器学习比赛渠道,如 Analytics Vidhya 和 DrivenData。

DrivenData 比赛页

UCI 机器学习库

UCI 机器学习库包括许多公共数据集。你能够运用这些数据集创立自己的数据项目,包括数据剖析和机器学习模型。你乃至能够测验运用 web 前端构不交膏火也能成为数据科学家,这里有一条免费学习途径建一个布置模型。将自己的项目存储在公共渠道是个好办法,比方 GitHub,这能够帮你创立著作集,展现个人技术,为未来的求职打下根底。

UCI 机器学习库

开源奉献

另一个挑选是为开源项目做奉献。许多 Python 库依靠社区进行保护,黑客马拉松活动常常会在社区集会和会议时举行,新手也能够参与这类集会。参与这些活动能够帮你积累实践经历,并供给一个向别人学习一起反应别人的环境。Numfocus 便是一个比如。

本文介绍了数据科学学习途径和免费学习在线课程与教程。在个人著作会集展现技术是未来求职的重要东西。我信任教育应该惠及每一个人,至少互联网为数据科学学习者供给了这样的时机。除了以上罗列的资源,我之前还写过一份数据科学引荐阅览清单,包括 10 本在线免费书本,能够作为本文的弥补。

阅览清单地址:https://medium.co不交膏火也能成为数据科学家,这里有一条免费学习途径m/vickdata/10-free-data-science-books-you-must-read-in-2019-2d4f32793a51

华为云近期推出精编实战公开课,包括机器学习、大数据、运维实战等多项系列课程,由华为云资深工程师倾情教学,完结理论学习+实践内容还有精巧礼品相赠。点击阅览原文,挑选课程,免费报名。

请关注微信公众号
微信二维码
不容错过
Powered By Z-BlogPHP