数据科学 W261

机器学习,大规模

3个单位

课程介绍

此课程建立上,并通过专注于机器学习算法如何可以改写并扩展到规模上的PB级数据的工作超越了大数据的收集,和分析阶段,结构化和非结构化,产生真正用于复杂的模型 - 时间的预测。概念上,该过程被分为两个部分。 MapReduce的平行的第一盖基本概念计算,通过Hadoop的,mrjob,和火花的眼中,而潜水深入到核心火花,数据帧,壳火花,火花流,火花SQL,mllib,等等。第二部分重在动手算法的设计和开发中并行计算环境(火花),开发算法(决策树学习),图形处理算法(的PageRank /最短路径),梯度下降算法(支持向量机),和矩阵分解。学生将用于工业应用和部署的各个领域,包括广告,金融,医疗保健的MapReduce并行计算框架,以及搜索引擎。例子和练习将作出在Python笔记本电脑(Hadoop的数据流,mrjob和pyspark)可用。

技能

向上对单个机器和机器上的簇/亚马逊AWS /与数据/机器问题的TB的工作学习数据PB级管道/算法设计/并行计算代码的机器学习算法

工具

阿帕奇的hadoop /阿帕奇火花

球场设计师

先决条件

Data Science W205 & W207. Intermediate programming skills in an object-oriented language (e.g., Python). Master of Information and 数据科学 students only.

最近更新时间:

2019年9月19日