信息 290t.

数据工程学

4个单位

课程描述

此类将涵盖规模管理数据的原则和实践,专注于数据分析和机器学习中的用例。我们将介绍数据管理和科学的整个生命周期,从数据准备到探索,可视化和分析,到机器学习和协作。

该班级将在暴露于实际语言,工具和现实世界问题上平衡基础担忧。我们将研究今天使用的普遍数据模型的基础,包括关系,张量和数据标记,以及它们之间的映射。我们将SQL作为查询和操作数据以缩放查询和操作数据的方法,包括从用户透视图中的视图和索引,查询处理和优化等性能问题。我们将研究数据准备的基础和现实,包括使用标准Python和SQL Frameworks与现实世界数据进行实践工作。我们将探索非程序员的数据探索模式,包括电子表格系统和交互式视觉分析包后面的基本面。我们将研究管理数据准备,模型选择和培训,模型服务和监控的机器学习生命周期的方法。时间允许我们将研究用于移动,共享和缓存数据的技术,包括事件流系统,键值/文档存储,日志分析和搜索引擎。

还提供CS194。

先决条件

Compsci C100 / Data C100 / Stat C100或Compsci189或Info 251或数据144 / Info 254或数据科学中的等效高级课程课程。 Compsci 61a或Compsci 88或信息 226b或等效课程在编程中。

最近更新时间:

10月7日,2020年