信息 290t.
数据工程学
4个单位
课程描述
此类将涵盖规模管理数据的原则和实践,专注于数据分析和机器学习中的用例。我们将介绍数据管理和科学的整个生命周期,从数据准备到探索,可视化和分析,到机器学习和协作。
该班级将在暴露于实际语言,工具和现实世界问题上平衡基础担忧。我们将研究今天使用的普遍数据模型的基础,包括关系,张量和数据标记,以及它们之间的映射。我们将SQL作为查询和操作数据以缩放查询和操作数据的方法,包括从用户透视图中的视图和索引,查询处理和优化等性能问题。我们将研究数据准备的基础和现实,包括使用标准Python和SQL Frameworks与现实世界数据进行实践工作。我们将探索非程序员的数据探索模式,包括电子表格系统和交互式视觉分析包后面的基本面。我们将研究管理数据准备,模型选择和培训,模型服务和监控的机器学习生命周期的方法。时间允许我们将研究用于移动,共享和缓存数据的技术,包括事件流系统,键值/文档存储,日志分析和搜索引擎。
还提供CS194。