Skip to content

Notes on Harvard CS109 and UCB DS100. 基于 Harvard CS109 和 UCB DS100 的数据科学导论笔记。

License

Notifications You must be signed in to change notification settings

MXPL18/introDataScience

 
 

Repository files navigation

数据科学导论

数据科学那么火,资源那么多,但找遍中文互联网都找不到系统、稍微过得去的笔记,于是就想着自己做一份。我认知中的优秀笔记是 CS231n 中文笔记,希望这系列笔记能达到它的质量。欢迎加星、合作、提问题、增改内容。

关于数据科学学科介绍的文章、鸡血颇多,因此不再赘述,简而言之,数据科学是计算机科学、统计学、相关领域的结合,以数据、统计思维和计算思维解决问题。而我相信体验数据科学的最佳方式,就是亲手实践。

笔记基于两门数据科学导论课,分别是加州大学伯克利校区 DS100 与哈佛大学 CS109,质量颇高。特别感谢制作这两门课程的 Joe Blitzstein、Hanspeter Pfister、Verena Kaynig-Fittkau、Joseph E. Gonzalez、Joseph Hellerstein、Deborah Nolan 和 Bin Yu。

笔记使用 Python3 和 Jupyter Notebook,于知乎专栏亦有更新。

笔记假定读者是以中文为母语、对数据科学感兴趣的入门者,故以中文为主、英语为注释进行创作,原课件为英文而作者亦无中文相关背景,故必然存在翻译纰漏,还请海涵并指出。
Given the assumption that readers are Chinese speakers and interested in Data Science, this note will be written primarily in Chinese and using English as captions.

知识储备

默认读者具有以下知识:

  • 概率统计基础:理解方差、期望值(均值)、联合概率、条件概率等基本概念
  • Python 基础:理解函数、循环、变量、列表生成式、类等基本概念,知道 pip、Jupyter Notebook、NumPy、Pandas 等工具
  • 英语技能: 四级或 IELTS 6 分以上水平,能浏览英语文档及文献
  • 知识技能:科学上网并使用 Google 查找解决方案

若不具备以上知识,推荐以下资源:

哲学

使用工具,并明了背后的思想;
内容自洽(self-contained),并提供深入途径;
能可视化的就不要用文字;
开源,协作。

笔记目录

作业目录

DS100

CS100

实验目录

Change Log

2017-09-01 完成推特分析作业
2017-09-01 完成统计模型
2017-08-17 完成用数据讲故事
2017-08-11 完成探索性数据分析
2017-08-10 完成数据收集与整理
2017-08-09 初始化

About

Notes on Harvard CS109 and UCB DS100. 基于 Harvard CS109 和 UCB DS100 的数据科学导论笔记。

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 99.6%
  • Python 0.4%