Python数据科学教程完

无涯教程的 Python 数据科学离线版,整理得挺用心,内容也实在。主要讲了怎么用 Python 搞定数据这摊事,重点放在两个老朋友:NumPyPandas 上。前者负责干数值活儿,后者擅长搞表格,俩配合起来,数据清洗、都能搞定。尤其是缺失值这块,Pandas 真是救命稻草,fillnadropna这些方法用熟了,数据质量立马提升不少。

NumPy 那边的np.array,是入门必备。不管是一维、二维还是多维数组,用起来都挺顺。想自定义数据类型也能通过dtype轻松搞定。比如你要搞个整数数组:

arr = np.array([[1, 2], [3, 4]], dtype='int32')

简单直接,效率也高。

Pandas这边更贴近业务点。DataFrame就像 Excel 表格,用起来超级顺手。想查一列?直接列名索引。想过滤某些行?用布尔索引一把梭。有标签、有结构,数据舒服多了。

还有个冷门但实用的对象叫Panel,三维数据用它来更合适,虽然现在主流是xarray,但了解一下也没坏处。

如果你刚入门数据科学,或者想补补基础,这本 PDF 可以先存着慢慢啃。内容比较系统,也没啥废话。重点讲透了,例子也够多,适合边看边练。

顺带一提,还有几篇拓展文章也挺不错的:

如果你经常出差或者上地铁没网,这种离线版的教程真的是刚需。有空就翻一翻,比刷短视频靠谱多了。

pdf 文件大小:2.67MB