pandas_plink 2.2.1基因数据解析库

大数据里的 plinker 神器,非 pandas_plink 莫属。这个 .whl 包,版本是 2.2.1,专门对接 Plink 基因型数据,底层读写效率挺高,大规模基因数据时速度也不错。你要是搞 GWAS 或基因,用它配合 Pandas,能把原来那堆让人头疼的.bed文件,秒变 DataFrame 格式,起来顺手多了。

pandas_plink的亮点是直接把 Plink 格式转成 DataFrame 结构,不用自己去纠结字节对齐、位运算那些事儿,省事不少。平常你拿 Pandas 做的那一套,在这也能照搬,连索引都保持得挺好。

安装也简单,直接用pip install pandas_plink-2.2.1-cp37m-manylinux1_x86_64.whl就行,记得环境是Python 3.7,Linux 系统下跑得最稳。如果你在 Mac 或者 Windows,建议去 GitHub 找源码安装。

这个包跟 NumPyPandas 结合得比较紧,性能优化做得蛮细,是内存控制方面,避免加载整块数据进来,有点懒加载的意思。数据大也不怕,响应也快,适合那些动不动几十 G 的基因矩阵。

如果你平时有用到 MatplotlibSeaborn 做结果图,配合起来也没问题。反正都变成了 DataFrame 格式,直接可视化,省了不少预的时间。

想了解更多例子,可以看看Pandas 数据库或者Python 数据与可视化实战案例,多思路都能直接迁移到这边来。

如果你手头有 Plink 格式数据,尤其是.bed/.bim/.fam这套,强烈建议试试看 pandas_plink,代码简单,表现稳定,效率也挺高。

whl 文件大小:97.81KB