pandas_plink 2.2.8基因数据读取库
Pandas 的数据文件读写能力一直都挺强,但要大规模遗传数据,原生功能就有点吃力了。pandas_plink-2.2.8
这个库就蛮实用,专门用来.bed
、.bim
、.fam
这些 Plink 格式的二进制文件,读得快、用起来也顺手。
pandas_plink的亮点是和 Pandas 无缝衔接,数据读进来之后就是DataFrame
格式,直接上各种、可视化都 OK。你不需要搞太多底层细节,文件一读,立马能玩。
实际用的时候,像是你拿到一堆基因组数据,扔进这个库里一,再结合Pandas
和Seaborn
,图一画,结果一展示,效率那是相当高。关键是,这库也支持多线程,读数据贼快。
要注意的是,它要求 Python 3.8 环境,其他版本不兼容。所以你本地环境得留意下,不然安装时踩坑。还有就是,它依赖numpy
和cython
,最好提前装好。
如果你平时做遗传学、生信,或者经常和大型数据打交道,这个pandas_plink
真心值得一试,用得舒服不说,还能省掉不少重复工作量。
98.45KB
文件大小:
评论区