pandas-plink 2.2.2基因数据读取工具

基因数据的高效读取,一直是数据里的老大难。pandas_plink2.2.2版本专门这个问题,直接用Pandas操作.bed.bim.fam这些 Plink 文件,速度挺快,还能配合常见库玩出不少花样。

你要是做过遗传相关的数据,应该对 Plink 文件格式不陌生。pandas_plink直接把这些格式转成Pandas DataFrame,结构清晰,数据预也方便,想做统计或者建模都顺手。

它底层用了Dask,也就是说,数据量大也不怕,延迟加载、分布式都安排上了。文件大到几 GB?没关系,照样能跑,还不卡。

日常用法简单,比如加载 Plink 文件:

from pandas_plink import read_plink
(bim, fam, bed) = read_plink('data/genotype')

加载完就能像普通 DataFrame 那样,比如bed.values拿基因矩阵,fam.fid拿样本 ID,操作挺顺手。

不过有一点要注意,文件路径别带错,它是按文件名前缀读取三件套的,像genotype.bedgenotype.bimgenotype.fam必须放一起。

如果你平时做数据比较多,又刚好接触遗传学数据,那这个库可以说是又轻量又好用,配合PandasNumPySeaborn搞点可视化也挺方便。

gz 文件大小:72.83KB