pandas-plink 2.2.2基因数据读取工具
基因数据的高效读取,一直是数据里的老大难。pandas_plink
的2.2.2
版本专门这个问题,直接用Pandas操作.bed
、.bim
、.fam
这些 Plink 文件,速度挺快,还能配合常见库玩出不少花样。
你要是做过遗传相关的数据,应该对 Plink 文件格式不陌生。pandas_plink
直接把这些格式转成Pandas DataFrame,结构清晰,数据预也方便,想做统计或者建模都顺手。
它底层用了Dask,也就是说,数据量大也不怕,延迟加载、分布式都安排上了。文件大到几 GB?没关系,照样能跑,还不卡。
日常用法简单,比如加载 Plink 文件:
from pandas_plink import read_plink
(bim, fam, bed) = read_plink('data/genotype')
加载完就能像普通 DataFrame 那样,比如bed.values
拿基因矩阵,fam.fid
拿样本 ID,操作挺顺手。
不过有一点要注意,文件路径别带错,它是按文件名前缀读取三件套的,像genotype.bed
、genotype.bim
、genotype.fam
必须放一起。
如果你平时做数据比较多,又刚好接触遗传学数据,那这个库可以说是又轻量又好用,配合Pandas、NumPy、Seaborn搞点可视化也挺方便。
72.83KB
文件大小:
评论区