TensorFlow Data Validation 0.26.0数据验证工具

Windows 环境下的机器学习数据验证用tensorflow_data_validation-0.26.0-cp36m-win_amd64.whl包,安装起来蛮顺滑,基本没啥坑。这个版本是给 Python 3.6 准备的,兼容 Win 64 位系统,主要配合 TensorFlow 用,专门干数据验证那一块的活儿。

数据质量检测是做机器学习前绕不开的一步。尤其你用 TensorFlow 做训练,前期数据清洗不彻底,后面踩雷概率高得吓人。这个库就专门帮你识别缺失值、分布异常、类型错误这些问题。

用法也挺顺,配合TFX的 Pipeline,直接就能做批量数据,还支持生成 schema。对比下训练集和测试集的数据分布,看看有没有“数据漂移”问题也方便。

安装的话,直接用pip install tensorflow_data_validation-0.26.0-cp36m-win_amd64.whl就行,文件别放错目录哈。注意,这个版本只适用于Python 3.6,换高版本会报错。

如果你用的环境刚好符合,而且模型训练之前对数据质量比较挑,那这个.whl包还是挺值一试的。要是你不熟 TensorFlow 也没关系,用它纯做数据检测也蛮稳。

whl 文件大小:1.07MB