TensorFlow Text 2.3.0自然语言处理扩展
tensorflow_text-2.3.0-cp37m-manylinux1_x86_64.whl 的支持挺实用,尤其你要文本相关的任务时,能省不少事。它是TensorFlow的一个扩展,专门自然语言的预部分,像分词、正则、tokenization 这些。用起来也不复杂,直接配合主包就能上手。
文本的扩展工具,多基础操作都内置好了,比如 Unicode 拆分、词元分割,还有那种基于规则的文本归一化。配合tensorflow
主包跑深度学习模型,速度还挺快的,响应也稳。
安装方式也挺直接的,只要你用的是Python 3.7
环境,平台是manylinux1
兼容的就能装,比如 Linux 系统下的 Anaconda 环境就比较稳。如果你系统不匹配,安装的时候会有点坑,注意下 Python 版本对得上就行。
平常做 NLP 任务,比如情感、问答系统之类的,预那块儿最容易踩坑。而这个包能帮你把流程走顺,比如用WhitespaceTokenizer
直接拆词,用法简单,还不容易出错。
如果你还在手动写正则做清洗,不妨试试这个库,挺省事的。尤其跟tf.data
配合大规模语料,效率还蛮高。如果你用的是 TF 2.3 左右的环境,直接装这个 whl 就行,省去了兼容性折腾。
2.51MB
文件大小:
评论区