TensorFlow Font2Char2Word2Sent2Doc 0.0.11NLP流式建模框架
基于 TensorFlow 的数据流建模框架,tensorflow_font2char2word2sent2doc-0.0.11-py3.6.egg
算是一个比较细分但挺实用的小工具。它把从字体特征到文档语义的转换过程拆得细,做 NLP 预或者端到端训练的时候还蛮方便的。
数据流式的设计,整个流程挺线性的,从font
到char
、再到word
、sentence
、document
,每一步都能单独调,也能串起来跑。适合调试细节,也适合快速搭 pipeline。
依赖的是 TensorFlow 的核心功能,像自动微分、数据流图,都用得挺到位。适合研究型项目,想验证下字体对语义理解的影响,这个包就比较对口了。
注意下,它是基于py3.6
和较老版本的TensorFlow
构建的,新项目用的话,建议先建个虚拟环境,别直接扔进生产代码里。
想了解它的底层原理或类似的数据流概念,可以参考tensorflow-1.13.1 数据流图详解,里面对 TensorFlow 的执行机制讲得蛮细的。
如果你在搞多层次的文本结构建模,或者需要一个可以轻松串联 char-level 到 doc-level 流程的小工具,可以试试这个。配合自己的 Tokenizer 和 Embedding 模块,打通上下文语义,还挺顺的。
18.44KB
文件大小:
评论区