hextractor: 数据提取的工作台模块
用于工作台的AutoScrape提取器模块提供了一个基于Web的用户界面,用于从源HTML文档中提取结构化数据。它可以在两种模式下运行:作为独立的静态HTML脚本(只需在浏览器中打开),或作为工作台模块通过“导入模块...”选项添加。粘贴此GitHub存储库的URL。Hext适用于从高度重复的HTML块中提取数据,尤其当代码中没有很多标识符(如CSS类或ID)时非常有效。如果HTML页面上的某些数据是由程序通过模板生成的,那么Hext是一个很好的选择。相反,对于不规则或手工制作的HTML,Hext提取是不合适的。前端组件使用webpack构建。要构建用于开发的模块,请运行: npm run build,这将把静态HTML文件构建到dist/index.html。要为生产/工作台构建,请
441.65KB
文件大小:
评论区