基于 Node.js 的网页内容提取工具

介绍了一款名为 article-grabber 的 Node.js 模块,该模块用于从指定链接中提取文章内容和元数据,包括标题、作者、域名、摘要等信息。

使用方法:

var extractor = require('article-grabber');
extractor.extractData('http://somesite.com/apage.html', function (err, data) {
  console.log(data);
});

提取结果示例:

zip 文件大小:11.45KB