web-crawler:node.js中的一个简单的网络爬虫
网络爬虫爬虫是一个程序,它以网络上的url(例如: )开始,获取与该url对应的网页,并将该页面上的所有链接解析为链接存储库。接下来,它从刚刚创建的存储库中获取任何url的内容,将来自这个新内容的链接解析到存储库中,并对存储库中的所有链接继续这个过程,直到停止或在获取给定数量的链接之后。安装依赖我们在这个项目中有两个依赖:request和cheerio我们已经预先配置了npm因此我们可以简单地执行以下操作: npm install运行应用程序要从特定网站抓取链接,我们可以传递两个命令行参数。 URL和Number Of Links node index.js http://google.com 200现在将在包含所有获取的链接的同一目录中创建新文件links.txt 。
1.77KB
文件大小:
评论区