2021-10-08Crawler1 分钟读完 (大约 222 个字)

爬虫基础

除了常用的java, python可以做爬虫之外，其实任何后端语言都可以做爬虫，其中也包括了node.js。
node.js做爬虫的优势是异步和高并发。

流程

获取需要的数据的流程是：抓取 - 存储 - 分析 - 展示。
整个流程应该做到以上步骤的分离。

第一步就是抓取需要的页面。

从效率上来讲需要爬虫能够异步和并发爬取。

抓取回来的页面会有很多问题待解决，比如cookie、认证、编码、文件处理、url合规、多线程多进程、压缩等问题。

抓取到的页面按照一定的策略存储(fs, db)起来.

分析链接。
按需求提取数据。

数据可视化