除了常用的java, python可以做爬虫之外,其实任何后端语言都可以做爬虫,其中也包括了node.js。
node.js做爬虫的优势是异步和高并发。
流程
获取需要的数据的流程是:抓取 - 存储 - 分析 - 展示。
整个流程应该做到以上步骤的分离。
抓取
第一步就是抓取需要的页面。
从效率上来讲需要爬虫能够异步和并发爬取。
抓取回来的页面会有很多问题待解决,比如cookie、认证、编码、文件处理、url合规、多线程多进程、压缩等问题。
存储
抓取到的页面按照一定的策略存储(fs, db)起来.
分析
分析链接。
按需求提取数据。
展示
数据可视化