`
eric_weitm
  • 浏览: 235971 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Webmagic 内部实现

    博客分类:
  • java
 
阅读更多

Webmagic 内部实现

1、Site的地位是全局的setting或环境

2、scheduler 大概是一个url排序和去重的队列

3、downloader 封装httpclient连接池,进行下载操作;结果产出page(封装下载的内容和http 状态码)

4、PageProcessor 对下载的内容做处理

pipeline:对processor处理的结果进行计算、持久化等处理

5、spider 组织所有的流程和模块。核心逻辑 run:1》创建线程池,2》从scheduler获取URL 3》 调用downloader下载 4》 回调PageProcessor 4》 提取新的url和request 5》 回调pipeline 6》回调 SpiderListener

 

模型的顺序:Request->page -> ResultItems + Task 

 

核心是processor + pipeline

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics