人工智能开发网络爬虫框架Webmagic( 四 ) _Webmagic

（3）创建启动类
@SpringBootApplication@EnableSchedulingpublic class CrawlerApplication {@Value("${redis.host}")private String redis_host;public static void main(String[] args) {SpringApplication.run(CrawlerApplication.class, args);}@Beanpublic IdWorker idWorkker(){ return new IdWorker(1, 1);}@Beanpublic RedisScheduler redisScheduler(){ return new RedisScheduler(redis_host);}}（4）实体类及数据访问接口参见文章微服务。代码略
3.3.2爬取类
创建文章爬取类ArticleProcessor
package com.tensquare.crawler.processor; import us.codecraft.webmagic.Page; import us.codecraft.webmagic.Site;import us.codecraft.webmagic.processor.PageProcessor;/*** 文章爬取类*/ @Componentpublic class ArticleProcessor implements PageProcessor {@Overridepublic void process(Page page) {page.addTargetRequests(page.getHtml().links().regex("https://blog.csdn.net/ [a‐z 0‐9 ‐]+/article/details/[0‐9]{8}").all());String title= page.getHtml().xpath("//* [@id="mainBox"]/main/div[1]/div[1]/h1/text()").get();String content= page.getHtml().xpath("//* [@id="article_content"]/div/div[1]").get();//获取页面需要的内容System.out.println("标题："+title ); System.out.println("内容："+content );if(title!=null && content!=null){ //如果有标题和内容page.putField("title",title); page.putField("content",content);}else{page.setSkip(true);//跳过}}@Overridepublic Site getSite() {return Site.me().setRetryTimes(3000).setSleepTime(100);}}3.3.3入库类
创建文章入库类ArticleDbPipeline，负责将爬取的数据存入数据库
package com.tensquare.crawler.pipeline; import com.tensquare.crawler.dao.ArticleDao; import com.tensquare.crawler.pojo.Article;import org.springframework.beans.factory.annotation.Autowired; import org.springframework.stereotype.Repository;import us.codecraft.webmagic.ResultItems; import us.codecraft.webmagic.Task;import us.codecraft.webmagic.pipeline.Pipeline; import util.IdWorker;import java.util.Map;/*** 入库类*/ @Componentpublic class ArticleDbPipeline implements Pipeline {@Autowiredprivate ArticleDao articleDao;@Autowiredprivate IdWorker idWorker;public void setChannelId(String channelId) { this.channelId = channelId;}private String channelId;//频道ID @Overridepublic void process(ResultItems resultItems, Task task) { String title = resultItems.get("title");String content= resultItems.get("content"); Article article=new Article(); article.setId(idWorker.nextId()+""); article.setChannelid(channelId); article.setTitle(title); article.setContent(content); articleDao.save(article);}}ReusltItems相当于一个Map，它保存PageProcessor处理的结果，供Pipeline使用。它的API与Map很类似，值得注意的是它有一个字段skip，若设置为true，则不应被Pipeline处理。
3.3.4任务类
创建任务类
package com.tensquare.crawler.task;import com.tensquare.crawler.pipeline.ArticleDbPipeline; import com.tensquare.crawler.pipeline.ArticleTxtPipeline; import com.tensquare.crawler.processor.ArticleProcessor; import org.springframework.beans.factory.annotation.Autowired; import org.springframework.scheduling.annotation.Scheduled;import org.springframework.stereotype.Component;import us.codecraft.webmagic.Spider;import us.codecraft.webmagic.scheduler.RedisScheduler;/*** 文章任务类*/ @Componentpublic class ArticleTask {@Autowiredprivate ArticleDbPipeline articleDbPipeline;@Autowiredprivate ArticleTxtPipeline articleTxtPipeline;@Autowiredprivate RedisScheduler redisScheduler;@Autowiredprivate ArticleProcessor articleProcessor;/*** 爬取ai数据*/@Scheduled(cron="0 54 21 * * ?") public void aiTask(){System.out.println("爬取AI文章");Spider spider = Spider.create(articleProcessor); spider.addUrl("https://blog.csdn.net/nav/ai"); articleTxtPipeline.setChannelId("ai"); articleDbPipeline.setChannelId("ai"); spider.addPipeline(articleDbPipeline); spider.addPipeline(articleTxtPipeline); spider.setScheduler(redisScheduler);spider.start();}/*** 爬取db数据*/@Scheduled(cron="20 17 11 * * ?") public void dbTask(){System.out.println("爬取DB文章");Spider spider = Spider.create(articleProcessor); spider.addUrl("https://blog.csdn.net/nav/db"); articleTxtPipeline.setChannelId("db"); spider.addPipeline(articleTxtPipeline); spider.setScheduler(redisScheduler); spider.start();}/*** 爬取web数据*/@Scheduled(cron="20 27 11 * * ?") public void webTask(){System.out.println("爬取WEB文章");Spider spider = Spider.create(articleProcessor); spider.addUrl("https://blog.csdn.net/nav/web"); articleTxtPipeline.setChannelId("web"); spider.addPipeline(articleTxtPipeline); spider.setScheduler(redisScheduler); spider.start();}}4十次方用户数据爬取4.1需求分析
从csdn中爬取用户昵称和头像，存到用户表，头像图片存储到本地

人工智能开发网络爬虫框架Webmagic( 四 )

推荐阅读

TVB女星被62岁绯闻对象当众揽入怀，身家丰厚住半山豪宅养10万爱宠

打扮|冬季也要好好打扮自己，毛衣+阔腿裤，只加温度不减风度

中新经纬|百度涨5.14%，市值480.93亿美元

娱乐大家说说▲这几款合资SUV性价比不错，大空间高颜值还配四驱

国庆贺卡制作方法贺卡制作方法

|《信条》首批短评出炉，“特工出击”版预告曝光 9月4日内地上映

半月谈|一个村有101个扶贫公益岗？好举措不能变为昏招

【离婚】两个人在一起久了，没了新鲜感你会怎么做

日本|菅义伟绝对优势当选日本新首相！民众哀叹：导弹马上要来了

王杰|盘点港台华语流行乐坛消失的十大唱片公司上篇

格格巫育儿|坐月子30天的说法呢？两者区别在哪？，为什么有产褥期42天

财经作者陈琦与英特尔、英伟达云端必有一战，“千年老二”AMD的再度逆袭

美好历史|刘家天下还可以持续多少年？，如果没有三国最后由蜀国完成一统

配置一台4500元左右的玩主流网友的台式机（最好能列出材料清单，以及建议从哪里买）谢了

「美股研究社」星巴克股价高空坠落，投资者该买这张“特价入场券”么？

明星照片|章子怡黑白武术大片曝光光影叠加动作翩然刚劲

时尚萌主|再配上墨镜，简直帅呆了，唐嫣这件毛衣和短裙实在是太般配了

江苏省最有可能撤县设区的三座城，有一座百强县最受欢迎

该怎样告诉自己的父母他们的教育方式很糟糕

爸妈盒子|担心打扰邻居，在群里做预告，业主：开个直播？，宝爸准备打孩子

人工智能开发 网络爬虫框架Webmagic( 四 )

推荐阅读

人工智能开发网络爬虫框架Webmagic( 四 )