8个零代码数据爬取工具,不会Python也能轻松爬数!(附教程)( 三 )
本文插图
(5)点击保存并启动后就可以进行数据采集了 , 以下是本地采集效果示例 , 如图:
本文插图
GooSeeker 集搜客
网站:https://www.gooseeker.com/
集搜客也是一款容易上手的可视化采集数据工具 。 同样能抓取动态网页 , 也支持可以抓取手机网站上的数据 , 还支持抓取在指数图表上悬浮显示的数据 。 集搜客是以浏览器插件形式抓取数据 。 虽然具有前面所述的优点 , 但缺点也有 , 无法多线程采集数据 , 出现浏览器卡顿也在所难免 。
这个操作原理和八爪鱼也差不多 , 详细的步骤可以看一下官方的文档 , 我就不展示了
WebScraper
网址:https://webscraper.io/
WebScraper 是一款优秀国外的浏览器插件 。 同样也是一款适合新手抓取数据的可视化工具 。 我们通过简单设置一些抓取规则 , 剩下的就交给浏览器去工作 。
安装和使用步骤:
Web scraper是google浏览器的拓展插件 , 它的安装和其他插件的安装是一样的 。
本文插图
(1)启动插件 , 根据提示使用快捷键打开插件 。 实际是在开发者工具中添加了一个tab(开发者工具的位置必须设置在底部才会显示)
本文插图
本文插图
(2) 创建爬取任务
- 点击Create New Sitemap——Create Sitemap
- 输入Sitemap name:爬取任务名称
- 输入start url:爬取的初始页面 , 这里为https://movie.douban.com/chart
- 点击create sitemap完成创建
本文插图
(3) 创建选择器
创建sitemap后进入选择器创建界面 , 点击Add Selector
Selector:选择器 , 一个选择器对应网页上的一部分区域 , 也就是包含我们要收集的数据的部分
一个 sitemap 下可以有多个 selector , 每个 selector 有可以包含子 selector, 一个 selector 可以只对应一个标题 , 也可以对应一整个区域 , 此区域可能包含标题、副标题、作者信息、内容等等信息 。
本文插图
selector设置 , 参数设置完成后点击save selector
- id为selector名称 , 自行设定(小写英文)
- 爬取排行榜中的电影名称 , 因此type选text
- selector:点击select , 依次点击前两部电影的标题 , 可以看到后续全部标题已被自动选中 , 点击Done Selecting结束选择
- 采集多条数据时勾选multiple
- Regex为正交表达式设置 , 用于对选取文本的过滤 , 此处不设置
- Delay (ms)为每次爬取之间的延迟时间
本文插图
(4)爬取数据
点击sitemap douban——Scrape
本文插图
分别设置请求延时(避免过于频繁被封)与页面载入延时(避免网页载入不全)后点击Start Scraping , 弹出新页面开始爬取
推荐阅读
- 疫情|美国疫情速报:确诊数已逼近284万;特朗普发话:99%新冠病例完全无害;美专家:实际感染数或是现有数据10~24倍
- 「徐艺洋」两百万的数据差,张艺凡却“顶替”徐艺洋出道,正面撕开创3内幕
- 睡不醒的陶陶|有种“整容”叫嫁到日本8个月,黑泽还是黑泽,林志玲已判若两人!
- 北京日报客户端|北京又有3地降级!28个中高风险地区一图了解
- 主从|Redis系列(五):主从复制
- 轻拔琴弦|AI挑战赛「潮流商品标签识别」:谁说写代码的人不懂潮?
- 『程序员』装出新高度! 程序员用代码写招租广告只因不想与其它行业人士合租
- 汽车营销分析|众泰欠薪8个月,员工讨薪无果苦不堪言
- 陆家嘴金融|8个省份税收养活全国:小账大账到底该怎么算?
- 红刊财经|蒙泰股份拟创业板注册上市 营业收入数据异常问题难解