8个零代码数据爬取工具,不会Python也能轻松爬数!(附教程)( 二 )
本文插图
附注:如果网站有防屏蔽采集机制(如数据很多但只能采集一部分下来 , 或提示多久才能打开一次页面) , 则适当调小a值和调大b的值;
第8步:保存、勾选并开始任务(如果是同一分组的 , 可以在分组上批量选中)
本文插图
Google Sheet
使用Google Sheet爬取数据前 , 要保证三点:使用Chrome浏览器、拥有Google账号、电脑已翻墙 。
步骤如下:
(1)打开Google Sheet网站:http://www.google.cn/sheets/about/
本文插图
(2)在首页上点击“转到Google表格” , 然后登录自己的账号 , 可以看到如下界面 , 再点击“+”创建新的表格
本文插图
(3)打开要爬取的目标网站 , 一个全国实时空气质量网站http://www.pm25.in/rank , 目标网站上的表格结构如下图所示
本文插图
(4)回到Google sheet页面 , 使用函数=IMPORTHTML(网址, 查询, 索引) , “网址”就是要爬取数据的目标网站 , “查询”中输入“list”或“table” , 这个取决于数据的具体结构类型 , “索引”填阿拉伯数字 , 从1开始 , 对应着网站中定义的哪一份表格或列表
对于我们要爬取的网站 , 我们在Google sheet的A1单元格中输入函数=IMPORTHTML(''http://www.pm25.in/rank'',''table'',1) , 回车后就爬得数据啦
本文插图
本文插图
(5)将爬取好的表格存到本地
本文插图
八爪鱼采集器
网站:https://www.bazhuayu.com/
八爪鱼采集器是用过最简单易用的采集器 , 很适合新手使用 。 采集原理类似火车头采集器 , 用户设定抓取规则 , 软件执行 。 八爪鱼的优点是提供了常见抓取网站的模板 , 如果不会写规则 ,就直接用套用模板就好了 。
它是基于浏览器内核实现可视化抓取数据 , 所以存在卡顿、采集数据慢的现象 。 不过整体来说还是不错的 , 毕竟能基本满足新手在短时间抓取数据的场景 , 比如翻页查询 , Ajax 动态加载数据等 。
操作步骤:
(1)登陆后找到主页面 , 选择主页左边的简易采集 , 如图:
本文插图
(2)选择简易采集中淘宝图标 , 如图红框:
本文插图
(3)进入到淘宝版块后可以进行具体规则模板的选择 , 根据楼主截图 , 应该手提包列表的数据信息采集 , 此时我们选择“淘宝网-商品列表页采集” , 如图:
本文插图
(4)然后会进入到信息设置页面 , 根据个人需要设置相关关键词 , 例如此处我们输入的商品名称为“手提包” , 如图:
推荐阅读
- 疫情|美国疫情速报:确诊数已逼近284万;特朗普发话:99%新冠病例完全无害;美专家:实际感染数或是现有数据10~24倍
- 「徐艺洋」两百万的数据差,张艺凡却“顶替”徐艺洋出道,正面撕开创3内幕
- 睡不醒的陶陶|有种“整容”叫嫁到日本8个月,黑泽还是黑泽,林志玲已判若两人!
- 北京日报客户端|北京又有3地降级!28个中高风险地区一图了解
- 主从|Redis系列(五):主从复制
- 轻拔琴弦|AI挑战赛「潮流商品标签识别」:谁说写代码的人不懂潮?
- 『程序员』装出新高度! 程序员用代码写招租广告只因不想与其它行业人士合租
- 汽车营销分析|众泰欠薪8个月,员工讨薪无果苦不堪言
- 陆家嘴金融|8个省份税收养活全国:小账大账到底该怎么算?
- 红刊财经|蒙泰股份拟创业板注册上市 营业收入数据异常问题难解