8个零代码数据爬取工具,不会Python也能轻松爬数!(附教程)


前天给大家整理了免费数据源网站合集 , 看大家的反馈很积极 , 有粉丝留言说 , 她还想要爬取一些网页的数据进行分析 , 不知道该如何下手
目前的用的比较多数据爬取方法是用python爬虫 , 这两年python很火 , 网上关于python爬虫的教程也很多 , 大家可以自行学习 , 但是对没有代码基础的朋友来说 , 短期上手python还是很困难的 。
于是我就连日整理8个零代码数据爬取的工具 , 并附上使用教程 , 帮助一些没有爬虫基础的同学获取数据
1.Microsoft Excel
没错 , 第一个要介绍的就Excel , 很多知道Excel可以用来做数据分析 , 但很少有人知道它还能用来爬数
步骤如下:
1)新建Excel , 点击“数据”——“自网站”
8个零代码数据爬取工具,不会Python也能轻松爬数!(附教程)
本文插图
(2)在弹出的对话框中输入目标网址 , 这里以全国实时空气质量网站为例 , 点击转到 , 再导入
8个零代码数据爬取工具,不会Python也能轻松爬数!(附教程)
本文插图
选择导入位置 , 确定
8个零代码数据爬取工具,不会Python也能轻松爬数!(附教程)
本文插图
(3)结果如下图所示
8个零代码数据爬取工具,不会Python也能轻松爬数!(附教程)
本文插图
(4)如果要实时更新数据 , 可以在“数据”——“全部更新”——“连接属性”中进行设置 , 输入更新频率即可

8个零代码数据爬取工具,不会Python也能轻松爬数!(附教程)
本文插图
8个零代码数据爬取工具,不会Python也能轻松爬数!(附教程)
本文插图
缺点:这种方式虽然很简单 , 但是它会把页面上所有的文字信息都抓取过来 , 所以可能会抓取一部分我们不需要的数据 , 处理起来比较麻烦
火车头采集器
官网地址:http://www.locoy.com/
火车头是爬虫界的元老了 , 是目前使用人数最多的互联网数据抓取软件 。 它的优势是采集不限网页 , 不限内容 , 同时还是分布式采集 , 效率会高一些 。 不过它规则和操作设置在我看来有一些死板 , 对小白用户来说上手也有点困难 , 需要有一定的网页知识基础
操作步骤:(以火车头8.6版本为准)
第1步:打开—登录
第2步:新建分组
8个零代码数据爬取工具,不会Python也能轻松爬数!(附教程)
本文插图
第3步:右击分组 , 新建任务 , 填写任务名;
8个零代码数据爬取工具,不会Python也能轻松爬数!(附教程)
本文插图
第4步:写采集网址规则(起始网址和多级网址获取)
8个零代码数据爬取工具,不会Python也能轻松爬数!(附教程)
本文插图
第5步:写采集内容规则(如标题、内容)
8个零代码数据爬取工具,不会Python也能轻松爬数!(附教程)
本文插图
第6步:发布内容设置勾选启用方式二(1)保存格式:一条记录保存为一个txt;(2)保存位置自定义;(3)文件模板不用动;(4)文件名格式:点右边的倒立笔型选[标签:标题];(5)文件编码可以先选utf-8 , 如果测试时数据正常 , 但保存下来的数据有乱码则选gb2312;
8个零代码数据爬取工具,不会Python也能轻松爬数!(附教程)
本文插图
第7步:采集设置 , 都选100; a.单任务采集内容线程个数:同时可以采集几个网址; b.采集内容间隔时间毫秒数:两个任务的间隔时间; c.单任务发布内容线程个数:一次保存多少条数据; d.发布内容间隔时间毫秒数:两次保存数据的时间间隔;


推荐阅读