在学习爬虫前 , 我们需要先掌握网站类型 , 才能根据网站类型 , 使用适用的方法来编写爬虫获取数据 。
今天小编就以国内知名的ForeSpider爬虫软件能够采集的网站类型为例 , 来为大家盘点一下数据采集常见的几种网站类型 。
l常见网站类型
1.js页面
JAVAScript是一种属于网络的脚本语言,被广泛用于Web应用开发,常用来为网页添加各式各样的动态功能,为用户提供更流畅美观的浏览效果 。通常JavaScript脚本是通过嵌入在html中来实现自身的功能的 。
ForeSpider数据抓取工具可自动解析JS , 采集基于js页面中的数据 , 即可采集页面中包含JS的数据 。
文章插图
Ajax即异步的JavaScript和XML , 它不是一门编程语言 , 而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术 。
我们浏览网页的时候 , 经常会遇到这样的情况 , 浏览某页面时 , 往后拉页面 , 页面链接并没有变化 , 但是网页中却多了新内容 , 这就是通过Ajax获取新数据并呈现出来的过程 。
文章插图
ForeSpider数据采集系统支持Ajax技术,可采集Ajax网页中的内容 。
2.post/get请求
在html语言中 , 有两种方式给服务器发送表单(你在网页中填写的一些数据) 。一种是POST一种是GET 。POST把表单打包后隐藏在后台发送给服务器;GET把表单打包发送前 , 附加到URL(网址)的后面 。
文章插图
文章插图
ForeSpider采集器可采集数据在post/get请求中的网页内容 , 即采集post/get请求中的数据 。
3.需要Cookie的网站
Cookie指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据 。Cookie基于 Internet的各种服务系统应运而生 , 是由 Web 服务器保存在用户浏览器上的小文本文件 , 它可以包含有关用户的信息 , 是用户获取、交流、传递信息的主要场所之一 , 无论何时用户链接到服务器 , Web 站点都可以访问 Cookie 信息 。
文章插图
一般用户的账号信息记录在cookie中 , 爬虫爬取数据的时候 , 可以使用cookie模拟登录状态 , 从而获取到数据 。
ForeSpider数据采集分析引擎可设置cookie来模拟登陆 , 从而采集需要用到cookie的网站内容 。
文章插图
4. 采集需要OAuth认证的网页数据
OAUTH协议为用户资源的授权提供了一个安全的、开放而又简易的标准 。同时 , 任何第三方都可以使用OAUTH认证服务 , 任何服务提供商都可以实现自身的OAUTH认证服务 , 因而OAUTH是开放的 。
业界提供了OAUTH的多种实现如php、Java Script , Java , Ruby等各种语言开发包 , 大大节约了程序员的时间 , 因而OAUTH是简易的 。互联网很多服务如Open API , 很多大公司如google , Yahoo , Microsoft等都提供了OAUTH认证服务 , 这些都足以说明OAUTH标准逐渐成为开放资源授权的标准 。
ForeSpider爬虫软件支持OAuth认证 , 可以采集需要OAuth认证的页面中的数据 。
文章插图
l 前嗅简介
前嗅大数据 , 国内领先的研发型大数据专家 , 多年来致力于为大数据技术的研究与开发 , 自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品 。前嗅致力于打造国内第一家深度大数据平台!
【爬虫入门必学——常见的几种网站类型】
推荐阅读
- 从零开始学化妆超详细化妆入门教程,怎样学化妆新手如何学化妆-
- 气功入门功法是什么呢
- 少林气功入门与分类是什么
- 新手该如何炒股,怎么炒股票新手入门炒股知识大全--
- 小洪拳怎么练,小洪拳基本功教学-
- 蜂蜜|毛孔肌看过来,这4个缩毛孔技巧必学,搭配酸类精华,效果更是惊艳
- 新手怎么选购基金,基金股票怎么玩新手入门-
- 初学者学柳体还是颜体,书法入门该字欧体,颜体,还是柳体-
- 做蔬菜批发生意入门技巧,做批发蔬菜生意要懂的技巧-
- 基金投资入门与实战技巧豆瓣,投资 基金技巧-