爬虫之常用的chrome技巧
Chrome 开发者工具Elements面板
1. 右键审查元素打开的面板, 最简单的查找Ctrl+F
\u0026lt;img src="https://pic4.zhimg.com/v2-5e9704e956a847be939b41e54b35d007_b.png" data-rawwidth="678" data-rawheight="248" class="content_image" width="678" data-original="https://pic4.zhimg.com/v2-5e9704e956a847be939b41e54b35d007_r.png"\u0026gt;
2. 使用CSS Selector 和Xpath 进行查找:
同样是在上图的查找框中, 支持CSS 以及Xpath, 写爬虫的时候最好的验证工具
\u0026lt;img src="https://pic4.zhimg.com/v2-39c349df9e0a2b8513c61a8c2b0f9d87_b.png" data-rawwidth="647" data-rawheight="247" class="content_image" width="647" data-original="https://pic4.zhimg.com/v2-39c349df9e0a2b8513c61a8c2b0f9d87_r.png"\u0026gt;3. 右键直接复制或者打开HTML代码中的链接.
3. 右键直接复制或者打开HTML代码中的链接.
4. F2 直接编辑源代码, 这个在写MD时需要用一些网页内的表格时特别好用.
NewWork面板
1. 右上角的停止可清空是最基本的使用, 不然的话你会被无止境的URL给淹没
\u0026lt;img src="https://pic4.zhimg.com/v2-116e97bbb814006222903c612265bcc7_b.png" data-rawwidth="659" data-rawheight="198" class="content_image" width="659" data-original="https://pic4.zhimg.com/v2-116e97bbb814006222903c612265bcc7_r.png"\u0026gt;2. 重点: XHR
2. 重点: XHR
XMLHttpRequest is an API that provides client functionality for transferring data between a client and a server. It provides an easy way to retrieve data from a URL without having to do a full page refresh. This enables a Web page to update just a part of the page without disrupting what the user is doing. XMLHttpRequest is used heavily in AJAX programming. 【爬虫之常用的chrome技巧】 爬虫的难点之一, AJAX动态页面怎么查找API? 全都在XHR面板呢.
一个页面或许有上百条网络连接, 但是XHR就那么两三条, 用这个面板来快速过滤.
最后: 全局检索
你想要的数据并不在HTML中, 也不在XHR中, 但是它确实出现在网页上了, 那么这个数据到底来自哪里? 一个一个翻链接??让我们用全局检索吧:
You want to perform a text string search across all of the text contained within all of the source files used by the current HTML page.Routine: From any panel use a keyboard shortcut (win: Ctrl+Shift+f, mac: Cmd+Opt+f) to open up the search panel. Enter any text you’d like to be found within the current HTML page. Note that clicking on one of the results (line number from source) will open the source in the source panel.Ctrl+Shift+f, 就这么一个快捷键, 可以检索所有下载的文本资源.
Chrome插件
1. 一键禁用JavaScript
当我们开始制作爬虫的时候,最重要的一点就是确定这个网页是静态的还是动态的, JS是否会影响我们需要爬取的数据, 而最好的解决办法就是禁用浏览器JS, 下面这个插件只提供一个功能, 一键禁用JS:
■网友
使用 Chrome 浏览器插件 Web Scraper 可以轻松实现网页数据的爬取,可以实现不写代码,指哪爬哪的目标。
当然你得爬墙去chrome一趟:
推荐阅读
- python 爬虫,咋获得输入验证码之后的搜索结果
- 咋自己发布网站
- 为啥房多多没像滴滴一样火?
- 趣头条|实用的代步工具,第三代哈弗H6!
- 补水|安全又补水,妈妈们都抢着用!这款给孩子用的高性价比面霜
- ibeacon目前在国内有已经应用或者商用的产品案例吗
- 《亿万》第九集里,法官用的这个搜索引擎是啥
- 新车|靠谱省油又耐用的品牌将推新款SUV,双色车身很帅气
- 怎样看待微软校招笔试使用的评测系统并不使用自家的产品
- 怎样统计工程中未使用的java类