用 Java 拿下 HTML，分分钟写个小爬虫 _爬虫

文章插图
作者 | HelloGitHub-秦人
来源 | HelloGitHub（ID：GitHub520）
HelloGitHub 推出的《讲解开源项目》系列，今天给大家带来一款开源 JAVA 版一款网页元素解析框架——jsoup，通过程序自动获取网页数据。

项目源码地址：https://github.com/jhy/jsoup

文章插图

项目介绍jsoup 是一款 Java 的 html 解析器。可直接解析某个 URL 地址的 HTML 文本内容。它提供了一套很省力的 API，可通过 DOM、css 以及类似于 jQuery 选择器的操作方法来取出和操作数据。
jsoup 主要功能：

从一个 URL、文件或字符串中解析 HTML 。
使用 DOM 或 CSS 选择器来查找、取出数据。
可操作 HTML 元素、属性、文本。

文章插图

使用框架
2.1 准备工作

掌握 HTML 语法
Chrome 浏览器调试技巧
掌握开发工具 idea 的基本操作

2.2 学习源码将项目导入 idea 开发工具，会自动下载 maven 项目需要的依赖。源码的项目结构如下：

文章插图
快速学习源码是每个程序员必备的技能，我总结了以下几点：

阅读项目 ReadMe 文件，可以快速知道项目是做什么的。
概览项目 pom.xml 文件，了解项目引用了哪些依赖。
查看项目结构、源码目录、测试用例目录，好的项目结构清晰，层次明确。
运行测试用例，快速体验项目。

2.3 下载项目  git clone https://github.com/jhy/jsoup

2.4 运行项目测试代码通过上面的方法，我们很快可知 example 目录是测试代码，那我们直接来运行。注：有些测试代码需要稍微改造一下才可以运行。
例如，jsoup 的 Wikipedia 测试代码：
  public class Wikipedia {
public static void main(String[] args) throws IOException {
Document doc = Jsoup.connect("http://en.wikipedia.org/").get;
log(doc.title);
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
log("%snt%s", headline.attr("title"), headline.absUrl("href"));
}
}
private static void log(String msg, String... vals) {
System.out.println(String.format(msg, vals));
}
}
说明：上面代码是获取页面（http://en.wikipedia.org/）包含（#mp-itn b a）选择器的所有元素，并打印这些元素的 title , herf 属性。维基百科国内无法访问，所以上面这段代码运行会报错。
改造后可运行的代码如下：
  public static void main(String[] args) throws IOException {
Document doc = Jsoup.connect("https://www.baidu.com/").get;
Elements newsHeadlines = doc.select("a[href]");
for (Element headline : newsHeadlines) {
System.out.println("href: " +headline.absUrl("href") );
}
}

文章插图
工作原理
Jsoup 的工作原理，首先需要指定一个 URL，框架发送 HTTP 请求，然后获取响应页面内容，然后通过各种选择器获取页面数据。整个工作流程如下图：

文章插图
以上面为例：

3.1 发请求  Document doc = Jsoup.connect("https://www.baidu.com/").get;
这行代码就是发送 HTTP 请求，并获取页面响应数据。

3.2 数据筛选  Elements newsHeadlines = doc.select("a[href]");
定义选择器，获取匹配选择器的数据。

3.3 数据处理  for (Element headline : newsHeadlines) {
System.out.println("href: " +headline.absUrl("href") );
}
这里对数据只做了一个简单的数据打印，当然这些数据可写入文件或数据的。