首页手记 Java 中使用 selenium 和 chrome...

Java 中使用 selenium 和 chrome 浏览器下载动态网页

标签：

Java

时候，发现下载的内容中没有我们在浏览器上看到的阅读数、评论数、喜欢数这三部分的内容。当时解释过是因为这些内容是浏览器通过 JS 动态渲染的结果。也就是浏览器先下载了 html 页面内容，然后通过 AJAX 请求了新的数据，再通过 JS 将元素添加到 Dom 树中的。所以直接下载的 html 代码中是看不到这部分内容的。那么是否我们就无法通过爬虫获取到这部分的内容呢。也不是。这就要引入一个新的工具 selenium 来实现。

selenium 介绍

selenium 是一套 web 自动化测试的软件。他能够通过编程的方式调用系统的浏览器，并驱动浏览器模拟人的方式进行操作。例如点击、输入信息、滚动屏幕等。通过这样的方式，我们就可以在程序中自动运行我们的 web 页面。同时，对于爬虫程序来说，也可以驱动浏览器访问我们要的目标页面，并且因为是在浏览器中访问的网页，所以浏览器会自动渲染动态的内容。这样就可以解决上次发生的用 OkHttp 下载网页无法获取到动态内容的问题。

selenium Windows 环境安装

selenium 可以支持几种主流的浏览器。chrome、firefox 都在支持之列，浏览器是通过不同的 WebDriver 来驱动的。所以除了对应的浏览器，我们就是要安装对应的 WebDriver。这里来演示如何在 Windows 环境中安装 WebDriver。
对于 Chrome 的 WebDriver 来说，不同版本的 WebDriver 支持的 Chrome 浏览器的版本范围都不一样。所以我们要针对自己安装的 Chrome 版本选择安装不同的 Chrome Web Driver 。例如，现在最新的版本 2.44 支持的 chrome 版本范围是 v69-71 。
首先我们要确认自己机器安装的 chrome 的版本号。启动 chrome 浏览器，点击右上角的菜单，依次选择“帮助”、；“关于 Google Chrome” 选项，如下所示

选择关于

然后出现下面的界面

chrome 版本

其中红字部分是版本号，我这里是最新版本70。

然后我们要去地址 http://chromedriver.chromium.org/downloads 去下载对应的 chrome 版本。

image.png

这里会有不同版本对不同 chrome 版本支持的说明，选择一个对应的就可以了。我的版本是70 ，所以选择了最新版本 2.44 下载

web driver 不同平台

在具体的下载页面选择对应的平台即可。我这里选择了 chromedriver_win32.zip 。下载后解压出来一个 chromedriver.exe 文件，保存到一个指定的目录即可。
这样我们将一个windows 的 selenium 环境设置好了。

使用 selenium 和 chrome 下载动态网页

我们是在 Java 中使用 selenium ，所以在前文的基础上增加 selenium 相关的依赖

        <dependency>
            <groupId>org.seleniumhq.selenium</groupId>
            <artifactId>selenium-java</artifactId>
            <version>3.141.59</version>
        </dependency>

然后我们来改造一下用 jsoup 分析下载的 html 内容一文中的程序。原来是通过 OkHttp 来下载网页，这里就通过 selenium 结合 chrome 浏览器来进行

        WebDriver webDriver = null;        try {            String url = "https://www.jianshu.com/p/675ea919230e";            //启动一个 chrome 实例
            webDriver = new ChromeDriver();            //访问网址
            webDriver.get(url);
            Document document = Jsoup.parse(webDriver.getPageSource());
            Element titleElement = document.selectFirst("div.article h1.title");
            Element authorElement = document.selectFirst("div.article div.author span.name");
            Element timeElement = document.selectFirst("div.article span.publish-time");
            Element wordCountElement = document.selectFirst("div.article span.wordage");
            Element viewCountElement = document.selectFirst("div.article span.views-count");
            Element commentCountElement = document.selectFirst("div.article span.comments-count");
            Element likeCountElement = document.selectFirst("div.article span.likes-count");
            Element contentElement = document.selectFirst("div.article div.show-content");            if (titleElement != null) {
                System.out.println("标题：" + titleElement.text());
            }            if (authorElement != null) {
                System.out.println("作者：" + authorElement.text());
            }            if (timeElement != null) {
                System.out.println("发布时间：" + timeElement.text());
            }            if (wordCountElement != null) {
                System.out.println(wordCountElement.text());
            }            if (viewCountElement != null) {
                System.out.println(viewCountElement.text());
            }            if (commentCountElement != null) {
                System.out.println(commentCountElement.text());
            }            if (likeCountElement != null) {
                System.out.println(likeCountElement.text());
            }            if (contentElement != null && contentElement.text() != null) {
                System.out.println("正文长度：" + contentElement.text().length());
            }
        } catch (Exception e) {
            e.printStackTrace();
        } finally {            if (webDriver != null) {                //退出 chrome
                webDriver.quit();
            }
        }

运行这段代码之前，我们需要在虚拟机参数中指定 webdriver.chrome.driver 参数，值应该是我们下载的 chromedriver.exe 的路径。例如

虚拟机参数设置

这里，为了区分版本，我将 chromedriver.exe 改名为 chromedriver_2.44.exe 了。运行这个代码，会看到程序自动打开了一个 chrome 窗口，并且自动访问 url 地址

自动运行 chrome

运行完毕后，窗口自动推出。其中红字部分表明这个 chrome 是被 selenium 自动控制得。在控制台会输出如下内容

标题：是什么支撑了淘宝双十一，没错就是它java编程语言。
作者：Java帮帮
发布时间：2018.08.29 14:49字数 561
阅读 628
评论 0
喜欢 4
正文长度：655

可以看到，上一次通过 OkHttp 下载是没有得阅读、评论、喜欢数量能够被解析并且输出来了。

selenium chrome 的一些操作说明

上面的例子只是说明了如何在 selenium 中打开一个网页并获取他的内容。实际上我们前面说过了 selenium 是一个 web 的自动化测试框架，他是可以模拟人对页面的元素进行操作的。例如定位元素，在文本框里输入内容，点击元素等。下面的代码就演示了如何通过程序自动打开简书的首页并且在网站内查询 Spring Boot 相关的内容

       WebDriver webDriver;        try {            String url = "https://www.jianshu.com/";
            webDriver = new ChromeDriver();
            webDriver.get(url);
            webDriver.findElement(By.cssSelector("#q")).sendKeys("SpringBoot");
            webDriver.findElement(By.cssSelector(".search-btn")).click();
        } catch (Exception e) {
            e.printStackTrace();
        }

执行这段代码，程序会自动打开一个 chrome 窗口，并且在首页的搜索窗口输入 Spring Boot 文本，并且自动点击搜索按钮，然后得到搜索结果页面。

自动执行简书搜索

作者：阿土伯已经不是我
链接：https://www.jianshu.com/p/b5b48f1b9a9e

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕神8447489

手记
篇

粉丝

174

获赞与收藏

957

关注作者，订阅最新文章

阅读免费教程

Java并发工具

23个小节 19270 315

Java 并发原理入门教程

26个小节 39000 568

Java 入门教程

50个小节 341918 3165

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

Java 中使用 selenium 和 chrome 浏览器下载动态网页

selenium 介绍

selenium Windows 环境安装

使用 selenium 和 chrome 下载动态网页

selenium chrome 的一些操作说明

阅读免费教程