Java爬虫系列四：使用selenium-java爬取js异步请求的数据_心得技巧

心得技巧

html5 HTML/Xhtml CSS XML/XSLT Dreamweaver教程 Frontpage教程心得技巧

上一篇: GoLang设计模式11 - 备忘录模式下一篇:双系统升win11（grub启动问题修复...

Java爬虫系列四：使用selenium-java爬取js异步请求的数据

发布时间：2022-07-02 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了Java爬虫系列四：使用selenium-java爬取js异步请求的数据，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

在之前的系列文章中介绍了如何使用httpclient抓取页面htML以及如何用jsoup分析html源文件内容得到我们想要的数据，但是有时候通过这两种方式不能正常抓取到我们想要的数据，比如看如下例子。

1.需求场景：

想要抓取股票的最新价格，页面F12信息如下：

Java爬虫系列四：使用selenium-java爬取js异步请求的数据

按照前面的方式，爬取的代码如下：

/**
 * @description: 爬取股票的最新股价
 * @author: JAVA开发老菜鸟
 * @date: 2021-10-16 21:47
 */
public class StockPRiceSpider {

    LOGger logger = LoggerFactory.getLogger(this.getClass());

    public static void main(String[] args) {

        StockPriceSpider stockPriceSpider = new StockPriceSpider();
        String html = stockPriceSpider.httpClientProcess();
        stockPriceSpider.jsoupProcess(html);
    }

    private String httpClientProcess() {
        String html = "";
        String uri = "http://quote.eastmoney.COM/sh600036.html";
        //1.生成httpclient，相当于该打开一个浏览器
        CloseableHttpClient httpClient = HttpClients.createDefault();
        CloseableHttpResponse response = null;
        //2.创建get请求，相当于在浏览器地址栏输入 网址
        HttpGet request = new HttpGet(uri);
        try {
            request.setHeader("user-agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) Applewebkit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.54 Safari/537.36");
            request.setHeader("accept", "application/json, text/javascript, */*; q=0.01");

//            HttpHost Proxy = new HttpHost("3.211.17.212", 80);
//            Requestconfig config = RequestConfig.custom().setProxy(proxy).build();
//            request.setConfig(config);

            //3.执行get请求，相当于在输入地址栏后敲回车键
            response = httpClient.execute(request);

            //4.判断响应状态为200，进行处理
            if (response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {
                //5.获取响应内容
                HttPEntITy httpEntity = response.getEntity();
                html = EntityUtils.toString(httpEntity, "utf-8");
                logger.info("访问{} 成功，返回页面数据{}", uri, html);
            } else {
                //如果返回状态不是200，比如404（页面不存在）等，根据情况做处理，这里略
                logger.info("访问{}，返回状态不是200", uri);
                logger.info(EntityUtils.toString(response.getEntity(), "utf-8"));
            }
        } catch (ClientProtocolException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            //6.关闭
            HttpClientUtils.closeQuietly(response);
            HttpClientUtils.closeQuietly(httpClient);
        }
        return html;
    }

    private void jsoupProcess(String html) {
        Document document = Jsoup.parse(html);
        Element price = document.getElementById("price9");
        logger.info("股价为：>>> {}", price.text());
    }

}

运行结果：

Java爬虫系列四：使用selenium-java爬取js异步请求的数据

纳尼，股价为"-" ？不可能。之所以爬不到正确的结果，是因为这个值在网站上是通过异步加载渲染的，因此不能正常获取。

2.java爬取异步加载的数据的方法

那如何爬取异步加载的数据呢？通常有两种做法：

2.1内置浏览器内核

内置浏览器就是在抓取的程序中启动一个浏览器内核，使我们获取到 js 渲染后的页面就和静态页面一样。常用的内核有

Selenium
PhantomJs
HtmlUnit

这里我选了Selenium，它是一个模拟浏览器，是进行自动化测试的工具，它提供一组 API 可以与真实的浏览器内核交互。当然，爬虫也可以用它。具体做法如下：

引入pom依赖

<dependency>
   <groupId>org.seleniumhq.selenium</groupId>
   <artifactId>selenium-java</artifactId>
   <version>3.141.59</version>
</dependency>

配置对应浏览器的驱动要使用selenium，需要下载浏览器的驱动，根据不同的浏览器要下载的驱动程序也不一样，下载地址为：https://npm.taobao.org/mirrors/chromedriver/ 我用的是谷歌浏览器，因此下载了对应版本的windows和linux驱动。

下载后需要配置进java环境变量里面，指定驱动的目录：

System.getProperties().setProperty("webdriver.chrome.driver", "F:/download/chromedriver_win32_1/chromedriver.exe");

代码实现：

Logger logger = LoggerFactory.getLogger(this.getClass());

  public static void main(String[] args) {

      StockPriceSpider stockPriceSpider = new StockPriceSpider();
      stockPriceSpider.seleniumProcess();
  }

  private void seleniumProcess() {

      String uri = "http://quote.eastmoney.com/sh600036.html";

      // 设置 chromedirver 的存放位置
      System.getProperties().setProperty("webdriver.chrome.driver", "F:/download/chromedriver_win32_1/chromedriver.exe");

      // 设置浏览器参数
      ChromeOptions chromeOptions = new ChromeOptions();
      chromeOptions.addarguments("--no-sandbox");//禁用沙箱
      chromeOptions.addArguments("--disable-dev-shm-usage");//禁用开发者shm
      chromeOptions.addArguments("--headless"); //无头浏览器，这样不会打开浏览器窗口
      WebDriver webDriver = new ChromeDriver(chromeOptions);

      webDriver.get(uri);
      WebElement webElements = webDriver.findElement(By.id("price9"));
      String stockPrice = webElements.getText();
      logger.info("最新股价为 >>> {}", stockPrice);
      webDriver.close();
  }

执行结果：

Java爬虫系列四：使用selenium-java爬取js异步请求的数据

爬取成功！

2.2反向解析法

反向解析法就是通过F12查找到 Ajax 异步获取数据的链接，直接调用该链接得到json结果，然后直接解析json结果获取想要的数据。这个方法的关键就在于找到这个Ajax链接。这种方式我没有去研究，感兴趣的可以百度下。这里略。

3.结束语

以上即为如何通过selenium-java爬取异步加载的数据的方法。通过本方法，我写了一个小工具: 持仓市值通知系统，他会每日根据自己的持仓配置，自动计算账户总市值，并邮件通知到指定邮箱。用到的技术如下：

SpringBoot2：脚手架
Mybatis：ORM框架以及对应的代码自动生成工具
Jmail：发送邮件
Quartz：处理定时任务
Selenium-java：爬取最新股价

相关代码已经上传到我的码云，感兴趣可以看下。

脚本宝典总结

以上是脚本宝典为你收集整理的Java爬虫系列四：使用selenium-java爬取js异步请求的数据全部内容，希望文章能够帮你解决Java爬虫系列四：使用selenium-java爬取js异步请求的数据所遇到的问题。

如果觉得脚本宝典网站内容还不错，欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

上一篇: GoLang设计模式11 - 备忘录模式下一篇:双系统升win11（grub启动问题修复...

猜你在找的心得技巧相关文章

clion结合vcpkg以及GTest的使用 2022-07-07
EGF 2022-06-06
ExtJS 布局-Column布局（Column layout） 2022-06-05
颜色之ARGB与RGB、RGBA的区别与介绍 2022-04-15
rgba中的a是什么意思 CSS之RGBA颜色指南 2022-04-15
rootfs -根文件系统制作 2022-07-07
网页简单布局之结构与表现原则分享 2022-04-15
小项目中怎么防止Vue的闪现画面效果 2022-04-15
隐藏 Web 中的元素方法及优缺点教程详解 2022-04-15
告别硬编码让你的前端表格自动计算的实例代码 2022-04-15

全站导航更多