Python利用Phantomjs抓取渲染JS后的网页

发布时间:2019-06-15 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了Python利用Phantomjs抓取渲染JS后的网页脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

最近需要爬取某网站,无奈页面都是JS渲染后生成的,普通的爬虫框架搞不定,于是想到用Phantomjs搭一个代理。

Python调用Phantomjs貌似没有现成的第三方库(如果有,请告知小2),漫步了一圈,发现只有pyspider提供了现成的方案

简单试用了一下,感觉pyspider更像一个为新手打造的爬虫工具,好比一个老妈子,有时无微不至,有时喋喋不休。
轻巧的小工具应该更受人喜爱,我也怀着一点私心,可以带着我最爱的BeautifulSoup一块儿用,而不用再学PyQuery(pyspider用来解析HTML),更不用忍受浏览器写Python的糟糕体验(偷笑)。

所以花了一个下午的时间,把pyspider当中实现Phantomjs代理的部分拆了出来,独立成一个小的爬虫模块,希望大家会喜欢(感谢binux)。

准备工作

  • 你当然要有Phantomjs,废话!(Linux下最好用suPErvisord守护,必须保持抓取的时候Phantomjs一直处于开启状态)
  • 用项目路径下的phantomjs_fetcher.js启动:phantomjs phantomjs_fetcher.js [port]
  • 安装tornado依赖(使用了tornado的httpclient模块)

调用是超级简单的

From tornado_fetcher import Fetcher

# 创建一个爬虫
>>> fetcher=Fetcher(
    user_agent='phantomjs', # 模拟浏览器的User-Agent
    phantomjs_PRoxy='http://localhost:12306', # phantomjs的地址
    poolsize=10, # 最大的httpclient数量
    async=False # 同步还是异步
    )
# 开始连接Phantomjs的代理,可以渲染JS!
>>> fetcher.phantomjs_fetch(url)
# 渲染成功后执行额外的JS脚本(注意用function包起来!)
>>> fetcher.phantomjs_fetch(url, js_script='function(){setTimeout("window.scrollTo(0,100000)}", 1000)')

老规矩,代码在小2的Github了,欢迎指正:PhantomjsFetcher

来自:建造者说

@H_126_79@

脚本宝典总结

以上是脚本宝典为你收集整理的Python利用Phantomjs抓取渲染JS后的网页全部内容,希望文章能够帮你解决Python利用Phantomjs抓取渲染JS后的网页所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。