Python利用Phantomjs抓取渲染JS后的网页_python教程

上一篇: 【译】技能测试解决方案：Python... 下一篇:使用python模拟Simple方式连接ld...

Python利用Phantomjs抓取渲染JS后的网页

发布时间：2019-06-15 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了Python利用Phantomjs抓取渲染JS后的网页，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

最近需要爬取某网站，无奈页面都是JS渲染后生成的，普通的爬虫框架搞不定，于是想到用Phantomjs搭一个代理。

Python调用Phantomjs貌似没有现成的第三方库（如果有，请告知小2），漫步了一圈，发现只有pyspider提供了现成的方案。

简单试用了一下，感觉pyspider更像一个为新手打造的爬虫工具，好比一个老妈子，有时无微不至，有时喋喋不休。

轻巧的小工具应该更受人喜爱，我也怀着一点私心，可以带着我最爱的BeautifulSoup一块儿用，而不用再学PyQuery（pyspider用来解析HTML），更不用忍受浏览器写Python的糟糕体验（偷笑）。

所以花了一个下午的时间，把pyspider当中实现Phantomjs代理的部分拆了出来，独立成一个小的爬虫模块，希望大家会喜欢（感谢binux！）。

准备工作


你当然要有Phantomjs，废话！（Linux下最好用suPErvisord守护，必须保持抓取的时候Phantomjs一直处于开启状态）
用项目路径下的phantomjs_fetcher.js启动：phantomjs phantomjs_fetcher.js [port]

安装tornado依赖（使用了tornado的httpclient模块）

调用是超级简单的


      
      
      # 模拟浏览器的User-Agent
    phantomjs_Proxy='http://localhost:12306', # phantomjs的地址
    poolsize=10, # 最大的httpclient数量
    async=False # 同步还是异步
    )
# 开始连接Phantomjs的代理，可以渲染JS！
>>> fetcher.phantomjs_fetch(url)
# 渲染成功后执行额外的JS脚本（注意用function包起来！）
>>> fetcher.phantomjs_fetch(url, js_script='function(){setTimeout("window.scrollTo(0,100000)}", 1000)')
" tITle="" data-original-title="复制">
      
      
From tornado_fetcher import Fetcher

# 创建一个爬虫
>>> fetcher=Fetcher(
    user_agent='phantomjs', # 模拟浏览器的User-Agent
    phantomjs_PRoxy='http://localhost:12306', # phantomjs的地址
    poolsize=10, # 最大的httpclient数量
    async=False # 同步还是异步
    )
# 开始连接Phantomjs的代理，可以渲染JS！
>>> fetcher.phantomjs_fetch(url)
# 渲染成功后执行额外的JS脚本（注意用function包起来！）
>>> fetcher.phantomjs_fetch(url, js_script='function(){setTimeout("window.scrollTo(0,100000)}", 1000)')


老规矩，代码在小2的Github了，欢迎指正：PhantomjsFetcher

来自：建造者说 @H_126_79@
脚本宝典总结

以上是脚本宝典为你收集整理的Python利用Phantomjs抓取渲染JS后的网页全部内容，希望文章能够帮你解决Python利用Phantomjs抓取渲染JS后的网页所遇到的问题。

如果觉得脚本宝典网站内容还不错，欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：div HTML post-format-gallery python

上一篇: 【译】技能测试解决方案：Python... 下一篇:使用python模拟Simple方式连接ld...

猜你在找的python教程相关文章

爆款游戏《贪吃蛇大作战》的 Python 实现 2019-06-09
Linux 修改Python命令 2019-08-05
【python学习--小白篇】python函数中不定长参数的写法 2019-06-30
2013年度Python模块 2019-08-05
【Python】Python环境的搭建 2019-06-08
Python线程专题纵览篇 2019-06-21
python的一些资料和说明 2019-06-25
Python开发环境搭建 2019-06-24
【Python3】Python运算符 2019-06-25
Python学习资源 2019-06-21