基于Python爬取天眼查网站的企业信息

发布时间:2019-06-10 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了基于Python爬取天眼查网站的企业信息脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

爬虫简介

image
这是一个在未登录的情况下,根据企业名称搜索,爬取企业页面数据的采集程序

注意: 这是一个比较简单的爬虫,基本上只用到了代理,没有用到其他的反反爬技不过由于爬取的数据比较多,适合刷解析技能的熟练度,所以高手勿进

代码已经上传到GitHub上,有用还请给个星

python版本python2.7

编码工具Pycharm

数据存储MySQL

爬虫结构:广度爬虫

爬虫思路:

iamge

  1. 先获取需要采集信息的公司

    1. 数据库中获取
    2. 获取字段:etid,etname
    3. 将获取的数据存储的状态表中
    4. 从状态表中获取数据,并更新状态表
  2. 拼接初始URL:

    1. 将etname和初始url进行拼接,获得初始网址
    2. 将初始url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取
  3. 请求解析初始一级页面:

    1. 验证查询的公司是否正确(??)
    2. 获取二级页面url
    3. 将二级url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取
  4. 请求解析二级页面:

    1. 获取的信息待定
  5. 将公司的信息存储到数据库中:

    1. 建表
    2. 存储信息

所建的表:

基于Python爬取天眼查网站的企业信息

  1. 企业主要信息: et_host_info
  2. 工商信息: et_busi_info
  3. 分支机构信息: et_branch_office
  4. 软件著作权信息: et_container_copyright_info
  5. 网站备案信息: et_conrainer_icp_info
  6. 对外投资信息: et_foreign_investment_info
  7. 融资信息: et_rongzi_info
  8. 股东信息: et_stareholder_info
  9. 商标信息: et_trademark_info
  10. 微信公众号信息:et_wechat_list_info
  11. 状态表: et_name_status

看一下部分的结果图:

基于Python爬取天眼查网站的企业信息


基于Python爬取天眼查网站的企业信息


基于Python爬取天眼查网站的企业信息


基于Python爬取天眼查网站的企业信息

脚本宝典总结

以上是脚本宝典为你收集整理的基于Python爬取天眼查网站的企业信息全部内容,希望文章能够帮你解决基于Python爬取天眼查网站的企业信息所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。