基于Python爬取天眼查网站的企业信息_python教程

上一篇: 【Python运维】最简单的Python运... 下一篇:4 个快速的 Python 编译器 for 2...

基于Python爬取天眼查网站的企业信息

发布时间：2019-06-10 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了基于Python爬取天眼查网站的企业信息，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

爬虫简介

这是一个在未登录的情况下，根据企业名称搜索，爬取企业页面数据的采集程序
注意: 这是一个比较简单的爬虫，基本上只用到了代理，没有用到其他的反反爬技术，不过由于爬取的数据比较多，适合刷解析技能的熟练度，所以高手勿进
代码已经上传到GitHub上，有用还请给个星
python版本：python2.7
编码工具：Pycharm
数据存储：MySQL
爬虫结构：广度爬虫
爬虫思路：



先获取需要采集信息的公司：

从数据库中获取
获取字段：etid，etname
将获取的数据存储的状态表中
从状态表中获取数据，并更新状态表



拼接初始URL：

将etname和初始url进行拼接，获得初始网址
将初始url放到一个列表中，获取HTML的时候如何出错，将出错的url放到另一个列表中，进行循环获取



请求解析初始一级页面：

验证查询的公司是否正确（？？）
获取二级页面url
将二级url放到一个列表中，获取HTML的时候如何出错，将出错的url放到另一个列表中，进行循环获取



请求解析二级页面：
获取的信息待定


将公司的信息存储到数据库中：

建表
存储信息



所建的表：


企业主要信息：   et_host_info
工商信息：       et_busi_info
分支机构信息：   et_branch_office
软件著作权信息： et_container_copyright_info
网站备案信息：   et_conrainer_icp_info
对外投资信息：   et_foreign_investment_info
融资信息：       et_rongzi_info
股东信息：       et_stareholder_info
商标信息：       et_trademark_info
微信公众号信息：et_wechat_list_info
状态表：        et_name_status

看一下部分的结果图：