为什么写爬虫，我们要选择Python_python教程

上一篇: Python语法糖——for/else循环语... 下一篇:扣丁学堂Python培训详解如何在Ap...

为什么写爬虫，我们要选择Python

发布时间：2019-08-05 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了为什么写爬虫，我们要选择Python，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

记得有次发现有些网页抓不下来，开始好久都找不着头脑，废了九牛二虎之力，终于发现是http请求处理的问题。深入代码才看到，http协议的这部分代码都是写这个人自己实现的，只是实现了最基本的协议，也就是，建立socket连接，发送请求，然后通过socket接收数据，解析响应头（response headers）。然而这个响应头连http重定向都没有处理，凡是重定向的响应就都失败了，自然那些网页就抓不下来了。
为了抓到那些响应，我们就不得不继续完善http协议的解析功能，贡献了很多代码。。

为什么要自己实现基本的http协议呢？难道就没有好的第三方库可以用吗？现在想来，那个爬虫也就是看上去能用，听上去高大上，实际上问题很多。
那个网络爬虫程序维护了一两年最终放弃了，后来的爬虫技术都开始用Python来实现了。
现在如果让我实现一个网络爬虫，二话不说，肯定是要用Python。究其原因，可能有已经几点经验和教训跟大家分享一下。
1. 变幻莫测的网络爬虫
写过爬虫，可能都有这么一个感觉，就是昨天跑的好好的爬虫，今天可能就出问题，不work了。这里面的原因可能就是，网页的改版，网站的封锁等等。遇到这种情况，我们就必须在最快的时间内调试找出问题所在，并以最快的速度修复，使其尽快上线跑起来。
2. 随机应变的Python
鉴于上述爬虫复杂的变化，写网络爬虫就必须依赖一个快速开发、灵活的语言，同时又有完整丰富的库支撑。而同时具备这些优点的语言，无疑就是Python了。所以，Python天然就是为爬虫而生，爬虫天然就是择Python而用。
3. 简洁丰富的Python
看到Python和网络爬虫这种天然相连的关系，小猿们不禁要问，Python适合网络爬虫的天然属性都是哪些呢？不急，听老夫慢慢道来。
3.1 简洁的语法
Python的语法非常简单，提倡简洁而不简单，Python开发者的哲学就是“用一种方法，最好是只有一种方法来做一件事”，这种哲学让你写的代码没有太多个人风格，易于让他人看懂你的代码，也让你轻易看懂别人的代码。Python的简洁，也让开发者可以仅用几行代码就实现一个功能，而同样的功能用Java可能要几十行上百行，要用C++可能是几百行。
大家可以试试在python解释器里面运行import this，来品味一下Python的哲学：

      
      
      PEters

> Beautiful is better than ugly.
> ExplicIT is better than implicit.
> Simple is better than complex.
> Complex is better than complicated.
> Flat is better than nested.
> Sparse is better than dense.
> Readability counts.
> Special cases aren't special enough to break the rules.
> Although PRacticality beats purity.
> Errors should never pass silently.
> Unless explicitly silenced.
> In the face of amBiguity, refuse the temptation to guess.
> There should be one-- and preferably only one --obvious way to do it.
> Although that way may not be obvious at First unless you're Dutch.
> Now is better than never.
> Although never is often better than *right* now.
> If the implementation is hard to explain, it's a bad idea.
> If the implementation is easy to explain, it may be a good idea.
> namespaces are one honking great idea -- let's do more of those!
" title="" data-original-title="复制">
      
      

>>> import this
> The Zen of Python
> by Tim Peters

> Beautiful is better than ugly.
> Explicit is better than implicit.
> Simple is better than complex.
> Complex is better than complicated.
> Flat is better than nested.
> Sparse is better than dense.
> Readability counts.
> Special cases aren't special enough to break the rules.
> Although practicality beats purity.
> Errors should never pass silently.
> Unless explicitly silenced.
> In the face of ambiguity, refuse the temptation to guess.
> There should be one-- and preferably only one --obvious way to do it.
> Although that way may not be obvious at first unless you're Dutch.
> Now is better than never.
> Although never is often better than *right* now.
> If the implementation is hard to explain, it's a bad idea.
> If the implementation is easy to explain, it may be a good idea.
> Namespaces are one honking great idea -- let's do more of those!

Python简洁的语法，让你实现、修改爬虫都变得轻松起来。也就是说，写起来贼快！人生苦短，何不Python ????
3.2 丰富的Python模块
大家应该已经听说过Python模块（库）的丰富性，或许只是还没有时间和机会接触过那么多而已。“几乎所有你想要的功能Python都有库实现了”。这句话，似乎很狂妄，但满足你90%的需求没问题。所以，大家要记住这句话，在以后的开发过程中，需要什么基本功能了，就不妨先去搜搜、问问，看看是不是已经有人实现了这个功能，并且上传到pypi上了，而你要做到可能仅仅是pip install。同时，也验证一下这句话是不是那么回事儿。
比方说，
我要下载网页就用，
Python标准模块urllib.request，还有好的没话说的第三方开源模块requests
异步http请求的有aiohttp
我要处理网址url就用：
Python自带的模块urllib.parse
我要解析htML就用：
基于c语言库的高效率模块lxml, 好用的beautifulSOAp。
我要管理网址，记录下载成功的、失败的、未下载的各种url的状态，就用：
Python封装的key-value数据库leveldb
我要用成熟的爬虫框架，就用：
历史悠久的scrapy，后起之秀pyspider。
我要支持javascript和ajax，就用：
浏览器模拟框架Selenium，加上不需要桌面环境跑着Linux服务器上的大名鼎鼎的GOOGLE Headless Chrome。
还有个Phantomjs，可惜已经停止开发了。
以上，只是我用过的写网络爬虫需要的一些基本模块，具体实践中需要的基本功能都可以先搜搜看，没准儿就已经有模块支持想要的功能了。还是那句话，“几乎所有你想要的功能Python都有库实现了”。你的工作，就是像搭积木一样，把他们有机结合在一起实现你的业务逻辑。
对的，像搭积木一样实现你的网络爬虫，为什么不选择Python呢？