用Python爬虫爬取世界上最大的小电影网站，一天可爬取500万_python教程

上一篇: Py tricks(1): python实现不可修... 下一篇:快速学习Django的资源推荐

用Python爬虫爬取世界上最大的小电影网站，一天可爬取500万

发布时间：2019-06-11 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了用Python爬虫爬取世界上最大的小电影网站，一天可爬取500万，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

Python + Scrapy + MongoDB，每天爬取500万的数据以上的小电影数据。
免责声明：本项目旨在研究Scrapy Spider Framework和MongoDB数据库，它不能用于商业或其他个人意图。如果使用不当，那将是个人承担。

该项目主要用于抓取网站，这是世界上最大的网站。这样做可以检索视频标题，持续时间，mp4链接，封面网址和直接网站的网址。
该项目快速抓取PornHub.COM，但结构简单。
该项目每天最多可以抓取5万个网站的视频，具体取决于您的个人网络。由于我的带宽慢，我的结果相对较慢。
爬虫一次请求10个线程，因此可以达到上述速度。如果您的网络性能更高，您可以每天请求更多线程并抓取更多视频。具体配置请参见[预启动配置]

环境配置
语言：python
python版本：python2.7
电脑配置：MacOS, 4G RAM
数据库： MongoDB
使用说明
下载源码
方式1
进入：https://github.com/xiyouMc/We...
点击下载源码，下载源码之后解答到一个文件夹

方式2
需要先安装好gIT,安装好之后
git clone https://github.com/xiyouMc/WebHubBot.git
就能将源码下载到本地
预启动配置
如果scrapy使用pip指令安装不上的话。建议使用anaconda进行安装，装好anaconda之后使用conda install scrapy指令会自动解决依赖进行安装

安装MongoDB并在没有配置的情况下启动
安装Python依赖模块：Scrapy，pymongo，请求或 pip install -r requirements.txt
根据需要修改配置，例如间隔时间，线程数等。

启动

cd WebHub
python quickstart.py

运行屏幕截图


数据库配饰说明
保存数据的数据库中的表是Phres。以下是字段说明：
PhRes表：

      
      
      
      
      
video_title:             视频的标题，并且不能重复
link_url:                  视频的网址
image_url:              视频的一些截图
video_duration:      视频的时长，单位为秒
quality_480p:       视频的清晰度与下载视频的地址
参考：https://github.com/xiyouMc/We...