Scrapy爬虫框架，入门案例_心得技巧

心得技巧

html5 HTML/Xhtml CSS XML/XSLT Dreamweaver教程 Frontpage教程心得技巧

上一篇: OpenCV 图像腐蚀简单操作下一篇:Python Mysql 存储

Scrapy爬虫框架，入门案例

发布时间：2022-06-28 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了Scrapy爬虫框架，入门案例，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

一、概述

二、Scrapy五大基本构成:

三、整体架构图

四、Scrapy安装以及生成项目

五、日志等级与日志保存

六、导出为json或scv格式

七、一个完整的案例

一、概述

Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试.

其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，后台也应用在获取API所返回的数据(例如 amazon Associates Web Services ) 或者通用的网络爬虫.

Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sITemap爬虫等，最新版本又提供了web2.0爬虫的支持.

二、Scrapy五大基本构成:

Scrapy框架主要由五大组件组成，它们分别是调度器(Scheduler)、下载器(Downloader)、爬虫（Spider）和实体管道(Item PiPEline)、Scrapy引擎(Scrapy Engine)。下面我们分别介绍各个组件的作用。

(1)、调度器(Scheduler):

调度器，说白了把它假设成为一个URL（抓取网页的网址或者说是链接）的优先队列，由它来决定下一个要抓取的网址是什么，同时去除重复的网址（不做无用功）。用户可以自己的需求定制调度器。

(2)、下载器(Downloader):

下载器，是所有组件中负担最大的，它用于高速地下载网络上的资源。Scrapy的下载器代码不会太复杂，但效率高，主要的原因是Scrapy下载器是建立在twisted这个高效的异步模型上的(其实整个框架都在建立在这个模型上的)。

(3)、爬虫（Spider）:

爬虫，是用户最关心的部份。用户定制自己的爬虫(通过定制正则表达式等语法)，用于从特定的网页中提取自己需要的信息，即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面。

(4)、实体管道(Item Pipeline):

实体管道，用于处理爬虫(spider)提取的实体。主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。

(5)、Scrapy引擎(Scrapy Engine):

Scrapy引擎是整个框架的核心.它用来控制调试器、下载器、爬虫。实际上，引擎相当于计算机的CPU,它控制着整个流程。

三、整体架构图

本图按顺序说明整个程序执行时候发生的顺序。

注意在调用下载器时，往往有一个下载器中间件，使下载速度提速。

Scrapy爬虫框架，入门案例

官网架构图

Scrapy爬虫框架，入门案例

四、Scrapy安装以及生成项目

新建一个项目，该项目的结构如下：

执行命令,widows和ubuntu命令格式是一样的：

下载方式

ubuntu，打开一个终端，输入pip install scrapy(或piP3 install scrapy）

widows ，打开一个cmd，输入pip install scrapy，前提是你装了pip

详细安装请点这

Scrapy爬虫框架，入门案例

scrapy startPRoject 项目名

scrapy genspider 爬虫名域名

scrapy crawl 爬虫名

我使用的是widows版本，下面演示创建项目的例子

打开cmd，输入(默认是在C:UsersAdministrator>这个目录下，你可以自行切换）

scrapy startproject myFirstPj

cd my firstPj

scrapy genspider baidu www.baidu.COM

创建后目录大致页如下

|-ProjectName #项目文件夹

|-ProjectName #项目目录

|-items.py #定义数据结构

|-middlewares.py #中间件

|-pipelines.py #数据处理

|-settings.py #全局配置

|-spiders

|-__init__.py #爬虫文件

|-baidu.py

|-scrapy.CFg #项目基本配置文件

spiders下的baidu.py是scrapy自动为我们生成的

Scrapy爬虫框架，入门案例

下面再看一下spdier项目的配置文件，打开文件settings.py

BOT_NAME：项目名

USER_AGENT：默认是注释的，这个东西非常重要，如果不写很容易被判断为电脑，简单点洗一个Mozilla/5.0即可

ROBOTSTXT_OBEY：是否遵循机器人协议，默认是true，需要改为false，否则很多东西爬不了

Scrapy爬虫框架，入门案例

CONcurrent_REQUESTS：最大并发数，很好理解，就是同时允许开启多少个爬虫线程

DOWNLOAD_DELAY：下载延迟时间，单位是秒，控制爬虫爬取的频率，根据你的项目调整，不要太快也不要太慢，默认是3秒，即爬一个停3秒，设置为1秒性价比较高，如果要爬取的文件较多，写零点几秒也行

COOKIES_ENABLED：是否保存COOKIES，默认关闭，开机可以记录爬取过程中的COKIE，非常好用的一个参数

DEFAULT_REQUEST_HEADERS：默认请求头，上面写了一个USER_AGENT，其实这个东西就是放在请求头里面的，这个东西可以根据你爬取的内容做相应设置。

Scrapy爬虫框架，入门案例

ITEM_PIPELINES：项目管道，300为优先级，越低越爬取的优先度越高

Scrapy爬虫框架，入门案例

比如我的pipelines.py里面写了两个管道，一个爬取网页的管道，一个存数据库的管道，我调整了他们的优先级，如果有爬虫数据，优先执行存库操作。

ITEM_PIPELINES = {

‘scrapyP1.pipelines.BaiduPipeline’: 300,

‘scrapyP1.pipelines.BaiduMySQLPipeline’: 200,

}

Scrapy爬虫框架，入门案例

到这里我们尝试用scrapy做一下爬取，打开spider.py下的baidu.py(取决于你scrapy genspider 爬虫名域名时输入的爬虫名）

输入一下代码，我们使用xpath提取百度首页的标题title

import scrapy
class BaiduSpider(scrapy.Spider):
name = ‘baidu’
Allowed_domains = [‘www.baidu.com’]
start_urls = [‘http://www.baidu.com/’]
def parse(self, response):
tile=response.xpath(‘//htML/head/title/text()’)
print(tile)

打开一个终端cmd，输入scrapy crawl baidu(爬虫名），就可以看到一大堆输出信息，而其中就包括我们要的内容

@H_512_363@

使用终端运行太麻烦了，而且不能提取数据，我们一个写一个run文件作为程序的入口,splite是必须写的，目的是把字符串转为列表形式，第一个参数是scrapy,第二个crawl,第三个baidu

From scrapy import cmdline
cmdline.execute(‘scrapy crawl baidu’.split())

可以在编辑器中输出了

Scrapy爬虫框架，入门案例

五、日志等级与日志保存

在setting.py里面可以设置日志的等级与日志存放的路径

六、导出为json或scv格式

执行爬虫文件时添加-o选项即可

scrapy crawl 项目名 -o *.csv

scrapy crawl 项目名 -o *.json

对于json文件，在setting.js文件里添加，设置编码格式，否则会乱码：

FEED_export_ENCODING=’utf-8′

示例：

from scrapy import cmdline
cmdline.execute(‘scrapy crawl baidu -o baidu.csv’.split())

七、一个完整的案例

这个项目我们的主题是爬腾讯视频的电影信息，包括电影名和描述

Scrapy爬虫框架，入门案例

1.创建项目

打开一个终端输入（建议放到合适的路径下，默认是c盘）

scrapy startproject TXMovies

cd TXmovies

scrapy genspider txms v.QQ.com

2.修改setting

修改三项内容，第一个是不遵循机器人协议，第二个是下载间隙，由于下面的程序要下载多个页面，所以需要给一个间隙（不给也可以，只是很容易被侦测到），第三个是请求头，添加一个User-Agent，第四个是打开一个管道

ROBOTSTXT_OBEY = False

DOWNLOAD_DELAY = 1

DEFAULT_REQUEST_HEADERS = {

‘Accept’: ‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8’,

‘Accept-Language’: ‘en’,

‘User-Agent’:‘Mozilla/5.0 (Windows NT 6.2; WOW64) Applewebkit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36’

}

ITEM_PIPELINES = {

‘TXmovies.pipelines.TxmoviesPipeline’: 300,

}

3.确认要提取的数据，item项

item定义你要提取的内容（定义数据结构），比如我提取的内容为电影名和电影描述，我就创建两个变量。Field方法实际上的做法是创建一个字典，给字典添加一个建，暂时不赋值，等待提取数据后再赋值。下面item的结构可以表示为：{‘name’:”,’descripition’:”}。

# -*- coding: utf-8 -*-
# define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html
import scrapy
class TxmoviesItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
name = scrapy.Field()
description = scrapy.Field()

4.写爬虫程序

我们要写的部分是parse方法里的内容，重点在于如何写xpath，关于xpath我不多讲，有兴趣可以看看我另一篇文章，XPATH教程

引入刚刚写好的item,刚刚说了item里面创建的变量就是字典的键值，可以直接进行赋值。赋值后交给管道处理。

简单讲一下这一段代码的思路，首先腾讯视频的url为https://v.qq.com/x/bu/pagesheet/list?append=1&channel=cartoon&iarea=1&listpage=2&offset=0&pagesize=30

我们注意到offset这一项，第一页的offset为0，第二页为30，依次推列。在程序中这一项用于控制抓取第一页，但是也要给一个范围，不可能无限大，否则会报错，可以去看看腾讯一共有多少页视频，也可以写一个异常捕获机制，捕捉到请求出错则退出。我这里仅仅是示范，所以只给了120，也就是4页。

yield

程序里一共有两个yield，我比较喜欢叫它中断，当然中断只在CPU中发生，它的作用是移交控制权，在本程序中，我们对item封装数据后，就调用yield把控制权给管道，管道拿到处理后return返回，又回到该程序。这是对第一个yield的解释。

第二个yield稍微复杂点，这条程序里利用了一个回调机制，即callback,回调的对象是parse,也就是当前方法，通过不断的回调，程序将陷入循环，如果不给程序加条件，就会陷入死循环，如本程序我把if去掉，那就是死循环了。

yield scrapy.Request(url=url,callback=self.parse)

xpath

还有一个要注意的是如何提取xpathl里的数据，我们的写法有四种，第一种写法拿到selector选择器，也就是原数据，里面有一些我们用不到的东西。第二个extract()，将选择器序列号为字符串。第三个和第四个一样，拿到字符串里的第一个数据，也就是我们要的数据。

items[‘name’]=i.xpath(‘./a/@title’)[0]

items[‘name’]=i.xpath(‘./a/@title’).extract()

items[‘name’]=i.xpath(‘./a/@title’).extract_first()

items[‘name’]=i.xpath(‘./a/@title’).get()

# -*- coding: utf-8 -*-
import scrapy
from ..items import TxmoviesItem
class TxmsSpider(scrapy.Spider):
name = ‘txms’
allowed_domains = [‘v.qq.com’]
start_urls = [‘https://v.qq.com/x/bu/pagesheet/list?append=1&channel=cartoon&iarea=1&listpage=2&offset=0&pagesize=30’]
offset=0
def parse(self, response):
items=TxmoviesItem()
lists=response.xpath(‘//div[@class=”list_item”]’)
for i in lists:
items[‘name’]=i.xpath(‘./a/@title’).get()
items[‘description’]=i.xpath(‘./div/div/@title’).get()
yield items
if self.offset < 120:
self.offset += 30
url = ‘https://v.qq.com/x/bu/pagesheet/list?append=1&channel=cartoon&iarea=1&listpage=2&offset={}&pagesize=30’.format(
str(self.offset))
yield scrapy.Request(url=url,callback=self.parse)

5.交给管道输出

管道可以处理提取的数据，如存数据库。我们这里仅输出。

# -*- coding: utf-8 -*-
# Define your item pipelines here
#
# Don’t forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
class TxmoviesPipeline(object):
def process_item(self, item, spider):
print(item)
return item

6.run，执行项目

from scrapy import cmdline
cmdline.execute(‘scrapy crawl txms’.split())

7.测试结果

白色的管道输出的结果，红色的调试信息

Scrapy爬虫框架，入门案例

8.流程梳理

新建项目-》进入项目-》新建爬虫文件-》明确抓取的内容，写item-》写爬虫程序，爬取数据-》交给管道处理数据-》调整全局配置setting-》执行爬虫程序，可以通过终端或者在程序里写一个run程序

9.提速：多线程爬取

如果你实现了上面的实验，不难发现其爬取速度是非常慢，根本的原因就是因为它是顺序执行的，你可以从结果中看出，总是前面一页的内容被输出，再输出后面的内容。不适合处理数据量较大的情况，一个好的方式是采用多线程的方法，这里的多线程是基于方法的多线程，并不是通过创建Thread对象来实现，是在一个方法中，一次性把请求交给调度器。

我们通过重写start_requests方法来实现我们的想法（这个方法的源码在__init__.py下面，有兴趣可以看一下）

# -*- coding: utf-8 -*-
import scrapy
from ..items import TxmoviesItem
class TxmsSpider(scrapy.Spider):
name = ‘txms’
allowed_domains = [‘v.qq.com’]
url=‘https://v.qq.com/x/bu/pagesheet/list?append=1&channel=cartoon&iarea=1&listpage=2&offset={}&pagesize=30’
offset=0
def start_requests(self):
for i in range(0,121,30):
url=self.url.format(i)
yield scrapy.Request(
url=url,
callback=self.parse
)
def parse(self, response):
items=TxmoviesItem()
lists=response.xpath(‘//div[@class=”list_item”]’)
for i in lists:
items[‘name’]=i.xpath(‘./a/@title’).get()
items[‘description’]=i.xpath(‘./div/div/@title’).get()
yield items

脚本宝典总结

以上是脚本宝典为你收集整理的Scrapy爬虫框架，入门案例全部内容，希望文章能够帮你解决Scrapy爬虫框架，入门案例所遇到的问题。

如果觉得脚本宝典网站内容还不错，欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：bug java list load load mysql mysql php python scrapy String 乱码乱码参数参数安装安装并发并发开发开发数据库数据库正则表达式正则表达式源码源码电影电影程序员程序员资源资源

上一篇: OpenCV 图像腐蚀简单操作下一篇:Python Mysql 存储

猜你在找的心得技巧相关文章

clion结合vcpkg以及GTest的使用 2022-07-07
EGF 2022-06-06
ExtJS 布局-Column布局（Column layout） 2022-06-05
颜色之ARGB与RGB、RGBA的区别与介绍 2022-04-15
rgba中的a是什么意思 CSS之RGBA颜色指南 2022-04-15
rootfs -根文件系统制作 2022-07-07
网页简单布局之结构与表现原则分享 2022-04-15
小项目中怎么防止Vue的闪现画面效果 2022-04-15
隐藏 Web 中的元素方法及优缺点教程详解 2022-04-15
告别硬编码让你的前端表格自动计算的实例代码 2022-04-15

全站导航更多