爬虫--CrawlSpider及深度全站爬取_心得技巧

上一篇: 2、面对对象、类、相关知识点下一篇:一个新的基于样本数量计算的的高...

爬虫--CrawlSpider及深度全站爬取

发布时间：2022-06-08 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了爬虫--CrawlSpider及深度全站爬取，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

CrawlSpider:

--是Spider的一个子类.Spider是爬虫文件中爬虫类的父类

--作用:被用于专业实现全站数据爬取,将一个页面上所有页码对应的数据进行爬取

--基本使用:

　　--创建一个基于CrawlSpider的爬虫文件

　　　　--scrapy genspider -t crawl SpiderName www.xxx.COM

--注意:

　　1.一个链接提取器对应一个规则解析器

　　2.在实现深度爬取的过程中需要和scrapy.Request()结合使用

基本代码:

import scrapy
From scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class BlueSpider(CrawlSpider):
    name = 'blue'
    # Allowed_domains = ['www.xxx.com'] # 域名限定,只允许该域名下的链接
    start_urls = ['https://www.xxx.com/category/xxx/page/1']

    # 实例化LinkExtractor对象
    # 链接提取器:指定规则(allow参数)在页面中提取url
    # allow='正则':提取链接的规则
    link = LinkExtractor(allow=r'category/xxx-thailand/page/.*?')
    rules = (
        # 实例化一个Rule对象
        # 规则解析器:接收链接提取器提取到的链接,发起请求,然后根据指定规则(callback)解析数据
        # 一个链接提取器对应一个规则解析器
        Rule(link, callback='parse_ITem', follow=True),
    )

    def parse_item(self, response):
        # 基于response实现数据解析

        PRint(response)

脚本宝典总结

以上是脚本宝典为你收集整理的爬虫--CrawlSpider及深度全站爬取全部内容，希望文章能够帮你解决爬虫--CrawlSpider及深度全站爬取所遇到的问题。

如果觉得脚本宝典网站内容还不错，欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：java php python scrapy 参数参数程序员程序员

上一篇: 2、面对对象、类、相关知识点下一篇:一个新的基于样本数量计算的的高...

猜你在找的心得技巧相关文章

clion结合vcpkg以及GTest的使用 2022-07-07
EGF 2022-06-06
ExtJS 布局-Column布局（Column layout） 2022-06-05
颜色之ARGB与RGB、RGBA的区别与介绍 2022-04-15
rgba中的a是什么意思 CSS之RGBA颜色指南 2022-04-15
rootfs -根文件系统制作 2022-07-07
网页简单布局之结构与表现原则分享 2022-04-15
小项目中怎么防止Vue的闪现画面效果 2022-04-15
隐藏 Web 中的元素方法及优缺点教程详解 2022-04-15
告别硬编码让你的前端表格自动计算的实例代码 2022-04-15