Python爬虫框架Scrapy入门

发布时间:2022-06-20 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了Python爬虫框架Scrapy入门脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

开发环境:python+scrap;IDE:Pycharm 入门文档:Scrapy文档

Scrapy安装

Scrapy在Python 2.7和Python 3.3或更高版本上运行(除了在Windows 3上不支持Python 3)。

通用方式:可以从pip安装Scrapy及其依赖:

pip install Scrapy

创建项目(以下指令都是基于控制台输入)

  1. 创建一个Scrapy项目
scrapy startPRoject ITcast
  1. 使用命令行自动生成一个爬虫
cd itcast	#进入爬虫目录
scrapy genspider itcast itcast.cn
#itcast是爬虫名字,"itcast.cn"限制爬虫地址,止爬到其他网站
  1. 在spiders/itcast.py中添加方法
import scrapy


class ItcastSpider(scrapy.Spider):
    name = 'itcast' #爬虫名
    Allowed_domains = ['itcast.cn'] #允许爬取的范围
    start_urls = ['https://he-zi-yan.github.io/six/myhome.htML']  #最开始请求的url地址

    def parse(self, response):#处理start_urls地址对应的响应

        # ret1 = response.xpath("//div[@class='col-md-1']//label/text()").extract()
        # print(ret1)

        #先分组
        li_list = response.xpath("//div[@class='col-md-1']")
        for li in li_list:
            items = {}
            items["name"] = li.xpath(".//label/text()").extract_First()
            # print(items)
            # request, item, or None
            yield items		#转发数据到piplines.py
  1. 使用piplines.py接收数据并显示 配置setting.py文件,使piplines.py能起作用
#将该段注释取消
ITEM_PIPELINES = {
   'tutorial.pipelines.TutorialPipeline': 300,
}

使用piplines.py接收并打印数据

class TutorialPipeline:
    def process_item(self, item, spider):
        item["hello"] = "world"
        # print(item)
        return item

特别说明

  1. 在setting.py中设置LOG_LEVEL = "WARNING",减少打印信息,方便查看
  2. 在setting.py中设置ITEM_PIPELINES时,数字越大代表优先级越低

脚本宝典总结

以上是脚本宝典为你收集整理的Python爬虫框架Scrapy入门全部内容,希望文章能够帮你解决Python爬虫框架Scrapy入门所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。