Python爬虫框架Scrapy入门_心得技巧

上一篇: centos设置固定ip 下一篇:2022 年顶级网络安全专家最爱用的...

Python爬虫框架Scrapy入门

发布时间：2022-06-20 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了Python爬虫框架Scrapy入门，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

开发环境：python+scrap；IDE：Pycharm 入门文档：Scrapy文档

Scrapy安装

Scrapy在Python 2.7和Python 3.3或更高版本上运行（除了在Windows 3上不支持Python 3）。

通用方式：可以从pip安装Scrapy及其依赖：

pip install Scrapy

创建项目（以下指令都是基于控制台输入）

创建一个Scrapy项目

scrapy startPRoject ITcast

使用命令行自动生成一个爬虫

cd itcast	#进入爬虫目录
scrapy genspider itcast itcast.cn
#itcast是爬虫名字,"itcast.cn"限制爬虫地址,防止爬到其他网站

在spiders/itcast.py中添加方法

import scrapy


class ItcastSpider(scrapy.Spider):
    name = 'itcast' #爬虫名
    Allowed_domains = ['itcast.cn'] #允许爬取的范围
    start_urls = ['https://he-zi-yan.github.io/six/myhome.htML']  #最开始请求的url地址

    def parse(self, response):#处理start_urls地址对应的响应

        # ret1 = response.xpath("//div[@class='col-md-1']//label/text()").extract()
        # print(ret1)

        #先分组
        li_list = response.xpath("//div[@class='col-md-1']")
        for li in li_list:
            items = {}
            items["name"] = li.xpath(".//label/text()").extract_First()
            # print(items)
            # request, item, or None
            yield items		#转发数据到piplines.py

使用piplines.py接收数据并显示 配置setting.py文件，使piplines.py能起作用

#将该段注释取消
ITEM_PIPELINES = {
   'tutorial.pipelines.TutorialPipeline': 300,
}

使用piplines.py接收并打印数据

class TutorialPipeline:
    def process_item(self, item, spider):
        item["hello"] = "world"
        # print(item)
        return item

特别说明

在setting.py中设置LOG_LEVEL = "WARNING"，减少打印信息，方便查看
在setting.py中设置ITEM_PIPELINES时，数字越大代表优先级越低

脚本宝典总结

以上是脚本宝典为你收集整理的Python爬虫框架Scrapy入门全部内容，希望文章能够帮你解决Python爬虫框架Scrapy入门所遇到的问题。

如果觉得脚本宝典网站内容还不错，欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：java list php python scrapy 安装安装开发开发文档文档程序员程序员

上一篇: centos设置固定ip 下一篇:2022 年顶级网络安全专家最爱用的...

猜你在找的心得技巧相关文章

clion结合vcpkg以及GTest的使用 2022-07-07
EGF 2022-06-06
ExtJS 布局-Column布局（Column layout） 2022-06-05
颜色之ARGB与RGB、RGBA的区别与介绍 2022-04-15
rgba中的a是什么意思 CSS之RGBA颜色指南 2022-04-15
rootfs -根文件系统制作 2022-07-07
网页简单布局之结构与表现原则分享 2022-04-15
小项目中怎么防止Vue的闪现画面效果 2022-04-15
隐藏 Web 中的元素方法及优缺点教程详解 2022-04-15
告别硬编码让你的前端表格自动计算的实例代码 2022-04-15