脚本宝典收集整理的这篇文章主要介绍了Python爬虫框架Scrapy入门,脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
开发环境:python+scrap
;IDE:Pycharm
入门文档:Scrapy文档
Scrapy在Python 2.7和Python 3.3或更高版本上运行(除了在Windows 3上不支持Python 3)。
通用方式:可以从pip安装Scrapy及其依赖:
pip install Scrapy
scrapy startPRoject ITcast
cd itcast #进入爬虫目录
scrapy genspider itcast itcast.cn
#itcast是爬虫名字,"itcast.cn"限制爬虫地址,防止爬到其他网站
import scrapy
class ItcastSpider(scrapy.Spider):
name = 'itcast' #爬虫名
Allowed_domains = ['itcast.cn'] #允许爬取的范围
start_urls = ['https://he-zi-yan.github.io/six/myhome.htML'] #最开始请求的url地址
def parse(self, response):#处理start_urls地址对应的响应
# ret1 = response.xpath("//div[@class='col-md-1']//label/text()").extract()
# print(ret1)
#先分组
li_list = response.xpath("//div[@class='col-md-1']")
for li in li_list:
items = {}
items["name"] = li.xpath(".//label/text()").extract_First()
# print(items)
# request, item, or None
yield items #转发数据到piplines.py
setting.py
文件,使piplines.py
能起作用#将该段注释取消
ITEM_PIPELINES = {
'tutorial.pipelines.TutorialPipeline': 300,
}
使用piplines.py
接收并打印数据
class TutorialPipeline:
def process_item(self, item, spider):
item["hello"] = "world"
# print(item)
return item
LOG_LEVEL = "WARNING"
,减少打印信息,方便查看ITEM_PIPELINES
时,数字越大代表优先级越低以上是脚本宝典为你收集整理的Python爬虫框架Scrapy入门全部内容,希望文章能够帮你解决Python爬虫框架Scrapy入门所遇到的问题。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。