最好吃的月饼!用Python爬取了某宝1166家月饼进行可视化分析!

发布时间:2022-07-05 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了最好吃的月饼!用Python爬取了某宝1166家月饼进行可视化分析!脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

最好吃的月饼!用Python爬取了某宝1166家月饼进行可视化分析!

在有几天就是中秋节了,不知道大家有没有选择困难症,面对琳琅满目的商品,不知道挑哪款月饼送长辈最好。

不过好在会Python,将淘宝上的月饼商品都爬取了下来,并进行可视化分析,从而你看看哪款月饼是最合适的。

01

数据采集

数据采集是数据可视化分析的第一步,也是最基础的一步,数据采集的数量和质量越高,后面分析的准确的也就越高,我们来看一下淘宝网的数据该如何爬取。

淘宝网站是一个动态加载的网站,我们之前可以采用解析接口或者用Selenium自动化测试工具来爬取数据,但是现在淘宝对接口进行了加密,使我们很难分析出来其中的规律,同时淘宝也对Selenium进行了反爬限制,所以我们要换种思路来进行数据获取。

打开开发者模式开始对网页进行观察后发现,淘宝商品的数据竟然在网页中以注释的方式存储着。

最好吃的月饼!用Python爬取了某宝1166家月饼进行可视化分析!

已经发现了数据存储的位置和方式,那我们可以直接构建爬虫了,部分代码如下F1a;

import requests
import re
import openpyxlresponse = requests.get(url, headers=headers, params=params)for i in range(44): try:
     if (fukuanrenshu[i] == '1.5万+'):
         f = 15000
     elif (fukuanrenshu[i] == '1.0万+'):
         f = 10000
     elif ('+'in fukuanrenshu[i]):
         f = re.findall('d+', fukuanrenshu[i])
     else:
         f = fukuanrenshu[i]
     if float(jiage[i]) > 10:
         sheet.apPEnd([dianpumingcheng[i], shangpinming[i], float(jiage[i]), fahuodi[i], f])

02

数据清洗

数据采集后,要对其进行清洗,剔除脏数据,有助于提高分析的准确性。

01

 导入商品数据

用pandas读取爬取后的商品数据并预览。

import pandas as pd
DF = pd.read_excel('月饼.xlsx',names=['店铺名称','商品名','价格','产地','付款人数'])
PRint(df.head())

最好吃的月饼!用Python爬取了某宝1166家月饼进行可视化分析!

02

 删除重复数据

df.drop_duplicates()

03

 查看数据类型

查看字段类型和缺失值情况,符合分析需要,无需另做处理。

df.info()

最好吃的月饼!用Python爬取了某宝1166家月饼进行可视化分析!

03

可视化分析

我们来对这1166家月饼商品数据进行可视化分析。可视化图是由Python、Tableau和Excel共同绘制而来。

01

 在售月饼的特点

通过对月饼的商品名称进行词图绘制,发现蛋黄、广式、五仁、莲蓉、豆沙味的月饼售卖较多,同时淘宝上售卖的月饼大多是用来给人们送礼的。

最好吃的月饼!用Python爬取了某宝1166家月饼进行可视化分析!

制作代码如下:

From imageio import imread
import jieba
from wordcloud import WordCloud, STOPWOrds

wITh open("1.txt",'r',encoding='utf-8') as f:
  job_title_1 = f.read()
contents_cut_job_title = jieba.cut(job_title_1)
contents_list_job_title = " ".join(contents_cut_job_title)
wc = WordCloud(stopwords=STOPWORDS.add("一个"), collocations=False,
             background_color="white",
             font_path=r"K:msyh.ttc",
             width=400, height=300, random_state=42,
             mask=imread('月饼.jpg', pilmode="RGB")
             )
wc.generate(contents_list_job_title)
wc.to_file("推荐语.png")

02

 各省产量分布图

通过对各商品的产地数据进行统计并绘制了全国地图,我们发现广东、浙江和北京这三个地方生产月饼最多,分别是312家、221家和131家。

最好吃的月饼!用Python爬取了某宝1166家月饼进行可视化分析!

制作代码如下:

import openpyxl
from collections import Counter
from pyecharts import Map
wb = openpyxl.load_workBook('月饼.xlsx')
sheet = wb['Sheet']
a = []
for i in range(2,1960):
  D = sheet[f'D{i}']
  a.append(D.value)
province_distribution = dict(Counter(a))
provice = list(province_distribution.keys())
values = list(province_distribution.values())
map = Map("中国地图",width=1200, height=600)
map.add("", provice, values, Visual_range=[0, 50], maptype='china', is_visualmap=True,
visual_text_color='#000',is_label_show=True)
map.render(path="地图.htML")

我们进一步对广东省的产地数据进行分析发现,广州的月饼商家最多,占全省的40%。

最好吃的月饼!用Python爬取了某宝1166家月饼进行可视化分析!

03

 月饼价格区间分布

我们对月饼价格以100为分点,进行可视化后发现,价格在100以内的月饼商品最多,有478家,其次是价格在100-200之间的,有399家。看来月饼的价格还是相对便宜的~

最好吃的月饼!用Python爬取了某宝1166家月饼进行可视化分析!

04

 月饼月销量top20商家

我们发现月饼销量top20的商店都是旗舰店,看来大家在网上购买食品类商品时还是喜欢去官方的店铺进行购买。其中稻香村食品店的月饼销量最高,一会去这家看看。

最好吃的月饼!用Python爬取了某宝1166家月饼进行可视化分析!

看完月销量,在来看看月销额。我们发现美心官方旗舰店的月销额很高,但是它的月销量很低,看来它的月饼商品价格略高。

最好吃的月饼!用Python爬取了某宝1166家月饼进行可视化分析!

05

 入手的月饼

经过以上的分析和对宝贝的评价、好评率等数据进行综合考虑之后,最终选择购买这款月饼来送给长辈。

最好吃的月饼!用Python爬取了某宝1166家月饼进行可视化分析!

推荐阅读:
入门: 最全的零基础学Python的问题  | 零基础学了8个月的Python  | 实战项目 |学Python就是这条捷径
干货:爬取豆瓣短评,电影《后来的我们》 | 38年NBA最佳球员分析 |   从万众期待到口碑扑街!唐探3令人失望  | 笑看新倚天屠龙记 | 灯谜答题王 |用Python做个海量小姐姐素描图 |碟中谍这么火,我用机器学习做个迷你推荐系统影
趣味:弹球游戏  | 九宫格  | 漂亮的花 | 两百行Python《天天酷跑》游戏!
ai: 会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍这么火,我用机器学习做个迷你推荐系统电影
小工具: Pdf转Word,轻松搞定表格和水印! | 一键把html网页保存为pdf!|  再见PDF提取收费! | 用90行代码打造最强PDF转换器,word、PPT、excel、markdown、html一键转换 | 制作一款钉钉低价机票提示器! |60行代码做了一个语音壁纸切换器天天看小姐姐!|

年度爆款文案

  • 1).卧槽!Pdf转Word用Python轻松搞定!

  • 2).学Python真香!我用100行代码做了个网站,帮人PS旅行图片,赚个鸡腿

  • 3).首播过亿,火爆全网,我分析了《乘风破浪的姐姐》,发现了这些秘密 

  • 4).80行代码!用Python做一个哆来A梦分身 

  • 5).你必须掌握的20个python代码,短小精悍,用处无穷 

  • 6).30个Python奇淫技巧集 

  • 7).我总结的80页《菜鸟学Python精选干货.pdf》,都是干货 

  • 8).再见Python!我要学Go了!2500字深度分析!

  • 9).发现一个舔狗福利!这个Python爬虫神器太爽了,自动下载妹子图片


 

 

 

 

 

 


 

 

 
点阅读原文,领AI全套资料

脚本宝典总结

以上是脚本宝典为你收集整理的最好吃的月饼!用Python爬取了某宝1166家月饼进行可视化分析!全部内容,希望文章能够帮你解决最好吃的月饼!用Python爬取了某宝1166家月饼进行可视化分析!所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。