格雅百科

数据挖掘

格雅百科
数据挖掘 {IMG_0: Ahr0Chm6ly9pbWCymDe4LMNUYMXVZ3MUY2JSB2CVNTE5NJA4LZIWMTKWMY81MDGTMJAXTKYMJYTMTAWMTC0NZK0M i5WBMC =/}

为什么要学习 Matplotlib

更多JS可视化库:

海外:https://www.gyballet.com/

国内:https://www.gyballet.com/examples/(百度)

奥卡姆剃刀原理-除非必要,否则不要添加实体

实现一个简单的Matplotlib

导入 matplotlib.pyplot 作为 plt
def matplotlib_demo():
”“”
matplotlib的简单演示
:返回: 无
”“”
plt.figure() # 创建画布并设置
plt.plot([1, 2, 3], [4, 5, 6]) # 指定横坐标和纵坐标参数
www.gyballet.com() # 连接点进行显示
返回无
matplotlib_demo()

MatPlotlib 的三层结构

1)容器层(画板层+画布层+绘图区)
画板层画布--》出去写生一定要带画板
画布层图--》铺设图层画板上画布的大小 --》 plt.figure()
  绘图区域/坐标系  --》 在画布上创建绘图区域(可以多个,默认一个)
   x轴和y轴
2)辅助显示层:可以设置图例、比例尺、显示网格等
3)图像层:各种图标,如散点图、直方图、折线图(也可以调整)散点图的颜色、标题等)

关系:容器层->辅助显示层->图像层

1。容器层

2。辅助显示层

3。图像层

总结:

折线图(绘图)和基本绘图功能

  • 折线图绘制和保存图片

导入matplotlib。 pyplot 作为 plt def matplotlib_demo(): ”“” matplotlib的简单演示 :返回: 无 ”“”plt.figure(figsize=(20, 8), dpi=100) # 创建画布,figsize设置长度,dpi=每英寸点数设置清晰度 plt.plot([1, 2, 3], [4, 5, 6]) # 指定横坐标和纵坐标参数 plt.savefig('.tmp/hhh.png') # 必须写在show()之前,因为show()会释放整个画布的资源,即显示图像,先显示文件再显示保存的是空白图像

 www.gyballet.com() # 连接点进行显示
# plt.savefig('.tmp/hhh.png') # 如果写在show()之后,保存的文件将是一个空白图像
返回无
matplotlib_demo()

完善原有折线图(辅助显示层)—>某城市温度显示(流程化)

  • 修改X、Y比例

  • 添加网格显示

  • 添加描述

  • 修改matplotlib的中文问题

DEMO

导入 matplotlib.pyplot 作为 plt
随机导入
'''
# 需求:添加另一个城市的气温变化
# 采集了当天北京的气温变化,气温在15度到18度之间。
# 显示每分钟的变化
'''
def matplotlib_demo1():
”“”
改进原来的折线图(辅助显示层)-->一开始最粗暴的图表
:返回: 无
”“”
# 1.准备数据xy
x = 范围(60)
y = [
random.uniform(15, 18) for i in x #uniform表示均匀分布
]
# 2.创建画布
plt.figure(figsize=(10, 8), dpi=100)
# 3. 绘制图像
plt.plot(x, y)
# 4. 显示图像
www.gyballet.com()
返回无
def matplotlib_demo2():
”“”
完善原有折线图(辅助显示层) --> 增加自定义x,y刻度
:返回: 无
”“”
# 1.准备数据xy
x = 范围(60)
y = [
random.uniform(15, 18) for i in x #uniform表示均匀分布
]
# 2.创建画布
plt.figure(figsize=(10, 8), dpi=100)
# 3. 绘制图像
plt.plot(x, y)
#修改比例值
x_标签 = ["11H{}m".format(i) for i in x # 不显示中文
]
plt.xticks(x[::5], x_label[::5]) # X的尺度应该对应于我们的x划分的数量
plt.yticks(范围(0, 40, 5))
#添加描述信息
plt.xlabel("时间")
plt.ylabel("茶盘")
plt.title("上午 11:00 到 12:00 之间的时间")
#添加网格显示
plt.grid(linestyle="--", alpha=0.5)
# 4. 显示图像
www.gyballet.com()
返回无
如果 __name__ == '__main__':
# 最简单的图开头
matplotlib_demo1()
# 添加自定义 x, y 比例
matplotlib_demo2()

添加另一个城市的气温变化(面向流程)

演示:

导入 matplotlib.pyplot 作为 plt
随机导入
def matplotlib_demo2():
”“”
完善原有折线图2(辅助显示层)-->多城市温度显示
:返回: 无
”“”
# 需求:添加另一个城市的气温变化
# 采集了北京当天的气温变化,气温1到3度不等。
# 1.准备数据xy
x = 范围(60)
y_shanghai = [random.uniform(15, 18) for i in x]
y_beijing = [random.uniform(1, 3) for i in x]
# 2.准备画板
plt.figure(figsize=(10, 8), dpi=100)
# 3. 画图
plt.plot(x, y_shanghai, color="r", linestyle="-.", label="上海")
plt.plot(x, y_beijing, color="b", label="北京")
# 显示图例
plt.图例()
# 修改x,y比例
# 准备x的尺度描述
x_label = ["11H{}m".format(i) for i in x]
plt.xticks(x[::5], x_label[::5])
plt.yticks(范围(0, 40, 5))
#添加网格显示
plt.grid(linestyle="--", alpha=0.5)
#添加描述信息
plt.xlabel("时间")
plt.ylabel("茶盘")
plt.title("北京、上海11:00~12:00模板变更")
# 4. 画板展示
www.gyballet.com()如果 __name__ == '__main__':
# 多个城市温度显示
matplotlib_demo2()

多坐标系显示-plt.subplots(面向对象绘图)

导入 matplotlib.pyplot 作为 plt
随机导入
def matplotlib_demo2():
”“”
多坐标显示 -->面向对象
 :return: None
”“”
# 1.准备数据xy
x = 范围(60)
y_shanghai = [random.uniform(15, 18) for i in x]
y_beijing = [random.uniform(1, 3) for i in x]
# 2.准备画板
# plt.figure(figsize=(10, 8), dpi=100)
figure,axes = plt.subplots(nrows=1,ncols=2,figsize=(12, 8),dpi=80) # 创建一行和 2 列
# 3. 画图
# plt.plot(x, y_上海, color="r", linestyle="-.", label="上海")
axis[0].plot(x, y_shanghai, color="r", linestyle="-.", label="上海")
axis[1].plot(x, y_beijing, color="b", label="北京")# 显示图例
# plt.legend()
轴[0].legend()
轴[1].legend()
# 修改x,y比例
# 准备x的尺度描述
x_label = ["11H{}m".format(i) for i in x]
# plt.xticks(x[::5], x_label[::5])
轴[0].set_xticks(x[::5])
轴[0].set_xticklabels(x_label)
轴[0].set_yticks(范围(0, 40, 5))
轴[1].set_xticks(x[::5])
轴[1].set_xticklabels(x_label)
轴[1].set_yticks(范围(0, 40, 5))
#添加网格显示
# plt.grid(linestyle="--", alpha=0.5)
轴[0].grid(linestyle="--", alpha=0.5)
轴[1].grid(linestyle="--", alpha=0.5)
#添加描述信息
plt.xlabel("时间")
plt.ylabel("茶盘")
plt.title("北京、上海11:00~12:00模板变更")
# 4. 画板展示
www.gyballet.com()
如果 __name__ == '__main__':
# 显示多个坐标系
matplotlib_demo2()

【更多API】https://www.gyballet.com/api/axes_api.html

折线图的应用场景 ---> 绘制数学函数(密集的点成为线段)

将 numpy 导入为 np# 1.准备x,y数据
x = np.linspace(-1, 1, 1000) # 生成 1000 个等距在 -1 和 1 之间的数字
y=2*x*x
# 2. 创建画布
plt.figure(figsize=(20, 8), dpi=80)
# 3. 绘制图像
plt.plot(x, y)
#添加网格显示
plt.grid(linestyle="--", alpha=0.5)
# 4. 显示图像
www.gyballet.com()

常见图形类型

类别:

     折线图                                                                — > 统计某个类别的数量或总体情况,一目了然




直方图->分布状态,比如5人170-175之间?

直方图与直方图的比较
1.直方图显示数据的分布情况,而直方图比较数据的大小。
2. 直方图的X轴是定量数据,直方图的X轴是分类数据。
3. 直方图列没有间隔,而直方图列有间隔
4. 直方图列宽度可以不同,但​​直方图列宽度必须一致

  • 散点图

im端口matplot lib.pyplot 作为 plt def scatter_demo(): #需求:探索房屋面积与房价的关系 # 1.准备数据 x = [225.98, 247.07, 253.14, 457.85, 241.58, 301.01, 20.67, 288.64, 163.56、120.06、207.83、342.75、147.9、53.06、224.72、29.51、 21.61, 483.21, 245.25, 399.25, 343.35] y = [196.63, 203.88, 210.75, 372.74, 202.41, 247.61, 24.9, 239.34, 140.32、104.15、176.84、288.23、128.79、49.64、191.74、33.1、 30.74, 400.02, 205.35, 330.64, 283.45] # 2.创建画布 plt.figure(figsize=(20, 8), dpi=80) # 3. 绘制图像 plt.scatter(x, y) # 4. 显示图像 www.gyballet.com() 返回无 如果 __name__ == "__main__": # 代码2:读取数据的简单演示 分散演示()

  • 条形图

案例一:电影票房收入对比

导入 matplotlib.pyplot 作为 plt
def bar_demo():
# 1.准备数据movie_names = ['雷神3:诸神黄昏'、'正义联盟'、'东方快车谋杀案'、'寻梦环游记'、'全球风暴'、'追捕'、'追捕'、'七十七天''、'秘密战斗”、“野兽”、“其他”]
门票 = [73853, 57767, 22354, 15969, 14839, 8725, 8716, 8318, 7916, 6764, 52222]
# 2. 创建画布
plt.figure(figsize=(20, 8), dpi=80)
# 3. 绘制直方图
x_ticks = range(len(movie_names)) #x代表电影类型
www.gyballet.com(x_ticks, 门票, color=['b', 'r', 'g', 'y', 'c', 'm', 'y', 'k', 'c', 'g' ,'b'])
#修改x比例
plt.xticks(x_ticks, movie_names)
#添加标题
plt.title("电影票房收入比较")
#添加网格显示
plt.grid(linestyle="--", alpha=0.5)
# 4. 显示图像
www.gyballet.com()
如果 __name__ == "__main__":
酒吧演示()

案例2:当天上映电影票房对比

导入 matplotlib.pyplot 作为 plt
def bar_demo2():
# 1.准备数据
movie_name = ['雷神:诸神黄昏', '正义联盟', '寻梦环游记']
第一天 = [10587.6, 10062.5, 1275.7]
第一个周末 = [36224.9, 34479.6, 11830]
# 2.创建画布
plt.figure(figsize=(20, 8), dpi=80)
# 3. 绘制直方图www.gyballet.com(range(3), first_day, width=0.2, label="First Day Box Office") # range(3)显示的x=0, x=1, x=2的值
www.gyballet.com([0.2, 1.2, 2.2], first_weekend, width=0.2, label="First Week Box Office") # 0.2, 1.2, 2.2 表示比例平移 0.2
# 显示图例
plt.图例()
#修改比例
plt.xticks([0.1, 1.1, 2.1], 电影名称)
# 4. 显示图像
www.gyballet.com()
如果 __name__ == "__main__":
酒吧演示2()

  • 直方图

                                                                                                        ‘不是’ 已知最高为 175.5,最低为 150.5。组之间的距离为 5
                    求组数:(175.5 - 150.5) / 5 = 5

案例1:电影时长分布

#需求:电影时长分布
# 1.准备数据
time = [131,  98, 125, 131, 124, 139, 131, 117, 128, 108, 135, 138, 131, 102, 107, 114, 119, 128, 121, 142, 127, 130, 124, 101, 110, 116, 117, 110, 128, 128, 115,  99, 136, 126, 134,  95, 138, 117, 111,78, 132, 124, 113, 150, 110, 117,  86,  95, 144, 105, 126, 130,126, 130, 126, 116, 123, 106, 112, 138, 123,  86, 101,  99, 136,123, 117, 119, 105, 137, 123, 128, 125, 104, 109, 134, 125, 127,105, 120, 107, 129, 116, 108, 132, 103, 136, 118, 102, 120, 114,105, 115, 132, 145, 119, 121, 112, 139, 125, 138, 109, 132, 134,156, 106, 117, 127, 144, 139, 139, 119, 140,  83, 110, 102,123,107, 143, 115, 136, 118, 139, 123, 112, 118, 125, 109, 119, 133,112, 114, 122, 109, 106, 123, 116, 131, 127, 115, 118, 112, 135,115, 146, 137, 116, 103, 144,  83, 123, 111, 110, 111, 100, 154,136, 100, 118, 119, 133, 134, 106, 129, 126, 110, 111, 109, 141,120, 117, 106, 149, 122, 122, 110, 118, 127, 121, 114, 125, 126,114, 140, 103, 130, 141, 117, 106, 114, 121, 114, 133, 137,  92,121, 112, 146,  97, 137, 105,  98, 117, 112,  81,  97, 139, 113,134, 106, 144, 110, 137, 137, 111, 104, 117, 100, 111, 101, 110,105, 129, 137, 112, 120, 113, 133, 112,  83,  94, 146, 133, 101,131, 116, 111,  84, 137, 115, 122, 106, 144, 109, 123, 116, 111,111, 133, 150]
# 2、创建画布
plt.figure(figsize=(20, 8), dpi=80)
# 3、绘制直方图
distance = 2   # 组距
group_num = int((max(time) - min(time)) / distance) # 组数
plt.hist(time, bins=group_num, density=True)  # time=要显示是数据 bins=组数, density=True表示显示频数,默认显示频率
# 修改x轴刻度
plt.xticks(range(min(time), max(time) + 2, distance))  # 显示的是从最小值道最大值,步长=组距, max+2是为了最后一组数据的正常显示
# 添加网格
plt.grid(linestyle="--", alpha=0.5)
plt.xlabel("电影市场”)
plt.ylabel(“电影名称”)
# 4、显示图像
www.gyballet.com()

注意点:

适用场景:

 

  • 饼状图

显示不同电影的票房占比:

# 1、准备数据
movie_name = ['雷神3:诸神黄昏','正义联盟','东方快车谋杀案','寻梦环游记','全球风暴','降魔传','追捕','七十七天','密战','狂兽','其它']
place_count = [60605,54546,45819,28243,13270,9945,7679,6799,6101,4621,20105]
# 2、创建画布
plt.figure(figsize=(20, 8), dpi=80)
# 3、绘制饼图  autopct="%1.2f%%" 最后2个%%表示一个%,也就是饼图上显示的占比
plt.pie(place_count, labels=movie_name, colors=['b','r','g','y','c','m','y','k','c','g','y'], autopct="%1.2f%%")
# 显示图例
plt.legend()
plt.axis('equal')  # 保证横轴和纵轴的宽度一直,即比例一致,默认出来是个扁图
# 4、显示图像
www.gyballet.com()

发表评论 (已有0条评论)

还木有评论哦,快来抢沙发吧~