欢迎来到数据可视化!
在这门实践课程中,你将学习如何使用 seaborn 这个强大而易于使用的数据可视化工具,将你的数据可视化提升到一个新的水平。为了使用 seaborn,你还需要学习一些 Python 编程语言的知识。尽管如此,
- 本课程旨在面向那些没有编程经验的人,而且
- 每个图表都使用简短而简单的代码,使 seaborn 比许多其他数据可视化工具(如 Excel)更快更容易使用。
因此,如果你从未写过一行代码,想要学习最基本的知识,从今天开始制作更快、更有吸引力的图表,那么你来对地方了!要查看一些你将制作的图表,请查看下面的图例。
设置环境
您需要在每个笔记本的顶部运行几行代码来设置您的编码环境。现在理解这些代码行并不重要,因此我们还不会深入到细节中。
import pandas as pd
pd.plotting.register_matplotlib_converters()
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
加载数据
在这个笔记本中,我们将使用一个历史FIFA排名的数据集,包括六个国家:阿根廷(ARG)、巴西(BRA)、西班牙(ESP)、法国(FRA)、德国(GER)和意大利(ITA)。该数据集存储为CSV文件(是逗号分隔值文件(comma-separated values file)的缩写)。在Excel中打开CSV文件,每个日期都有一行,每个国家都有一列。
为了将数据加载到笔记本中,我们将使用两个不同的步骤,在下面的代码单元格中实现如下:
- 首先指定可以访问数据集的位置(或文件路径)
- 然后使用文件路径将数据集的内容加载到笔记本中。
# Path of the file to read
fifa_filepath = "../input/fifa.csv"
# Read the file into a variable fifa_data
fifa_data = pd.read_csv(fifa_filepath, index_col="Date", parse_dates=True)
请注意,上面的代码单元格有四行不同的代码。
注释
其中两行以井号(#
)开头,包含的文本呈现为淡化和斜体。
当代码运行时,计算机会完全忽略这两行,它们只是出现在这里,以便任何人可以快速理解代码。我们称这两行为注释,并且包含它们是好的习惯,以确保您的代码易于解释。
可执行代码
另外两行是可执行代码,即计算机运行的代码(在本例中,是为查找和加载数据集而运行的代码)。
第一行将fifa_filepath
的值设置为可以访问数据集的位置。在这种情况下,我们已为您提供了文件路径(用引号括起来)。请注意,上面的注释紧接着出现在这行可执行代码的上方,提供了可执行代码的简要描述!
第二行设置fifa_data
的值,以包含数据集中的所有信息。这是通过pd.read_csv
完成的。它紧随其后的是三个不同的文本片段(在上面的图像中划线),这些文本片段被括在括号中,并用逗号分隔。这些用于在将数据集加载到笔记本时的自定义行为:
fifa_filepath
- 数据集的文件路径始终需要首先提供。index_col="Date"
- 当我们加载数据集时,我们希望第一列中的每个条目都表示不同的行。为此,我们将index_col
的值设置为第一列的名称(在Excel中打开文件时在单元格A1中找到的"Date"
)。parse_dates=True
- 这告诉笔记本将每行标签视为日期(而不是具有不同含义的数字或其他文本)。
当您有机会在实践练习中加载自己的数据集时,这些细节将更加清晰明了。
目前,重要的是要记住运行这两行代码的最终结果是,我们现在可以使用
fifa_data
从笔记本访问数据集。
顺便说一下,您可能已经注意到,这些代码行没有任何输出(而您在笔记本的早期运行的代码行返回了Setup Complete
作为输出)。这是预期的行为 - 并非所有代码都会返回输出,这段代码就是一个典型的例子!
检查数据
现在,我们将快速查看fifa_data
中的数据集,以确保它已正确加载。
我们通过编写以下一行代码来打印数据集的前五行:
- 以包含数据集的变量(在本例中为
fifa_data
)开头,然后 - 在其后跟
.head()
。
您可以在下面的代码行中看到这一点。
# Print the first 5 rows of the data
fifa_data.head()
ARG | BRA | ESP | FRA | GER | ITA | |
---|---|---|---|---|---|---|
Date | ||||||
1993-08-08 | 5.0 | 8.0 | 13.0 | 12.0 | 1.0 | 2.0 |
1993-09-23 | 12.0 | 1.0 | 14.0 | 7.0 | 5.0 | 2.0 |
1993-10-22 | 9.0 | 1.0 | 7.0 | 14.0 | 4.0 | 3.0 |
1993-11-19 | 9.0 | 4.0 | 7.0 | 15.0 | 3.0 | 1.0 |
1993-12-23 | 8.0 | 3.0 | 5.0 | 15.0 | 1.0 | 2.0 |
现在检查一下前五行是否与上面在Excel中看到的数据集图像一致。
绘制数据
在这门课程中,你将学习许多不同的绘图类型。在许多情况下,你只需要一行代码就可以制作一个图表!
如果你想提前了解你将学到的内容,可以查看下面生成线图的代码。
# Set the width and height of the figure
plt.figure(figsize=(16,6))
# Line chart showing how FIFA rankings evolved over time
sns.lineplot(data=fifa_data)
上面的代码对初学者来说可能并无意义。但在接下来的学习中,你将逐步深入了解到基于seaborn库的各类图表绘制。
标题:Kaggle数据可视化(一)seaborn引入
作者:Departure
地址:https://www.unreachablecity.club/articles/2023/04/18/1681831395113.html
Comments | 0 条评论