欢迎来到数据可视化!

在这门实践课程中,你将学习如何使用 seaborn 这个强大而易于使用的数据可视化工具,将你的数据可视化提升到一个新的水平。为了使用 seaborn,你还需要学习一些 Python 编程语言的知识。尽管如此,

  • 本课程旨在面向那些没有编程经验的人,而且
  • 每个图表都使用简短而简单的代码,使 seaborn 比许多其他数据可视化工具(如 Excel)更快更容易使用。

因此,如果你从未写过一行代码,想要学习最基本的知识,从今天开始制作更快、更有吸引力的图表,那么你来对地方了!要查看一些你将制作的图表,请查看下面的图例。

image4.png

设置环境

您需要在每个笔记本的顶部运行几行代码来设置您的编码环境。现在理解这些代码行并不重要,因此我们还不会深入到细节中。

import pandas as pd
pd.plotting.register_matplotlib_converters()
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

加载数据

在这个笔记本中,我们将使用一个历史FIFA排名的数据集,包括六个国家:阿根廷(ARG)、巴西(BRA)、西班牙(ESP)、法国(FRA)、德国(GER)和意大利(ITA)。该数据集存储为CSV文件(是逗号分隔值文件(comma-separated values file)的缩写)。在Excel中打开CSV文件,每个日期都有一行,每个国家都有一列。

image5.png

为了将数据加载到笔记本中,我们将使用两个不同的步骤,在下面的代码单元格中实现如下:

  • 首先指定可以访问数据集的位置(或文件路径
  • 然后使用文件路径将数据集的内容加载到笔记本中。
# Path of the file to read
fifa_filepath = "../input/fifa.csv"

# Read the file into a variable fifa_data
fifa_data = pd.read_csv(fifa_filepath, index_col="Date", parse_dates=True)

image6.png

请注意,上面的代码单元格有四行不同的代码。

注释

其中两行以井号(#)开头,包含的文本呈现为淡化和斜体。

当代码运行时,计算机会完全忽略这两行,它们只是出现在这里,以便任何人可以快速理解代码。我们称这两行为注释,并且包含它们是好的习惯,以确保您的代码易于解释。

可执行代码

另外两行是可执行代码,即计算机运行的代码(在本例中,是为查找和加载数据集而运行的代码)。

第一行将fifa_filepath的值设置为可以访问数据集的位置。在这种情况下,我们已为您提供了文件路径(用引号括起来)。请注意,上面的注释紧接着出现在这行可执行代码的上方,提供了可执行代码的简要描述!

第二行设置fifa_data的值,以包含数据集中的所有信息。这是通过pd.read_csv完成的。它紧随其后的是三个不同的文本片段(在上面的图像中划线),这些文本片段被括在括号中,并用逗号分隔。这些用于在将数据集加载到笔记本时的自定义行为:

  • fifa_filepath - 数据集的文件路径始终需要首先提供。
  • index_col="Date" - 当我们加载数据集时,我们希望第一列中的每个条目都表示不同的行。为此,我们将index_col的值设置为第一列的名称(在Excel中打开文件时在单元格A1中找到的"Date")。
  • parse_dates=True - 这告诉笔记本将每行标签视为日期(而不是具有不同含义的数字或其他文本)。

当您有机会在实践练习中加载自己的数据集时,这些细节将更加清晰明了。

目前,重要的是要记住运行这两行代码的最终结果是,我们现在可以使用fifa_data从笔记本访问数据集。

顺便说一下,您可能已经注意到,这些代码行没有任何输出(而您在笔记本的早期运行的代码行返回了Setup Complete作为输出)。这是预期的行为 - 并非所有代码都会返回输出,这段代码就是一个典型的例子!

检查数据

现在,我们将快速查看fifa_data中的数据集,以确保它已正确加载。

我们通过编写以下一行代码来打印数据集的前五行:

  • 以包含数据集的变量(在本例中为fifa_data)开头,然后
  • 在其后跟.head()

您可以在下面的代码行中看到这一点。

# Print the first 5 rows of the data
fifa_data.head()
ARG BRA ESP FRA GER ITA
Date
1993-08-08 5.0 8.0 13.0 12.0 1.0 2.0
1993-09-23 12.0 1.0 14.0 7.0 5.0 2.0
1993-10-22 9.0 1.0 7.0 14.0 4.0 3.0
1993-11-19 9.0 4.0 7.0 15.0 3.0 1.0
1993-12-23 8.0 3.0 5.0 15.0 1.0 2.0

现在检查一下前五行是否与上面在Excel中看到的数据集图像一致。

绘制数据

在这门课程中,你将学习许多不同的绘图类型。在许多情况下,你只需要一行代码就可以制作一个图表!

如果你想提前了解你将学到的内容,可以查看下面生成线图的代码。

# Set the width and height of the figure
plt.figure(figsize=(16,6))

# Line chart showing how FIFA rankings evolved over time 
sns.lineplot(data=fifa_data)

output71.png

上面的代码对初学者来说可能并无意义。但在接下来的学习中,你将逐步深入了解到基于seaborn库的各类图表绘制。


标题:Kaggle数据可视化(一)seaborn引入
作者:Departure
地址:https://www.unreachablecity.club/articles/2023/04/18/1681831395113.html