```markdown

使用 `pandas` 的 `read_excel` 读取 Excel 文件

在数据分析中，Excel 文件是常见的数据格式之一。pandas 提供了强大的工具来读取和操作 Excel 文件，其中最常用的函数之一是 read_excel。在本文中，我们将深入探讨如何使用 pandas 的 read_excel 函数读取 Excel 文件。

安装 pandas 和 openpyxl

首先，确保已安装 pandas 和 openpyxl。openpyxl 是用来读取 .xlsx 格式文件的引擎。如果尚未安装，可以使用以下命令进行安装：

bash pip install pandas openpyxl

`read_excel` 函数介绍

pandas.read_excel() 函数用于读取 Excel 文件，并将其转换为 DataFrame 格式。其基本语法如下：

python pandas.read_excel(io, sheet_name=0, header=0, names=None, dtype=None, engine=None, ...)

主要参数

io：文件路径（字符串）、类文件对象（如 BytesIO）或 URL，表示要读取的 Excel 文件。
sheet_name：指定要读取的工作表名称或索引。默认为 0，表示读取第一个工作表。也可以传入工作表名称的列表，读取多个工作表。
header：指定哪一行作为列标题，默认为 0，即第一行。可以设置为 None，表示没有标题行。
names：指定列名称，如果设置了此参数，将覆盖 header 参数。
dtype：可以为各列指定数据类型，确保读取的数据符合预期的格式。
engine：指定使用哪个引擎来解析 Excel 文件，通常不需要指定，pandas 会自动选择适合的引擎。

示例代码

读取单个工作表

假设我们有一个名为 data.xlsx 的 Excel 文件，我们想要读取其中的第一个工作表。可以使用如下代码：

```python import pandas as pd

读取第一个工作表

df = pd.read_excel('data.xlsx')

显示前几行数据

print(df.head()) ```

读取指定工作表

如果文件中有多个工作表，可以通过 sheet_name 参数指定读取的工作表名称或索引。例如，读取名为 'Sheet2' 的工作表：

```python

读取名为 'Sheet2' 的工作表

df = pd.read_excel('data.xlsx', sheet_name='Sheet2')

显示前几行数据

print(df.head()) ```

或者使用工作表的索引值：

```python

读取第二个工作表（索引从 0 开始）

df = pd.read_excel('data.xlsx', sheet_name=1)

显示前几行数据

print(df.head()) ```

读取多个工作表

如果想要同时读取多个工作表，可以将 sheet_name 设置为一个列表：

```python

读取第一个和第三个工作表

dfs = pd.read_excel('data.xlsx', sheet_name=[0, 2])

输出各个 DataFrame

for sheet, df in dfs.items(): print(f"工作表: {sheet}") print(df.head()) ```

跳过行

如果 Excel 文件中有一些不需要的行（比如文件的前几行是注释），可以使用 skiprows 参数跳过这些行：

```python

跳过前两行

df = pd.read_excel('data.xlsx', skiprows=2)

显示前几行数据

print(df.head()) ```

设置列名称

如果 Excel 文件没有列标题，或者你想为列指定自定义名称，可以使用 names 参数：

```python

自定义列名称

df = pd.read_excel('data.xlsx', names=['A', 'B', 'C', 'D'])

显示前几行数据

print(df.head()) ```

读取特定列

有时候我们只关心 Excel 文件中的某些列，可以使用 usecols 参数指定需要读取的列：

```python

只读取列 A 和 C

df = pd.read_excel('data.xlsx', usecols=['A', 'C'])

显示前几行数据

print(df.head()) ```

处理缺失值

在读取 Excel 文件时，pandas 会自动将空单元格转换为 NaN。如果你需要处理缺失值，可以在读取时使用 na_values 参数指定哪些值应被视为缺失值：

```python

将 'N/A' 视为缺失值

df = pd.read_excel('data.xlsx', na_values='N/A')

显示前几行数据

print(df.head()) ```

总结

pandas 的 read_excel 函数是处理 Excel 文件的强大工具。通过灵活的参数配置，我们可以读取单个或多个工作表、跳过无关的行、指定列名称、读取特定列，以及处理缺失值等。这些功能使得 pandas 在数据分析工作中非常高效和便捷。

```

热搜
行业
快讯
专题

使用 pandas 的 read_excel 读取 Excel 文件

安装 pandas 和 openpyxl

read_excel 函数介绍

主要参数

示例代码

读取单个工作表

读取第一个工作表

显示前几行数据

读取指定工作表

读取名为 'Sheet2' 的工作表

显示前几行数据

读取第二个工作表（索引从 0 开始）

显示前几行数据

读取多个工作表

读取第一个和第三个工作表

输出各个 DataFrame

跳过行

跳过前两行

显示前几行数据

设置列名称

自定义列名称

显示前几行数据

读取特定列

只读取列 A 和 C

显示前几行数据

处理缺失值

将 'N/A' 视为缺失值

显示前几行数据

总结

使用 `pandas` 的 `read_excel` 读取 Excel 文件

`read_excel` 函数介绍