python 合并多个excel中同名的sheet

程序员文章站 2022-03-26 19:05:07

大家好~ 老amy来啦！已经n久没有给大家输出关于办公自动化的文章了…为什么呢？罗列原因：太忙！(被领导“压榨”) 太忙！(没有额外的精力揣测大家办公的需求) 太忙！(持续吃瓜中) 然鹅，一...

大家好~ 老amy来啦！已经n久没有给大家输出关于办公自动化的文章了…为什么呢？罗列原因：

太忙！(被领导“压榨”)
太忙！(没有额外的精力揣测大家办公的需求)
太忙！(持续吃瓜中)

然鹅，一位朋友的困惑成为了我这种“麻木状态”的终结者，他提出需求如下：

python 合并多个excel中同名的sheet

想不断尝试的老amy，开启了思考模式：“我要怎么实现这个需求呢？”。

不用着急，首先我们来分析数据本身。

分析数据特征如下：

数据所在路径 c:\users\logic\desktop\mytest\file_dir

python 合并多个excel中同名的sheet

data01.xlsx 数据如下：

python 合并多个excel中同名的sheet

data02.xlsx 数据如下：

python 合并多个excel中同名的sheet

由上可得信息如下：

所有 xlsx 工作簿都在同一个文件夹下
data01.xlsx 与 data02.xlsx 中 sheet 名相同的进行合并。也就是202001与202001合并，其它同理。

我们需要合并数据，首先需要读取到每个工作簿下每个工作表的数据，实现流程如下：

获取文件夹下所有工作簿名
拼接为绝对路径
读取所有表格数据
保存到空列表中

那要通过代码完成上面的连环操作，我们就需要使用到 python 中的内置模块 os 模块——与操作系统进行交互的模块，来获取文件夹下所有工作簿名，代码如下：

import os # 导入模块

# 列出 c:\users\logic\desktop\mytest\file_dir 下所有文件名
file_name_li = os.listdir(r"c:\users\logic\desktop\mytest\file_dir")
file_name_li

---------------------------------------------------------------------
['data01.xlsx', 'data02.xlsx']

但此时，无法只通过文件名去系统中找到对应的文件，所以我们需要更准确一点儿的地址——绝对路径，所以现在我们需要拼接每个文件的绝对路径。代码如下：

# 遍历出每个文件名
for file_name in file_name_li:
  # 将文件夹绝对路径 与 文件名进行拼接
  file_path_li = os.path.join(r"c:\users\logic\desktop\mytest\file_dir",file_name)
  print(file_path_li)
  
--------------------------------------------------------------------
c:\users\logic\desktop\mytest\file_dir\data01.xlsx
c:\users\logic\desktop\mytest\file_dir\data02.xlsx

有了文件的绝对路径后，我们就可以来读取文件中的数据，那就要使用到法宝 pandas 了。首先大家注意，pandas 并不是 python 的内置模块，而是需要我们去安装的。然后使用 pandas 的 read_excel() 方法读取数据，但是需要注意的是，此时我们需要读取的是工作簿下的所有工作表，所以需要指定 sheet_name 为 none，否则会默认读取第一个工作表。代码如下：

# 遍历出每个文件名
for file_name in file_name_li:
  # 将文件夹绝对路径 与 文件名进行拼接
  file_path_li = os.path.join(r"c:\users\logic\desktop\mytest\file_dir",file_name)
  # 读取 excel 表格数据
  all_data = pd.read_excel(file_path_li,sheet_name=none)
  print(all_data)
  
--------------------------------------------------------------------
ordereddict([('202001',     车牌号 驾驶员   起始公里  截至公里  里程数   加油金额  加油公升
0  鄂j0969  陈燕 186701.0 186935  234  267.07  32.41
1  鄂a25jl nan    nan    0   0   nan   nan
2  鄂a37nk  吕扬  40283.0  40993  710  512.08  68.37
3  鄂a332b nan    nan    0   0   nan   nan
4  鄂a3j78l  尚超    0.0   33  33   nan   nan
5  鄂a484zf  鲁浩  50286.0  52574 2288 1340.84 191.45
6  鄂a620j  袁耀  41398.0  43604 2206 1579.69 225.67
7  鄂a7a8z  志勇  41560.0  42883 1323  788.48 107.57
8  鄂aj37y  刘冲    0.0   73  73   nan   nan
9  鄂ad9251  毛义  3214.0  3349  135   nan   nan
10 鄂ad2192  赵敏   434.0   796  362   nan   nan),...], ...)

从上打印出的结果(我取了第一个)，会发现它的类型为 ordereddict ，虽然组合起来好像不是很看得懂，但是分开来看，它的本质实际上是 dict。所以实际上我们可以通过 202001 来获取对应的数据值。如：

# 遍历出每个文件名
for file_name in file_name_li:
  # 将文件夹绝对路径 与 文件名进行拼接
  file_path_li = os.path.join(r"c:\users\logic\desktop\mytest\file_dir",file_name)
  # 读取 excel 表格数据
  all_data = pd.read_excel(file_path_li,sheet_name=none)
  print(all_data["202001"])

---------------------------------------------------------------------
车牌号 驾驶员   起始公里  截至公里  里程数   加油金额  加油公升
0  鄂j0969  陈燕 186701.0 186935  234  267.07  32.41
1  鄂a25jl nan    nan    0   0   nan   nan
2  鄂a37nk  吕扬  40283.0  40993  710  512.08  68.37
3  鄂a332b nan    nan    0   0   nan   nan
4  鄂a3j78l  尚超    0.0   33  33   nan   nan
5  鄂a484zf  鲁浩  50286.0  52574 2288 1340.84 191.45
6  鄂a620j  袁耀  41398.0  43604 2206 1579.69 225.67
7  鄂a7a8z  志勇  41560.0  42883 1323  788.48 107.57
8  鄂aj37y  刘冲    0.0   73  73   nan   nan
9  鄂ad9251  毛义  3214.0  3349  135   nan   nan
10 鄂ad2192  赵敏   434.0   796  362   nan   nan
  
车牌号 驾驶员  起始公里  截至公里  里程数   加油金额  加油公升
0  鄂j0039 周鹏  15512  15512   0   nan   nan
1  鄂j0021 王林  7790  7790   0   nan   nan
2  鄂j0022 徐涛 373505 373505   0   nan   nan
3  鄂j0079 赵舟 431169 431169   0   nan   nan
4  鄂j0018  郭鹰  3635  3635   0   nan   nan
5  鄂j0808 周尊 257743 257743   0   nan   nan
6  鄂j01x3 胡志  72000  72150  150  159.26  25.16
7  鄂j01x0 吴军  73031  73568  537  393.46  58.12
8  鄂j0f12 宋安 149017 149050  33   0.00  0.00
9  鄂j0f52 金煜 150617 150617   0   nan   nan
10  鄂j0272 刘兵  58124  58305  181   0.00  0.00
11  鄂j02f2 胡飞 169665 169665   0   nan   nan
12  鄂j0292 王勇 111625 113121 1496 1081.37 156.54
13  鄂j05r0 刘金  99278  99278   0   nan   nan

从打印结果，可以发现，我们通过 202001 可以取到两个工作簿中 202001 的数据，这是为什么呢？傻瓜，因为循环呀~所以，现在我们就想，把数据都添加到一个列表中。除此之外，我们还需要工作表名来获取数据，也就是将工作表名保存到一个集合中(以便去重)。

# 定义文件名集合
all_file_name = set()
# 定义数据列表
all_data_li = []

# 遍历出每个文件名
for file_name in file_name_li:
  # 将文件夹绝对路径 与 文件名进行拼接
  file_path_li = os.path.join(r"c:\users\logic\desktop\mytest\file_dir",file_name)
  # 读取 excel 表格数据
  all_data = pd.read_excel(file_path_li,sheet_name=none)
  # 将数据添加到数据列表中
  all_data_li.append(all_data)
  # 将工作表名添加到文件夹集合中
  for name in all_data:
    all_file_name.add(name)

print(all_data_li)
print(all_file_name)

有了这些宝贝之后，我们就可以来实现非常关键的步骤了，也就是取出相同名称的工作表进行拼接保存到新的工作表中。

不过仍然要思考的是，我们怎么使用 pandas 给一个工作簿中添加多个工作表呢？那就需要使用 pd.excelwriter了。代码如下：

# 创建工作簿
writer = pd.excelwriter("all_data.xlsx")

# 遍历每个工作表名
for sheet_name in all_file_name:
  data_li = []
  # 遍历数据
  for data in all_data_li:
    # 获取同名数据并添加到data_li中
    n_rows = data_li.append(data[sheet_name])
  # 将同名数据进行拼接
  group_data = pd.concat(data_li)
  # 保存到writer工作簿中，并指定工作表名为sheet_name
  group_data.to_excel(writer,sheet_name=sheet_name)

# 千万莫忘记，保存工作簿
writer.save()

python 合并多个excel中同名的sheet

就酱，实现完毕啦~哈哈哈哈哈

以上就是python 合并多个excel中同名的sheet的详细内容，更多关于python 合并excel中的sheet的资料请关注其它相关文章！

相关标签： python excel 合并 sheet

上一篇：西安交通大学王牌专业排名工商管理上榜(5个)

下一篇： Python:简单文字版游戏:坦克大战

python 合并多个excel中同名的sheet

分析数据特征如下：

Python合并多个Excel数据的方法

python 实现读取一个excel多个sheet表并合并的方法

python合并excel多个sheet（代码教程）

Excel表格中汇总多个数据表中的数据实现数据的合并计算

Excel2003中将多个单元格内容合并到一个单元格的两种方法

python合并excel单元格中的相同条件内容

python写多个数据到excel表格的一个单元格中

python读取excel多个sheet页并合并成一页

Python将EXCEL表格中的多个sheet中的一列提取合并，并去重后统计记录的个数

python 按照sheet合并多个Excel的示例代码(多个sheet)