韭菜花音乐|一分钟用Python搞定,从数百个Excel中查找数据

AI科技大本营昨天
以下文章来源于早起Python , 作者陈熹
韭菜花音乐|一分钟用Python搞定,从数百个Excel中查找数据
文章图片
【韭菜花音乐|一分钟用Python搞定,从数百个Excel中查找数据】早起Python
CSDN博客专家 , 专注于Python爬虫/数据分析/办公自动化
韭菜花音乐|一分钟用Python搞定,从数百个Excel中查找数据
文章图片
韭菜花音乐|一分钟用Python搞定,从数百个Excel中查找数据
文章图片
作者|陈熹
来源|早起Python
今天分享一个真实的办公自动化需求 , 大家一定要仔细阅读需求说明 , 在理解需求之后即可体会Python的强大 。
韭菜花音乐|一分钟用Python搞定,从数百个Excel中查找数据
文章图片
需求说明
首先我们来看下今天的需求 , 有一份档案记录总表的Excel工作簿 , 每天会根据当天日期建立新表 , 每天的表格内包含所有档案信息 , 同时也有可能会添加新的档案名 。 同个年度的总表在年末可能会有两、三百个工作表 , 同时每个表中可能也存在千余份档案信息 。 表格形式如下(为了直观呈现本例以7个工作表和十余份档案的形式呈现)
韭菜花音乐|一分钟用Python搞定,从数百个Excel中查找数据
文章图片
需要完成的操作:为了方便审查特定档案信息 , 需要给出档案名后生成一份新表 , 该表包含指定档案在所有日期(即所有工作表)中的记录 。 最终结果如下(以档案x003为例):
也就是老板说:给我把这几百个表格中所有包含档案x003的相关数据全部找到并整理个新的表格给我 。
步骤分析
正式写代码前可以把需求分析清楚 , 将复杂问题简单化 。
说白了 , 这个需求要求把所有日期工作表中的特定行都提取出来整合成一个新表 。 那么我们可以遍历每一张表 , 然后遍历第一列(名称列 , 也可以看作A列)每一个有数据的单元格 , 如果单元格中的文字为我们需要的档案名 , 就把这一行提取出来放到新的表格中 , 进一步梳理步骤为
建立一个新的EXCEL工作簿
新表的表头和档案记录Excel中的一样 , 也是名称、配置、提交日期等
遍历档案记录Excel的每一张工作表sheet , 再遍历第一列每一个有数据的单元格 , 对内容进行判断
找到符合条件的单元格后获取行号 , 根据行号将当前表中的特定行提取出来 , 并将行追加新创建的表中
分析清楚就可以着手写代码了 。
Python实现
首先导入需要的库本例中涉及旧表的打开和新表的创建 , 因此需要从openpyxl导入load_workbook和Workbook(如果是ppt和word用到的模块就更智能了 , 一个方法就能搞定)
fromopenpyxlimportload_workbook,Workbook
接着导入旧表及创建新表
#从桌面上获取总表filepath=r'C:UserschenxDesktop台账.xlsm'#根据实际情况进行修改workbook=load_workbook(filepath)#创建新的Excel工作簿获取到工作表new_workbook=Workbook()new_sheet=new_workbook.active#给新表写入表头new_headers=['名称','配置','提交日期','受限操作','操作时间','状态','存储位置']new_sheet.append(new_headers)
现在是核心步骤:多次遍历 , 可以用workbook.sheetnames获取工作簿所有工作表名称的列表 , 然后遍历即可 。
foriinworkbook.sheetnames:sheet=workbook[i]#获取档案名称所在列names=sheet['A']
按照前面的分析 , 需要遍历名称列 , 判断每一个单元格的值是不是需要的档案名 。 这里应注意 , 如果已经循环到需要的单元格 , 就可以停止循环了 , 但一定要把符合单元格的行号传递给一个变量做记录 , 不然一旦break出循环就没有记忆了 。


推荐阅读