2020年3月3日 10:25
作者:殷建刚
近日收到业务往来公司发来的数据文件,顿觉头大,文件为CSV格式,有近600行的数据,内容是电话号码的费用清单。话费的收费有多种目录,并且一个号码有多行,每个号码行数不一致,用电子表格的VLOOKUP函数取数很难实现数据的对应,如果手工整理成统一的格式需半天多时间,且数据量大,手工方式极易出错。
这种数据每月都要处理,重复的事情要想办法完成,提高工作效率。思恃半天,何不用python小程序来处理这些数据,思路是先把每个号码的数据合并成一行,再对齐相同内容的列,输出到电子表格中处理。经过不断摸索,编制出如下方法:
用python程序的pandas库来进行数据处理,先用读取函数取源文件,生成一个二维数据表后,用条件函数判断,从数据表中取出每个号码对应的多行数据合并成一行数据,经过处理,删除多余数据,插入数据以使每个号码最终生成的格式一致,把每个号码生成的列表合并在一个列表中,转换成新的二维表,输出后导入excel文件,用VLOOKUP函数自动取数,5分钟内即可处理完毕,程序虽小,也就是了了二十行代码,很简单,但是应用于工作中,可减少重复性的操作,工作效率大为提高。
这个方法只是抛砖引玉,在当今信息化与工业化日益融合的时期,我们只有不断学习,引入新的技术应用于工作、生产中,才能更好地适应这个崭新的时代。
版权©2020天博tb·综合体育(中国)官方网站 |鲁ICP备2020037088号