在excel处理大量数据匹配过程中,虽然可以使用vlookup,但是数据量超过10万进行批量匹配的时候,效率非常差,因此使用python。经查,发现python通过pandas库的merge可以实现类似于SQL中join的功能
创新互联建站长期为上1000家客户提供的网站建设服务,团队从业经验10年,关注不同地域、不同群体,并针对不同对象提供差异化的产品和服务;打造开放共赢平台,与合作伙伴共同营造健康的互联网生态环境。为大柴旦企业提供专业的成都做网站、成都网站建设,大柴旦网站改版等技术服务。拥有十年丰富建站经验和众多成功案例,为您定制开发。
import pandas as pd
import numpy as np
# %%
with pd.ExcelFile('xx.xlsx') as xls:
df1 = pd.read_excel(xls,'Sheet1')
df2 = pd.read_excel(xls,'Sheet2')
outer=pd.merge(df1,df2,on='key')
outer.to_excel('outer_function.xlsx',index=False,encoding='utf-8')
最终实现Sheet1和Sheet2基于相同key字段的匹配,拼接。
工作需要写了一个python小函数。
用fuzzywuzzy模糊匹配技巧解决人工数据和标准数据的匹配问题.基本原理是先精确匹配,如果没有,采用模糊匹配遍历目标空间,选取打分最大。
生物信息处理一些经过人工输入的数据,往往有少量的错误但是这些元数据往往要与结果数据统一分析,且非常之重要数据量小,那就一个一个改吧,工作需要写了一个python小函数,用fuzzywuzzy模糊匹配技巧解决人工数据和标准数据的匹配问题基本原理是先精确匹配,如果没有,采用模糊匹配遍历目标空间,选取打分最大的提交用户检查,最后输出结果。
Python语句list(range(1,10,3))执行结果为[1,4,7]。
语法是:range(start,stop[,step])
参数说明:
(1)start:计数从start开始,默认是从0开始。例如range(5)等价于range(0,5);
(2)stop:计数到stop结束,但不包括stop。例如:range(0,5)是[0,1,2,3,4]没有5;
(3)step:步长,默认为1。例如:range(0,5)等价于range(0,5,1)。
因此,range(1,10,3)的意思是1到10之间的tuple,间隔为3,所以结果是(1,4,7)。
列表(List)是最常用的Python数据类型,它可以作为一个方括号内的逗号分隔值出现。
所以,list(range(1,10,3))执行结果为[1,4,7]。
扩展资料
Python列表函数方法
Python包含以下函数:
1、cmp(list1, list2):比较两个列表的元素;
2、len(list):列表元素个数;
3、max(list):返回列表元素最大值;
4、min(list):返回列表元素最小值;
5、list(seq):将元组转换为列表。
Python包含以下方法:
1、list.append(obj):在列表末尾添加新的对象;
2、list.count(obj):统计某个元素在列表中出现的次数;
3、list.extend(seq):在列表末尾一次性追加另一个序列中的多个值(用新列表扩展原来的列表);
4、list.index(obj):从列表中找出某个值第一个匹配项的索引位置;
5、list.insert(index, obj):将对象插入列表;
6、list.pop([index=-1]):移除列表中的一个元素(默认最后一个元素),并且返回该元素的值;
7、list.remove(obj):移除列表中某个值的第一个匹配项;
8、list.reverse():反向列表中元素;
9、list.sort(cmp=None, key=None, reverse=False):对原列表进行排序。