Python学习笔记 –文件去重
1.所有字段相同去重
- df = pd.read_csv(file_in)
- df = df.drop_duplicates(subset=None, keep='first', inplace=False)
- # df.to_csv(file_out,index = False)
参数解释
subset: 列标签,可选
keep: {‘first’, ‘last’, False}, 默认值 ‘first’
first: 保留第一次出现的重复项。
last: 删除重复项,仅保留最后一次出现的重复项
inplace:布尔值,默认为False,是否删除重复项或返回副本
False: 删除所有重复项。
2.仅对某个(些)字段去重
- df = pd.read_csv(file_in)
- df = df.drop_duplicates(['id']) # id为列名
- df = df.drop_duplicates([subset=['A','B']]) # A/B两列
- # df.to_csv(file_out,index = False)
-
-