2022年 11月 7日

Python 去除重复行数据

Python学习笔记 –文件去重

1.所有字段相同去重

  1. df = pd.read_csv(file_in)
  2. df = df.drop_duplicates(subset=None, keep='first', inplace=False)
  3. # df.to_csv(file_out,index = False)

参数解释

subset: 列标签,可选

keep: {‘first’, ‘last’, False}, 默认值 ‘first’
first: 保留第一次出现的重复项。
last: 删除重复项,仅保留最后一次出现的重复项

inplace:布尔值,默认为False,是否删除重复项或返回副本
False: 删除所有重复项。

2.仅对某个(些)字段去重

  1. df = pd.read_csv(file_in)
  2. df = df.drop_duplicates(['id']) # id为列名
  3. df = df.drop_duplicates([subset=['A','B']]) # A/B两列
  4. # df.to_csv(file_out,index = False)