Python_Dataframe_去除重复数据

Python154

去除指定单列或多列中的完全重复的项通过drop_duplicates()函数实现,需要利用Pandas包。

其中:

1、subset=[] 表示整个dataframe基于[]内选定列进行数据重复内容识别,可以添加多列数据进行识别。

(1)添加一列列名时表示对选中的单列数据进行重复数据识别,

(2)添加多列时则表示识别多列数据同时重复的情况;

2、keep='' 表示对选中的重复数据操作策略,可选择的参数为'first'、'last'和'False'三种。

(1)'first'表示在识别的重复项中保留按照索引顺序的第一个内容,其余删除,

(2)'last'表示在识别的重复项中保留按照索引顺序的最后一个内容,其余删除,

(3)'False'表示删除所有重复项;

3、inplace= 表示对处理好的dataframe存储策略,可选择参数为False和True

输入验证码查看隐藏内容

扫描二维码关注本站微信公众号 Johngo学长
或者在微信里搜索 Johngo学长
回复 svip 获取验证码
wechat Johngo学长