去除指定单列或多列中的完全重复的项通过drop_duplicates()函数实现,需要利用Pandas包。
其中:
1、subset=[] 表示整个dataframe基于[]内选定列进行数据重复内容识别,可以添加多列数据进行识别。
(1)添加一列列名时表示对选中的单列数据进行重复数据识别,
(2)添加多列时则表示识别多列数据同时重复的情况;
2、keep='' 表示对选中的重复数据操作策略,可选择的参数为'first'、'last'和'False'三种。
(1)'first'表示在识别的重复项中保留按照索引顺序的第一个内容,其余删除,
(2)'last'表示在识别的重复项中保留按照索引顺序的最后一个内容,其余删除,
(3)'False'表示删除所有重复项;
3、inplace= 表示对处理好的dataframe存储策略,可选择参数为False和True