Em Python, ao trabalhar com Pandas, você pode usar o método drop_duplicates
para remover duplicatas em um DataFrame com base em valores de uma ou mais colunas. Se você quiser remover duplicatas com base em uma coluna que contém valores inteiros (int
), basta passar o nome dessa coluna para o parâmetro subset
do método drop_duplicates
.
Aqui está um exemplo de como você pode fazer isso:
import pandas as pd
# Cria um DataFrame de exemplo
data = {'coluna_int': [1, 2, 2, 3, 4, 4, 4, 5],
'outra_coluna': ['a', 'b', 'b', 'c', 'd', 'e', 'e', 'f']}
df = pd.DataFrame(data)
print("DataFrame original:")
print(df)
# Remove duplicatas com base na coluna 'coluna_int'
df_sem_duplicatas = df.drop_duplicates(subset='coluna_int')
print("\nDataFrame após remover duplicatas na coluna 'coluna_int':")
print(df_sem_duplicatas)
Neste exemplo:
df
com duas colunas, coluna_int
e outra_coluna
.drop_duplicates(subset='coluna_int')
para remover todas as linhas duplicadas baseando-se nos valores de coluna_int
.df_sem_duplicatas
que contém apenas a primeira ocorrência de cada valor em coluna_int
.Você também pode ajustar o comportamento de drop_duplicates
usando outros parâmetros, como:
keep
: Para determinar quais duplicatas manter ('first', 'last' ou False
para remover todas as duplicatas).inplace
: Se for True
, faz a modificação diretamente no DataFrame original em vez de retornar um novo.