Removendo registros duplicados do MongoDB

Trabalhar com limpeza e expurgo de dados é sempre uma tarefa rotineira de quem utiliza diariamente banco de dados, seja ele qual for. O código abaixo mostra como remover registros duplicados do MongoDB baseado em uma chave (campo).

Primeiro método – Criando um índice único:

db.minhacollection.ensureIndex({'source_references.key' : 1}, {unique : true, dropDups : true})

A opção dropDups foi removida no MongoDB 3.0, portanto será necessária uma abordagem diferente. Por exemplo, você poderia usar agregação para conseguir este feito. Quaisquer documentos que estejam faltando no campo source_references.key serão considerados como tendo um valor nulo, portanto, os documentos subseqüentes que não tiverem o campo-chave serão excluídos.

Segundo método – Fazendo um loop na coleção toda e removendo linhas duplicadas baseada em uma chave:

 
 db.minhacollection.find({}, {myCustomKey:1}).sort({_id:1}).forEach(function(doc){
    db.minhacollection.remove({_id:{$gt:doc._id}, myCustomKey:doc.myCustomKey});
});

Indexar sua customKey antes de executar isso para aumentar a velocidade.

Cuidado óbvio: faça um backup do banco de dados e tente isso primeiro em um ambiente de preparo se você estiver preocupado com a perda de dados não intencional.

Um grande abraço a todos!

Removendo registros duplicados do MongoDB

Cache além do básico: por que LRU e TTL precisam andar juntos

Potencializando o MongoDB com IA: Conheça o MCP Server da MongoDB

MongoDB Analyzer para .NET: Visualize e otimize suas consultas de forma simples

1000 livros gratuitos sobre programação!

Mais de 200 livros de programação gratuitos em português

1000 livros gratuitos sobre programação!

Google lança versão “invisível” do reCAPTCHA!

Mini curso de HTML5 oferecido pela Microsoft

O que significa ( !important ) na declaração do CSS ?

Programa para supercompactar arquivos. KGB Archiver.

Rate limiting não é só proteção contra abuso. É contrato de capacidade

Feature flag não é interruptor. É dívida operacional com prazo de validade

O modelo é infraestrutura: por que LLM deveria ser adapter, não o centro da sua arquitetura

O novo gargalo não é escrever código. É absorver mudança com qualidade

A próxima geração de arquitetura será julgada por tempo de entendimento, não só por tempo de resposta

Removendo registros duplicados do MongoDB

Primeiro método – Criando um índice único:

Segundo método – Fazendo um loop na coleção toda e removendo linhas duplicadas baseada em uma chave:

Posts Relacionados