Najszybszy sposób na usunięcie duplikatów dokumentów w mongodb

dropDups: true opcja nie jest dostępna w wersji 3.0.

Mam rozwiązanie z frameworkiem agregacji do zbierania duplikatów, a następnie usuwania za jednym razem.

Może być nieco wolniejszy niż zmiany „indeksu” na poziomie systemu. Ale dobrze jest rozważyć sposób, w jaki chcesz usunąć duplikaty dokumentów.

a. Usuń wszystkie dokumenty za jednym razem

var duplicates = [];

  { $match: { 
    name: { "$ne": '' }  // discard selection criteria
  { $group: { 
    _id: { name: "$name"}, // can be grouped on multiple properties 
    dups: { "$addToSet": "$_id" }, 
    count: { "$sum": 1 } 
  { $match: { 
    count: { "$gt": 1 }    // Duplicates considered as count greater than one
{allowDiskUse: true}       // For faster processing if set is larger
)               // You can display result until this and check duplicates 
.forEach(function(doc) {
    doc.dups.shift();      // First element skipped for deleting
    doc.dups.forEach( function(dupId){ 
        duplicates.push(dupId);   // Getting all duplicate ids

// If you want to Check all "_id" which you are deleting else print statement not needed

// Remove all duplicates in one go    

b. Możesz usuwać dokumenty jeden po drugim.

  // discard selection criteria, You can remove "$match" section if you want
  { $match: { 
    source_references.key: { "$ne": '' }  
  { $group: { 
    _id: { source_references.key: "$source_references.key"}, // can be grouped on multiple properties 
    dups: { "$addToSet": "$_id" }, 
    count: { "$sum": 1 } 
  { $match: { 
    count: { "$gt": 1 }    // Duplicates considered as count greater than one
{allowDiskUse: true}       // For faster processing if set is larger
)               // You can display result until this and check duplicates 
.forEach(function(doc) {
    doc.dups.shift();      // First element skipped for deleting
    db.collectionName.remove({_id : {$in: doc.dups }});  // Delete remaining duplicates

