MongoDB
 sql >> Baza danych >  >> NoSQL >> MongoDB

To samo słowo, ale różne znaki Unicode

Problem, który napotykasz, polega na tym, że unicode pozwala na wiele sposobów komponowania tego samego symbolu. Moduł Pythona unicodedata udostępnia funkcję normalize który pozwala na konwersję reprezentacji Unicode na stały formularz (np. NFC)

from unicodedata import normalize

S1 = b'\xc4\x83\xcc\x83'.decode('UTF-8')
S2 = b'\xe1\xba\xb5'.decode('UTF-8')

print(normalize('NFC', S1).encode('UTF-8'))
print(normalize('NFC', S2).encode('UTF-8'))

W twoim przykładzie tripadvisor wyświetlany w formie NFD, podczas gdy notatnik używał NFC.




  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. używanie $i $match w mongodb

  2. Jak wykonywać podstawowe operacje na zapytaniach w MongoDB

  3. Utwórz obiekt daty ISO w javascript

  4. Jak mogę uruchamiać polecenia MongoDB, odpytując specjalną kolekcję $cmd?

  5. Zapisz Lista obiektów interfejsu za pomocą sterownika mongo dla java