tl;dr Nie, nie są prawidłowe, cokolwiek zostało kodowane, jest albo błędne, albo podano błędne informacje o kodowaniu dotyczące danych wejściowych.
55357 i 56842 to odpowiednio 0xD83D i 0xDE0A w systemie szesnastkowym.
W Unicode znajdują się one w zakresach nazwanych odpowiednio „Wysoki zastępczy” i „Niski zastępczy”.
Oznacza to, że nie właściwe punkty kodowe Unicode, ale raczej używane w UTF-16 do konstruowania pojedynczej wartości Unicode, która nie pasuje do 16 bitów (tj. Basic Multilingual Plane).
Te dwie konkretne wartości dekodują U+1F60A UŚMIECHNIĘTA TWARZ Z UŚMIECHNIĘTYMI OCZAMI . Prawidłowa dziesiętna jednostka HTML to 😊
.
Najbardziej prawdopodobnym powodem jest to, że jakaś transformacja, która albo nie wie o UTF-16, albo myśle ten tekst nie jest kodowany w UTF-16 (ale powinien był wykryć, że te wartości są nieprawidłowe i zgłosić błąd nawet w takim przypadku).