Odpowiadam na własne pytanie, ponieważ udało mi się uniknąć awarii. Jednak nadal mam problemy z błędami wtórnymi i zacząłem nowy wątek ze szczegółami.
Mój kod odzyskiwania obsługuje teraz błędy wtórne w inny sposób. Kilka razy ponawia próbę zakleszczenia, ale tylko wtedy, gdy błąd jest zakleszczeniem. Jeśli wystąpi jakikolwiek inny rodzaj błędu, aplikacja zrezygnuje.
Chociaż oznacza to, że rozczarowani użytkownicy otrzymują błędy, nie miałem awarii klastra od czasu tej zmiany i nie widziałem przerażającego błędu „serwer zniknął”.