Okazało się, że jest to problem z tcp_connect_timeout pomiędzy serwerem aplikacji a serwerem bazy danych. Limit czasu połączenia tcp wynosił domyślnie 1 godzinę, a moje ustawienia recyklingu puli wynosiły 3 godziny. Więc wszystko od 1 do 3 zawodziło. Opublikowanie odpowiedzi, aby pomóc innym, którzy mogą się z tym zmierzyć później.