To, o czym mówisz, to proces grupowania tekstu. Próbujesz znaleźć podobne fragmenty tekstu i arbitralnie wybierasz jeden z nich. Nie znam żadnej bazy danych, która wykorzystuje tę formę eksploracji tekstu.
W przypadku tego, co opisujesz, prawdopodobnie zadziała całkiem podstawowa technika eksploracji tekstu. Utwórz macierz termin-dokument ze wszystkimi słowami z wyjątkiem nazw użytkowników. Następnie użyj rozkładu według wartości osobliwych, aby uzyskać największą wartość osobliwą i wektor (jest to pierwszy główny składnik macierzy korelacji). Podobne działania powinny skupiać się w tym kierunku.
Jeśli masz ograniczone słownictwo i masz terminy w tabeli, możesz zmierzyć odległość między dwoma czynnościami za pomocą proporcji nakładających się słów. Czy masz listę wszystkich słów w akcjach?