Ktoś już to zrobił.
Magia, której szukasz, to funkcja php o nazwie str_word_count() .
W moim przykładowym kodzie poniżej, jeśli otrzymasz z tego dużo nieistotnych słów, będziesz musiał napisać niestandardowe usuwanie, aby je usunąć. Dodatkowo będziesz chciał usunąć wszystkie tagi HTML ze słów i innych znaków.
Używam czegoś podobnego do generowania słów kluczowych (oczywiście ten kod jest zastrzeżony). Krótko mówiąc, bierzemy dostarczony tekst, sprawdzamy częstotliwość słów i jeśli słowa pojawiają się w kolejności, sortujemy je w tablicy według priorytetów. Tak więc najczęstsze słowa będą pierwsze w danych wyjściowych. Nie liczymy słów, które występują tylko raz.
<?php
$text = "your text.";
//Setup the array for storing word counts
$freqData = array();
foreach( str_word_count( $text, 1 ) as $words ){
// For each word found in the frequency table, increment its value by one
array_key_exists( $words, $freqData ) ? $freqData[ $words ]++ : $freqData[ $words ] = 1;
}
$list = '';
arsort($freqData);
foreach ($freqData as $word=>$count){
if ($count > 2){
$list .= "$word ";
}
}
if (empty($list)){
$list = "Not enough duplicate words for popularity contest.";
}
echo $list;
?>