Mysql
 sql >> Baza danych >  >> RDS >> Mysql

Jak zbudować silnik „powiązanych pytań”?

Jeśli chciałbyś zbudować coś takiego sam od podstaw, użyjesz czegoś, co nazywa się TF/IDF:Term Frequency / Inverse document frequency. Oznacza to, że w ogromnym uproszczeniu można znaleźć w zapytaniu słowa, które są rzadko spotykane w całym korpusie i znaleźć dokumenty zawierające te słowa.

Innymi słowy, jeśli ktoś wpisze zapytanie ze słowami „Chcę kupić słonia”, to z tych słów w zapytaniu słowo „słoń” jest prawdopodobnie najmniej powszechnym słowem w Twoim korpusie. „Kup” jest prawdopodobnie następny. Więc klasyfikujesz dokumenty (w twoim przypadku poprzednie zapytania) według tego, ile zawierają słowo „słoń”, a następnie, ile zawierają słowo „kup”. Słowa „ja”, „do” i „an” prawdopodobnie znajdują się na liście stop, więc całkowicie je ignorujesz. Uporządkowujesz każdy dokument (poprzednie zapytanie, w Twoim przypadku) według liczby pasujących słów (ważenie według odwrotnej częstotliwości dokumentu – tj. wysoka waga nietypowych słów) i pokazujesz kilka pierwszych.

Zbytnio uprościłem i trzeba by o tym przeczytać, aby to zrobić dobrze, ale tak naprawdę nie jest to strasznie skomplikowane do zaimplementowania w prosty sposób. Dobrym miejscem na rozpoczęcie może być strona Wikipedii:

http://en.wikipedia.org/wiki/Tf%E2%80 %93idf



  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. prawidłowy sposób wstawiania danych o id jako auto-inkrementacji w mysqli

  2. Java/Mysql..SQLException:Tabela musi zawierać co najmniej 1 kolumnę SQLState:42000 VendorError:1113

  3. Node.js łączy się z kontenerem MySQL Docker ECONNREFUSED

  4. MySQL Workbench:Jak utrzymać połączenie przy życiu

  5. Przechowywanie UUID jako ciągu znaków w mysql przy użyciu JPA