News zum gleichen Thema

cr4m0

Angesehenes Mitglied
Ich suche einen Algorithmus, der Texte aus meiner Nachrichten-Datenbank über das gleiche Thema gruppiert. Bisher habe ich es so gemacht:
1) Titel des aktuellen Textes genommen
2) MySQL-Volltext-Suche nach ähnlichen Texten in der DB gemacht
3) Die fünf ähnlichsten Texte als "News zum gleichen Thema" genommen
Dabei gibt es natürlich oft Texte, die gar nicht passen. Denn nicht jeder ähnliche Text behandelt auch das gleiche Thema.

Es muss aber möglich sein, News zum gleichen Thema zu finden und nicht nur ähnliche News. Schließlich schaffen Google News und Wikio das auch.

Bitte helft mir, ist mir sehr wichtig! Danke im Voraus!
 
Hüstel. Was Du da machen möchtest ist relativ einfach. Es so zu machen wir Google es macht wird für Dich unmöglich sein.
Das konventionelle Verfahren ist einen Text in einen Term-Vektor zu zerlegen, diesen zu säuber und aus ihm mit anderen Termvektoren Skalarprodukte oder dem Kosinuss-Mass (weiss nicht mehr so genau) [1]. Es ist sinnvoll eine erste Sondierung der zu vergleichenden Vektoren zu machen um performant zu bleiben.

Eine Variante die mir persönlich besser gefällt impliziert den Aufbau von Ontologien und deren Gebrauch für o.g. Methode.

[1] Hab mal gegoogelt: http://information-retrieval.de/irb/ir.par...pic_5.subdiv1_2
 
Danke schonmal! Ich will das auch gar nicht so gut machen wie Google, aber ich suche eben eine bessere Lösung als die Volltext-Suche.

Zu deinem Vorschlag:
Der scheint sehr gut zu sein, nur leider verstehe ich ihn noch nicht ganz!
biggrin.gif

Man zeichnet also - nur theoretisch - zwei Vektoren: Einen Vektor für den aktuellen Text und einen für einen anderen Text. Wie der Vektor verläuft, bestimmen die einzelnen Wörter im Text. Je höher das Skalarprodukt der beiden Vektoren ist, desto höher ist die Ähnlichkeit der Texte. Richtig?
Leider verstehe ich noch nicht, wo ich was in dieser komplizierten Formel einsetzen muss. Kann mir das bitte jemand erklären?
 
Zurück
Oben