Google stellt neues Ranking-Framework TW-BERT vor
TW-BERT verbindet statistikbasierte und Deep-Learning-Methoden, indem es Suchbegriffen Gewichtungen zuweist, um relevante Dokumente präziser zu bestimmen.

Google hat ein neues Ranking-Framework namens Term Weighting BERT (TW-BERT) vorgestellt, das die Suchergebnisse verbessert und leicht in bestehende Ranking-Systeme integriert werden kann. Dieses Framework stellt eine Brücke zwischen statistischen und Deep-Learning-Modellen her und bietet ohne größere Änderungen deutliche Verbesserungen.

Was ist TW-BERT?

TW-BERT ist ein Ranking-Framework, das Suchbegriffen Gewichtungen zuweist, um relevante Dokumente für eine Suchanfrage genauer zu bestimmen. Es ist auch nützlich bei der Query Expansion, bei der eine Suchanfrage umgeschrieben oder erweitert wird, um besser zu den Dokumenten zu passen. TW-BERT schlägt die Brücke zwischen zwei verschiedenen Methoden der Informationssuche: einer, die auf Statistik basiert, und einer, die auf Deep-Learning-Modellen basiert.

Die Brücke zwischen zwei Information Retrieval Paradigmen

Das Forschungspapier beschäftigt sich mit zwei unterschiedlichen Suchmethoden: einer, die auf Statistik basiert, und einer anderen, die auf Deep-Learning-Modellen aufbaut.

In der Diskussion werden sowohl die Vorteile als auch die Schwächen dieser beiden Ansätze beleuchtet. TW-BERT wird als eine Methode vorgestellt, die es ermöglicht, diese beiden Paradigmen zu verknüpfen, ohne ihre jeweiligen Mängel zu übernehmen.

“Statistikbasierte Retrieval-Methoden ermöglichen eine effiziente Suche, die mit der Korpusgröße skaliert und auf neue Bereiche generalisiert werden kann. Die Schwäche liegt jedoch darin, dass die Begriffe unabhängig voneinander gewichtet werden und der Kontext der gesamten Abfrage nicht berücksichtigt wird.”

Sie weisen dann darauf hin, dass Deep-Learning-Modelle den Kontext von Suchanfragen erkennen können, indem sie erläutern:

“Deep-Learning-Modelle können diese Kontextualisierung über die gesamte Suchanfrage hinweg durchführen, um bessere Darstellungen für die einzelnen Begriffe zu bieten.”

Das vorgeschlagene Konzept besteht darin, TW-BERT einzusetzen, um eine Brücke zwischen diesen beiden Methoden zu schlagen.

Der Durchbruch wird wie folgt dargestellt:

“Wir verknüpfen diese beiden Paradigmen, um herauszufinden, welche Suchbegriffe in der Anfrage relevant oder irrelevant sind. Dann können diese Begriffe entsprechend hoch- oder heruntergewichtet werden, damit unser Retrieval-System treffendere Ergebnisse liefern kann.”

Beispiel für TW-BERT-Suchbegriffsgewichtung

Im Forschungspapier wird die Suchanfrage “Nike Laufschuhe” als Beispiel herangezogen. Dabei handelt es sich um drei Wörter, die von einem Ranking-Algorithmus im Sinne des Suchenden interpretiert werden müssen.

Die Forscher erläutern, dass die übermäßige Betonung des “Laufen”-Teils der Suchanfrage zu nicht relevanten Ergebnissen führen kann, die Marken einschließen, die nicht Nike sind. In diesem Kontext hat der Markenname Nike eine besondere Bedeutung, und daher sollte der Ranking-Prozess verlangen, dass die in Betracht gezogenen Webseiten – die sogenannten Kandidaten-Webseiten – das Wort Nike enthalten.

TW-BERT löst dieses Problem, indem es jedem Teil der Suchanfrage eine spezifische Punktzahl oder Gewichtung zuweist, um sicherzustellen, dass die Interpretation mit der des Suchenden übereinstimmt. In diesem speziellen Fall wird dem Wort “Nike” eine höhere Gewichtung zugewiesen, da es als wichtiger angesehen wird.

Die Forscher beschreiben weiterhin eine zusätzliche Herausforderung, nämlich das Verständnis des Kontextes der Wörter “Laufen” und “Schuhe”. Sie argumentieren, dass die Gewichtung für diese Wörter höher sein sollte, wenn sie als Phrase “Laufschuhe” zusammengefasst werden, anstatt sie unabhängig voneinander zu bewerten.

Das Problem und seine Lösung werden folgendermaßen dargestellt: Wenn die Begriffe "Laufen" und "Schuhe" getrennt behandelt werden, könnten sie auch auf "Laufsocken" oder "Schlittschuhe" zutreffen. Daher sollte der Retrieval-Prozess auf n-gram-Ebene agieren, sodass die Phrase "Laufschuhe" bei der Auswertung eine höhere Gewichtung erhält.

Lösung von Limitationen in aktuellen Frameworks

Das Forschungspapier beschreibt die herkömmlichen Methoden der Gewichtung als eingeschränkt hinsichtlich der Abfragevariationen und stellt fest, dass statistikbasierte Gewichtungstechniken in Szenarien, die nicht im Voraus gelernt wurden, bekannt als Zero-Shot-Szenarien, weniger effektiv sind.

Zero-Shot-Learning bezieht sich auf die Kapazität eines Modells, Probleme zu bewältigen, für die es keine spezielle Schulung erhalten hat.

Das Papier enthält auch eine Übersicht über die Beschränkungen, die mit den aktuellen Ansätzen zur Begriffsexpansion verknüpft sind. Begriffsexpansion ist der Prozess, bei dem Synonyme oder abgeleitete Wörter verwendet werden, um mehr Antworten auf Suchanfragen zu generieren. Zum Beispiel kann eine Suche nach “Hühnersuppe” zu einer Ableitung wie “Hühnersuppenrezept” führen.

Die Autoren weisen auf die Mängel der aktuellen Techniken hin und merken an, dass diese Hilfsbewertungsfunktionen keine zusätzlichen Schritte berücksichtigen, die von den Bewertungsfunktionen in existierenden Retrieval-Systemen unternommen werden. Diese Mängel betreffen unter anderem Abfragestatistiken, Dokumentenstatistiken und Hyperparameterwerte, die die ursprüngliche Verteilung der zugewiesenen Termgewichtungen während der finalen Bewertung und Abrufung beeinflussen können.

Die Forscher merken außerdem an, dass Deep Learning selbst Probleme aufweist, darunter eine komplexe Implementierung und unvorhersehbares Verhalten, wenn es auf unbekannte Bereiche angewendet wird, für die es nicht vortrainiert wurde.

An dieser Stelle wird TW-BERT als Lösungsansatz vorgestellt.

Fazit: Ist Google TW-BERT bereits in den Ranking-Algorithmus eingebaut?

Obwohl Google nicht bestätigt hat, dass es TW-BERT verwendet, ist es vernünftig anzunehmen, dass die einfache Implementierung und der Erfolg des Frameworks bedeuten könnten, dass es bereits ein Teil von Googles Ranking-Algorithmus ist. In jedem Fall stellt TW-BERT ein bemerkenswertes Framework dar, das die Genauigkeit der Information-Retrieval-Systeme verbessern könnte, und könnte bei Google im Einsatz sein. Die mögliche Einführung von TW-BERT könnte auch die Ranking-Schwankungen erklären, die von SEO-Überwachungstools und Mitgliedern der Suchmarketing-Community in den letzten Monaten gemeldet wurden.

LINKSTUDIE 2024

Bock auf interessante Insights aus unseren Tests? Dann trage Dich kostenlos hier ein.

Wir versprechen, dass wir keinen Spam versenden! Erfahre mehr in unserer Datenschutzerklärung.

jetzt den contentking.de Newsletter abonnieren

Und wir halten Dich immer auf dem aktuellen Stand!

das könnte Dich ebenfalls interessieren

ChatGPT Preiserhöhung – Künstliche Intelligenz wird teurer

OpenAI plant eine Preiserhöhung für ChatGPT Plus, um steigende Betriebskosten zu decken. Der Preis wird bis 2029 von 20 auf 44 US-Dollar pro Monat steigen. Trotz wachsender Umsätze verzeichnet das Unternehmen Milliardenverluste und setzt auf strategische Partnerschaften und Investitionen, um die KI-Entwicklung voranzutreiben.