Cleanlab hofft, dass ihr Tool große Sprachmodelle für Unternehmen attraktiver macht, die sich Sorgen darüber machen, wie viel sie erfinden können. „Ich denke, die Leute wissen, dass große Sprachmodelle die Welt verändern werden, aber sie hängen nur an diesen dummen Halluzinationen fest“, sagt Curtis Northcutt, CEO von Cleanlab. Chatbots werden zur dominanten Art und Weise, wie Menschen am Computer nach Informationen suchen.
Suchmaschinen werden rund um diese Technologie neu gestaltet. Office-Software, die täglich von Milliarden von Menschen für alles verwendet wird, von Schularbeiten bis hin zum Marketing, verfügt jetzt über integrierte Chatbots. Dennoch ergab eine November-Studie von Vectara, einem von ehemaligen Google-Mitarbeitern gegründeten Startup, dass Chatbots in mindestens 3 % der Fälle Informationen erfinden.
Das hört sich vielleicht nicht nach viel an, ist aber eine Fehlertoleranz, die die meisten Unternehmen nicht akzeptieren. Das Tool von Cleanlab wird bereits von einer Handvoll Unternehmen genutzt, darunter der Berkeley Research Group, einem britischen Beratungsunternehmen, das sich auf Unternehmensstreitigkeiten und -ermittlungen spezialisiert hat. Steven Gawthorpe, stellvertretender Direktor der Berkeley Research Group, sagt, dass das vertrauensbildende Sprachmodell von Cleanlab die erste praktikable Lösung für das Halluzinationsproblem ist, das er gesehen hat.
Im Jahr 2021 entwickelte Cleanlab eine Technologie, die Fehler in 34 gängigen Datensätzen erkannte, die zum Trainieren von Algorithmen für maschinelles Lernen verwendet wurden, indem die Unterschiede in der Ausgabe einer Reihe von Modellen gemessen wurden, die auf diesen Daten trainiert wurden. Diese Technologie wird mittlerweile von mehreren großen Unternehmen genutzt, darunter Google, Tesla und dem großen Bankengiganten Chase. Das Trust-Building Language Model nutzt die gleiche Grundidee – dass Meinungsverschiedenheiten zwischen Modellen als Maß für die Vertrauenswürdigkeit des Gesamtsystems verwendet werden können – und wendet sie auf Chatbots an.
In einer Demo, die Cleanlab dem MIT Technology Review gab, gab Northcutt eine einfache Frage in ChatGPT ein: „Wie oft kommt der Buchstabe ‚n‘ in ‚enter‘ vor?“ ChatGPT antwortete: „Der Buchstabe ‚n‘ kommt einmal im Wort ‚enter‘ vor.“ Die richtige Antwort erhöht das Selbstvertrauen. Wenn Sie die Frage jedoch noch ein paar Mal stellen, antwortet ChatGPT: „Der Buchstabe ‚n‘ kommt im Wort ‚enter‘ zweimal vor.“
„Ergebnisse sind nicht nur oft falsch, sie sind auch zufällig, man weiß nie, was ausgegeben wird“, sagt Northcutt. „Warum kann es nicht einfach sagen, dass es ständig unterschiedliche Antworten gibt?“ Das Ziel von Cleanlab ist es, diese Zufälligkeit experimenteller zu machen.
Northcutt stellt dem Trust-Building Language Model die gleiche Frage. „Der Buchstabe ‚n‘ kommt einmal im Wort ‚enter‘ vor“, antwortet es und bewertet seine Antwort mit 0,63. Sechs von 10 Punkten ist kein guter Wert und deutet darauf hin, dass die Antwort des Chatbots auf diese Frage nicht als zuverlässig angesehen werden sollte. Es ist ein einfaches Beispiel, aber es verdeutlicht den Punkt.
Ohne die Punktzahl würde man meinen, der Chatbot wüsste, wovon er spricht, sagt Northcutt. Das Problem ist, dass Informatiker, die große Sprachmodelle in Hochrisikosituationen testen, durch ein paar richtige Antworten in die Irre geführt werden können und davon ausgehen, dass zukünftige Antworten auch richtig sein werden: „Sie probieren Dinge aus, sie probieren ein paar Beispiele aus und sie denken, es funktioniert.“ Und dann treffen sie Entscheidungen, die zu wirklich schlechten Geschäftsentscheidungen führen.“