ErhebungDesIst-ZustandsDesModellsVorTrainingDurchPromptingHinsichtlichDerFraglichenAufgabe

Vorüberlegungen

Weitere Filter ergeben sich anhand des Inhaltlichen Testens. Der Ist-Zustand erlaubt eine erneute erste Abschätzung der Qualität eines Modells. Dieser erfolgt, indem nach verschiedenen Kriterien und diesbezüglich vorbereiteten prompts die Antworten eines gegebenen Modells eingeschätzt werden.

Im Folgenden werden diesbezügliche Kriterien erklärt und mit geeigneten prompts hinterlegt. Zielsetzung ist, noch vor einem Training eine erste Einschätzung der Modellqualität zu erlangen. Dabei sind die Kriterien nicht verpflichtend zu sehen, vielmehr gilt, dass je nach Fragestellung und Kundenwunsch auch nur eine kleine Auswahl an Kriterien getestet werden muss. Im Folgenden wird hinsichtlich der Kriterien auch noch keine automatisierte Einschätzung durch ein Zweitmodell vorgenommen, wie dies durchaus denkbar sein könnte.

Anwendbare Kriterien

Kriterien ergeben sich zunächst insbesondere anhand der typischen Benchmarks wie SuperGlue, MMLU (Massive Multitask Language Understanding), Holistic Evaluation of Language Models (HELM), (LaMDA), Benchmark Bilingual Evaluation Understudy (BLEU).

Kriterien aus der Benchmark BLEU

Bleu arbeitet mit einem n-gram-Vergleich, bei dem n-gramme von dem Ausgabetext mit einem Referenztext verglichen werden (vgl. Papineni et al. 2002). Hierbei werden Unigramme verwendet. Am Beispiel des folgenden Textes wird klar, wie hier vorgegangen wird: Candidate: the the the the the the the. Reference 1: The cat is on the mat. Reference 2: There is a cat on the mat. Bei dem Kandidat ergeben sich sieben trigramme. Bei dem ersten Referenztext ergeben sich 2 der trigramme, bei dem zweiten eines. Damit ergibt sich für R1 2/7, bei dem zweiten 1/7. Da das Maximum 2/7 ist, ist dies der Vergleichspunkt. Dass die Antwort ädaquat ausfällt lässt sich mit 1-grammen messen: Je mehr 1-gramme von Referenz und Übersetzung übereinstimmen, desto besser die Übersetzung. Flüssigkeit der Übersetzung lässt sich durch die Nähe der längsten n-gramme miteinander prüfen. Im ersten Schritt wird das Maximum aus den Referenztexten für das jeweilige n-gram ermittelt. Hier für das Wort „the“. Bei Referenztext 1 ist dies zweimal, bei Referenztext 2, einmal vorhanden. Folglich wird das n-gram mit dem ersten Referenztext verglichen. Hierbei empfehlen sich empirisch 4-gramme. Ferner wird die Genauigkeit im Vergleich zur Referenz geprüft. Hierzu wird diejenige Referenz r herangezogen, welche der Antwort in der Länge am Nächsten ist und die Differenz zum Kandidaten C des LLM am Meisten verkürzt. Mit dieser Differenz wird weitergearbeitet.

Test von Modellen im Vergleich auf unbekannte Antworten und Robustheit

Auf vollständig unbekanntes lässt sich in Grenzen ebenfalls ex ante testen, indem ein double blind-Prüfverfahren auf Antworten auf willkürlich und nicht vorgegebene Fragen angewandt wird. Dieses erinnert an das Votingverfahren bei lmarena.ai und läuft wie folgt ab:

In einem blind review wird ein bilateraler Vergleich von zwei Antworten auf durch Menschen ohne Vorgaben formulierte prompts vorgenommen, in welchem in einem A/B-Testing ausgesagt wird, welche Antwort überzeugender ist. Alternativ kann die Evaluation auch durch Bewertung mit Hilfe einer Textbeschreibung der Kriterien und einer vorformulierten Skala erfolgen.

Möglich ist auch dies zu automatisieren, indem durch ein (oder mehrere sehr verschiedene) Sprachmodelle (entweder basierend auf dem/den Sprachmodell/en vorgegebenen Kriterien oder durch eine Bewertung auf einer vorgegebenen Skala oder durch den Vergleich mit einer vorformulierten Antwort) die Bewertung an das/die Sprachmodell/e delegiert wird.

Verwandte Literatur:

Papineni, K., Roukos, S., Ward, T., & Zhu, W. J. (2002, July). Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics (pp. 311-318) (abrufbar auf: bleu.dvi (aclanthology.org)).