TrainingDesModellsGrundsätzliches VorgehenGrundsätzlich beinhaltet jede Feinjustierung eines Modells einen Ansatz auf drei verschiedenen Ebenen. Ebene 1 ist das pre-training, hier wird das Modell noch einmal auf Sprache und Kontext der jeweiligen Aufgabe vorbereitet. Ebene 2 ist das instruction tuning, hier wird der Aufgabenprompt, mit welchem das Modell gefüttert wird, variiert, um auf die bestmögliche Formulierung zu kommen. Ebene 3 ist das alignment, bei welchem über feedback dafür gesorgt wird, dass das Modell gewünschte Antworten bereitstellt. PretrainingIn einer ersten Vorstufe des Trainings, dem pretraining, werden Modelle mit umfangreichen Textsammlungen konfrontiert (vgl. Minaee et al. 2024, Abschnitt III E.). Diese können, je nach Fragestellung, etwa aus Büchern, Wikipedia-Einträgen Texten von Internetseiten oder Quellcode bestehen (vgl. Zhao et al. 2023, S. 13). Zielsetzung ist, das Modell mit der Handhabung von Sprache im fraglichen Themenbereich bekannt zu machen (vgl. Zhao et al. 2023, S. 16). Bereits das pre-training lässt sich automatisieren, indem ein anderes Modell mit der Suche und Zusammenstellung geeigneter Quellen bzw. Texte beauftragt wird. Instruction tuningIn einer zweiten Stufe, dem instruction tuning, werden dem Modell verschiedene alternative Aufgabenstellungen mit erwünschtem gleichem Ergebnis in Textform vorgelegt, wobei das Ziel ist, die generierten Ausgaben an die erwünschten Lösungen anzupassen. Dadurch soll es möglich werden, Aufgaben allein aufgrund der textlichen Beschreibung zu lösen, ohne das das eine gesonderte aufgabenspezifische Feinabstimmung erforderlich macht (vgl. Zhao et al. 2023, S. 32, 34-35). Auch hier kann eine Automatisierung stattfinden, indem ein prompt formuliert wird und ein Modell aufgefordert wird, alternative Aufgabenstellungen mit demselben Ergebnis zu erzeugen. AlignmentEin weiterer Trainingsschritt ist das Alignment. Hier soll die Wahrscheinlichkeit wünschenswerter Ausgaben erhöht und die Wahrscheinlichkeit nicht wünschenswerter Ausgaben verringert werden (vgl. Zhao et al. 2023, S. 38). Dies wird durch reinforcement from human feedback bezeichnet (vgl. Cao et al. 2023, S. 6). Auch hier ist eine Automatisierung denkbar: Zunächst werden hier Ausgaben durch Menschen bewertet. Dieses Feedback wird dann verwendet, um ein zweites Modell anzulernen. Dieses zweite Modell wird dann genutzt, um mit dem ersten Modell zu interagieren und ihm wiederholt Feedback zu den Aussagen des ersten Modells zu geben. Hierdurch lässt sich dieser enorm arbeitsintensive Schritt deutlich beschleunigen. Literatur: Cao, Y., Li, S., Liu, Y., Yan, Z., Dai, Y., Yu, P. S., & Sun, L. (2023). A comprehensive survey of ai-generated content (aigc): A history of generative ai from gan to chatgpt. arXiv preprint arXiv:2303.04226. Minaee, S., Mikolov, T., Nikzad, N., Chenaghlu, M., Socher, R., Amatriain, X., & Gao, J. (2024). Large language models: A survey. arXiv preprint arXiv:2402.06196. Zhao, W. X., Zhou, K., Li, J., Tang, T., Wang, X., Hou, Y., ... & Wen, J. R. (2023). A survey of large language models. arXiv preprint arXiv:2303.18223. |