The Critical Value of Human-Created Knowledge to the Future of Generative AI
Noch ist Wikipedia die erste Adresse, wenn es um schnelle, verlässliche Informationen geht. Aber wie sieht es in Zukunft aus? Wird Künstliche Intelligenz die menschlichen Redakteure ersetzen? Oder werden Chatbots wie ChatGPT gar zur ersten Anlaufstelle für unsere täglichen Fragen? Irving Wladawsky-Berger führt im ersten Teil seines Beitrags in laufende Diskussionen um die Zukunft der Wikipedia ein. Im Moment stellt Wikipedia einen reichen Fundus an Texten zur Verfügung, mit dem Large Language Models wie ChatGPT trainiert werden. „But, the most critical value of Wikipedia to Generative AI is the fact that its knowledge is created by humans.“ Aber, und das ist der wichtige Punkt dieses Beitrags, es gibt offensichtlich nicht nur ideelle, sondern auch ganz praktische Gründe, an „knowledge created by humans“ festzuhalten.
Denn werden generative KI-Systeme zukünftig mit KI-Inhalten trainiert (was in einer Welt, die mit KI-generierten Inhalten überschwemmt wird, nicht unwahrscheinlich ist), soll offensichtlich etwas auftreten, das in aktuellen Studien „model collapse“ genannt wird: „Generative AI models need to train on human-produced data to function. When trained on model-generated content, new models exhibit irreversible defects. Their outputs become increasingly ‘wrong’ and homogenous. Researchers found that even in the best learning conditions, model collapse was inevitable.”
Nur am Rande: Auch Michael Seemann („Künstliche Intelligenz, Large Language Models, ChatGPT und die Arbeitswelt der Zukunft“) geht in seiner Studie auf Seite 49 auf dieses Problem ein. Hier (Wladawsky-Berger) und dort (Seemann) finden sich die Links zu den Studien.
Irving Wladawsky-Berger, Blog, 28. September 2023