Elon Musk hat wiederum angemerkt, dass die verfügbaren Daten zur Ausbildung künstlicher Intelligenz erheblich schwinden. Um diesem Engpass entgegenzuwirken, setzen Unternehmen auf alternative und kostengünstigere Trainingsansätze, die jedoch nicht ohne Risiken sind.

Unternehmen benötigen immer mehr Daten, um ihre großen Sprachmodelle zu trainieren. © Natakorn Ruangrit / Shutterstock

Im vergangenen Monat äußerte Ilya Sutskveer, ein prominenter Forscher auf dem Gebiet der künstlichen Intelligenz, der kürzlich OpenAI verlassen hat, um ein eigenes Unternehmen zu gründen, dass die Branche vor einem „ Datenengpass „. Es gibt einfach nicht mehr genug Daten, die auf menschlichem Wissen basieren, um die Modelle effektiv zu trainieren. Diesen Umstand haben die Unternehmen, die an der Entwicklung dieser Technologien arbeiten, bereits in Anspruch genommen.

Elon Musk setzt auf synthetische Daten

Diese Beobachtung wird vom CEO von xAI geteilt, dessen Marktbewertung kürzlich 50 Milliarden US-Dollar überstieg. In einem Interview, das am 8. Januar auf X.com ausgestrahlt wurde, sprach er mit Mark Penn, dem Präsidenten der Stagwell-Marketinggruppe. „ Wir haben nun alle Quellen des menschlichen Wissens für das Training von KI ausgeschöpft. Das geschah bereits im letzten Jahr “, ließ er durchblicken.

Doch um die Leistung der Modelle zu steigern, sind zusätzliche Daten notwendig, was die Unternehmen dazu zwingt, ihre Ansätze umzustellen. Um ihre Modelle zu trainieren, setzen sie auf synthetische Daten, die wiederum durch KI generiert werden. Der Milliardär ist der Ansicht, dass dies zurzeit die einzige Möglichkeit ist, den Mangel an frischen Daten auszugleichen. „ Bei synthetischen Daten wird die KI quasi zur Selbstbewertung angeregt und durchläuft diesen Selbstlernprozess “, fügt er hinzu.

Beispiel eines Rechenzentrums, das für KI genutzt wird. © Google
Beispiel eines Rechenzentrums, das für KI genutzt wird. © Google

Eine nicht perfekte Methode

Diese Methode hat den klaren Vorteil, dass sie kostengünstiger ist. Das Start-up Writer gibt an, dass sein Modell Palmyra X 004, das ausschließlich mithilfe synthetischer Daten trainiert wurde, eine Investition von lediglich 700.000 US-Dollar erforderte. Im Vergleich dazu ist eine ähnliche KI von OpenAI mit einem Wert von fast 4,6 Millionen US-Dollar belegt.

Dennoch sind synthetische Daten bei weitem nicht fehlerfrei. Modelle, die auf diese Art von Daten angewiesen sind, könnten einen degenerativen Prozess namens Kollaps durchlaufen. Dieses Phänomen geschieht, wenn durch KIs generierte Daten den Trainingssatz zukünftiger Generationen kontaminieren, was über die Zeit hinweg zu einem Qualitätsverlust führt.

Außerdem spiegeln diese Daten nicht immer die Komplexität und Feinheiten realer Situationen wider und können bereits bestehende Vorurteile in einigen Algorithmen verstärken. Diese Risiken sind den Entscheidungsträgern in der Branche bewusst, aber es bleibt unklar, ob sie tatsächlich bei ihren Entscheidungen berücksichtigt werden, da der Konkurrenzkampf zwischen den großen Akteuren immer intensiver wird.

Quelle: TechCrunch