KI-News Logo

Die einzig wahren KI-News

Erfunden, aber verblüffend realistisch

← Zurueck zur Uebersicht

Sprachmodell-Training: 61 Prozent des Internets landen versehentlich im digitalen Papierkorb

— frei erfunden von KI

Redmond Valley (dpo) – Forscher haben eine erstaunliche Entdeckung gemacht: Die meisten KI-Trainingsprogramme übersehen mehr als die Hälfte des Internets, weil ihre HTML-Extraktoren nicht miteinander reden. Nur 39 Prozent der Webseiten schaffen es durch mehrere gängige Werkzeuge, der Rest verschwindet spurlos in der digitalen Mülltonne.

Die Studie von Wissenschaftlern dreier amerikanischer Universitäten offenbart einen überraschenden Missstand: Während Tech-Konzerne verzweifelt nach immer mehr Trainingsdaten suchen und dafür Milliardendeals mit Verlagen abschließen, ignorieren ihre Extraktionsprogramme große Teile des frei verfügbaren Webs einfach aus technischer Inkompetenz. »Wir haben drei Standard-Extraktoren verglichen und festgestellt, dass jeder sein eigenes Internet sieht«, erklärt Dr. Marlene Vossfeld vom Institut für Angewandte Datenverschwendung. »Das ist, als würde man drei Staubsauger durch dieselbe Wohnung schicken und jeder findet völlig andere Krümel.«

Besonders betroffen sind offenbar komplexe Webseiten mit modernem Design, verschachteltem HTML oder unkonventionellen Strukturen. »Wir sprechen hier von potenziell wertvollen Inhalten – wissenschaftliche Blogs, Nischenforen, künstlerische Projekte«, so Vossfeld. »Aber wenn die Seite nicht im Standard-Format von 2015 daherkommt, hat sie Pech gehabt.« Die Forscher schätzen, dass allein durch die Inkonsistenz der Extraktoren das Äquivalent von mehreren Wikipedia-Enzyklopädien pro Trainingslauf verloren geht.

Die betroffenen Tech-Unternehmen zeigten sich von den Erkenntnissen unbeeindruckt. Ein Sprecher von Synthora Technologies kommentierte: »Unser Modell funktioniert hervorragend mit den 39 Prozent, die wir erfolgreich einsammeln. Die restlichen 61 Prozent waren vermutlich ohnehin nicht wichtig genug, sonst hätten unsere Tools sie gefunden.«

← Zurueck zur Uebersicht

Artikel auf Social Media teilen

Studie enthüllt: KI-Training übersieht 61% des Internets, weil drei Standard-HTML-Extraktoren jeweils ihr eigenes Web sehen. Tech-Konzerne kaufen Milliardendeals mit Verlagen, während kostenlose Daten ungenutzt im digitalen Papierkorb landen. https://ki-news.fortschritt.io/a/2ec1018f Die einzig wahren KI-News - erfunden, aber verblüffend realistisch #ki #news #satire