LLMs… Wo stehen wir?

Illustration de Deeplink et son nouveau LLM, comme couteau suisse

In einer Landschaft, in der sich die künstliche Intelligenz ständig weiterentwickelt, wird es schwierig, den Überblick zu behalten. Bei Deeplink verfolgen wir diese Veränderungen mit großer Aufmerksamkeit. Nach monatelangen Beobachtungen und internen Tests haben wir unter den zahlreichen Neuerungen, von denen sich die meisten in der Praxis nicht durchsetzen konnten, diejenige identifiziert und integriert, die einen echten Mehrwert bot: ein neues Modell, um den Bedürfnissen unserer Kunden besser gerecht zu werden.

Innerhalb von drei Jahren hat sich die generative KI von einer Kuriosität zu einem täglich genutzten Werkzeug entwickelt. Sie hat sich im privaten Bereich etabliert, bevor sie in den Unternehmen an Boden gewonnen hat. Um ehrlich zu sein, ist ChatGPT oft schon geöffnet, bevor der Kaffee gezapft ist… aber hinter dieser mittlerweile vertrauten Präsenz ist die Nutzung erstaunlich nüchtern. Wie die NBER-Studie zeigt, bleibt die Annahme sehr zurückhaltend: KI wird vor allem genutzt, um einen Text umzuformulieren, zu übersetzen, zusammenzufassen, nach Informationen zu suchen oder sogar um Rat zu fragen.

Genau hier offenbart sich ein Kontrast zur Marktentwicklung. Während sich die Nutzung auf einige wenige Kernaufgaben konzentriert, verfolgt die Industrie einen halsbrecherischen Wettlauf um die Bruttoleistung und entwickelt immer größere Modelle.
Was ist der Grund dafür? Um menschliche Intelligenz vorzutäuschen, ein zu diesem Zeitpunkt völlig utopisches Bestreben, und das ohne Rücksicht auf ihren Energieverbrauch und ihre Betriebskosten.

„Mehr ist besser“ ist nicht die Lösung, wie Yann LeCun erinnert. LLMs bleiben von Natur aus begrenzt: Sie verstehen die physische Welt nicht, verfügen nicht über ein persistentes Gedächtnis und können weder planen noch logisch denken. Sie sind daher nicht dazu berufen, sich zu einer allgemeinen Intelligenz zu entwickeln. Stattdessen glänzen sie in ihren grundlegenden Stärken: analysieren, strukturieren, umformulieren und Texte generieren.
Das kommt gerade recht, denn diese Fähigkeiten entsprechen genau dem, wofür die Menschen sie verwenden. Es stellt sich also die Frage, wie man objektiv beurteilen kann, ob eine Vorlage diese Anforderungen erfüllt

Unsere Auswahlkriterien

Häufig haben die Nutzer von KIs eine sehr subjektive Einschätzung ihrer Fähigkeiten. Aus diesem Grund haben Wissenschaftler (sowohl aus dem akademischen Bereich als auch aus der Industrie) objektive und quantitative Bewertungskriterien entwickelt, um Modelle miteinander zu vergleichen. Diese Kriterien basieren auf Ergebnissen, die mithilfe von „Benchmarks“ (standardisierten Referenztests) erzielt werden, um die „Intelligenz“ und die Leistung der Modelle zu messen. Jede neue Vorlage wird in der Regel mit den Ergebnissen versehen, die sie in den wichtigsten aktuellen Tests erzielt hat.

Leider spiegeln diese Testergebnisse weder die tatsächliche Leistung noch die Usability in konkreten Industrialisierungssituationen wider. Da sie vor allem auf die Optimierung dieser Ergebnisse abzielen, können die Entwickler dazu verleitet werden, Anpassungen vorzunehmen, die letztlich die praktische Wirksamkeit beeinträchtigen.

Im Gegensatz dazu berücksichtigt unsere Bewertungsmethode nicht nur diese Benchmarks. Sie ergänzen unsere eigenen entscheidenden Kriterien, d.h.:

  • Präzision und Genauigkeit bei der Beantwortung der Fragen.
  • Strikte Befolgung der Anweisungen.
  • Keine Halluzinationen (siehe unseren Artikel zu diesem Thema).
  • Fähigkeit, große Mengen an Text aufzunehmen und zu verstehen.
  • Mehrsprachige Beherrschung der Landessprachen und der am häufigsten verwendeten Sprachen.
  • Präzise und zuverlässige Ausführung von agentischen Prozessen.

Obwohl der Begriff der „agentischen„1 KI noch im Entstehen begriffen ist, finden wir ihn in unserem Benchmark als Kriterium wieder, da er neue Möglichkeiten bietet und die einfache konversationelle Interaktion zwischen Nutzer und KI ergänzt.

Bewertung und neues Modell

Auf der Grundlage der genannten Kriterien und unseres Empfindens bei der Nutzung haben wir beschlossen, unsere Modelle nicht mehr auf Llama 3.1, sondern auf die Open-Source-Suite Qwen 3 zu stützen, und das ohne Abstriche bei Sicherheit, Datenschutz und natürlich exklusivem Hosting auf Schweizer Boden.

Im Folgenden finden Sie die Ergebnisse unserer Bewertung:

Zu beachten ist, dass unter den zahlreichen Vorteilen dieser technischen Verbesserung vor allem die deutliche Erhöhung des Arbeitsspeichers unsere Wahl geleitet hat. Ein größerer Speicher kommt anspruchsvollen Aufgaben und der Dokumentenverarbeitung direkt zugute.

Was ist mit Apertus?

Dieses Projekt, das zu 100 % aus der Schweiz stammt, stellt eine wichtige Initiative dar, insbesondere aufgrund der vollständigen Transparenz seiner Daten und des Trainingsprozesses. Es hat den Ehrgeiz, eine Grundlage für leistungsfähige Vorlagen in den Landessprachen zu bieten, die an den kulturellen Besonderheiten des Landes ausgerichtet sind.

Was haben wir also davon gehalten? Trotz der manchmal unrealistischen Erwartungen, die diese erste Version umgeben haben mögen, begrüßen wir die Mission sowie die geleistete Arbeit. Unsere Tests zeigen jedoch, dass sie für den allgemeinen Einsatz in unseren Tools noch nicht wettbewerbsfähig genug ist, insbesondere aufgrund der Einschränkungen in ihrer agentischen Nutzung. Dies stellt sein Potenzial jedoch nicht in Frage und wir behalten seine Entwicklungen aufmerksam im Auge.

Mit den Fortschritten in der KI Schritt zu halten, ist zu einer echten Herausforderung geworden, und genau deshalb übernehmen wir diese Aufgabe. Unsere kontinuierliche Beobachtung ermöglicht es uns, neue Entwicklungen für unsere Kunden zu identifizieren, zu analysieren und zu testen. Das ist Teil unserer Mission: ihnen die besten Tools zur Verfügung zu stellen, wenn sie reif und ausgereift sind.

Indem wir Tag für Tag mit Leidenschaft daran arbeiten, der Innovationskatalysator zu werden, der in der Lage ist, Ihre eigene F&E zu erweitern, positioniert sich Deeplink als Ihr Schlüsselpartner. Wir sind die Garantie für einen echten strategischen Verbündeten, um den technologischen Fortschritt voll auszuschöpfen, ohne jemals Ihre geschäftlichen Prioritäten aus den Augen zu verlieren.

  1. „L’IA agentique est un système d’intelligence artificielle capable d’atteindre un objectif précis avec une supervision limitée. Il se compose d’agents IA, c’est-à-dire de modèles de machine learning qui imitent les capacités humaines de prise de décision pour résoudre les problèmes en temps réel. Dans un système multi-agent, chaque agent exécute une sous-tâche spécifique pour atteindre l’objectif et leurs efforts sont coordonnés grâce à des fonctionnalités d’orchestration de l’IA.“ IBM – Qu’est ce que l’IA agentique? ↩︎