3 Projekte · 12+ Methoden · laufende interne Evidenz

Was wirklich funktioniert, wenn KI Entscheidungen trifft.

Ivy Labs ist die F&E-Seite hinter meiner Arbeit. Hier stehen die Fragen, die Aufbauten und die Ergebnisse, mit denen ich täglich arbeite. Kein Pitch, keine Fallstudie. Rohbefund.

3Systeme im Aufbau
12+Methoden
laufendRuntime-Lernsignale

Drei Projekte, die das gleiche Problem aus drei Richtungen lösen.

Conductor misst, wie entschieden wird. Ivy zeigt, was im Alltag trägt, wenn Entscheidungen einmal laufen. AI-Rena prüft, ob Menschen KI-Output kontrollieren können. Jedes Projekt steht für sich, alle drei teilen dasselbe Vokabular: messen, einordnen, offen belegen.

Empirisch Visual
Empirisch

01 / Conductor

Routingentscheidungen werden gemessen, nicht geraten.

Welches Modell bearbeitet eine Aufgabe, mit welchem Workflow, mit welchen Werkzeugen? Conductor macht Routing, Ausführung, Feedback, Kosten und Latenz intern beobachtbar. Der belastbarste bisherige Befund: das Verfahren, nicht die Rangfolge.

Architektur Visual
Architektur

02 / Ivy

Was einen persönlichen Agenten im Alltag hält.

Ivy läuft seit Monaten produktiv auf eigener Infrastruktur. Nützlich bleibt das System nicht durch mehr Autonomie, sondern durch die Schichten, die diese Autonomie begrenzen: Freigabe durch den Menschen, ein zentraler Ausgang, Beobachtbarkeit für das Unspürbare und Kosten als harte Grenze.

Position Visual
Position

03 / AI-Rena

KI-Kompetenz als nachweisbarer Vorgang.

AI-Rena prüft, ob jemand KI-Output kontrollieren kann, statt nur die Bedienung eines Tools abzufragen. Trace-backed Proof, Modell-Jury, deterministische Gates und öffentliche Verifikation sind gebaut. Was fehlt, ist die Validierung mit echten Teilnehmern.

Was im Lab entsteht, mit welchem Reifegrad.

Conductor, Ivy und AI-Rena stehen an unterschiedlichen Punkten. Ein System mit laufender Evidenz, eines mit dokumentierter Architektur und Betriebserfahrung, eines mit einer These vor dem ersten Marktbeweis. Die Reifegrade stehen sichtbar auf der Kachel, nicht erst im Artikel.

Was aktuell gemessen wird.

Interne Arbeitsstände. Die Werte verweisen auf Evidenzläufe, laufende Methoden oder aggregierte Runtime-Signale; Live-Daten und Rohinhalte bleiben intern.

Systeme im Aufbau

3

Conductor, Ivy, AI-Rena

Methoden im Einsatz

12+

Prompt Debugging, Chains, Agent Work, Stoppregeln, Wilson-Intervalle

Modelle im Vergleich

laufend

Qualität, Kosten, Tempo, Kontext

Runtime-Lernsignale

laufend

Routing, Ausführung, Feedback, Kosten, Latenz und aggregierte Lernstatistiken

Was hier entsteht und was nicht.

Ivy Labs ist die F&E-Seite meiner Arbeit. Ich baue Systeme, die ich selbst nutze, und veröffentliche, was dabei messbar wird, inklusive der Stellen, wo es nicht funktioniert. Die Ergebnisse fließen in meine Arbeit mit Unternehmen ein, aber diese Seite ist nicht der Ort dafür. Wer wissen will, wie ich mit Teams arbeite, findet das auf manuel-fuss.de.

Manuel Fuß