3 Projekte · 12+ Methoden · laufende interne Evidenz

Was wirklich funktioniert, wenn KI Entscheidungen trifft.

Ivy Labs ist die F&E-Seite hinter meiner Arbeit. Hier stehen die Fragen, die Aufbauten und die Ergebnisse, mit denen ich täglich arbeite. Kein Pitch, keine Fallstudie. Rohbefund.

Projekte ansehen

3Systeme im Aufbau

12+Methoden

laufendRuntime-Lernsignale

Drei Systeme, ein Verfahren

Drei Projekte, die das gleiche Problem aus drei Richtungen lösen.

Conductor misst, wie entschieden wird. Ivy zeigt, was im Alltag trägt, wenn Entscheidungen einmal laufen. AI-Rena prüft, ob Menschen KI-Output kontrollieren können. Jedes Projekt steht für sich, alle drei teilen dasselbe Vokabular: messen, einordnen, offen belegen.

Empirisch

01 / Conductor

Routingentscheidungen werden gemessen, nicht geraten.

Welches Modell bearbeitet eine Aufgabe, mit welchem Workflow, mit welchen Werkzeugen? Conductor macht Routing, Ausführung, Feedback, Kosten und Latenz intern beobachtbar. Der belastbarste bisherige Befund: das Verfahren, nicht die Rangfolge.

Architektur

02 / Ivy

Was einen persönlichen Agenten im Alltag hält.

Ivy läuft seit Monaten produktiv auf eigener Infrastruktur. Nützlich bleibt das System nicht durch mehr Autonomie, sondern durch die Schichten, die diese Autonomie begrenzen: Freigabe durch den Menschen, ein zentraler Ausgang, Beobachtbarkeit für das Unspürbare und Kosten als harte Grenze.

Position

03 / AI-Rena

KI-Kompetenz als nachweisbarer Vorgang.

AI-Rena prüft, ob jemand KI-Output kontrollieren kann, statt nur die Bedienung eines Tools abzufragen. Trace-backed Proof, Modell-Jury, deterministische Gates und öffentliche Verifikation sind gebaut. Was fehlt, ist die Validierung mit echten Teilnehmern.

Lab Projekte

Was im Lab entsteht, mit welchem Reifegrad.

Conductor, Ivy und AI-Rena stehen an unterschiedlichen Punkten. Ein System mit laufender Evidenz, eines mit dokumentierter Architektur und Betriebserfahrung, eines mit einer These vor dem ersten Marktbeweis. Die Reifegrade stehen sichtbar auf der Kachel, nicht erst im Artikel.

Empirisch, laufende Evidenz

Conductor

Messbares KI-Routing

Wie ich Modellwahl messbar mache, statt sie zu erraten.

Läuft produktiv, intern

Bericht lesen

Architektur & Feldnotizen

Ivy

Persönlicher KI-Chief-of-Staff

Was ein KI-Chief-of-Staff im Alltag wirklich hält, und wo er bricht.

Läuft produktiv, intern

Bericht lesen

Position & Agenda

AI-Rena

Prüfbare KI-Kompetenz

Warum KI-Kompetenz nicht Bedienung ist, sondern Kontrolle.

Kein Pilot, keine Kandidatendaten

Bericht lesen

Stand des Labs

Was aktuell gemessen wird.

Interne Arbeitsstände. Die Werte verweisen auf Evidenzläufe, laufende Methoden oder aggregierte Runtime-Signale; Live-Daten und Rohinhalte bleiben intern.

Systeme im Aufbau

Conductor, Ivy, AI-Rena

Methoden im Einsatz

12+

Prompt Debugging, Chains, Agent Work, Stoppregeln, Wilson-Intervalle

Modelle im Vergleich

laufend

Qualität, Kosten, Tempo, Kontext

Runtime-Lernsignale

laufend

Routing, Ausführung, Feedback, Kosten, Latenz und aggregierte Lernstatistiken

Über Ivy Labs

Was hier entsteht und was nicht.

Ivy Labs ist die F&E-Seite meiner Arbeit. Ich baue Systeme, die ich selbst nutze, und veröffentliche, was dabei messbar wird, inklusive der Stellen, wo es nicht funktioniert. Die Ergebnisse fließen in meine Arbeit mit Unternehmen ein, aber diese Seite ist nicht der Ort dafür. Wer wissen will, wie ich mit Teams arbeite, findet das auf manuel-fuss.de.

IVY

LABS

Was wirklich funktioniert, wenn KI Entscheidungen trifft.

Drei Projekte, die das gleiche Problem aus drei Richtungen lösen.

Routingentscheidungen werden gemessen, nicht geraten.

Was einen persönlichen Agenten im Alltag hält.

KI-Kompetenz als nachweisbarer Vorgang.

Was im Lab entsteht, mit welchem Reifegrad.

Conductor

Ivy

AI-Rena

Was aktuell gemessen wird.

Was hier entsteht und was nicht.