Methodik

Wie in Ivy Labs gemessen wird.

Zentrale Begriffe, Stoppregel-Logik und die Prüfstatus-Konvention, einmal erklärt, damit sie nicht in jedem Artikel neu ausgebreitet werden müssen.

Ton dieser Seite

Technisch, ohne Marketing-Satz. Diese Seite ist für Leser gedacht, die die Artikel ernst nehmen und wissen wollen, wie belastbar sie sind.

Grundbegriffe: Episode, Run, Evidenzlauf

Diese drei Begriffe stammen ursprünglich aus der Arbeit an Conductor und werden seither projektübergreifend verwendet, überall dort, wo ein Ergebnis gemessen statt behauptet wird.

Episode

Beschreibt Aufgabe, Kontext und Evaluationsbedingungen eines einzelnen Testfalls. Eine Episode legt fest, was geprüft wird und unter welchen Rahmenbedingungen, bevor ein Modell oder Workflow sie bearbeitet.

Run

Die Ausführung einer Episode mit einem konkreten Modell- oder Workflow-Arm. Mehrere Runs derselben Episode mit unterschiedlichen Armen sind die Grundlage für Vergleiche.

Evidenzlauf

Eine gebündelte Serie von Runs über mehrere Episoden hinweg, mit einer festgelegten Auswertung (binär bestanden/nicht bestanden, deterministische Regeln oder ein spezifizierter Judge). Ein Evidenzlauf trägt eine eigene ID (z. B. E-0007) und wird im Decision-Log referenziert.

Stoppregel-Logik

Ivy Labs stoppt Evidenzläufe nach einer internen Betriebsregel, nicht nach Gefühl. Ein Lauf gilt als ausreichend präzise, wenn zwei Bedingungen zusammen erfüllt sind:

  • Mindestens 300 binäre Auswertungen sind abgeschlossen.
  • Das 95-%-Wilson-Intervall um die Passrate ist höchstens 0,12 breit.

Beide Werte sind Betriebsregeln, keine feste wissenschaftliche Norm. Sie legen fest, wann ein Team intern genug Sicherheit hat, um eine Routingentscheidung zu treffen, nicht, wann ein Ergebnis publikationsreif ist.

Offen benannte Einschränkung

Diese Stoppregel ist kein akademisch anerkanntes Evidenzniveau und enthält keine formale Sequenzialkorrektur. Wird nach der Intervallbreite gestoppt, ist das Ergebnis kein formal gültiger fortlaufender Konfidenzbereich (keine Confidence Sequence), sondern ein deskriptiver Präzisionswert innerhalb des jeweiligen internen Evaluationssystems. Wo mehrere Arme paarweise verglichen werden, braucht es zusätzlich eine Mehrfachvergleichskorrektur (z. B. Bonferroni), die nicht automatisch in der Stoppregel enthalten ist.

Prüfstatus-Konvention

Jeder Artikel trägt in der Meta-Zeile ein festes Prüfstatus-Feld, keine Deko. Es gibt drei mögliche Werte:

Erste Fassung, ungeprüft

Der Text ist veröffentlicht, aber noch nicht gegen die eigenen Quellen, Zahlen oder Logs nachgeprüft worden. Am ehesten der Fall bei frisch dokumentierten Positionen oder Notes.

Geprüft, nicht extern validiert

Der Text wurde intern gegen Quellen, Logs und Zahlen geprüft. Es gab keine externe Begutachtung durch jemanden außerhalb von Ivy Labs.

Extern begutachtet am [Datum]

Der Text wurde von einer Person außerhalb von Ivy Labs gelesen und kommentiert, mit Datum. Das ersetzt keinen wissenschaftlichen Peer-Review, ist aber eine zusätzliche, benannte Prüfstufe.

Produktionsstatus: läuft das Ding?

Der Prüfstatus sagt, wie belastbar die Aussagen eines Artikels sind. Der Produktionsstatus sagt etwas anderes: läuft das beschriebene System tatsächlich, und für wen ist es zugänglich? Beide Felder stehen getrennt voneinander, in der Projektkachel und im Artikel-Header.

Läuft produktiv, intern

Das System läuft im realen Einsatz, aber nur für mich selbst oder in einer kontrollierten internen Umgebung. Es gibt keinen öffentlichen Zugang, und es wird auch nicht aktiv als Produkt angeboten.

Offen zugänglich

Es gibt einen Weg, das System als außenstehende Person tatsächlich zu benutzen. "Offen" meint hier Zugang im Sinne von Verfügbarkeit, nicht "Open Source" oder "ohne Anmeldung". Wer Zugang will, findet ihn über die im Artikel genannten Wege.

Kein Pilot, keine Kandidatendaten

Das System oder der Produktbaustein ist technisch beschrieben oder gebaut, aber noch nicht mit echten externen Teilnehmern validiert. Es gibt keine Kandidatendaten, keine zahlenden Kunden und keine Aussage über Markt- oder Wirkungsbeleg.

Warum Reifegrad-Labels statt Gleichglanz

Conductor, Ivy und AI-Rena stehen an unterschiedlichen Punkten. Ein System mit laufender Evidenz, eines mit dokumentierter Architektur und Betriebserfahrung, eines mit einer klaren These vor dem ersten Pilot. Würde jede Projektkachel gleich glänzend aussehen, würde das den tatsächlichen Reifegrad verdecken.

Deshalb steht das Reifegrad-Label direkt auf der Kachel, sichtbar vor dem Klick, nicht erst im Artikel-Header. Wer eine Kachel öffnet, weiß vorher, ob er einen empirischen Bericht, eine Architektur- und Feldnotiz oder eine Position ohne Marktvalidierung liest. Das ist der Unterschied zwischen einer Seite, die ehrlich mit dem eigenen Reifegrad umgeht, und einer, die alles gleich behandelt, egal wie belastbar es ist.