Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

Srimonti Dutta, Akshata Kishore Moharir

Jun 5, 2026 at 04:00

9 Visningar

0 Kommentarer

arXiv:2606.05384v1 Announce Type: new Abstract: LLM-as-judge evaluation is widely used in benchmarking pipelines, where model outputs are compared and ranked using automated evaluators. These pipelines typically assume that judgments are stable properties of fixed inputs. We show that this assumption does not hold under interaction. We study...

Läs hela artikeln hos källan.

Läs originalartikeln

Var detta hjälpsamt?

Dela:

Kommentarer (0)

Vänligen logga in för att publicera en kommentar

Inga kommentarer ännu. Bli först med att kommentera!

Relaterade nyheter

Länk kopierad till urklipp

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

Kommentarer (0)

Relaterade nyheter

The Infectious Disease Frenzy

Intels första systemkretsar med Nvidia-grafik kan komma 2028

[Ekstra] Nscale: : Vil bygge nytt gigadatasenter i Nordland

The mystery of the eye disease that can make infants blind

What is Helium-3 and could we get it from the moon?

Bläddra efter kategori