Although Arena is adversarial and resistant to goodharting, it's not immune. Models that train ...

kimjune01 • today at 7:23 AM • 0 replies • view on HN

Although Arena is adversarial and resistant to goodharting, it's not immune. Models that train on Arena converge on helpfulness, not necessarily truthiness

alt Hacker News