No, they do RLVR (reinforcement learning with verifiable rewards) like everyone else. And probably u...

visarga • yesterday at 3:00 PM • 0 replies • view on HN

No, they do RLVR (reinforcement learning with verifiable rewards) like everyone else. And probably use claude data too, with human in the loop and tool feedback.

alt Hacker News