RLHF: Reinforcement learning from human feedback - | alt Hacker News

alt Hacker News

fauria • yesterday at 7:03 PM • 0 replies • view on HN

RLHF: Reinforcement learning from human feedback - https://en.wikipedia.org/wiki/Reinforcement_learning_from_hu...