Would it be feasible to do a soft RLHF using steering when an agents gives an undesired response?

oezi • today at 1:53 AM • 0 replies • view on HN

alt Hacker News