What is classic about "skip updating parameters with high gradient/loss variance in multip...

yorwba • today at 6:33 AM • 0 replies • view on HN

What is classic about "skip updating parameters with high gradient/loss variance in multiple batches/samples"? Do you have a particular algorithm in mind that uses this heuristic?

alt Hacker News