Could these quantized models make MTP (Multi-Token Prediction) significantly faster when used as dra...

somewhatrandom9 • yesterday at 6:09 PM • 1 reply • view on HN

Could these quantized models make MTP (Multi-Token Prediction) significantly faster when used as drafters for larger regular Gemma 4 models?

dist-epoch • yesterday at 7:01 PM

Google already released specialized drafters for Gemma 4.

➕ show 1 reply

alt Hacker News