Lossless LLM compression for efficient GPU inference via dynamic-length float

Lossless LLM compression for efficient GPU inference via dynamic-length float

📅 2025-04-25 ⚓ Hacker News 🌐 Source 🖼️ Load Image