新突破:30B Qwen大模型在树莓派5上流畅运行
30B Qwen模型跑进了树莓派,速度还能保持在线
byteshape通过优化30B Qwen模型在树莓派上的运行,实现了每秒8.03(TPS)个令牌的实时响应。同时保持 92% 以上的基准准确率,这重新定义了树莓派级设备的性能预期。整体趋势显示,Shapelearn 持续产出更优模型,ByteShape 系列在图表中始终处于 Unsloth 的右上方区域。
相比其他模型,ByteShape在保持高准确率的同时,还实现了更快的响应速度,适用于需要实时交互的场景。
ByteShape使用其独特的位长度学习方法(Shapelearn),将内存视为预算重点,优化每秒令牌数和质量,而不是简单地追求更小的文件大小,在保持高质量输出的同时,大幅提升了模型在树莓派上的运行性能。
该研究方向,非常精炼地概括了当前大模型量化领域的一个重要趋势:将量化参数(如尺度、范围、变换矩阵)从人工设计转为通过算法在少量数据上自动、可微分地学习优化,以实现更高压缩率下的精度保持。
目前推荐在树莓派 5(16GB)上部署并追求真正的交互式体验,建议从 Q3_K_S 2.70bpw KQ-2 开始。
在内存更大的 CPU 或 GPU 上,可以在吞吐量损失极小的情况下选择更高质量的配置,核心原则始终不变:先满足内存适配,再优化权衡关系。
技术介绍文章:
https://byteshape.com/blogs/Qwen3-30B-A3B-Instruct-2507/
模型:
https://huggingface.co/byteshape/Qwen3-30B-A3B-Instruct-2507-GGUF
不知道全球僵尸网络的主人们会不会狂喜。