原文
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() |
原始链接: https://news.ycombinator.com/item?id=43968897
苹果的FastVLM,一个高效的视觉编码模型,因其在设备端应用的潜力而在Hacker News上引发热议。虽然最小0.5B参数模型的2GB大小引发了对应用下载大小的担忧,但许多人推测苹果计划在操作系统层面预加载这些模型,并提供开发者SDK。这将使应用程序能够在本地利用强大的视觉语言模型(VLM),从而增强隐私并降低延迟。 讨论探讨了在操作系统提供的基础模型之上使用LoRA微调进行特定应用程序定制的可能性。人们对LoRA用于大型语言模型(LLM)的实用性进行了辩论,并将其与LoRA在扩散图像模型中的成功进行了对比。另一些人建议使用模型量化来减小模型大小。 一些评论者讨论了实时语音+视觉应用程序以及辅助视障人士等用例。一些人表示需要模型更好地遵循指令。许多人指出了设备端推理的潜在优势,包括节省成本、提高延迟和增强隐私。
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() |
opened issue for them to confirm this: https://github.com/apple/ml-fastvlm/issues/7
reply