RamAIn是一家获得Y Combinator支持的初创公司,正在构建AI智能体来自动化重复的企业工作流程——以比人类快10倍且更可靠的速度运行遗留系统和应用程序。公司由前麦肯锡顾问Shourya Vir Jain和AI研究员Vansh Ramani(曾就职于CMU和Meta)创立,RamAIn将前沿研究与实用、可投入生产的系统相结合。 他们目前正在招聘创始AI/ML研究员,以开发能够进行复杂推理、规划和执行的智能体。该职位侧重于构建多模态模型以理解软件界面,并创建强大的动作选择系统。 这不仅仅是一个纯粹的研究职位;理想的候选人将快速原型设计、实验和部署模型,以自动化企业客户的实际任务。RamAIn寻找在智能体系统、机器学习或相关领域具有丰富实践经验,并对推动AI原生自动化的边界充满热情的人才。
2026年3月,Trip Venturella发布了“Mr. Chatterbox”,一个独特的语言模型,仅使用来自英国图书馆的28,000多份维多利亚时代(1837-1899)的公共版权书籍进行训练。该模型拥有3.4亿个参数(类似于GPT-2 Medium),旨在展示在不依赖抓取和未经许可的数据的情况下构建LLM的潜力。
目前,Mr. Chatterbox的回复虽然具有独特的维多利亚风格,但还比较基础——更像一个马尔可夫链,而非一个复杂的LLM。开发者承认需要更多训练数据(估计超过70亿个token)才能实现真正的对话能力。
尽管存在局限性,该项目被认为是在完全公共领域资源的基础上构建LLM的一个有希望的步骤。一个名为“llm-mrchatterbox”的插件允许用户使用LLM框架在本地运行2.05GB的模型,展示了在Claude Code的帮助下,插件创建的成功自动化。你可以在[这里](链接到HuggingFace Spaces demo)试用演示。
## Ollama 0.19:在 Apple Silicon 上更快的大语言模型
Ollama 的最新版本 (0.19) 通过利用 Apple 的 MLX 框架,为在 Apple Silicon 上运行大型语言模型提供了显著的性能提升。这带来了巨大的加速——在 M5 芯片上高达 1810 个 token/秒的预填充速度,这得益于利用 GPU 神经加速器。
主要更新包括对 NVIDIA 的 NVFP4 格式的支持,该格式提供更高质量的响应并减少内存使用,以及改进的缓存机制。这些缓存增强功能——智能检查点、更智能的驱逐和缓存重用——提高了响应速度,尤其是在编码和代理任务中。
Ollama 0.19 最初加速了 Qwen3.5-35B-A3B 模型(针对编码进行了优化),并且需要具有 32GB+ 统一内存的 Mac。未来的开发重点是扩展模型支持并简化自定义模型导入。此版本标志着在 Apple 设备上实现高效强大的本地 LLM 推理迈出了重要一步。