## mdarena:评估您的 CLAUDE.md 文件效果 **mdarena** 是一款工具,用于评估您的 `CLAUDE.md` 文件(您提供给 Claude 等代理的指令)相对于您的代码库实际 PR 的有效性。研究表明,这些文件通常会*降低*代理的成功率并增加成本。 **工作原理:** 1. **`mdarena mine`**: 提取合并的 PR 以创建任务集,自动从您的 CI/CD 配置中检测测试命令。 2. **`mdarena run`**: 通过将不同的 `CLAUDE.md` 配置(或无上下文)应用于 PR 之前的提交并评估生成的代理补丁来测试它们。它可以运行您现有的测试(如 SWE-bench),或退回到差异重叠评分。 3. **`mdarena report`**: 将代理补丁与原始 PR 差异进行比较,衡量测试通过/失败率、代码重叠、成本和统计显著性。 **生产 monorepo 测试的关键发现:** 与没有它们的基线相比,提供针对性上下文的按目录 `CLAUDE.md` 文件显著提高了测试解决率(约 27%),并且优于合并的单文件方法。 **mdarena 优先考虑安全性**,通过隔离检出防止访问未来的提交。它支持 SWE-bench 任务,并需要 Python 3.11+、`gh` 和 `claude` CLI。
## 本地多模态记忆:用搜索查找任何内容
这个工具允许您使用自然语言创建本地、可搜索的文件数据库——包括图像、音频、视频、PDF 和文本。只需嵌入您的文件,然后使用描述性查询*查找*它们,即使没有任何现有的元数据或标签。例如,搜索“团队晚餐”将显示相关的照片!
它由 Gemini Embedding 2(免费版本)和 ChromaDB 提供支持,所有内容都存储在您本地机器上以保护隐私。设置过程经过简化,并配备了一个动画向导,Raycast 扩展程序提供带有缩略图的即时视觉搜索。
**主要特点:**
* **跨模态搜索:** 无缝处理所有文件类型。
* **本地和私密:** 数据保留在您的机器上。
* **易于设置:** 动画向导引导您完成整个过程。
* **Raycast 集成:** 从您的启动器进行快速视觉搜索。
**开始使用:** [https://github.com/hughminhphan/vector-embedded-finder](https://github.com/hughminhphan/vector-embedded-finder)
## GuppyLM:一个小型、可训练的语言模型
GuppyLM是一个拥有900万参数的语言模型,旨在证明构建自己的LLM并不需要大量的资源。它使用单个Colab笔记本和最少的训练时间(约5分钟)创建,展示了语言模型的内部运作——从数据到输出,使其不再像一个“黑盒子”。
该模型体现了一条名为Guppy的小鱼,用简短的、小写的句子交流,专注于它的水生世界:水、食物和鱼缸生活。它故意缺乏对复杂人类概念的理解。
GuppyLM在6万条合成对话上进行训练,涵盖60个主题,利用简单的香草Transformer架构。该项目优先考虑简单性,放弃了像GQA或RoPE这样的高级技术,以保持小规模的清晰度和效率。
代码和预训练模型已在HuggingFace上公开提供,允许任何人进行实验并直接与Guppy聊天。它是一个实际的例子,证明即使没有博士学位或巨大的计算能力,LLM的创建也是可行的。
## Termhub:AI驱动的终端控制
Termhub 是一款原生AI工具,旨在简化与终端会话的交互。它使AI能够智能管理终端——打开窗口/标签页,启动会话,发送命令,并仅捕获*新的*输出。这种“发送-捕获增量循环”是高效AI工作流程的关键。
**主要特性:**
* **AI驱动自动化:** 基于AI检查和需求自动化终端任务。
* **跨平台:** 支持macOS (iTerm2, Terminal) 和 Windows (Windows Terminal, CMD)。
* **提供SDK:** 提供JavaScript SDK,用于对终端进行程序化控制。
* **核心命令:** 包括 `open`、`list`、`resolve/find`、`send`、`press`、`capture`、`focus`、`close`、`doctor` 和 `spec`。
* **会话管理:** 使用会话ID或句柄进行精确的目标定位。
* **增量捕获:** 仅捕获命令*发送后*的输出,提高效率。
**安装:** 可通过npm (`@duo121/termhub`)、Homebrew (macOS) 或从GitHub Releases直接下载。
Termhub简化了将终端交互集成到AI应用程序中,为自动化任务提供了一个强大而灵活的解决方案。