MemeData

展示HN：Mdarena – 对你的Claude.md进行基准测试，与你自己的PRs对比。 Show HN: Mdarena – Benchmark your Claude.md against your own PRs 22 天前

## mdarena：评估您的 CLAUDE.md 文件效果 **mdarena** 是一款工具，用于评估您的 `CLAUDE.md` 文件（您提供给 Claude 等代理的指令）相对于您的代码库实际 PR 的有效性。研究表明，这些文件通常会*降低*代理的成功率并增加成本。 **工作原理：** 1. **`mdarena mine`**: 提取合并的 PR 以创建任务集，自动从您的 CI/CD 配置中检测测试命令。 2. **`mdarena run`**: 通过将不同的 `CLAUDE.md` 配置（或无上下文）应用于 PR 之前的提交并评估生成的代理补丁来测试它们。它可以运行您现有的测试（如 SWE-bench），或退回到差异重叠评分。 3. **`mdarena report`**: 将代理补丁与原始 PR 差异进行比较，衡量测试通过/失败率、代码重叠、成本和统计显著性。 **生产 monorepo 测试的关键发现：** 与没有它们的基线相比，提供针对性上下文的按目录 `CLAUDE.md` 文件显著提高了测试解决率（约 27%），并且优于合并的单文件方法。 **mdarena 优先考虑安全性**，通过隔离检出防止访问未来的提交。它支持 SWE-bench 任务，并需要 Python 3.11+、`gh` 和 `claude` CLI。

## Mdarena：基准测试 Claude.md 性能一个新的工具 Mdarena (github.com/hudsongri) 允许开发者客观地衡量“CLAUDE.md”文件对他们自己项目的影响——这些文件是旨在改进 Anthropic 的 Claude 代码生成的指令。创建者构建 Mdarena 是因为关于 CLAUDE.md 效果的研究存在冲突，并且缺乏验证改进的方法。它通过分析最近的 pull request，提取提交的测试，并评估不同的 CLAUDE.md 配置在这些测试中的表现来工作。早期结果表明，可以获得显著的性能提升——创建者的团队观察到任务解决率提高了 27%。该工具旨在将代理改进从猜测转向数据驱动的优化，从而优化代码编写代理。用户已经建议将其与现有的提示工具（如 LynxPrompt）集成。

召回 – 本地多模态语义搜索您的文件 Recall – local multimodal semantic search for your files 22 天前

## 本地多模态记忆：用搜索查找任何内容这个工具允许您使用自然语言创建本地、可搜索的文件数据库——包括图像、音频、视频、PDF 和文本。只需嵌入您的文件，然后使用描述性查询*查找*它们，即使没有任何现有的元数据或标签。例如，搜索“团队晚餐”将显示相关的照片！它由 Gemini Embedding 2（免费版本）和 ChromaDB 提供支持，所有内容都存储在您本地机器上以保护隐私。设置过程经过简化，并配备了一个动画向导，Raycast 扩展程序提供带有缩略图的即时视觉搜索。 **主要特点：** * **跨模态搜索：** 无缝处理所有文件类型。 * **本地和私密：** 数据保留在您的机器上。 * **易于设置：** 动画向导引导您完成整个过程。 * **Raycast 集成：** 从您的启动器进行快速视觉搜索。 **开始使用：** [https://github.com/hughminhphan/vector-embedded-finder](https://github.com/hughminhphan/vector-embedded-finder)

对不起。

展示HN：我构建了一个小型的LLM来揭示语言模型的工作原理。 Show HN: I built a tiny LLM to demystify how language models work 22 天前

## GuppyLM：一个小型、可训练的语言模型 GuppyLM是一个拥有900万参数的语言模型，旨在证明构建自己的LLM并不需要大量的资源。它使用单个Colab笔记本和最少的训练时间（约5分钟）创建，展示了语言模型的内部运作——从数据到输出，使其不再像一个“黑盒子”。该模型体现了一条名为Guppy的小鱼，用简短的、小写的句子交流，专注于它的水生世界：水、食物和鱼缸生活。它故意缺乏对复杂人类概念的理解。 GuppyLM在6万条合成对话上进行训练，涵盖60个主题，利用简单的香草Transformer架构。该项目优先考虑简单性，放弃了像GQA或RoPE这样的高级技术，以保持小规模的清晰度和效率。代码和预训练模型已在HuggingFace上公开提供，允许任何人进行实验并直接与Guppy聊天。它是一个实际的例子，证明即使没有博士学位或巨大的计算能力，LLM的创建也是可行的。

## GuppyLM：一个用于理解语言模型的微型LLM Armanified 使用 PyTorch 从头开始构建了 GuppyLM，这是一个小型（约 9M 参数）语言模型，旨在揭示 LLM 的工作原理。该项目可在免费的 Colab T4 上 5 分钟内训练完成，使用纯 Transformer 架构和 60K 个合成对话。值得注意的是，该模型的“个性”——它认为人生的意义是食物——可以轻松定制。该项目引发了关于学习 LLM 设计的讨论，与 Karpathy 的 microGPT 和 Minix（一种教学操作系统）进行了比较。用户探索使用 LLM 本身来理解代码，突出了 AI 辅助学习的潜力。一个关键点是，理解代码*为什么*被编写，而不仅仅是它*做什么*的重要性。虽然有些人认为该项目缺乏努力，但另一些人则赞扬其简单性和端到端特性，认为它是一种有价值的教育工具。讨论还涉及了 AI 生成评论在 Hacker News 上日益普及的问题，以及评估此类贡献质量的挑战。训练数据和代码可在 GitHub 上获取。

雇主利用你的个人数据来确定你愿意接受的最低工资。 Employers use your personal data to figure out the lowest salary you'll accept 22 天前

请启用 JavaScript 并禁用任何广告拦截器。

斯帕斯和斯普兰 Spath and Splan 22 天前

## 超越文件系统：利用语义寻址改进AI编程传统上，代码组织依赖于文件系统，模仿人类可理解的层级结构。然而，这迫使AI编程代理在较低的“操作”层面工作，需要大量的工具（如IDE）来管理基于代码*存储位置*而非*功能*的代码。为了提高AI效率，Sumato AI 建议将重点转向**叙事卫生**——为AI代理编写清晰、直接的“故事”。这通过两个关键创新实现：**Spath** 和 **Splan**。 **Spath** 是一种语义寻址格式，允许代理在*不*引用文件或行号的情况下识别代码符号。 **Splan** 定义了一种表达对这些符号的*操作*的语法——完整的意图，例如“用这个新版本替换这个函数”——同样不依赖于文件系统。通过操作语义含义而非文件路径，Spath & Splan 减少了浪费的计算，提高了AI的“认知质量”，并实现了事务性代码更改（全部成功或全部失败）。两者都设计为开放、可适应的语法，具有特定于语言的“方言”。 Sumato AI 正在开源这些工具，相信转向语义抽象将释放AI辅助编码的重大进步。

对不起。

OpenAI的失势，以及投资者涌向Anthropic。 OpenAI's fall from grace as investors race to Anthropic 22 天前

投资者兴趣正在迅速从OpenAI转向其竞争对手Anthropic，导致OpenAI的股票在二级市场变得难以出售。投资者正寻求抛售约6亿美元的OpenAI股票，但需求疲软，与Anthropic准备投资的20亿美元形成鲜明对比。这种转变源于投资者认为Anthropic的风险回报更好，其3800亿美元的估值落后于OpenAI的8520亿美元，表明具有更大的增长潜力。Anthropic还在利润丰厚的企业市场中获得进展，而人们对OpenAI的高运营成本和较慢的企业采用率越来越担忧。尽管OpenAI完成了一轮规模庞大的1220亿美元融资，但二级市场活动却讲述了不同的故事。银行甚至为OpenAI股票免除费用，而对Anthropic股票则保持收费，这表明对后者的信心。尽管两家公司都面临挑战——Anthropic面临法律纠纷和安全漏洞——但投资者目前的偏好是Anthropic的发展轨迹。

## OpenAI 的失误与 Anthropic 的崛起最近 Hacker News 上的讨论表明，投资者情绪从 OpenAI 转向 Anthropic，尽管 OpenAI 最初在人工智能竞赛中处于领先地位。尽管 OpenAI 曾经凭借其卓越的技术和品牌认知度占据主导地位，但批评人士认为他们变得自满，创新速度不够快——尤其是在代码代理方面——并且处理公共关系不当。 OpenAI 的领导层和战略决策动摇了投资者的信心，导致人们认为缺乏纪律，盈利道路值得怀疑。这推动了人们对 Anthropic 的兴趣，Anthropic 正在获得开发者的青睐，尤其是在其编码能力（Claude Code）方面。然而，关于两种模型的真实质量存在争议。有些人认为 Claude 被高估了，而另一些人则赞扬其性能。人们仍然担心 Anthropic 自身的伦理考量和炒作的可能性。最终，两家公司的长期成功取决于实现盈利和应对快速变化的市场，该市场可能受到开源替代方案和维持大规模人工智能基础设施的巨大成本的威胁。讨论还指出了人工智能领域估值膨胀的总体趋势以及市场可能出现的修正。

彼得·蒂尔对太阳能供电的牛项圈的巨额投资 Peter Thiel's big bet on solar-powered cow collars 22 天前

## Halter：针对十亿头牛的虚拟围栏 Founders Fund 最近领投了 Halter 2.2 亿美元的投资，Halter 是一家总部位于新西兰的初创公司，正在彻底改变牛群管理。 Halter 系统利用太阳能智能项圈、塔网络和智能手机应用程序来创建“虚拟围栏”，使农民能够远程管理牛群并优化放牧模式。 Halter 由 Craig Piggott 创立，旨在解决在广阔、偏远的土地上管理牛群的难题，而无需使用传统方法（如牧犬或车辆）。这些项圈使用音频和振动提示来训练牛群，同时收集行为数据以监测动物健康和生育能力——从而创建了世界上最大的牛群行为数据集。农民可以通过优化放牧来提高土地生产力 20%，从而带来可观的经济回报。虽然 Merck 的 Vence 和基于无人机的系统等竞争对手存在，但 Halter 强调可靠性和经过验证的结果，这些结果是在新西兰九年时间里磨练出来的。 Halter 目前在新西兰、澳大利亚和美国 22 个州运营，旨在在全球范围内扩张，目标市场为十亿头牛，目前的渗透率仅为一百万头。该公司专注于可证明的投资回报率，是其在传统上采用农业科技速度较慢的行业中取得成功的关键。

对不起。

展示HN：YouTube搜索几乎没用，我做了一个带有高级过滤器的搜索表单。 Show HN: I made a YouTube search form with advanced filters 22 天前

展示 HN：TermHub – 为 AI 代理构建的开源终端控制网关 Show HN: TermHub – Open-source terminal control gateway built for AI Agents 22 天前

## Termhub：AI驱动的终端控制 Termhub 是一款原生AI工具，旨在简化与终端会话的交互。它使AI能够智能管理终端——打开窗口/标签页，启动会话，发送命令，并仅捕获*新的*输出。这种“发送-捕获增量循环”是高效AI工作流程的关键。 **主要特性：** * **AI驱动自动化：** 基于AI检查和需求自动化终端任务。 * **跨平台：** 支持macOS (iTerm2, Terminal) 和 Windows (Windows Terminal, CMD)。 * **提供SDK：** 提供JavaScript SDK，用于对终端进行程序化控制。 * **核心命令：** 包括 `open`、`list`、`resolve/find`、`send`、`press`、`capture`、`focus`、`close`、`doctor` 和 `spec`。 * **会话管理：** 使用会话ID或句柄进行精确的目标定位。 * **增量捕获：** 仅捕获命令*发送后*的输出，提高效率。 **安装：** 可通过npm (`@duo121/termhub`)、Homebrew (macOS) 或从GitHub Releases直接下载。 Termhub简化了将终端交互集成到AI应用程序中，为自动化任务提供了一个强大而灵活的解决方案。

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 工作 | 提交登录展示 HN: TermHub – 为 AI 代理构建的开源终端控制网关 (github.com/duo121) 5 分，由 duo121 1 天前发布 | 隐藏 | 过去 | 收藏 | 2 条评论帮助 duo121 1 天前 | 下一个 [–] 为 LLM 和 AI 代理提供原生桥接，以完全控制本地终端 (iTerm2/Windows Terminal)：创建标签页，拆分窗格，切换会话，执行命令，以编程方式捕获实时输出。构建强大的本地 AI 终端自动化，无需笨拙的解决方法。 GitHub: https://github.com/duo121/termhub 回复 rcarmo 22 小时前 | 上一个 | 下一个 [–] 我发现 tmux 的功能比你预期的多得多，而且它已经成为一个简单的建议，大多数模型无需任何实际提示即可采取行动。回复指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系搜索：

意大利电视台因英伟达自己的DLSS 5片段对英伟达提出版权索赔 (YouTube) Italian TV Copyright-Strikes Nvidia over Nvidia's Own DLSS 5 Footage 22 天前

对不起。

每日HackerNews RSS