每日HackerNews RSS

## LeRobot 剧集评分工具摘要 该工具集提供了一种使用传统计算机视觉指标和可选的Gemini驱动的视觉-语言模型(VLM)检查来自动评估LeRobot演示剧集质量的方法。它在视觉清晰度、流畅性、碰撞检测、运行时和任务成功等维度上对剧集进行评分,为每个维度分配0-1的分数。 该工具集允许用户过滤低质量剧集以改进下游训练,并比较在过滤数据集与未过滤数据集上训练的模型性能。主要功能包括:对数据集进行评分、根据用户定义的阈值过滤剧集以及与LeRobot的训练流程集成。 用户可以选择基于OpenCV的视觉评分,或利用Gemini进行基于VLM的分析(需要Google API密钥)。该工具集可通过pip轻松安装,并提供命令行参数以进行自定义,包括数据集位置、输出路径和训练选项。会生成详细的评分报告和可视化效果,以帮助识别有问题剧集并优化数据集质量。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 展示HN:自动化机器人数据质量改进 (github.com/roboticsdata) 9点 由 machinelearning 1天前 | 隐藏 | 过去 | 收藏 | 1评论 marshavoidance 1天前 [–] 这个工具通过分析模糊、碰撞和运动平滑度来“评估”机器人演示片段,然后从数据集中过滤掉不良片段。这似乎是一种务实的方法来解决机器人领域的数据质量问题,很期待看到它在实际训练中的效果。回复 考虑申请YC冬季2026批次!申请截止日期为11月10日 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

## Bear Blog 中断与机器人问题 - 摘要 2025年10月25日,Bear Blog 经历了一次重大中断,由于反向代理故障影响了自定义域名。根本原因并非服务器容量,而是机器人流量激增——这是一个日益严重的问题,包括人工智能爬虫、恶意行为者和不受控制的自动化程序。这些机器人正在席卷互联网,其驱动力是大型语言模型训练的数据价值以及越来越容易部署的爬取工具。 现有的机器人缓解措施(WAF、速率限制)处理了最初的每分钟数万次请求的浪潮,但反向代理却不堪重负。关键是,作者的主要监控系统*未能*向他们发出警报,延长了停机时间。 为了防止再次发生,已经采取了几个步骤:冗余监控,带有电话/电子邮件/短信警报,增加反向代理容量(5倍),更积极的机器人缓解措施,以及自动重启功能。一个公开状态页面([https://status.bearblog.dev](https://status.bearblog.dev))也已启动,以提高透明度。 作者强调了日益恶劣的互联网环境,该环境由机器人主导,以及保护宝贵在线空间的重要性。

## 黑客新闻讨论:恶意机器人与网络爬虫 最近的黑客新闻讨论强调了日益严重的网络爬虫问题及其对小型网站的影响。原发帖人 shaunpud 描述了由无情的机器人引起的周末中断。 对话揭示了一种令人不安的趋势:爬虫越来越多地使用住宅代理——通常通过提供“免费”服务的应用程序,这些应用程序秘密出售带宽——这使得阻止变得困难。 多位评论员证实了这种做法,提到了 Bright Data (Luminati) 等服务,它们甚至为它们攻击的网站提供“保护费”。 讨论的解决方案包括实施更严格的速率限制和蜜罐(例如,针对恶意 IP 的炸弹压缩包),以及利用 CDN。 然而,许多人承认了局限性,尤其是在复杂的机器人规避检测技术日益提高以及在法律上追究攻击者责任的难度增加的情况下。 一种核心观点浮出水面:互联网正变得越来越敌对,维护独立的、小型网络服务正变得不可持续。 虽然一些人提倡为保护这些空间而奋斗,但另一些人认为挑战太大,中心化的趋势不可避免。 讨论还涉及了爬虫的伦理影响以及对数据访问更好标准的需求。

## 从 AWS 到裸机:详细更新 在最初报告通过从 AWS 迁移到裸机每年节省 23 万美元后,团队针对社区反馈提供了全面回复。在过去的两年里,他们使用 MicroK8s + Ceph 堆栈实现了 **99.993% 的可用性**,并在法兰克福扩展到第二个机架以实现冗余,并将 **延迟降低了 19%**。 节省的费用现已增长到每年 **超过 120 万美元**。 尽管探索了预留实例和节省计划,但裸机仍然更具成本效益(目前节省 **76%**),特别是由于带宽和控制平面成本。 迁移大约花费了一周的工程时间,持续运营大约需要 **每季度 24 个工程师工时**,与之前的 AWS 管理开销相当。 单点故障问题通过多机架设置和强大的故障转移程序得到解决。他们使用 Talos、Flux 和 Terraform 等工具拥抱自动化。虽然重建 AWS 提供的服务受到质疑,但他们优先考虑可移植性和工具成熟度,仍然将 AWS 用于特定需求,例如 Glacier 备份和 CloudFront 缓存。 最终,此次迁移对他们的稳定工作负载有利,使其能够将资金再投资于人工智能驱动的功能并提高发布速度。他们计划分享资本支出预测资源以及对 Talos 的深入研究。

## 低开销、持续开启的 CUDA 性能分析,使用 Parca Agent v0.43.0 最新的 Parca Agent 版本 (v0.43.0) 引入了世界上第一个开源、低开销的 NVIDIA CUDA 性能分析器,专为持续生产环境使用而设计。传统的 CUDA 性能分析工具,如 NVIDIA Nsight,功能强大,但会带来显著的性能损失。这款新的性能分析器旨在提供有价值的洞察,同时最大限度地减少影响,它建立在现有的 GPU 指标收集之上。 该解决方案利用一个管道,结合了 NVIDIA 的 CUPTI 性能分析 API、USDT 探针和 eBPF。一个 shim 库 (`parcagpu`) 拦截 CUDA API 调用,通过 CUPTI 收集计时数据和内核信息。然后,这些数据通过 USDT 探针暴露给 eBPF,避免了代价高昂的文件 I/O 或网络开销。eBPF 程序使用 perf event 缓冲区高效地捕获这些数据,并将其传递给 Parca Agent。 这种方法支持常规内核启动和 CUDA 图形执行,提供详细的计时数据、设备/流 ID 和内核名称。自定义标签添加了用于过滤和分组性能分析的上下文。 要使用它,只需使用 `--instrument-cuda-launch` 标志运行 Parca agent,并确保 `CUDA_INJECTION64_PATH` 指向 `libparcagpucupti.so` 库。这将启用持续的 GPU 性能分析,而不会中断生产性能。

## 持续 Nvidia CUDA 分析工具 Polarsignals 发布了一款新的、低开销的 GPU 分析器,用于生产环境。该工具专注于跟踪 CUDA 内核启动,旨在实现最小的性能影响——目前开销为 1-2%——同时提供对 GPU 活动的宝贵见解。 作者正在寻求反馈,并承认当前的 CUPTI 分析在不同配置下可能具有更高的开销。未来的计划包括概率采样,以进一步降低开销。 虽然最初的快速入门指南侧重于 Kubernetes,但该工具也可以通过 Docker 或作为原始二进制文件运行。用户询问了是否可以捕获 GPU 性能计数器(如缓存命中率和 RAM 利用率),类似于 Nvidia 的 Nsight Compute,开发者正在考虑添加此功能。目前,分析器会与内核执行数据一起抓取高级指标。

当我学习使用台锯时,我的老师反复强调这台机器想要割断手指。要敬畏锯子!强大的工具可以做强大的事情。如果你想制作手工木制家具,你必须切割木材。你对肢体的渴望和你对家具的渴望并不冲突,只要你学会安全使用工具。有些台锯会在接触到手指时停止,但我不知道有任何链锯不会割断手臂的。工具的安全程度有极限,超过这个极限就会影响其功能。我们不应该因为强大的工具很危险就停止制造它们。相反,我们应该让人们学会安全地使用强大的工具。我使用锯子,我敬畏锯子。我拥有手工家具,并且拥有所有的肢体。

## 黑客新闻讨论:台锯与工具安全 一篇最近发表在stephango.com上的文章引发了黑客新闻关于工具安全与功能之间平衡的讨论,尤其是在台锯方面。许多评论者提倡更安全的替代品,如导轨锯,认为它们在功能损失不大的情况下消除了重大风险。 对话扩展到对社会过度保护趋势的批判,可能降低自主性、技能和自力更生的意识。几位用户注意到失去了“投入生活并体验刺激”的感觉,以及建立内在应对机制的能力。 另一些人强调了*尊重*工具而非*害怕*它们的重要性,并强调了匆忙完成任务的危险。分享了个人轶事,包括严重的台锯事故经历。有人将此与编程类比,在编程中,功能强大但可能危险的工具可能比过于限制、更安全的选项(例如选择TypeScript而不是JavaScript)更受欢迎。最终,讨论的中心在于,优先考虑绝对安全是否会以宝贵的经验和能力为代价。

您的请求已被阻止,原因是网络策略。请登录或在此处创建帐户以恢复浏览。如果您正在运行脚本或应用程序,请在此处注册或使用您的开发者凭据登录。此外,请确保您的User-Agent不为空,并且是独特且具有描述性的,然后重试。如果您正在提供替代的User-Agent字符串,请尝试改回默认设置,因为这有时会导致阻止。您可以在此处阅读Reddit的服务条款。如果您认为我们错误地阻止了您,或者想讨论更轻松地获取所需数据的方式,请在此处提交工单。联系我们时,请提供您的Reddit帐户以及以下代码:f30d673a-fd8c-4488-a33b-ddba881df07a

## SpiderMonkey 垃圾回收器总结 SpiderMonkey 垃圾回收器 (GC) 管理 JavaScript 数据内存,旨在实现高效的分配和释放。它是一种**混合追踪型垃圾回收器**,具有以下几个关键特性: * **精确:** 它准确跟踪内存布局和栈根,避免不必要的垃圾保留。这通过 C++ 包装器和静态分析来强制执行。 * **增量:** 为了最小化暂停时间,回收被分解为更小的步骤,尽管仍存在一些“停止世界”的原子操作。 * **分代:** 利用“新生区”(年轻代)和“老年代”(旧代),它优先收集短生命周期对象。 * **并发与并行:** 有限的并发用于最终化和内存管理,GC 切片内使用并行处理。 * **紧凑:** 通过重新排列内存来解决外部碎片问题,但由于其非增量特性,紧凑操作不频繁。 * **分区堆:** 使用“区域”——独立的堆——来促进增量回收并高效管理内存。 这些特性结合起来,为 SpiderMonkey 中的 JavaScript 执行提供了一个强大且高性能的内存管理系统。

这个Hacker News讨论围绕着SpiderMonkey垃圾回收器(用于Firefox)以及它与其他垃圾回收系统的比较,特别是Go的垃圾回收器。 用户指出SpiderMonkey的特性与V8(Chrome的JavaScript引擎)相似,反映了浏览器在性能上的竞争。Go的垃圾回收器是增量、并发和并行的,但*不是*分代或压缩式的。一个关键的区别在于Go对指针的依赖较少,更倾向于栈分配,这意味着在垃圾回收期间需要更少的堆检查——简化了过程。 对话进一步指出栈分配并非Go独有,C#、Lisp和Swift等语言也存在。它还强调,现代Java实现也利用了类似的优化技术(“逃逸分析”)。最后,一位评论员提醒不要假设Go的方法更优越,因为它可能会像受.NET和Java的最新进展影响一样而演变。

这篇文章通过将React.js的核心概念与传统的UI框架Cocoa进行比较来剖析React.js。作者最初认为React是Cocoa的MVC方法的JavaScript实现,但发现随着React Native的发展,它的重点发生了转变。 React的核心思想——将UI视为数据的投影——反映了Cocoa将数据转换为视觉表示的原则。两者都强调抽象和组合,以实现可重用的UI元素。然而,React追求“纯粹性”(函数对于相同的输入始终返回相同的输出),这与Cocoa对有状态UI和副作用的实用接受形成了对比。 作者认为React过度复杂化了状态管理,而Cocoa则通过对象自然地处理它。React的解决方案,如Context和代数效应,被认为是不必要的,因为Cocoa已经建立了层次结构。最终,作者认为React的基础前提——纯函数式UI——存在缺陷,并相信Cocoa的保留状态方法更可靠,尤其是在复杂的应用程序中。尽管如此,作者承认React目前的统治地位,并计划探索其在实践中的应用,但仍然更喜欢Cappuccino作为更连贯的框架。

## React、MVC 和 UI 架构:一则 Hacker News 讨论总结 这次 Hacker News 讨论围绕一篇 2018 年的文章,质疑 React 的架构是否符合传统的 MVC 模式。核心争论在于 React 是否真的是 MVC 中的“视图”,或者完全是另一种东西。 许多评论者回忆起早期的 React 文档将它戏称为 MVC 的“V”,但承认随着 React 的发展,这种说法已经淡化。有些人仍然觉得将 React *视为*视图层是有用的,它基于数据处理 UI 渲染,而其他组件管理逻辑。然而,另一些人认为 React 与经典的 MVC 根本不同,尤其是在客户端状态管理和 React Router 等框架的兴起之后。 一个关键点是,真正的 MVC 旨在解决更新循环和 UI 状态不一致的问题——一些人认为这些问题仍然存在于 React 项目中,因为复杂的交互和命令式代码。Solid.js 和 Elm 等替代方案,它们专注于原子更新和纯度,被认为是潜在的改进。 最终,这场讨论凸显了理论架构的纯粹性和实际开发现实之间的紧张关系,许多人同意团队文化和务实的选择通常比严格遵守任何单一模式更重要。

米歇尔·利普森实验室的研究人员开发了一种在单个硅芯片上产生强大的频率梳(包含数十种不同颜色的光源)的方法。传统上,产生这些梳状光需要庞大而昂贵的激光系统。这项突破利用“混乱”但强大的多模激光二极管,并使用硅光子学净化其输出,以实现高相干性。 然后,芯片将纯化的光束分成多个波长,从而有效地创建了许多独立的数据通道。这项技术满足了数据中心对更快、更高效的数据传输日益增长的需求,尤其是在人工智能兴起的情况下。它不再依赖于单波长激光器,而是允许进行波分复用,从而在现有的光纤基础设施中大幅提高数据容量。 除了数据中心之外,这些紧凑、高功率光源在便携式光谱仪、精密光学时钟、量子设备和改进的激光雷达系统中具有潜在应用,将先进的光学技术带给更广泛的实际应用领域。

## 新芯片产生强大的多色激光 研究人员开发出一种单芯片,能够产生强大的多色激光——功率高达150毫瓦,远高于典型激光笔(5毫瓦)。这项突破发表在《自然》杂志上,利用微梳和硅光子学,并利用现有的集成电路制造工艺。 这项技术除了数据中心之外,还具有潜在的应用,包括便携式光谱仪(可能导致“三用仪”)以及更廉价、更易获得的用于天文学的光谱仪,尽管可见光应用由于需求较低而面临经济挑战。 讨论的重点是调制波长,建议使用电光调制器和滤波。虽然目前仍是实验室成果,但制造的可扩展性是广泛应用的关键,希望能够实现微型、高带宽收发器。一些评论员指出,充足的实验室空间和易于获得的设备对于此类突破至关重要。

更多

联系我们 contact @ memedata.com