## LeRobot 剧集评分工具摘要
该工具集提供了一种使用传统计算机视觉指标和可选的Gemini驱动的视觉-语言模型(VLM)检查来自动评估LeRobot演示剧集质量的方法。它在视觉清晰度、流畅性、碰撞检测、运行时和任务成功等维度上对剧集进行评分,为每个维度分配0-1的分数。
该工具集允许用户过滤低质量剧集以改进下游训练,并比较在过滤数据集与未过滤数据集上训练的模型性能。主要功能包括:对数据集进行评分、根据用户定义的阈值过滤剧集以及与LeRobot的训练流程集成。
用户可以选择基于OpenCV的视觉评分,或利用Gemini进行基于VLM的分析(需要Google API密钥)。该工具集可通过pip轻松安装,并提供命令行参数以进行自定义,包括数据集位置、输出路径和训练选项。会生成详细的评分报告和可视化效果,以帮助识别有问题剧集并优化数据集质量。
## Bear Blog 中断与机器人问题 - 摘要
2025年10月25日,Bear Blog 经历了一次重大中断,由于反向代理故障影响了自定义域名。根本原因并非服务器容量,而是机器人流量激增——这是一个日益严重的问题,包括人工智能爬虫、恶意行为者和不受控制的自动化程序。这些机器人正在席卷互联网,其驱动力是大型语言模型训练的数据价值以及越来越容易部署的爬取工具。
现有的机器人缓解措施(WAF、速率限制)处理了最初的每分钟数万次请求的浪潮,但反向代理却不堪重负。关键是,作者的主要监控系统*未能*向他们发出警报,延长了停机时间。
为了防止再次发生,已经采取了几个步骤:冗余监控,带有电话/电子邮件/短信警报,增加反向代理容量(5倍),更积极的机器人缓解措施,以及自动重启功能。一个公开状态页面([https://status.bearblog.dev](https://status.bearblog.dev))也已启动,以提高透明度。
作者强调了日益恶劣的互联网环境,该环境由机器人主导,以及保护宝贵在线空间的重要性。