## 机器人检测与应对:摘要
2025年10月底,Aaron MacSween发现针对其网站的恶意机器人活动。问题源于一个错误部署、被注释掉的JavaScript文件标签。尽管在标准HTML中不起作用,但机器人反复请求此文件,暴露了它们不成熟的解析方法——很可能是在抓取内容用于LLM训练。
这些机器人复杂程度不一,有些模仿浏览器用户代理,而另一些则使用默认设置。MacSween概述了几种应对措施,在公开披露与帮助机器人改进的风险之间取得平衡。他提倡识别和利用机器人的独特行为,因为它们与人类用户不同。
建议的应对措施包括使用`fail2ban`等工具进行IP过滤,向资源密集型机器人提供“解压缩炸弹”(zip炸弹),以及“数据投毒”——微妙地破坏数据以破坏LLM训练。他强调了最近的研究表明,影响LLM只需要少量的被投毒样本。最后,他建议部署对用户隐藏但对机器人有吸引力的“诱饵”链接,并在访问时触发应对措施。
MacSween鼓励更广泛地参与这些“破坏”行动,认为这是对大型科技公司剥削性数据收集行为的合理反抗。
Bootstrap
错误 403
禁止访问...走开
## MiniZinc 实现轮班人员排班:摘要
本文详细介绍了使用 MiniZinc 约束编程语言构建一个现实的轮班人员排班 (RWS) 模型。RWS 旨在为工人创建公平的每周排班表,让他们轮换不同的班次(日班、晚班、夜班、休息),以满足预计的需求。
该模型从基本数据开始——员工和每天的班次需求——并逐步添加约束以反映现实世界的规则:连续休假天数、最大连续工作天数、周末休息以及夜班限制。这些约束使用 MiniZinc 的功能实现,例如 `global_cardinality` 用于班次计数,以及正则表达式用于模式匹配。
作者使用各种求解器(Gecode、OR-Tools、Chuffed、HiGHS、Huub)在不同员工数量下对模型的性能进行基准测试。结果表明,OR-Tools CP-SAT 通常在较大实例中表现最佳,而 Gecode 对于较简单的问题效率更高。在这种情况下,使用搜索注释(优先分配周末/夜班)并未带来改进。
文章强调了模型开发的迭代性质以及数据驱动的求解器选择的重要性。虽然该模型简化了许多现实世界的复杂性(例如不同的班次时间和员工偏好),但它为解决更复杂的人员排班挑战提供了坚实的基础。
## 电子护照:安全概述
现代护照是复杂的设备,包含嵌入式芯片,存储个人数据并具有强大的安全功能。这些电子护照,通过“芯片内”标志可识别,利用密码学技术防止伪造、复制和未经授权的数据访问。数据以文件系统形式组织,并具有访问控制,遵循国际民航组织(ICAO)制定的标准。
早期的电子护照依赖于“基本访问控制”(BAC)——一种由于依赖于易于猜测的机器可读区(MRZ)数据而容易受到攻击的系统。 后来的增强功能,如带有“芯片认证”(CA)和“终端认证”(TA)的“主动认证”(AA)和“扩展访问控制”(EAC),通过增加密钥交换和终端验证来提高安全性。最新的标准 PACE 解决了 BAC 的弱点,将 MRZ 用作密码,而不是密钥推导来源。
尽管取得了这些进展,漏洞仍然存在。 护照的使用寿命长意味着遗留系统仍然存在,并且威胁模型超出了芯片安全,还包括来自检查系统以及通过 MRZ 进行潜在跟踪的风险。 零知识证明等新兴技术提供了隐私优势,但需要仔细实施,以避免重新引入依赖较弱身份验证方法等漏洞。 最终,保护电子护照需要持续的警惕和对不断演变的威胁形势的全面了解。