## VOID:逼真视频物体与交互移除
VOID是一个新的AI系统,能够从视频中移除物体,并逼真地模拟移除后的后果——例如,吉他手被移除时吉他会掉落。VOID基于CogVideoX,利用两次传递的Transformer流程进行高质量的视频修复,并以感知交互的掩码为条件。
**工作原理:** VOID首先生成掩码,识别要移除的物体以及受其存在影响的区域(例如,掉落的物体)。然后,它在两次推理过程中使用这些掩码:Pass 1执行基础修复,而Pass 2使用扭曲噪声来优化时间一致性。
**关键要求:** VOID需要大量的计算资源——需要具有40GB+ VRAM的GPU(例如A100)。它还需要安装SAM2等依赖项,并设置Gemini API密钥以生成掩码。
**数据与训练:** 虽然提供预训练模型,但由于许可问题,VOID的训练数据并未直接发布。相反,提供了使用HUMOTO和Kubic生成训练数据(创建包含和不包含物体的反事实视频)的代码。
**可用性:** 模型和代码可在HuggingFace和GitHub上获得,从而促进社区贡献和进一步开发。 ([https://arxiv.org/abs/2604.02296](https://arxiv.org/abs/2604.02296))
二十年来,作者参与了Google AdSense,最初是为了学习在线广告并从2005年推出的博客中获得少量收入。虽然从未成为重要的收入来源(最高达到每年1000美元,现在约为100美元),但它提供了宝贵的发布者洞察。
然而,收益已减少。作者现在经常违反AdSense内容规则,收到读者关于侵入性广告的投诉,并且不断与不受欢迎的广告格式扩展作斗争,尽管已经配置了设置来限制它们。
最终,微薄的经济收益不再能证明持续的监控、与“商业”标识相关的潜在法律风险,或负面的用户体验是合理的。因此,作者已将他的博客从AdSense计划中移除,结束了长达二十年的合作关系,尽管对此有些犹豫。
## TTF-DOOM:字体中的Doom
TTF-DOOM是一个完全可运行的Doom风格光线投射引擎,构建在TrueType字体文件*内部*。该项目利用字体内置的、图灵完备的 hinting 程序(一种用于字形网格拟合的虚拟机),仅使用6.5KB的代码渲染3D图形。
一种定制的领域特定语言(DSL)被编译成TrueType字节码,然后操纵字形“A”——特别是它的16条垂直线——以显示16x16瓦片地图的3D透视图。JavaScript处理玩家输入、敌人逻辑和射击,通过字体变化设置将坐标传递给字体。字体执行光线投射和墙壁渲染,而JavaScript则叠加HUD和敌人。
该项目克服了TrueType算术中的一些缺陷和有限的调用栈带来的显著障碍。它利用巧妙的解决方法来模拟循环,规避损坏的乘法/除法和递归函数调用。调试模式(通过按下Tab键激活)可以实时可视化字体变化轴。
与llama.ttf等使用WebAssembly的类似项目不同,TTF-DOOM利用的是1991年原始的TrueType hinting字节码。