每日HackerNews RSS

搜索引擎现在可以索引PDF文件了,这是一个复杂的任务,因为PDF文件是图形化的,而不是基于文本的,它将字形映射到坐标,几乎没有语义信息。虽然基于视觉的机器学习是理想的,但对于海量数据来说它并不具有可扩展性。 最初的解决方案,PDFBox的PDFTextStripper,可以提取文本,但它不理解文档结构(例如标题等),而这对于搜索相关性至关重要。我们对此进行了改进,特别关注标题和段落的识别。 标题是根据字号和字重来识别的。利用字号统计数据来确定基于单个页面的正确标题检测。连续的标题会被连接起来,同时考虑到可能存在的错误连接。段落识别则通过根据文档的中位线间距计算行间距来改进。 新的系统并非完美无缺,它更关注相关性信号,例如标题、摘要和连贯的文本图像。

Hacker News上的一篇讨论围绕着从PDF文件中提取文本的复杂性展开。虽然看起来很简单,但这个过程充满了挑战,包括格式不一致、基于图像的文本以及多栏布局和表格等结构模糊性。评论者分享了他们使用Tesseract、docTR和PDF.js等工具的经验,并讨论了仅仅依赖OCR的局限性。 这场辩论突出了准确性、成本和效率之间的权衡,尤其是在处理大型PDF语料库时。一些人主张将原始源文档嵌入PDF本身以方便提取,而另一些人则建议利用机器学习模型,包括大型语言模型(LLM),来改进文本识别和结构识别。然而,也提到了视觉语言模型(VLM)的不可靠性。最终,这篇帖子强调了持续需要更好的解决方案来可靠地从PDF中提取结构化数据,特别是对于索引、数据分析和辅助功能等任务。

一项新的研究揭示了疫情期间远程办公增加与员工主导的初创企业数量增加之间的联系。经济学家分析了IP地址和领英数据,以追踪员工向创业的转变,发现远程办公至少占疫情后新企业激增的11.6%。这种“创业繁殖”现象归因于远程办公的灵活性和减少的通勤时间,以及更高的生产力,使员工能够在维持稳定收入的同时探索商业项目。 虽然政策制定者可能将此视为积极的经济溢出效应,推动了就业创造和创新,但公司面临着关键员工流失到新竞争对手的风险。这一发现与之前的研究相矛盾,之前的研究表明远程办公通过满足对灵活工作安排的需求来减少创业。然而,这项新的研究关注的是具有增长潜力的初创企业,例如科技公司,在这些公司中,远程办公提供了启动业务所需的时间和保障。随着大型科技公司以提高办公室协作效益为由减少远程办公,这项研究突出了远程办公选择减少的潜在负面影响。

最近Hacker News上的一篇文章讨论了theregister.com的一篇报道,该报道指出远程工作的员工更有可能自己创业。这篇文章引发了关于管理层不安全感、员工生产力和雇员与雇主关系本质的讨论。一些评论者认为,过度监控员工的管理者缺乏信任和理解,导致对抗性关系。另一些人则反驳说,由于少数员工可能会利用系统漏洞,因此某种程度的监控是必要的。许多人同意远程工作具有减少通勤时间、提高灵活性以及改善工作与生活平衡等好处,这可能会腾出时间和精力用于创业。一些人指出,雇主期望员工坚定不移的忠诚,而自己却从事多个项目,这是一种虚伪的行为。总的来说,这场讨论探讨了远程工作、信任以及员工在获得更多自主性和灵活性时追求自身事业的复杂动态。

谷歌正在开发一项名为“桌面视图”(Desktop View)的新Android功能,旨在与三星DeX竞争,将Android手机变成袖珍电脑。目前隐藏在Android测试版代码中的“桌面视图”引入了一个类似PC的界面,具有任务栏、可调整大小的窗口和拖放式多任务处理功能。这允许用户将手机连接到外接显示器并像使用台式电脑一样使用它们,这项功能此前一直由三星的DeX主导。 虽然“桌面视图”仍处于早期开发阶段,可能尚未准备好用于下一个Android版本,但它代表着Android实现完整桌面功能的重要一步。谷歌正在改进显示管理和输入支持,Pixel手机有可能成为首批获得此功能的手机。如果成功,“桌面视图”可以让任何Android手机都能充当台式电脑,从而不再需要三星DeX,并影响人们使用手机进行工作和提高生产效率的方式。

作者辞去了国家科学委员会和国会图书馆学者委员会的职务,原因是机构诚信丧失以及无法忠实履行使命。自2025年1月以来,作者观察到恶劣的政治环境正在破坏这些机构,包括公务员被解雇、合同被忽略以及拨款被取消。国家科学委员会已经成为一个“空洞的象征”,诚实建言越来越困难,例如未经授权发布声明以及外部否决拨款申请的权力。类似地,国会图书馆也遭受了政治操纵导致卡拉·海登博士被解雇的事件。作者认为这些行为是将威权主义方法应用于知识管理的正常化。作者认为,通过继续参与而袖手旁观,只会使一个正在破坏其根本宗旨的体系合法化。借鉴瓦茨拉夫·哈维尔的“无权者的力量”,作者拒绝同流合污,认为辞职能够放大其他人的声音。遵循阿尔伯特·O·赫希曼的框架,这次辞职既是退出也是发声,旨在揭示这些机构的现状,并为其真正使命而奔走呼吁,这与托妮·莫里森拒绝压迫性语言的号召是一致的。

欧盟启动了欧洲漏洞数据库 (EUVD),这是一个用于监控关键和积极利用的安全漏洞的综合平台。该平台由欧盟网络安全机构 ENISA 开发,旨在通过提供透明度和缓解信息来改进漏洞管理。此次发布与美国面临的网络安全形势形成对比,后者正面临预算削减、漏洞披露延迟以及 CVE 计划未来不确定性等问题。 虽然美国国家漏洞数据库 (NVD) 难以应对积压和导航问题,但 EUVD 提供近乎实时的更新,并重点突出关键和已利用的漏洞。它整合了来自各种来源的数据,包括开源数据库、国家 CSIRT 安全建议和厂商补丁。ENISA 也是 CVE 编号机构,其承认美国 CVE 计划未来存在不确定性,并正在与 MITRE 联系以了解其影响。EUVD 为网络安全专业人员提供了一个关键资源,尤其是在美国面临维持其漏洞跟踪系统挑战之际。

请启用JavaScript和Cookie以继续

适用于Windows LTSC的Microsoft Store软件包。Windows 10 LTSC 2019 (已测试) Windows 10 LTSC 2021 (已测试) Windows 11 LTSC 2024 (已测试) 更新:发现最新的LTSC 2019版本不再支持最新版本的Microsoft Store。商店会要求您更新系统才能使用,并且无法正常安装应用程序。因此,Microsoft Store在LTSC 2019上已不可用。如果您已安装,可以使用Uninstall.bat卸载。您可以直接下载发行版并双击安装。出于兼容性考虑,软件包未使用最新版本,为获得更好的体验,您可能需要在成功安装后在Microsoft Store设置中进行更新。

在压力极大的工作环境中,离职仿佛迫在眉睫,这时要优先考虑人际关系。记住,每个人都承受着同样的压力,对同事发脾气只会留下持久的负面评价。虽然工作可能感觉随时可以放弃,但你的职业人脉却并非如此。当你不可避免地寻找新工作时,你会需要这些关系来获得推荐。抵制烧桥的冲动,即使你幻想过这样做。相反,要专注于每一次互动中的人性因素。当感到不知所措时,要优先考虑你的行为如何影响请求你办事的人,无论截止日期或事情的 perceived importance 如何。不要让职业环境抹杀你的同理心。良好的声誉和支持性的网络远比任何戏剧性离职带来的短暂满足更有价值。

一篇Hacker News上的文章讨论了在高压工作环境中优先处理人际关系的重要性,引发了关于职业生涯中各种复杂问题的讨论。最初的帖子强调,即使过去的工作经历很糟糕,在面试中也要积极地描述它们,以免让潜在雇主产生警觉。 评论者们就这种方法的真实性展开了辩论,一些人称之为“有毒的积极性”,另一些人则认为这是必要的策略。面试官承认难以区分真正的失望和长期不满,因此他们倾向于选择那些呈现积极叙事的候选人。然而,这引发了对奖励不诚实行为以及可能忽视那些在自我推销方面有困难的合格候选人的指责。 随后,讨论转向了工作场所中人际关系的重要性,一些人认为人际关系对于晋升、合作和人脉建立至关重要。这一观点遭到了反驳,有人担心会出现裙带关系,以及人际关系可能会掩盖个人能力的情况。最终,这场讨论突出了真实性、自我保护以及工作场所固有的社会动态之间的微妙平衡。

A5是一个开源的地理空间索引系统,它将地球划分为面积相等(误差在2%以内)的五边形单元格,并提供高达32个分辨率级别,最小单元格面积可达30mm²。它使用TypeScript实现,允许将空间数据表示为单元格集合,从而简化诸如相关性计算(例如,海拔与作物产量)和空间数据聚合(例如,度假租赁的密度)之类的分析。 与其他离散全球格网系统 (DGGS) 相比,A5 的主要优势在于其单元格大小均匀、分辨率高且单元格面积变形最小。与使用三角形、正方形或六边形的常见 DGGS 不同,A5 使用十二面体的五边形平铺。十二面体是柏拉图多面体中最接近球体的,因此在投影到球体时可以最大限度地减少变形,从而实现更精确的空间表示。A5 采用 Apache 2.0 许可证,使其成为各种空间分析和索引应用的通用工具。

Hacker News用户正在讨论A5,这是一种新的离散全球格网系统(DGGS),它专注于使用基于十二面体的五边形格网来表示等面积单元。与Uber的H3(六边形)和Google的S2(正方形)不同,A5优先考虑最小化单元之间面积的变化,这对于精确的数据聚合和可视化非常有用,例如Airbnb密度分析。 虽然H3因其邻域关系而在流量分析中表现出色,而S2因其精确的单元细分而在几何简化方面表现出色,但A5提供了一种替代方案,强调等面积特性,即使这意味着单元形状不规则且质心距离不均匀。用户注意到当前的局限性,例如除了TypeScript之外缺乏参考实现,但作者提到了将其移植到其他语言的计划。主要优势在于将单元视为等面积,与那些在面积不等时却假设面积相等的方法相比,减少了偏差。

几十年励志文学经验的积累,我提炼出101条有效生活的准则。这些准则强调道德行为、个人责任和现实期望。它们涵盖努力工作、诚实、为失败负责以及思想的力量。实用建议包括谨慎理财,尊重他人(包括工人,甚至那些可能被认为是“恶霸”的人),以及避免抱怨和八卦等消极行为。 人际关系至关重要,但处理人际关系需要意识到操纵和不诚实。个人成长来自于专注的专业知识、毅力和道德自我评估。这些准则强调准备、果断、谦逊,以及认识到身心健康的重要性。最终,它关乎正直地生活,理解人性,专注于自我提升,同时保持现实的世界观。

Hacker News上的一篇帖子讨论了“有效生活的101条规则”,引发了关于此类清单的实用性和智慧的辩论。 一位评论者建议用本杰明·富兰克林的13种美德作为更简洁的替代方案,而另一位则以一首诗回应,提倡一种不那么自律、更放纵的生活方式。 讨论探讨了严格的规则是否会带来充实的生活,一些人主张在积极的生活中加入原则,而另一些人则认为这些规则过于限制。一些评论者认为这份清单有助于自我反省,即使其要点并非普遍适用或相互矛盾。这份清单被视为格言的集合,其共鸣程度取决于个人的经历和观点。其他简洁的建议包括简化为黄金法则,以及关注同情心、节俭和谦逊。

更多

联系我们 contact @ memedata.com