| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
联系我们 contact @ memedata.com
|
原始链接: https://news.ycombinator.com/item?id=43973721
Hacker News上的一篇讨论围绕着从PDF文件中提取文本的复杂性展开。虽然看起来很简单,但这个过程充满了挑战,包括格式不一致、基于图像的文本以及多栏布局和表格等结构模糊性。评论者分享了他们使用Tesseract、docTR和PDF.js等工具的经验,并讨论了仅仅依赖OCR的局限性。 这场辩论突出了准确性、成本和效率之间的权衡,尤其是在处理大型PDF语料库时。一些人主张将原始源文档嵌入PDF本身以方便提取,而另一些人则建议利用机器学习模型,包括大型语言模型(LLM),来改进文本识别和结构识别。然而,也提到了视觉语言模型(VLM)的不可靠性。最终,这篇帖子强调了持续需要更好的解决方案来可靠地从PDF中提取结构化数据,特别是对于索引、数据分析和辅助功能等任务。
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
联系我们 contact @ memedata.com
|
I definitely vaguely remember doing some incredibly cool things with PDFs and OCR about 6 or 7 years ago. Some project comes to mind... google tells me it was "tesseract" and that sounds familiar.
reply