(评论)
(comments)
原始链接: https://news.ycombinator.com/item?id=43976895
这篇 Hacker News 的讨论主题是利用大型语言模型 (LLM) 从文档中构建知识图谱。原帖重点介绍了一个名为 cocoindex.io 的工具,但一位评论者提出了一种更简单的方法:使用单个 Markdown 文件和一个像 Claude Code 这样的 LLM,并连接到 Telegram API。这允许查询个人信息(“我的护照号码是多少?”)。结合 Git,可以获得事实的版本控制历史记录。
评论者承认非结构化数据的缺点,但认为在 LLM 的上下文窗口内是可以管理的。其他人建议使用 LLM 提取 Datalog 断言,或将知识图谱用于安全用例,映射访问权限和漏洞。知识图谱的一个主要优点是去重和关系遍历,解决了基于关键字搜索的局限性。
然而,讨论中也提到了实体消歧和垃圾信息等问题,以及随着 LLM 的改进,GrahRAGs 可能过时的可能性。尽管存在这些担忧,但该讨论线程显示出人们对结合 LLM、简单的數據格式和消息平台进行个性化知识管理的浓厚兴趣。
I do it that way and then I hooked it up with the Telegram API. I’m able to ask things like “What’s my passport number?” and it just works.
Combine it with git and you have a Datomic-esque way of seeing facts getting added and retracted simply by traversing the commits.
I arrived to the solution after trying more complex triplets-based approach and seeing that plain text-files + HTTP calls work as good and are human (and AI) friendly.
The main disadvantage is having unstructured data, but for content that fits inside the LLM context window, it doesn’t matter practically speaking. And even then, when context starts being the limiting factor, you can start segmenting by categories or start using embeddings.
reply