让 LLM 既能“看”又能“推理”!
DeepSeek-R1 会推理,GPT-4o 会看。能否让
1 LLM既能看又能推理?
DeepSeek-R1取得很大成功,但它有个问题——无法处理图像输入。
1.1 DeepSeek模型发展
自2024.12,DeepSeek已发布:
- DeepSeek-V3(2024.12):视觉语言模型(VLM),支持图像和文本输入,类似 GPT-4o
- DeepSeek-R1(2025.1):大规模推理模型(LRM),仅支持文本输入,但具备更强的推理能力,类似 OpenAI-o1
我们已领略视觉语言模型(VLM)和大规模推理模型(LRM),下一个是谁?
我们需要视觉推理模型(VRM)——既能看又能推理。本文探讨如何实现它。
2 现有模型的问题
当前VLM 不能很好推理,而 LRM 只能处理文本,无法理解视觉信息。若想要一个既能看懂图像,又能深度推理的模型?
物理问题示例
我是一个学生,向 LLM 提问物理问题,并附带一张图像。
就需要一个模型能同时:
- 理解图像内容
- 进行深度推理(如分析问题、评估答案、考虑多种可能性)
就需要
发布者:admin,转转请注明出处:http://www.yc00.com/web/1748121334a4734680.html
评论列表(0条)