让 LLM 既能“看”又能“推理”！|江阴雨辰互联

让 LLM 既能“看”又能“推理”！

DeepSeek-R1 会推理，GPT-4o 会看。能否让

DeepSeek-R1取得很大成功，但它有个问题——无法处理图像输入。

自2024.12，DeepSeek已发布：

我们已领略视觉语言模型（VLM）和大规模推理模型（LRM），下一个是谁？

我们需要视觉推理模型（VRM）——既能看又能推理。本文探讨如何实现它。

当前VLM 不能很好推理，而 LRM 只能处理文本，无法理解视觉信息。若想要一个既能看懂图像，又能深度推理的模型？

我是一个学生，向 LLM 提问物理问题，并附带一张图像。

就需要一个模型能同时：

就需要

发布者：admin，转转请注明出处：http://www.yc00.com/web/1748121334a4734680.html