DeepSeek终于能看图了:上传照片就能识别逻辑,这次不是简单扫文字

作者: 智享AI发布日期: 2026/5/10阅读时间: 3分钟
DeepSeek终于能看图了:上传照片就能识别逻辑,这次不是简单扫文字 封面图

5月9日,国产大模型DeepSeek正式大规模开放“识图模式”内测。这不再是简单的提取图片里的文字,而是让AI真正“看懂”图片——理解图表逻辑、识别场景含义、跨媒介完成复杂任务。新功能在对话界面独立入口就能用,和“快速模式”“专家模式”并列展示,离正式上线只差最后一步。

比起4月底的小范围灰度测试,这次几乎对所有测试账号都敞开了大门。用户随手拍一张流程图、上传一张产品手册截图,或者丢来一张新闻图表,DeepSeek能自动拆解里面的逻辑关系,比如告诉你“这张饼图的三个分区对应不同季度的销售额占比”。实测中,它甚至能看懂一张手绘的草图,理解“箭头从A指向B”代表流程顺序。

这背后是从“读字”到“识物”的能力跨越。过去很多AI只能做OCR文字识别,相当于把图片当“扫描仪”用。而DeepSeek这次的多模态理解,更像是给AI配了一双“会思考的眼睛”——它能把视觉信息和语言逻辑结合起来,在用户没有输入任何文字的情况下,仅凭图片就能生成精准的答复。比如上传一张复杂的K线图,它不仅能读出数字,还能分析涨跌趋势并给出总结。

对于国产大模型行业来说,这一步补上了重要短板。在GPT-4o等国际模型已经能“看图说话”的当下,DeepSeek一直以极致的算力性价比和文本生成能力著称,但视觉理解是绕不开的关口。如今它几乎同时完成了从单腿走路到双腿奔跑的转型。可以预见,随着识图功能全面铺开,自动生成PPT配图说明、工业质检中的缺陷识别、财务图表自动分析这些场景,都可能迎来一轮效率革命。

这不仅仅是一个新功能的上线,更是AI交互范式的变化——未来我们和AI交流,也许拍张照片就能说清楚一切。

aiupdateproduct
精选评论
评论加载中…
发表讨论 »