分享好友 资讯首页 资讯分类 切换频道

DeepSeek跨入图文交互时代 识图模式开启新体验

2026-05-11 13:0811056之窗百科网东方财富网

上个月底,DeepSeek 开始灰度测试“识图模式”。这种模式不仅限于文字 OCR,还具备了图片识别理解能力。最新用户反馈显示,DeepSeek 已经大范围开放“识图模式”供用户体验,几乎所有测试账号都能看到该入口。

拥有灰度测试资格的用户会发现,在输入框上方与“快速模式”和“专家模式”并列,出现了一个全新的“识图模式”按钮。开启该模式后,用户可以直接上传图片让 DeepSeek 进行图像识别。其能力远超简单的文字提取,例如在基础的图像识别领域,它能详细描述纹理与材质,甚至准确推断出某件玉器属于 18 世纪清代乾隆时期的“痕都斯坦风格”。面对烧脑的逻辑题时,它展现出硬核的推理能力,能够解决高难度空间推理题。此外,它还能精准识别流行的表情包或梗图,甚至解读出小猫的情绪,理解网民的转发笑点。在生产力方面,它还可以充当万能的“截图转码器”,直接解析包含代码、复杂 UI 界面的技术报告或网页截图,提取所有文字,甚至生成可交互的 HTML 代码,复原原网页的跳转按钮。

伴随着识图模式的上线,DeepSeek 上月底还公开了其背后的多模态模型技术细节,公布了一种名为“Thinking with Visual Primitives”的核心框架。传统多模态大模型在面对密集场景时存在“指代鸿沟”的困境,模型虽然能看到图片,但在推理过程中用模糊的自然语言构建逻辑链时容易导致注意力漂移。DeepSeek 的解法是将点、边界框等代表空间位置的视觉元素直接融入模型的推理链条,使其成为“思维的基本单元”。这种创新框架使得模型在推理时就像人类用“赛博手指”在脑海中精确指出目标物一样,边想边指,从而解决了复杂空间布局中的逻辑难题。

更令人惊叹的是,这种高效的框架在实际运算中对算力资源非常友好。处理一张 800×800 分辨率的图片时,DeepSeek 仅消耗约 90 个 tokens,而 GPT 和 Claude 等其他主流模型则需要消耗约 870 到 1100 个 tokens。DeepSeek 在多项计数与空间推理的基准测试上达到了比肩甚至超越前沿模型的水平。

收藏 0
打赏 0
中国将搭建完整太空胚胎研究链条 探索生命孕育之谜
随着天舟十号上行,我国空间应用系统将搭建起覆盖低等脊椎动物到高等哺乳动物的完整太空胚胎研究链条。通过多项核心实验,研究者们希望破解太空环境对生命孕育影响的密码,为人类长期驻留太空提供关键生命保障

0评论2026-05-1111

国乒女团7连冠 冲击历史新纪录
国乒女团若在2026年伦敦世乒赛夺冠,将直接创造世乒赛女子团体七连冠的历史新纪录。这一成就将打破自2014年至2024年保持的六连冠队史极值,确立中国女乒在世界乒坛的全新统治标杆

0评论2026-05-1111

医生给13名违法人员体检造假获刑 滥用职权受贿被判刑
在海南省东方市,一名驻所医生因受贿和滥用职权被判刑。这名医生本应将违法人员送入拘留所接受行政处罚,却利用虚假体检结论帮助他们逃避处罚

0评论2026-05-1111