20张图解大模型必备20个核心基础概念全解!
2026/6/4 16:27:56 网站建设 项目流程

很多产品经理做AI产品决策时,都靠模糊的AI能力认知做判断,而非精准摸清大模型的能力边界。

这种认知短板,会引发一系列工作问题:需求文档写到一半,才发现整体方向跑偏;技术选型会上,被算法人员一句话直接否决;功能好不容易上线,才发现成本结构根本没法长期运营。

掌握大模型核心知识,不是为了让你转行做算法工程师,而是帮你在模型选型、功能设计、成本估算这三大核心决策环节,不用再依赖别人解读翻译,自己就能独立判断。

本文整理了20个P0级别的大模型基础核心概念,全部是日常工作高频用到的内容。

内容按照理解优先级排序,只聚焦大模型本体知识,不涉及Agent架构、知识库、工具调用这类应用层内容。全程不讲复杂数学公式,不用死记硬背专业定义,只分享产品工作能用得上的实操干货。

01 模型的分类

很多产品经理规划AI功能时,第一反应都是直接调用大模型API就行。但真正到了技术评审环节就会发现,文字、图片、语音、视频的处理,对应的是完全不同的模型。

大模型能够处理的信息类型,我们称之为模态。不同模态对应不同模型,这是AI产品选型的基础起点。

LLM也就是纯文本语言模型,只支持文本输入、文本输出,我们日常调用的绝大多数产品API,比如GPT-5.4对话、Claude问答,都属于这类模型。

多模态模型可以同时处理文本和图片,部分还支持视频、音频输入输出,像GPT-5.4、Gemini 3.1、Claude 4.6 Sonnet都属于多模态模型。

如果产品需要识别图片内容、分析截图、处理扫描文档,必须调用多模态模型,纯文本LLM是无法识别图片的。

文生图模型只接收文本输入、输出图片,Stable Diffusion、D

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询