20张图解大模型必备20个核心基础概念全解！-港品优选

很多产品经理做AI产品决策时，都靠模糊的AI能力认知做判断，而非精准摸清大模型的能力边界。

这种认知短板，会引发一系列工作问题：需求文档写到一半，才发现整体方向跑偏；技术选型会上，被算法人员一句话直接否决；功能好不容易上线，才发现成本结构根本没法长期运营。

掌握大模型核心知识，不是为了让你转行做算法工程师，而是帮你在模型选型、功能设计、成本估算这三大核心决策环节，不用再依赖别人解读翻译，自己就能独立判断。

本文整理了20个P0级别的大模型基础核心概念，全部是日常工作高频用到的内容。

内容按照理解优先级排序，只聚焦大模型本体知识，不涉及Agent架构、知识库、工具调用这类应用层内容。全程不讲复杂数学公式，不用死记硬背专业定义，只分享产品工作能用得上的实操干货。

01 模型的分类

很多产品经理规划AI功能时，第一反应都是直接调用大模型API就行。但真正到了技术评审环节就会发现，文字、图片、语音、视频的处理，对应的是完全不同的模型。

大模型能够处理的信息类型，我们称之为模态。不同模态对应不同模型，这是AI产品选型的基础起点。

LLM也就是纯文本语言模型，只支持文本输入、文本输出，我们日常调用的绝大多数产品API，比如GPT-5.4对话、Claude问答，都属于这类模型。

多模态模型可以同时处理文本和图片，部分还支持视频、音频输入输出，像GPT-5.4、Gemini 3.1、Claude 4.6 Sonnet都属于多模态模型。

如果产品需要识别图片内容、分析截图、处理扫描文档，必须调用多模态模型，纯文本LLM是无法识别图片的。

文生图模型只接收文本输入、输出图片，Stable Diffusion、D