Appearance
AI 解决方案学习指南
开班综述:启航 AI 探索之旅
欢迎加入崔超老师主讲的 AI 解决方案课程!我们正处在 AI 技术发展的“陡峭期”,新技术、新模型层出不穷,深刻影响着各行各业。本课程将带您深入 AI 的世界,理解其核心,掌握其应用。
讲师介绍:崔超
- 背景与成就:Banana Research 创始人,前知乎教育业务 VSI 事业部负责人。在商业化、融资(单笔超 5 亿人民币)、团队管理(400 人研发团队,2000 人业务团队)方面经验丰富。入选福布斯中国 30 岁以下精英榜。
- 学术与技术实力:毕业于北航数学系,数学竞赛冠军,NOI 竞赛保送,ACM 亚洲区铜牌。国内最早一批使用 NVIDIA 显卡和 CUDA 进行并行计算的研究员。曾任三星综合技术研究院最年轻的算法工程师,在计算机视觉(CV)方向设计出世界排名第一的算法。
- 教学角色:本课程所有直播授课、直播间答疑、微信群答疑均由崔超老师亲自负责。
课程核心理念与目标
- 面向广泛学员:即使您没有编程基础(课程中 80% 学员不写代码),也能理解 AI 核心技术,掌握 AI 应用设计与实践。
- 超越“怎么做”,理解“为什么能做” :不仅教授应用技能,更深入剖析底层原理,帮您建立 AI 时代的全局视野和解决问题的能力。
- 实践与认知并重:强调动手实操,提升认知,而非单纯的知识传递。
课程整体结构
本课程主要包含五种类型的课程模块,旨在提供全面而深入的学习体验:
- 应用技术课:学习 AI 应用的核心技术和工具。
- Demo 解析课:通过详细的案例演示和步骤拆解,强化实操能力。
- 行业案例课:分析 AI 在不同行业的真实应用,培养方案设计和迁移能力。
- 原理课:深入浅出讲解 AI 的底层逻辑和核心模型。
- 追新直播课:每月解读最新的 AI 技术进展、模型和论文,保持知识前沿。
学习方法建议
勤动手搜索基础名词:课程会聚焦核心和深度内容,基础名词(如“RAG 是什么”)建议学员自行搜索理解,以节省课堂时间。
积极参与答疑:利用好直播间和微信群的答疑机会。
保持“似懂非懂”的耐心:尤其对于原理课,允许自己在一个阶段内“似懂非懂”,通过反复学习和实践,往往会在某个时刻“顿悟”。崔超老师分享自己学习 Transformer 也花费了半年多时间。
重视实践:
- 复现 Demo:至少从零开始完整复现 3 个课程 Demo。
- 创建自己的 Agent/Demo:无论场景多小,结合自己的工作或兴趣,动手做一个属于自己的 AI 应用,并找几位同事或朋友试用,收集反馈。这个过程的成长将非常显著。
应用技术课模块
01 Prompt 工程 & Coze 平台调试
课程核心:掌握与 AI 模型沟通的基石——Prompt 工程,并学会在 Coze 平台上进行应用调试。
Prompt 工程:与 AI 对话的艺术
核心概念:Prompt(提示/指令)是用户与所有 AI 模型(语言、视觉、音视频生成等)交互的唯一桥梁。无论企业级应用多么复杂,最终与底层模型交互都离不开 Prompt。
重要性:精心设计的 Prompt 能引导模型更准确、高效地完成任务。
关键技术与用法 (参考模块一,第 1 点) :
- 基础技巧:清晰、简洁、明确。
- 角色扮演 (Role Prompting)
- 零样本提示 (Zero-shot Prompting)
- 少样本提示 (Few-shot Prompting)
- 思维链 (Chain-of-Thought, CoT)
- 自洽性 (Self-Consistency)
- 思维树 (Tree-of-Thoughts, ToT)
- ReAct (Reason + Act)
- 结构化 Prompt (如 JSON, XML)
Coze 平台介绍与调试入门
Coze 平台:字节跳动出品的 Agent 制作平台,主要用于本课程的实操。
选择原因:插件丰富,迭代速度快,与课程方有合作。
版本:
- 国内版 (coze.cn) :使用豆包、通义千问、DeepSeek、Kimi 等国内模型,无需翻墙。课程 Team 空间内操作消耗课程方额度。
- 海外版 (coze.com) :使用 GPT 系列、Gemini、Claude 等国际模型,通常需翻墙。部分操作可能消耗用户个人额度(专业版可付费获取更多额度)。
主要功能:创建 Bot、Workflow、Knowledge Base、Database、Plugin 等。
平台调试:课程将指导如何在 Coze 平台上创建、配置和调试 AI 应用。
学习资源:将提供 Coze 操作的录播课。Team 空间链接将在开课后(本周四开始)提供,建议提前注册 Coze 账号。
02 利用 Agent 技术让 AI 像人一样拆解任务并逐一完成
课程核心:理解 AI Agent 的构建理念与核心组件,学习如何让 AI 具备自主拆解和执行复杂任务的能力。
AI Agent 深度解析
核心概念:AI Agent 是具备一定自主性,能感知环境、决策并执行动作以达成目标的 AI 应用。课程中倾向使用“Agent”而非“智能体”,以区别于简单的角色扮演式陪聊 AI。
关键组成与能力:
- 工作流 (Workflow) :定义任务执行的步骤和逻辑。
- 记忆 (Memory) :赋予 Agent 短期和长期记忆。
- 工具使用 (Tool Use) :通过 Function Calling 等机制调用外部 API 或工具。
- 规划 (Planning) :将复杂任务分解为子任务并制定计划。
- 整合能力:与私有知识库/数据库、企业现有系统(CRM, ERP)的配合。
主流框架 (参考模块一,第 2 点) :LangChain, AutoGen, CrewAI, LlamaIndex。
Coze 平台 Agent 构建实战
课程将通过 Coze 平台,从零开始完整构建一个 Agent。
示例 Demo:自动化文件处理 Agent (模拟 AutoGPT)
- 场景:老板在飞书/钉钉等平台询问季度数据或 PPT 规划,需要翻找多个文件才能回复。
- Agent 能力:接收老板问题和相关文件,自动在各文件中查找、分析、理解不同格式内容(表格、PPT),并汇总答案回复。
- 实现:在 Coze 上构建,可一键发布到钉钉、飞书等平台。
03 Function Calling & RAG 基础
课程核心:掌握两大关键技术——Function Calling(使模型能使用工具)和 RAG(使模型能利用外部知识)。
Function Calling:赋予 AI 使用工具的能力
- 核心概念:一种让 LLM 能更可靠地连接和调用外部工具、API 的机制。模型能决策调用哪个函数,并生成符合格式的 JSON 参数。
- 重要性:“人类因使用工具而文明,AI 因使用工具而强大。” 极大扩展了 LLM 的应用边界。
- 工作流程 (参考模块一,第 3 点) :定义函数 -> 模型决策 -> 生成参数 -> 执行函数 -> 结果反馈 -> 模型总结。
- 应用:是 AI Agent 实现工具使用的核心。
RAG (Retrieval Augmented Generation) 基础
核心概念:检索增强生成。在模型生成回答前,先从外部知识库检索相关信息作为上下文,以生成更准确、相关的回答。即“先搜索,再增强生成”。
重要性与优势:
- 解决知识截止问题,接入最新知识。
- 提高事实准确性,减少“幻觉”。
- 核心应用:利用企业私有知识。这是目前应用最广泛的应用层技术。
- 提供可解释性与溯源。
- 部分替代模型微调:在许多场景下,尤其需频繁更新知识或针对特定文档问答时,RAG 成本更低、速度更快。
基础 RAG 流程 (参考模块一,第 4 点) :文档加载 -> 切块 -> 向量化 -> 索引 -> 查询向量化 -> 相似度检索 -> 上下文注入 LLM 生成。
04 RAG 多样使用方法及处理技巧
课程核心:深入探讨 RAG 的进阶技术、多样化应用场景和调优技巧。
RAG 的深度与广度
“一入 RAG 深似海” :上手简单(一天可搭建私有知识库),但效果调优过程复杂,需要不断实验和优化。
应用广泛:客服、对话助手等大量应用的核心。
衍生技术:Graph RAG 等多种变体。
高级 RAG 技术 (参考模块一,第 4 点) :
- 切块策略优化:递归字符分割, 语义切块, 句子窗口, 父文档/小块到大块。
- 查询转换:HyDE, 自查询。
- 重排 (Re-ranking) 。
- 图 RAG (Graph RAG) 。
- 融合检索 (Hybrid Search) 。
- 迭代 RAG / 自我修正 RAG。
- RAG 评估 (Ragas 等框架)。
RAG 实战考量
- 数据质量是关键:直接影响检索和生成效果。
- 调优环节多:从数据预处理、切块、Embedding 模型选择到检索策略、Prompt 设计等都需要细致调整。
- 与 Function Calling 结合:RAG 本身也可以看作是一种特殊的“工具”,可以被 Agent 通过 Function Calling 调用。
Demo 解析课模块
课程核心:通过整晚围绕一个具体 Demo 进行超详细操作步骤讲解,强化动手能力。Demo 解析课属于“加课”,不在初始课表内,会随应用技术课和行业案例课的进度解锁(直播或录播)。
Demo 解析课特点
深度实操:一个晚上只讲一个 Demo,步骤极其细致。
版本提供:
- 所有 Demo 均提供 Coze 平台版本(在线实操,提供加入链接)。
- 约 30% 的 Demo 会额外提供 Python 代码版本,满足工程师学员需求。
总计约 10-20 个 Demo,难度不一。
设备要求:有浏览器能上网即可。
典型 Demo 案例
自动化文件处理 Agent (模拟 AutoGPT) :(已在 02 章介绍)
- 核心能力:自主文件检索、多格式理解、信息汇总。
- 技术栈:Coze 平台,可能涉及 ReAct 架构思想。
金融行业 AI 助手“支小助” (投研 AI) :
- 场景:模拟投资研究场景,提供信息查询、数据分析、报告辅助等功能。
- (在开班典礼中提及,具体细节将在 Demo 课中展开)
自动化市场调研助手:
场景:老板布置调研任务(如“调研男性用户对新能源车的消费偏好变化”)。
Agent 全流程自动化能力:
- 资料搜集:自动上网搜索相关资料。
- 信息整合:对搜集资料进行初步处理。
- 用户画像解析:自动分析调研目标的用户画像。
- SQL 语句生成:基于画像撰写 SQL,用于从公司数据库筛选用户。
- 用户筛选:连接数据平台,执行 SQL,获取符合画像的用户联系方式(手机、邮箱)。
- 问卷设计:基于调研目标和搜集信息,自动生成调研问卷。
- 问卷创建与链接生成:调用外部表单工具(如 Google Forms)创建问卷并获取分享链接。
- 问卷投放:通过短信、邮件等方式将问卷链接自动推送给筛选出的用户。
- 数据监控与回收:定期(如每日早上 8 点)检查问卷后台,监控回收数量。
- 报告生成:问卷数据回收达到一定量后,自动导出数据并生成初步调研报告。
实现:在 Coze 平台上完整实现,涉及多种应用技术的综合运用。
注意:此方案并非 RPA,而是基于大语言模型的自主决策能力。
Demo 学习建议
- 独立复现:不要看着老师做好的 Demo 复制,尝试自己理解后从零复现,至少完成 3 个。
- 个性化实践:结合自己的工作或兴趣,找到一个真实场景(无论多小),开发一个属于自己的 Demo,并找 3-5 个同事或朋友试用,收集反馈。这个过程的成长价值巨大,遇到问题也可在群内提问。
行业案例课模块 (共 9 节,含 1 节综述,8 节行业细分)
课程核心:通过剖析 AI 在不同行业的应用案例,理解 AI 的实际价值,培养“融会贯通”能力,将解决方案从一个领域迁移到另一个领域。 “见多识广,内化 AI 解决问题的思路,比仅仅了解自己所在行业的应用更为重要。”
05 大模型与各垂直行业综述
- 内容:鸟瞰式介绍大模型在各个主要垂直行业的当前落地情况、主流应用方向、面临的挑战与机遇,以及 Gap 分析。
- 目标:为后续分行业案例学习建立宏观认知框架。
06 行业案例课 - 医疗行业
核心案例:在线问诊 (合作伙伴:成都“医联”的“未来医生”产品)
- 已上线功能:基于大模型的在线问诊,30 秒快速响应。
- 深层能力 (部分待审批) :确诊、开检查单、解读报告、开处方、在线购药。
- 交互核心:通过多轮追问(槽位填充)明确症状细节(如肚子疼 3-4 天,会追问疼痛类型、位置、强度等)。
- 学习点:理解其背后的大模型应用、对话系统设计、医疗知识整合。
其他应用方向:AI 辅助诊断(影像分析、病理分析)、药物研发、个性化治疗、手术机器人等。
共通性思考:在线问诊的交互逻辑与 HR 领域的 AI 面试产品有何相似之处?
07 行业案例课 - 电商及零售行业
核心案例:AI 生成商品视频 (合作伙伴:FancyTech)
- 行业痛点:大量商品(约 95%)缺乏专业拍摄视频,影响流量。
- 解决方案:利用 AI 为这些商品生成展示视频。
- 技术实现:并非单一 Sora 类模型生成,更多是应用层与模型层技术结合,通过多场景智能拼接、动态效果添加等方式,快速生成对商家有用的视频。
其他 AI 应用:超个性化推荐、AIGC 营销(商品描述、广告素材)、智能客服与导购、视觉搜索、动态定价、供应链优化、虚拟试穿/试用。
共通性思考:电商的推荐算法与内容推荐、金融产品推荐的关联?AI 客服的经验如何用于其他服务场景?
08 行业案例课 - 教育行业
核心场景:拍照搜题与知识点讲解视频匹配
- 用户需求:看书遇到难题,拍照即可检索到相关知识点的不同老师的讲解视频。
- 技术拆解:图像解析(题目识别、知识点提取) -> 语义理解 -> 视频内容与题目知识点匹配算法 -> 视频检索与推荐。
其他应用场景:个性化学习路径、AI 智能导师、自动化评估与反馈、智能内容生成(练习题、课件)、语言学习与口语练习、学习分析与预警。
共通性思考:教育场景的知识图谱构建、个性化推荐与电商、内容平台的技术内核有何异同?
09 行业案例课 - 泛娱乐
核心案例 1:高质量声纹模拟 (如哈利波特声音)
- 技术痛点:现有开放平台(百度、讯飞)接口效果常不佳,难以完美模拟特定人物声音。
- 解决方案:采用更先进的模型和技术,如 Flow Matching。课程将讲解 Flow Matching 是什么,为何它能实现更逼真的声音模拟。
- 应用:有声读物、虚拟主播、游戏配音、个性化语音助手。
核心案例 2:AI 驱动的经营类游戏
- 特点:玩家与 NPC 的对话完全由 AI 驱动,玩家的对话内容和选择会真实影响游戏进程(如晋升、销售业绩、竞聘店长成败等)。
- 学习点:对话系统设计、剧情逻辑与 AI 的结合、动态游戏体验生成。
其他应用:AI 生成图像/视频/音乐、AI 辅助剧本创作、AI 3D 内容生成。
10 行业案例课 - 人力资源
核心应用:AI 面试产品
- 功能:AI 作为面试官,与候选人进行多轮对话,评估其能力和岗位匹配度。
- 技术关联:其对话逻辑、问题生成、候选人回答理解与评估,可能与医疗在线问诊的某些技术有共通之处。
其他应用:简历智能筛选与解析、人才画像构建、智能招聘推荐、员工培训与发展。
11 行业案例课 - 法律行业
核心应用:智能合同审查、法律咨询助手、案例检索与分析
- 挑战:法律文本的严谨性、专业性要求高。
- AI 能力:理解复杂法律条文、识别合同风险点、根据用户问题提供初步法律意见、快速从大量判例中找到相关信息。
其他应用:法律文书自动生成、证据分析、庭审辅助。
12 行业案例课 - 在线客服与在线销售
核心应用:智能客服机器人、AI 销售助手
- 能力:7x24 小时响应客户咨询、处理常见问题、辅助销售人员进行客户跟进和产品推荐、生成个性化销售话术。
- 技术基础:强大的 NLU(自然语言理解)、对话管理、知识库(RAG)、用户画像分析。
与 RAG 的紧密结合:在线客服/销售场景是 RAG 技术应用最广泛的领域之一。
13 行业案例课 - 企业搜索与企业办公
核心应用:企业内部智能搜索引擎、AI 办公助手
- 企业搜索:整合企业内部各类文档、数据、系统信息,提供比传统关键词搜索更智能、更精准的问答式搜索体验(基于 RAG)。
- AI 办公助手:会议纪要自动生成、邮件自动撰写与分类、任务管理与提醒、文档创作辅助。
案例:自动化文件处理 Agent (模拟 AutoGPT) (见 02 章及 Demo 解析课) 可视为企业办公场景的典型应用。
行业案例课学习方法:
- 演示与讲解结合:课程会演示实际应用,讲解实现逻辑与原理,指导数据准备和测试验证。
- 关键功能 Demo 化:部分核心功能会做成 Demo 供学员实践。
- 培养迁移能力:重点理解不同行业案例背后的共通技术和解决思路,尝试将学到的方案应用到自己的工作场景中。
原理课模块 (共 11 节)
课程核心:用通俗易懂的方式(尽量基于初高中数学知识)讲解 AI 的底层原理。 “原理课非常自信,是全中国范围内讲得最通俗易懂的。一节课可能覆盖 AI 专业研究生半学期的内容。” 学习原理课需要耐心,允许自己“似懂非懂”,通过反复学习和实践,最终会“顿悟”。
14 原理课 - 语言模型训练范式
核心内容:对比讲解 GPT 系列(OpenAI)和 Llama 系列(开源代表)的语言模型训练流程和关键技术。
- GPT 范式:预训练 (Pre-training) -> 监督微调 (SFT, Supervised Fine-Tuning) -> 奖励模型 (Reward Model, RM) -> PPO 强化学习 (Proximal Policy Optimization for RLHF)。
- Llama 范式:预训练 -> (可能包含)奖励模型 -> (特色技术) Rejection Sampling, 直接偏好优化 (DPO, Direct Preference Optimization), SFT。
关键术语攻克:SFT, PPO, DPO 等名词初看可能令人生畏,但坚持学习一个月左右即可熟悉。
学习建议:理解预训练、微调、对齐这三大支柱。
15 原理课 - 探索神经网络的奥秘
核心内容:讲解神经网络如何模拟人类大脑学习,以及模型训练的本质。
- 数学基础:主要使用初中/高中数学知识(如向量、坐标、简单函数),不涉及复杂高数。
- 关键概念:神经元、权重、偏置、激活函数、损失函数、反向传播、梯度下降。
教学案例:
- 神经网络如何识别手写数字(0-9)。
- 通过特定卷积核(参数)实现图像边缘提取。
- 鳄鱼与蛇的分类问题。
目标:让学员理解模型是如何“学习”和“训练”的。
16-17 原理课 - 揭秘 Transformer 的真面目 (分两讲)
核心地位:Transformer 架构是现代 AI(尤其是 LLM、视觉大模型如 Sora 等)的绝对基石。 “这门课重中之重,值得听五遍,可能值一半学费。学懂 Transformer 才能理解 Sora。”
核心机制:
自注意力机制 (Self-Attention) :核心,让模型判断序列中各元素对当前元素的重要性。
多头注意力 (Multi-Head Attention) :并行运行多个自注意力头,捕捉更丰富信息。
位置编码 (Positional Encoding) :引入序列中元素的位置信息。
编码器-解码器架构 (Encoder-Decoder Architecture) :
- 编码器 (Encoder):处理输入序列,生成上下文表示。
- 解码器 (Decoder):根据编码器输出和已生成内容,生成目标序列。
架构变体:仅编码器架构 (Encoder-Only, 如 BERT),仅解码器架构 (Decoder-Only, 如 GPT)。
其他组件:前馈神经网络 (Feed-Forward Networks),层归一化 (Layer Normalization),残差连接 (Residual Connections)。
关键流程 (简化) :Tokenization -> Embedding -> Positional Encoding -> Encoder (多层自注意、前馈) -> Decoder (多层掩码自注意、交叉注意、前馈) -> Linear & Softmax。
最新进展:Transformer 仍在演进,如 DeepSeek V3 及最新论文中的 NSA(某种注意力变体)。
18 原理课 - Fine-tuning 微调艺术
核心概念:在预训练模型基础上,用特定任务/领域数据进行二次训练,以适应特定需求。
为何微调:领域适应、任务适应、性能提升。
关键方法:
- 全量微调 (Full Fine-tuning) 。
- 参数高效微调 (PEFT) :Adapter Tuning, LoRA (Low-Rank Adaptation) (非常流行,QLoRA 是其量化版), Prompt Tuning (P-Tuning, Prefix-Tuning)。
实操核心:
- 对于非程序员,直接实操微调门槛高。
- 数据准备是关键:课程重点教授如何为微调准备高质量、相关的数据。微调代码本身可能仅几百行。
数学要求:初中数学即可理解基本概念。
19 原理课 - 从 GPT 到 GPT4 的华丽升级
核心内容:以 GPT 系列模型的发展为例,开始带学员学习如何阅读 AI 领域的学术论文。
论文阅读技巧:
- 关注摘要、引言、结论、图表。
- “读不懂通常不重要”(在掌握基础原理后)。
- 允许跳过过于技术性的细节,或借助 GPT 等工具辅助理解。
- 重点领会论文的核心思想、创新点和贡献,而非死磕数学推导。
学习心态:允许“似懂非懂”,通过反复和实践逐渐领悟。
20 原理课 - GPU 的必备知识点
核心内容:讲解驱动 AI 发展的核心硬件——GPU,以及相关生态。
- GPU vs. CPU:GPU 的并行计算特性使其适合深度学习。
- NVIDIA 与 CUDA:英伟达的市场地位,CUDA 并行计算平台的核心作用。
- 硬件选择考量:租用云服务 vs. 自建集群/买卡。
- 芯片制造基础:光刻机原理、芯片制造流程。
- 国产芯片差距:分析 NVIDIA 的技术壁垒和生态系统,为何国产替代难。
课程价值:开拓视野,了解行业必备知识,在讨论硬件方案时具备基本认知。工作直接用到可能不多,但属于常识。
视觉与多模态 AI 原理 (原理课的延伸)
(这部分内容在原理课的 PDF 笔记中有提及,整合在此)
发展脉络:
- CNN (卷积神经网络) :曾统治计算机视觉十年 (AlexNet, VGG, ResNet)。
- Vision Transformer (ViT) :将 Transformer 成功用于视觉任务,打破 CNN 垄断。Swin Transformer 是其改进。
关键技术与模型:
- CLIP (Contrastive Language-Image Pre-training) :打通视觉与语言模态的里程碑,很多多模态模型的基础。核心依然是 Transformer。
- VILT (Vision-and-Language Transformer) :端到端多模态 Transformer。
- Diffusion Models (扩散模型) :强大的图像/视频生成模型 (DALL-E 2/3, Imagen, Stable Diffusion)。
- MAE (Masked Autoencoders) :自监督学习,学习图像有效表示。
- Sora 等视频生成模型:底层大量借鉴 Transformer (如 DIT - Diffusion Transformer) 和 Diffusion 思想。
- VIVIT (Video Vision Transformer) 。
应用:文生图/图生文、视觉问答(VQA)、视频理解与生成、3D 内容生成、人脸识别、精密零件检测、无人驾驶。
核心启示:Transformer 无处不在。理解 Transformer 对于理解现代视觉和多模态 AI 至关重要。
追新直播课模块
课程核心:每月一次,解读 AI 领域的最新技术进展、重要模型发布和关键学术论文,帮助学员保持知识前沿。此模块也属于“加课”,具体时间会在群内通知。
追新课特点与内容示例
时效性强:紧跟当月热点。学员常“催更”老师解读新内容。
内容驱动:根据 AI 领域实际发生的新突破来定主题,无法完全按学员学习节奏。初学者可能需要结合已学原理课内容才能完全听懂。
讲法风格:依然力求通俗易懂,但内容本身可能较前沿。
往期案例:
- Meta 视觉模型的人体识别技术:识别身体关节、不同部位着色,理解其原理和应用边界,避免不切实际的需求设计。
- 智谱 AI 的 CogAgent:能操作电脑和手机的智能体(如自动点咖啡、给老板朋友圈点赞评论“深有启发”),向 RPA 领域拓展。
- DeepMind 的 AlphaFold(蛋白质结构预测)。
- DeepSeek R1 模型原理(本周末加课内容)。
- 马斯克 Grok 3(如果发布论文,大概率会解读)。
“技术陡峭期”的学习策略
崔超老师反复强调,我们正处在 AI 技术发展的“陡峭期”:
特征:模型能力快速迭代,应用场景不断涌现(三个月前做不了的,现在可能就能做了),知识更新极快。
对从业者的要求:
- 业务/产品/运营人员:也必须了解模型层知识和能力边界,才能提出合理需求,抓住机会,否则容易被视为“门外汉”。
- 技术人员:需不断学习新技术栈。
高回报率:此阶段个人努力学习和实践的“投产比”非常高,先发优势明显。
与成熟期对比:成熟期技术迭代减缓,分工细化,大公司流程规范,可能更“卷”资历、背景而非纯粹的学习能力和见识。
当前启示:拥抱变化,保持好奇心,积极学习实践。 “在这个阶段是你自己使劲儿真有用的。” 至少未来一两年,多模态领域仍有巨大发展。
结语:在 AI 浪潮中共同成长
本课程致力于为您提供一个系统、深入、与时俱进的 AI 学习平台。通过理论与实践的紧密结合,案例与原理的相互印证,希望能帮助您构建坚实的 AI 知识体系,提升在 AI 时代的洞察力与竞争力。
学习 AI 是一个持续探索的过程。祝您学习愉快,收获满满,与我们一同在 AI 的“陡峭期”乘风破浪!
3. 索尼 PS5 vs Switch 店员助手 (演示:Zero-shot, One-shot, Few-shot Prompting 的威力)
场景设定:一位母亲在索尼电器店为孩子挑选游戏机作为礼物,她正在比较任天堂 Switch 和索尼 PS5,并向店员(AI 助手)发出了一个典型的购买疑虑:“感觉价格方面,Switch 的性价比好像更高一些,PS5 要贵不少吧?”
System Prompt 基础设定:“你是一名索尼门店的资深游戏销售顾问。当顾客将 PS5 与 Switch 进行比较并提及价格时,你的核心任务是清晰、有说服力地向顾客阐释 PS5 的独特价值和高端定位,找到让顾客可能最终选择购买 PS5 的理由。你的回复需要口语化,言简意赅,总字数不要超过 300 字。”
第一种情况:Zero-shot (不提供任何回答样例)
- 模型可能产生的回答(示例) :“是的,PS5 的价格确实比 Switch 要高一些。但 PS5 拥有更强大的硬件性能,支持 4K 超高清画质,加载速度更快,还有许多独占的 3A 大作游戏。手柄也采用了先进的自适应扳机和触觉反馈技术,能带来更沉浸的游戏体验。从长远来看,如果您追求顶级的游戏画质和体验,PS5 可能是更划算的选择。”
- 评价:这样的回答虽然包含了一些事实,但显得非常平庸,缺乏专业的销售技巧和针对性的说服策略。
第二种情况:Few-shot (在 System Prompt 中提供多个优秀的回答样例)
优秀销售策略分析(由业务专家提炼) :面对顾客提出的竞品比较,尤其是价格敏感的比较,一个优秀的销售策略不是直接反驳或硬性推销,而是首先进行“区隔定位 (Differentiation) ”,强调两款产品针对的是不同的用户需求和使用场景,本质上不具直接可比性。
- 步骤 1:认可并巧妙转折:先部分认可顾客的观点(“是的,Switch 在价格上确实有优势,而且它的便携性非常好,可以随时随地玩。”)
- 步骤 2:指出竞品的“可替代性” :然后巧妙地指出其核心优势(便携性)在当前市场环境下的可替代性(“不过,作为便携游戏设备,我们现在常用的智能手机和平板电脑其实也能提供非常丰富的游戏选择,甚至在游戏数量和类型上远超 Switch。从这个角度看,Switch 的便携游戏体验在一定程度上是可以被手机或 Pad 替代的。”)
- 步骤 3:强调自身产品的独特性和不可替代性:最后,将话题拉回到自家产品,并强调其独特的、竞品难以企及的核心价值(“而 PS5 则完全是为另一种体验而设计的。它专注于提供极致的家庭客厅娱乐体验,无论是震撼的 4K HDR 画面、光线追踪带来的逼真视效,还是那些只有在 PS5 平台上才能玩到的独占大作,这些都是追求顶级沉浸式游戏体验的玩家所看重的。可以说,PS5 是现代家庭娱乐中心的一个重要组成部分,它带来的那种大屏幕、高性能的震撼体验,是手机、Pad 乃至 Switch 都无法替代的。”)
在 System Prompt 中加入样例:将上述这类由业务专家提炼或实际销售精英使用过的优秀回答话术,作为明确的“样例”添加到 System Prompt 中。例如:“请参考以下这些优秀回答的思路和表达方式:\n[样例 1]:‘您说得对,Switch 在便携性和价格上确实很有吸引力...然而 PS5 的定位是...’\n[样例 2]:‘我理解您的考虑。Switch 主打随时随地的乐趣...而 PS5 则致力于打造家庭的顶级娱乐中心...’\n[样例 3]:‘很多顾客在比较这两款产品时都会有类似的想法。我们可以这样看:Switch 的优势在于...但它的可替代性在于...;PS5 的价值则体现在...这是其他设备无法给予的...’” (样例可以是不同风格、不同侧重点的优秀话术)
模型效果:当提供了这些高质量的 Few-shot 样例后,模型生成的回答质量会得到显著提升。它会尝试模仿样例中的核心论点、论证逻辑和表达风格。例如,模型可能会开始提到“产品定位不同”、“手机在一定程度上可以替代 Switch 的便携游戏功能”、“PS5 提供的是极致的客厅游戏体验”等关键信息。
Few-shot 前后效果对比(概念性) :
- Zero-shot 输出可能: "PS5 贵,但画面好,游戏多。Switch 便宜,方便带。"
- Few-shot 输出可能: "我理解您对价格的关注。Switch 的便携性确实很棒,随时随地都能玩。不过,如果考虑到在家里享受顶级的游戏画质和沉浸感,PS5 凭借其强大的性能和独占大作,能提供完全不同的客厅娱乐体验。而且,手机游戏的丰富也让 Switch 的便携优势面临一些替代性。您更看重哪方面的体验呢?"
第三种情况:One-shot (在 System Prompt 中仅提供一个回答样例)
- 模型效果:相比 Few-shot,当只提供一个样例时,模型表现的稳定性和对复杂策略的把握能力可能会有所下降。它可能更容易遗漏一些关键的论证点,或者生成的回答不如 Few-shot 时那样全面和有说服力。
关于模型回复的概率性与不稳定性:
- 核心认知:所有大型语言模型本质上都是概率模型 (Probabilistic Models) 。这意味着即使在完全相同的输入 Prompt 下(包括 System Prompt 和 User Prompt),模型每次生成的具体回复也可能存在一定的随机性和差异性(除非将模型的“温度”等参数设置为 0,但这通常不推荐,因为它会扼杀模型的创造性)。
- Few-shot 的意义:提供 Few-shot 样例可以极大地提高模型生成符合期望回复的“概率”,但不能 100% 保证每一次输出都完美无瑕。
- 务实看待不确定性:在评估是否用 AI 替代真人时,需要务实地看待这种不确定性。如果一个 AI 系统能在 85% 的情况下给出令人满意的回复,但在 15% 的情况下给出不好的回复,决策者需要权衡:这 85% 的成功所带来的收益(例如,节省了多少人力成本、提高了多少效率)是否能够覆盖那 15% 的失败所造成的损失(例如,可能导致多少客户不满、造成多少潜在的商业风险)。对于那些对准确性和一致性要求极高的场景(例如金融交易决策、医疗核心诊断等),这种程度的不确定性可能是不可接受的。
2. API 调用简介:商业级 AI 应用的实现路径
虽然本课程的实操主要在 Coze 这样的低代码平台上进行,但理解商业级 AI 应用是如何通过 API 与模型交互的,对于拓宽视野和未来可能的深度开发非常重要。
典型架构:
- 用户前端 (Frontend) :用户直接交互的界面,可以是网页应用、手机 App、小程序、桌面软件等。
- 应用后端 (Backend) :由程序员编写的服务器端代码(常用语言如 Python, Java, Node.js, Go 等)。它负责处理前端发来的用户请求、执行业务逻辑、管理数据等。
- AI 模型服务 (AI Model Service) :通常以 API 的形式提供,可以是 OpenAI、百度智能云、阿里云等云服务商提供的公有云模型 API,也可以是企业私有化部署的模型 API。
交互流程(简化版) :
用户在前端界面进行操作(如输入问题、点击按钮)。
前端将用户的请求发送给应用后端。
应用后端根据业务逻辑,动态地构建或组装一个完整的 Prompt。这个 Prompt 可能包含:
- 从 System Prompt 模板库中读取的通用指令。
- 用户本次输入的具体问题 (User Prompt)。
- 从数据库或外部系统中实时查询到的相关参考资料 (RAG 流程的一部分)。
- 根据用户画像或对话历史动态选择的样例 (Few-shots)。
应用后端通过调用 AI 模型服务的 API 接口,将这个精心构建的 Prompt 发送给指定的 AI 模型。
AI 模型处理 Prompt,并生成回复。
模型 API 将生成的回复返回给应用后端。
应用后端可能需要对模型的原始回复进行后处理,例如:
- 内容安全过滤。
- 格式转换(如将模型的文本回复转换为前端需要的 JSON 格式)。
- 执行我们之前讨论的“AI 打分与重生成”机制:如果模型一次回复的质量分较低,后端可以决定不立即返回给前端,而是让模型重新生成,直到获得满意的回复。
- 与业务逻辑的进一步整合。
应用后端最终将处理好的结果返回给前端界面,呈现给用户。
Coze 平台与 API 调用的关系:
- Coze 平台实际上为我们封装和简化了上述复杂的 API 调用和后端逻辑处理过程。当我们在 Coze 上创建和调试 Agent 时,Coze 的后台服务在帮我们处理与底层模型的 API 交互。
- 在 Coze 上通过反复调试和优化所得到的有效的 Prompt 设计(包括 System Prompt、User Prompt 的组织方式、参考资料和样例的选择等),以及成功的工作流(Workflow)逻辑,这些都可以被视为宝贵的“Know-how”和经验。
- 这些经过验证的“Know-how”可以被整理成详细的需求文档和设计文档,交付给专业的软件工程师团队。工程师们再依据这些文档,使用编程语言和相应的技术栈(如 Python + LangChain + FastAPI 等),通过直接调用模型 API 的方式,来构建出更稳定、更可控、更具扩展性的商业级或企业级 AI 应用。
四、本节课总结与后续学习
1. 核心知识点回顾
Prompt 的定义与核心地位:它是与 AI 模型交互的唯一方式,应用层工作的核心是构建合适的 Prompt。
Prompt 的分类:System Prompt(全局人设与指令)与 User Prompt(用户即时输入与对话历史);内容结构上包含参考资料、样例、指令。
In-Context Learning (ICL) :通过在 Prompt 中提供上下文信息来引导模型,无需改变模型参数。
K 窗口宽度 (Context Window Size) :模型能处理的 Prompt 字数上限,影响信息容量。
Coze 平台实操演示:
- 知乎财报解读:演示了参考资料对克服知识截止、提升事实性的作用。
- 医疗分诊助手:演示了角色设定、指令、参考资料、约束条件的综合应用,以及简单的语音交互集成。
- 索尼 PS5 销售助手:清晰展示了 Zero-shot, One-shot, Few-shot 对模型输出质量的显著影响,以及模型输出的概率性。
AI 产品效果评测与管理框架(本节课最重要内容!) :一套贯穿 AI 产品全生命周期的,用于模型选型、测试评估、性能追踪和迭代优化的科学方法论。步骤包括:梳理场景与测试用例 -> 共创优秀回答样例 -> 制定结构化打分标准 -> 利用 AI 自动化打分 -> 构建性能评估表 -> 应用于决策与优化。
其他 Prompt 技巧:内容解析型任务(如零售对话分析,提取结构化信息),Prompt 中的限制条件(如滴滴计费助手,防止信息泄露),以及 Function Calling 的初步概念(让模型调用外部工具)。
Prompt 编写核心原则:“把 AI 当成一个真人的实习生”来对待,指令要清晰、具体、详尽。
API 调用简介:商业级 AI 应用通常通过后端代码调用模型 API 实现,Coze 平台是对这一过程的封装。
2. 课后实践建议
- 务必加入课程提供的 Coze Team 空间,亲自动手体验和复现今天课程中演示的所有 Demo。
- 积极尝试修改 Demo 中的 Prompt:改变角色设定、调整指令细节、增删参考资料或样例,观察模型反应的变化,加深对 Prompt 作用的理解。
- 思考并实践个性化场景:结合自己的工作内容或个人兴趣点,构思一个简单的 AI 应用场景。尝试使用今天学到的 Prompt 技巧,在 Coze 上搭建一个初步的 Agent,并思考如何运用“AI 产品效果评测与管理框架”来评估和迭代它。哪怕只是一个小小的尝试,带来的学习收获也会非常大。
3. 后续课程展望
- 应用技术深化:接下来的课程将深入学习更高级的 AI 应用技术,如 Agent 的详细构建(包括工作流 Workflow、记忆 Memory、插件 Plugins 等)、Function Calling 的原理与实战、RAG(检索增强生成)的多种实现方式与优化技巧等。
- 原理知识支撑:原理课部分将帮助大家理解这些应用技术背后的“为什么”,例如语言模型的训练范式、Transformer 架构的核心机制等,从而能够更深刻地理解 AI 的能力边界,做出更合理的技术选型和应用设计。
希望今天的课程能为您打开 AI 应用的大门,点燃您探索的热情。请记住,AI 领域发展日新月异,持续学习和动手实践是跟上时代步伐、提升个人能力的不二法门。祝您学习愉快,收获满满!