0

极客时间训练营-多模态 Agent 开发实战营

ddfvvv
18天前 15

获课地址:xingkeit.top/15757/


2024年秋天,我决定学多模态Agent。

那时候这个词已经火了大半年。朋友圈里搞技术的、不搞技术的,都在聊。ChatGPT会读图了,Gemini能看懂视频了,Claude可以直接扔PDF进去让它自己翻。大厂JD里悄悄加上了“多模态经验优先”,社群里每天有人问:“有没有课,从零开始,真能跑通的那种。”

我找了很久。

市面上的课分两种:一种讲得太深,第一篇论文就是ViT,数学公式占两屏,看三行就想关掉;另一种讲得太浅,教你调现成的API,发几个请求,截个图,标题写着“三小时成为多模态专家”。

前者把我当研究生,后者把我当傻子。

最后报这门实战营,是因为简介里一行字:

“从安装环境到部署上线,跑通一个能对话、能识图、能自己上网查资料的Agent。”

没有“三小时”,没有“专家”,只有“跑通”。

我要的就是跑通。

第一,它没假设我有一张A100。

开营第一课,不写代码。

讲师把屏幕共享,打开几个云服务商的官网,挨个比价。

AutoDL的3090多少钱一小时,恒源云的4090怎么租,Kaggle每周送的免费额度够跑什么规模。他甚至算了一笔账:跟完这门课,把所有作业跑完,GPU租用成本大概在200块钱左右。

“我不希望你因为买不起显卡就不敢入这行,”他说,“这行真正的门槛不是硬件,是动手。”

那节课的评论区有人发了一串“555”,有人说“刚充了五千买了张4060”,还有人说“早看到这节我省两千”。

我没发言。但把那页比价表截图存进了备忘录。

第二,它把“多模态”拆成“单模态相加”。

新手听到“多模态”三个字,第一反应是恐惧。

又是图像又是文本又是语音,每个方向都是一门学问。我图像处理没学过,NLP半桶水,语音更是一张白纸。三座大山,翻哪座?

讲师第一周干了件事:把Agent拆开。

视觉模块,只负责看懂图片——用什么模型,怎么调,怎么把输出变成文字。

文本模块,只负责对话——Prompt怎么写,上下文怎么传,怎么让它记住刚才看到的东西。

工具模块,只负责干活——要查天气调什么API,要搜资料怎么用SerpAPI,要计算能不能直接写Python。

“你不需要同时精通三者,”他说,“你只需要让它们三个能互相传纸条。”

那是我第一次觉得,这事我能干。

第三,它从“复制粘贴能跑”开始,但不停在复制粘贴。

很多技术课有个通病:前几节让你跑通一个demo,你觉得“我会了”,然后后几节直接跳到源码解析,你看得懂每个单词但串不成线。

这门课不一样。

第一周跑通的是一个能读图说图的Agent。你扔一张猫的照片,它说“这是一只橘猫,看起来大约两岁”。

代码是抄的,模型是调好的,你只是改了prompt里的几行字。

第二周跑通的是带记忆的Agent。你问它“刚才那张图里猫是什么颜色”,它记得。

代码有一半是自己写的,你学会了把上一轮对话塞进上下文。

第三周跑通的是能自己上网搜图的Agent。你问“给我找一张橘猫的照片”,它去Unsplash爬图,下载,识别,告诉你“这是橘猫,在美国摄影师账号发布的”。

代码大部分是自己写的,你第一次独立查报错、改bug、追了一个小时发现是API密钥过期。

那周作业提交时,我对着终端里跑通的日志截了一张图。

不是给谁看,是想存下来。

第四,它把“报错”变成课堂的一部分。

这门课有个答疑群,群规第一条:提问前先贴报错截图。

讲师每天爬楼回问题。不是回“你代码第8行少个括号”那种——那种你自己也能看出来。他回的是“这个模型不支持中文”“你的环境变量没写进子进程”“那个API的新版改了参数名”。

有一次我卡了三天,Agent调用视觉模型返回一直是空。我重装了环境、换了模型、换了API版本,都不行。

凌晨一点,我把报错日志贴进群里。

十五分钟后,讲师回了一张截图,是我代码第47行——我传图片用的参数名是“image”,那个模型要的是“images”。

多了一个s。

“这种错我也犯过,”他发了一条语音,“后来我养成习惯,每次传参数都先翻文档。”

我没觉得丢人。那天晚上我睡得很踏实。

第五,它告诉我Agent不是魔法,是搭积木。

课程最后一周的项目,是做一个“多模态旅行助手”。

能听懂“我想去个暖和的地方”,自动查天气、搜机票、看目的地攻略、生成行程建议。全程多模态对话,你发文字它回文字,你发截图它识别景点。

我做了四天,跑通的时候是周五晚上十点。

室友探头问我在干嘛,我说,我写了个程序,你跟它聊天就行。

他对着麦克风说:“推荐一个北京周末能去的海边。”

Agent沉默三秒,回:“北京最近的海在天津东疆湾,高铁一小时。这是本周天气和车次,需要帮你查民宿吗?”

室友转头看我:“你写的?”

“抄的,改了点。”

他没说话,竖了个大拇指。

那一刻我突然明白,这门课从头到尾在教什么。

不是教我怎么发明新模型,不是教我怎么发顶会论文,是教我怎么把手边这些已经有的积木——开源的模型、公开的API、写好的SDK——搭成别人愿意用的东西。

这不需要天才。只需要有人告诉你,积木在哪,怎么拼,拼错了怎么拆。

后来有人问我:多模态Agent现在这么火,你学完找到工作了吗?

我说,找到了。

他没追问细节,我也没细说。

其实不是那种“学完立马薪资翻倍”的剧本。我只是在面试时,当面试官问“你有没有接触过多模态”,不用再说“正在学习”。

我可以打开电脑,给他看那个旅行助手。

他问图片怎么传参,我讲了那个多一个s的故事。他笑了。

一周后,HR打电话说,领导觉得你动手能力不错。

我知道那不是什么了不起的评价。但三个月前,我还是个连租显卡都要看三遍教程的人。

课程介绍页最后一行写着:

“不保证就业,保证跑通。”

结营那天,我把所有代码打了个压缩包,存进硬盘。

名字没起,日期没标。不需要。

因为我知道,那个秋天之后,我不再是一个需要问“从哪开始”的人。

路在脚下,踩过一遍了。



本站不存储任何实质资源,该帖为网盘用户发布的网盘链接介绍帖,本文内所有链接指向的云盘网盘资源,其版权归版权方所有!其实际管理权为帖子发布者所有,本站无法操作相关资源。如您认为本站任何介绍帖侵犯了您的合法版权,请发送邮件 [email protected] 进行投诉,我们将在确认本文链接指向的资源存在侵权后,立即删除相关介绍帖子!
最新回复 (0)

    暂无评论

请先登录后发表评论!

返回
请先登录后发表评论!