过去的这一周,科技圈可以简单被概括为三个字:开源周。
曾经闭门造车的各家,在 DeepSeek 的刺激下,不是在忙着接 DeepSeek ,就是在忙着开源。
AI 六小虎排着队宣布加大模型开源力度,甚至连百度都出来干了这碗热汤,表示新一代模型将会开源。
不过,最值得玩味的其实是,远在大洋彼岸的 OpenAI 都低下了骄傲的头颅,奥特曼终于承认:我们站在了历史错误的一边。
一时间,好像没有人再去争论,开源到底赚不赚钱这件事。似乎谁没跟上,谁就输了比赛。看各家在开源场斗得火热,向来低调的火山引擎也坐不住了,悄悄地跟了一手。不过,它的入场方式和大家都不太一样。
它并没有随大流丢个模型出来,而是上线了一个叫做大模型应用实验室的东西。
简单来说,就是各家虽然都把模型开源了,但从模型到上手,从厨房到上桌,需要一个烹调的过程,这个东西就叫做应用。只有开发出各种应用软件,咱们才能用上这些大模型。
所以,火山一琢磨,既然都开源共创了,那不如干脆再往下沉一级,干脆连应用都帮你做好得了。于是它不仅接入 DeepSeek 等开源模型,同时把自己搭建好的各种应用,免费开源给所有人用,开发者们直接上门自取就行。
据说,用火山引擎来搭 DeepSeek 简单到,基本鼠标点击就能完成,外行也能上手。嗯,等下?鼠标点点就能成?那岂不是我上我也行了。
反正试试又不亏,成了能装逼,不成也能水篇稿啊。
于是,我抽了一下午,忙里偷闲地整了一个基于 DeepSeek 的聊天搜索工具。结果,不仅搭成功了,而且我搭的 bot 效果意外的不错。我直接问个问题,大家就领略一二了。
最近大家都在等《 哪吒 2 》的最终票房,全在分析有没有进入全球票房榜前三的机会,那么干脆让我的 bot 给大伙掐指算算。能看到它从哪吒的优势,到存在的阻碍全拆开来分析了个遍。连竞争对手的《 阿凡达 3 》预估票房等信息都扒出来了。虽然它算完觉得大概率止步在第五,但也把可能情况详细拆分为了乐观、基准和实际三种。
稍微有点可惜的是,抓取票房信息的网站应该数据有误,最新票房少算了 3 亿。不过,同样的问题我在其他联网推理大模型上试了一下。发现票房都很容易出错,有些模型直接少算 7 亿,把好不容易爬上来的《 哪吒 2 》打回全球票房第八了。在问题拆分上,也稍微比我的 bot 少算了几步。
而且,在提问里,我的 bot 还会圆滑地给自己留退路。我问它是否认为自己所在的开源阵营,有可能成为未来市场的主流?它虽然说开源会成为主流,但政策变动也会影响未来走向,算不准可不是它的锅哦。
之所以它能表现亮眼,是因为我不仅给我程序里的 DeepSeek 联了网,还顺手给它接了个豆包大模型进去打辅助。而这些事,我一个退役程序员只用了一下午就整完了。
但整个搭建过程里,没几行代码是我自己想的。整套应用,已经被火山引擎开源在了代码库里。从配置到交互框架,都给你写好了现成的,只要组装拼接就可以。怕你学不会,他们还贴心地在 Github 上给你写好了一份喂饭教程。
从搭建到运行总共就四步。第一步大家都会,把应用代码从 Github 上下载下来。第二步,获取咱们要用的大模型配置。别担心, DeepSeek 和豆包的接入点和 API ,都可以在火山引擎的官网拿到。
然后,把两个模型的接入点 ID 复制粘贴,放置到对应的位置,这个模型咱们就算搭完一半了。具体要放在哪,教程里也写上了,一个萝卜一个坑填进去就行。
但是只有模型还不够,就好像有了购物软件之后,还要绑定上银行卡这些支付方式才能买东西。所以第三步,是给模型配置上环境变量和依赖,帮助它运行起来。具体要怎么配,教程里也给你一一罗列了。
配置好之后,模型就算搭完了。最后,给它找一个唤醒的交互方法,就可以和它愉快地玩耍了。就比如 ChatGPT 是聊天交互,或者是豆包的语音交互。不用担心,这套框架火山引擎也在教程里放了参考代码,依葫芦画瓢即可。
如果我们直接从官网调用 DeepSeek ,除了 API 之外的部分,剩下的都需要我们从头搭建,解决封装、指令调用、环境等等。相当于围绕模型这个原材料,给它配菜切料。
但火山引擎这套东西就像预制菜,拿回家直接下锅一炒就行,香味还完全不输别人费劲吧啦从头现做的菜。 “ 这很有帮助,我只需要在他们的东西上修修补补,能省掉很多的开发时间。 ” ,一位试用完的程序开发者对世超说。
而这样的【 预制菜 】在火山引擎的大模型应用市场里,还有很多。基本你觉得有意思的 AI 玩法,里面都有现成的。像什么双语视频生成,和豆包一样的语音通话助手,还有视频实时理解等等。有的甚至前端都帮你搭好了,拿回家即插即用。
世超还在里面发现一个很有意思的应用,叫手机助手。世超觉得应该能被开发者拿来做很有趣的创造。它的功能并不复杂,底层就是画面识别,再结合上豆包大模型的文案能力。
整体的交互逻辑很简单,我们轻点悬浮窗之后,就可以通过对话,下达指令,让它抓取现当前手机的画面。
依靠豆包的视觉模型,它能很快速、精准地识别。比如我可以打开摄像头,然后问它前面有什么。几乎就是几秒钟后,它就能把画面里的东西逐一告诉你。最后吃到了,差友们放心
有了这个精准捕捉的基础,咱们就能玩出不少玩法。
大模型擅长的拍照翻译、写稿就不用说了。还能做些更有趣的场景,比如朋友圈金牌代写。发朋友圈只需要上传图片,后面的文案就让大模型自己编去吧。
一瓶冰红茶,也可以给你吹出一串彩虹屁。不知道怎么回复的话,它也替你挡了。
要是咱们再给它接点别的功能,让它不仅能文字输出,还能和系统做其他交互,实用性就更高了。像咱们很多时候会议一多,前面还记得今晚开会,一个转头就忘了。真忙起来,连随手记一下的功夫都没有。
那么既然可以识别画面内容,它能不能直接把开会通知,变成一个日程呢?这个设想火山已经替你做了,手机助手可以捕捉日期信息,然后自动创建一条日程。前脚消息弹出来,后脚就能让助手自动帮你记上了。
其实这种玩法,世超之前在一些头部的 AI 产品里,用过类似的。但火山引擎把这套东西开源后,就把桌子给掀了。以前一个团队才能写出来的 AI 工具,现在你一个人撸起袖子就能干了。
而且,不仅仅是省力,火山引擎开源的这些应用里,不少可以做到把模型效果提到最佳状态。因为每个模型的优势不同,有的擅长推理,有的图片识别能力最强。所以,基本大部分模型应用都是几个模型做混搭融合。
为了达到多人搭配、干活不累的效果,开发者得反复调试。现在,在火山引擎的后台,你就可以非常简单直观地去调整模型的出场时间,比如让擅长罗列的豆包来负责梳理 DeepSeek 的回答。
所以,相比起很多人选择接 DeepSeek 来蹭热度,火山引擎的选择要有意义得多。就是让更多人能参与到这波开源的热潮里来,能够把自己的脑洞轻松地变为现实。
世超觉得基础大模型的开源固然重要。然而,大模型开源后的一大意义,是让应用和硬件生态能能蓬勃发展。因为应用才是真正直面企业和用户的一端。
未来模型和应用一定是相互咬合,互相助推。应用助推模型的普及,模型进步又会革新应用。而要想实现这样的生态,需要更多的开发者和使用者参与进来。
真正的技术普惠,从来不是少数人的独舞,而是无数双手共同实现。开源的意义就是把成果交到更多的开发者手上,共同地推动应用的发展。
标签: DeepSeek