本文作者:独特魅力

对话昆仑万维方汉:信不信仰不重要,做出东西来才重要

独特魅力 04-22 242
对话昆仑万维方汉:信不信仰不重要,做出东西来才重要摘要: 当地时间月日短道速滑世锦赛在荷兰鹿特丹继续进行在男子米决赛的比赛中中国选手林孝埈一马当先成功拿下了金牌这是林孝埈个人生涯首次赢得米单项世锦赛冠军会让内容行业重新洗牌文丨王与桐编辑丨...

当地时间3月16日,短道速滑世锦赛在荷兰鹿特丹继续进行。在男子500米决赛的比赛中,中国选手林孝埈一马当先,成功拿下了金牌。这是林孝埈个人生涯首次赢得500米单项世锦赛冠军。

AIGC 会让内容行业重新洗牌。

文丨王与桐

编辑丨程曼祺

做一家既不是巨头、又不是创业公司的中型公司,是什么感觉?昆仑万维董事长兼 CEO 方汉说是 “习惯卷了”,因为中国没有腰部公司,只有巨头和长尾。

今年 50 岁的方汉看起来比实际年轻,他有工程师羡慕的浓密乌发,说话像连珠炮,对亲历过的激荡互联网历史如数家珍。

1995 年,刚从中科大近代物理系毕业的方汉在中科院高能物理研究所工作,他在这里开始上网,中科院计算机室副主任许榕生在 1993 年建起了中国第一条互联网专线和第一个 Web 服务器。

和很多第一代上网者一样,方汉信奉互联网应开放、自由、去中心化,他是开源操作系统 Linux 的第一代中文核心作者之一,此后又研发了国内第一款 P2P *软件和第一款商业化 的 P2P 流媒体播放器。

2008 年,他加入了周亚辉刚刚创立的昆仑万维。这位见证了局域网到互联网的资深网虫,此后与昆仑万维一起经历了互联网到移动互联网的多轮大战,历任昆仑万维副总经理和 CTO,2021 年开始担任 CEO。

16 年来,眼见大小巨头在身边崛起,没站上江湖之巅的昆仑万维曾经信奉一套自己的哲学:不轻易进入红海,不和巨头正面竞争。

短*、头条类的 推荐应用和打车,昆仑万维都做过,但都因为判断烧钱也烧不出结果而退出竞争。在国内移动互联网曾经杀成一片红海之际,昆仑万维的主要市场早已转移到海外,在东南亚,在非洲,去全球淘金。

“字节的人觉得开罗就够苦了,我们在尼日利亚,差点得了好几次疟疾。” 方汉说。

但在 2020 年,方汉看到了 AIGC,即 AI 生成技术。

方汉说他第一次体验 GPT-3 就像 1995 年第一次玩 MUD(多人即时虚拟类游戏):“MUD 衍生了 的第一个产品《天下》,《天下》衍生了《大话西游》,《大话西游》衍生了《梦幻西游》,《梦幻西游》是 最赚钱的产品。当时我特别震惊:还有这么好玩的网络游戏!

2020 年我玩了 GPT-3,简直就像是个真人,那时候给我的震惊就跟 1995 年时一模一样!”

方汉判断,内容行业一定会被 AIGC 重新洗牌。他认为这能实现中型互联网公司昆仑万维的夙愿——成为巨型互联网公司。

自 2020 年起,昆仑万维从文本大模型做起,陆续做了音乐生成模型和文生图模型等。

“那时候大家做 AI 都是 BERT 路线(Google 最初做大模型的路线),行业里根本没有 GPT 路线的人,想 ‘套壳’ 都没法套,只能自己搞。” 方汉说。

两年之后,在 2022 年春节的 7 天假期里,昆仑万维的核心管理人员聚在一起开战略会,复盘、碰撞、推演,最终明确了一件事—— All in AIGC。

同年 12 月,ChatGPT 刚上线一个月后,昆仑万维就发布了 AIGC 模型系列。2023 年 4 月,昆仑万维又发布天工 1.0 大模型系列。

方汉现在推演的终局是:AIGC 做大的可能性在于做 “* C 端产品”,中期通过 AI UGC 平台完成商业闭环,终期是终端 AI 手机的全面普及,推理成本成为用户购机成本的一部分。订阅模式和 to B 可以赚钱,但规模会小一个量级。AIGC 超级 App 3-5 年内就会跑出来,因为那时主流人群已换上了能支撑大模型的新手机,这个过程中,更高效、便宜的端侧推理是关键。

今年 4 月 17 日,昆仑万维发布 4000 亿参数的 MoE(混合专家系统) 大模型天工 3.0 ,它集自然语言处理、计算机视觉、多模态、AI 搜索和 AI 智能体于一体,而且是昆仑万维首次开源 MoE 基础模型。

昆仑万维看重经营效率,每一个业务都要衡量 “吃水线”,昆仑万维创始人周亚辉甚至一度每个季度都要点数服务器,考察成本。但对大模型,方汉说 “买卡就花了 8 个亿”。

截至 2023 年 9 月,昆仑万维的现金及等价物超过 16 亿元。近 3 年,昆仑万维的年营收保持在 35 到 45 亿元的水平。用 8 亿元买卡是大投入。

这家成立于 2008 年,从多轮互联网热潮中存活的中型公司,决定背水一战。

以下是《晚点 LatePost》与昆仑万维董事长兼 CEO 方汉的对话:

想变巨头,AIGC 是重上牌桌的机会

《晚点》:音乐生成产品 Suno 三月底上线,Udio 四月初上线,最近昆仑万维也发布了音乐生成产品 SkyMusic,这么多产品扎堆发,你是什么感受?

方汉:行业竞争非常激烈。我们此前内部测试时,SkyMusic 在中文指标上已经 Beat Suno 了。Udio 是 Google 出来的人做的,现在也完全 Beat Suno 了。

《晚点》:昆仑万维过去的哲学是不要去红海竞争,做巨头看不上的生意,现在却一头扎进竞争激烈的 AIGC。为什么?

方汉:竞争激烈并不代表是红海。原来的红海是指,大家技术差不多,都可以迅速在某个领域做产品创新。但这一波不太一样,大模型会重塑所有行业,翻出来的机会太多了,蓝海太多了。

一开始我低估了这一波 AI,以为它只会颠覆内容行业。现在我认为它将超过互联网跟移动互联网两波大浪潮,AIGC 直接把内容生成方式改变了。未来所有的消费电子、所有的行业都有机会被重做一遍,机会太大了。

《晚点》:所以 All in 也是因为如果不做,昆仑万维本来的业务会被洗牌?

方汉:这我倒不是特别担心,因为我们已经在很多海外 布局了很多业务。

但说实话,作为一家中型互联网公司,唯一的梦想就是成为巨型互联网公司,所以一直在找第二曲线。

2020 年时,我们面前有三个选择:VR/ 元宇宙、Web3 和 AIGC,最后我们选了 AIGC。

《晚点》:怎么选出来的?

方汉:我们认为前两个最后都没有 AI 大。

首先 VR 上限比较明显。我们的手表是 70 克,手机是 300 克,我们能携带的设备的重量非常有限,而当时 VR 设备都是 1.5 公斤的,苹果 Vision Pro 现在做到了 800 克,还是重。VR 设备的市场太小了。

元宇宙是从娱乐内容的角度看,我们认为所有娱乐内容产品本质都是拼两件事——激素生产的频率和幅度。短*已经把频率做到了极致,它生产多巴胺的频率是 13 秒一次。

Web3 是过于理想主义了,过于理想主义的产品最后都不会被大众接受。

AI 要大得多。我是 1995 年开始上网,玩的第一个游戏是 MUD,MUD 衍生了 的第一个产品《天下》,《天下》衍生了《大话西游》,《大话西游》衍生了《梦幻西游》,《梦幻西游》是 现在最赚钱的产品。1995 年看到 MUD 时我特别震惊:还有这么好玩的网络游戏!

我 2020 年玩了 GPT-3,当时让我大受震撼——这跟我 1995 年的感觉是一模一样的。

当然我是从技术角度。周总(周亚辉)商业触觉非常灵敏,他立刻预判内容行业会被全部洗牌。

《晚点》:洗牌会如何发生?

方汉:AI 要分成 AGI 通用人工智能和 AIGC 内容生成。2020 年我们选择 All in 的是 AIGC,后来是 AGI 和 AIGC。

AIGC 内容生产最可怕的是降低了所有内容创作的门槛。这个变化可以类比手机摄像头出现以后,*创作门槛一下低了几倍,原来拍电影要各种工种配合,中国打灯的人可能都是一个村的,现在人人可以拍短*。

内容行业的规模还与多元性紧密相关。当一个语言的使用人数低于 5000 万时,养不起自己的文化产业,只能接受强势文化。印度有 30 多种语言,有 10 种语言的使用人数在 1000 万以上,但因为说印地语与英语的人最多,所以所有印度电影只有这两种语言。但 AIGC 把门槛降低后,会促进文化平权,各种长尾的亚文化族群都会生产内容。

生产内容的门槛每降低一倍,创作内容的人数增长十倍。

《晚点》:昆仑万维要做什么去抓住它?

方汉:我们 2022 年考虑 AIGC 的终局是什么?这里面绕不开的话题就是 Google、字节这样的巨头会做什么。

刻舟求剑地看,互联网和移动互联网那波,最后起来的全是 “* +C 端” 模式,首先要*,第二要 C 端。订阅模式会小一个量级。全世界能付得起 OpenAI 每个月订阅费的只有 1 亿人,剩下的 79 亿人怎么办?

但现在大模型推理成本太高了,想要完成商业闭环,我们想了三种路径:第一是通过模型优化把推理成本压低,压到低于广告收入就能打平。第二是 AI UGC 平台,我们给 1% 的内容创作者提供服务,99% 的用户消费内容。第三是 AI 终端,这个我们判断是大模型的终局。

还有一个规律是:巨头递减。互联网起来时,传统企业看不上互联网业务,互联网企业长得很大之后反过来把传统企业都干死了。但到移动互联网兴起时,第一波互联网留下来的巨头 BAT、Google 占了很多坑,导致移动互联网的新巨头就比较少,中国是字节、美团、滴滴,美国可能就一个 Uber。现在巨头还尤其有个好处,谁有卡谁牛。

所以我们估计 AI 这一波,巨头还要递减, 国内会新长出两三家,美国有两三家。

《晚点》:巨头递减的趋势下,想变成巨头岂不是更难了?

方汉:移动互联网时代有两个特别好的例子:为什么巨头林立的现在,B 站、小红书还能活得特别好?是因为这两家在垂类做到极致,再去泛化。小红书是美妆、穿搭起家,泛化到线下的酒旅;B 站是从二次元泛化到中*、长*。

另外还有一个判断,就是刚才提到的文化平权。内容创作成本降低后,每个语言都需要自己的一套产品,这时 AIGC 平台就能在全球得到红利。

综合来看,我们的机会一是做可以泛化的垂类,二还是做全球市场。

《晚点》:这个垂类具体是什么?

方汉:可能是偏网文、短剧、动画的 IP 创作。

《晚点》:所以你看到的还是娱乐性的机会。

方汉:肯定是偏娱乐的。娱乐是有价值的,人类除了繁衍基因,就是获取快乐,不然人就崩了。我是学核物理的,所以我说话特别社会达尔文主义,不好意思。

《晚点》:你不看好用 AI 做生产力工具?

方汉:看好。to B 是容易挣钱的,但很难做成巨头。

互联网、移动互联网巨头,从 to B 起家的有多少?有一批中型的、能挣钱的,Salesforce、Adobe 之类的,但都比 C 端小一个量级。

《晚点》:微软是 to B 起家的巨头,它只是特例吗?

方汉:微软也很难定义为纯 to B,微软面向个人操作系统起家,面向最终用户居多。

《晚点》:* +C 端的终局,前提是大模型也有边际成本递减效应,但现在服务每个用户都有推理成本,还不便宜,成本也不能显著递减。

方汉:广告收入大于推理成本时,这个商业模式就成立。我觉得这会发生,但很难判断何时发生,因为现在模型能力还在飞速增长,GPT-3.5 *了,大家又都想用 GPT-4,不断增长的模型能力和不断降低的推断成本,双方还在互相拉扯。

比较确定的是,我们认为端侧推理一定能萌发巨头。就是直接在手机上跑大模型,3000 块买手机等于买了个卡,把大部分推理成本直接覆盖了。

当然,现在端侧推理肯定还远不如云侧推理,端侧只能推 7B 到 13B 的模型,但我认为三到五年后端侧大概能推 70B 的模型,到时在手机上跑 GPT-4 没有问题。

《晚点》:为什么是三到五年?

方汉:因为全民换 AI 手机大概要三到五年。而且手机现在卖不动了,所有手机厂商、芯片厂商也都在找新噱头,会全面转向 AI。

那时在手机上可以做很多事情,而且天然满足了*和 C 端这两件事,就会出现一个巨大的蓝海市场。所以端侧加云侧混合推理会是 AIGC 竞争的发展方向。

《晚点》:那等模型能力和 AI 手机都 ready 后不是更好的发力时机吗?

方汉:你不能等到那时再创建公司。我有时开玩笑说,最好的 AI 公司应该是 2023、2024 年就创建完毕了,到 2026、2027 年开始成为真正的巨头了。

《晚点》:中间这 3 到 5 年,你们做什么?

方汉:我们做内容创作平台,1% 的创作者用 AI,99% 的消费者不用 AI。绝大多数人没有创作内容的兴趣,全中国 9 亿人刷抖音,也就几千万人愿意拍吧。这样把成本直接砍了一百倍。

大量 IP 靠小说和漫画生产,在影视和游戏里变现。《斗罗大陆》最早在起点中文网连载,后来被改成漫画,火了,腾讯*又把它改成动画,又火了,最后拍了电视剧,又做了很多网游。《指环王》《哈利波特》《漫威》都是类似逻辑。

中国的小说作者最多,个人过去做不了影视、动画、漫画,但 AIGC 把门槛降低了。而我们全链条能力包括小说生成、漫画生成、影视生成和音乐生成,这形成了昆仑万维的商业闭环。

《晚点》:你之前说做小公司有很强的不安全感,做 AIGC 后,不安全感缓解了吗?

方汉:还是不安全,别人十万张卡,我一万张卡,我能安全吗?实话实说,这是最大的不安全感。

但我们很有动力,因为大公司钱赚得太舒服,他们对 “难挣的钱” 兴趣不大,所以大公司的创新速度是跟不上小公司的。这也是中国很多大公司出海,最初都做得都不好的根本原因。

《晚点》:如果这一次第二曲线成功了,昆仑万维会变成什么样?

方汉:我们梦想变成更大的公司,去年收入是 48 亿,我们至少收入先干到 500 亿,到 1000 亿。这是我们的目标,然后再往后说,想象都没用。

本来都觉得没有上赌桌的机会了,AIGC 又给了我们一次上桌的机会而已。

《晚点》:为什么对变大这么执着?

方汉:因为在中国没有腰部企业,只有头部和尾部企业。

从不想烧钱到大投入

《晚点》:昆仑万维创始人周亚辉认为创业公司做大模型没有机会,他说 Antropic 最好的出路就是现在卖给亚马逊,越晚越不值钱。你是怎么想的?

方汉:首先技术一定会泛化、白菜化。现在算法工程师可能四、五百万一年,我相信不到五年,就不会这么贵了,因为技术会逐渐扩散。OpenAI 把 GPT-4 的机密保守了两年多还是挺牛的。

长期来看大公司的优势主要是卡。2022 年时我们就觉得卡太贵了。当时上线做个实验,卡都费好多钱。在美国谁有百万卡谁牛,在中国谁有十万卡谁牛。

《晚点》:中国谁有十万卡?

方汉:字节、阿里?创业公司谁也没有。

《晚点》:你觉得大模型创业公司有独立发展的机会吗?

方汉:太多因素了。以中国人的创业能力,机会仍然是有,只是说不一定是纯大模型公司,我更认为未来他们会从大模型转成基于大模型的超级 App。大模型最后都差不多。

《晚点》:就是以技术起家,但最后的壁垒不能是技术。

方汉:是商业模式。

《晚点》:昆仑万维作为中型公司,资源比大公司少,但是不是比创业公司多呢?现在头部大模型创业公司的累计融资在 10 亿美元量级。

方汉:这是长跑。我们对商业价值的思考也是优势,你看我们在海外这么快就能打平,是因为经验不一样。做 App 的人,跟做算法的人不是一拨人。

《晚点》:2022 年初你们内部就开始讲 All in AIGC,同年 12 月你们发布了 AIGC 模型系列,比大部分创业公司早。这带来了什么?

方汉:我们 2021 年就已经训了 13B 的模型。当时觉得能追上来 GPT 了,我们还做了聊天机器人。当时只是觉得很好玩,模型没有对外发布,但我们一直在研究。

当时已经开始买卡了,到 2022 年中,我们买了更多的卡,到了千卡级别。2022 年底,我们觉得不行,必须得到万卡。

我们买卡比国内其他公司更早,所以我们现在才能在第二线的公司里面有最多卡。

《晚点》:在已经有游戏、社交平台等产品的情况下,All in AIGC 资源如何分配?

方汉:AI 的投入就是人和卡。一开始把最好的人调去做 AIGC,之后投入钱开始买卡,我们买卡就花了 8 个亿。

《晚点》:AIGC 和你们的已有应用,比如 StarMaker (一款基于 K 歌的社交产品)等产品怎么结合?

方汉:AI 技术外露一点给 StarMaker 就可以做一波大增长,我们以前吃到过类似的红利。

StarMaker 当初为什么能起来?之前 K 歌产品都拿不到伴奏带,那谁把人声分离做好,谁就能抢占市场。我们买了版权,又用算法把人声分离做到了全球最好,就受到一部分用户喜欢。AI 作曲也类似,我们肯定能吃到红利。

《晚点》:过去的积累对你们做 AIGC 的帮助是什么?

方汉:数据和经验。还是以 StarMaker 举例。我们把全世界 BGM 的人声分离都拆出来了,这就是别人都没有的训练数据。国内有这个能力的、音乐数据最多的,只有字节、腾讯和我们三家,只有要做 K 歌软件的、要给短*配音的会去研究这个技术。

再比如我们原来做游戏,所以我们做 3D 生成就更有经验。

为什么在 3D、音乐领域中国人能冒出来?因为这个领域数据太少了,只要数据到顶,中国劣势就不明显。

《晚点》:相比新公司可以完全搭建新组织,昆仑万维现在要同时兼顾做已有成熟业务的团队和做 AIGC 的团队,怎么平衡新老团队的管理方式、激励方式?

方汉:AI 人才贵都是市场化的定价,员工对此是有认知的。

管理跟组织上,要尽量扁平化。我们一直的原则是高管必须深入一线,“让你的手变脏” 是我们生存的基本要素。

而且如果以结果为导向,结果包括老业务的商业结果和新业务的算法结果,新业务跟老业务就没有差别。

《晚点》:做大模型投入巨大,但昆仑万维以前不喜欢烧钱,2018 年前,周亚辉每个季度都会点服务器。你们现在做 AIGC 会更愿意投入了吗?

方汉:创业公司是纯融资、纯烧钱的,但我们投入还是可控的,并且钱的来源多,长跑能胜出。

第一,我们有几块比较大的现金流业务,一年有大约15亿的现金流。第二,我们历史上储备的现金比较多,比如 2018 年 6 亿美元卖掉 Grindr。现在我们追求为将来的终局提前做准备。

《晚点》:你觉得在 AIGC 方向上出现什么情况,放弃可能是明智的?

方汉:评判标准不是钱烧多少,而是如果不在第一集团,可能就没有必要接着做下去了。只要在第一集团,我们还会继续烧钱。

最坏的情况,2027 年我还是个二线公司,不会比现在更坏了。

多模态是对世界的压缩

《晚点》:天工 3.0 是 “能搜、能写、能读、能聊、能听、能说、能画、能看、能唱”,这背后是多个模型。同时做这么多模型,会不会资源分散?

方汉:其实还好,因为我们是一步一步来的,先做文本再做音乐,再做文生图,现在也在做*生成。但是所有多模态都依赖于很好的文本大模型,文本大模型是技术的底座。

《晚点》:所以你们最大的精力是放在文本?

方汉:肯定是文本大模型,60%-70% 的卡分配给文本模型。

其他地方需要的资源也少。内容生成的项目其实花不了那么多卡,文本大模型已经到十万卡了,一万卡是基本线。Sora 据传训练资源是 4000 张卡,才 8B 的模型。音乐模型千卡都已经是很奢侈了。

对话昆仑万维方汉:信不信仰不重要,做出东西来才重要

《晚点》:只要算力够,你们也能做出 Sora 同样的连贯性和*时长吗?

方汉:对,Sora 真没那么难,中国很多公司能追上,不光是我。

为什么追 Sora 比追 GPT-4 容易得多?因为*生成现在的主要瓶颈是数据不够,Open AI 更多卡的优势也发挥不了。

《晚点》:你怎么看王小川说百川不做 Sora,要专注做大语言模型?

方汉:实现 AGI 是一定要做多模态的,但*生成跟多模态确实是两回事,现在很多人搞混了。

多模态是要理解世界。所谓通用人工智能里 “对世界的理解”,本质是一种压缩,把文本压缩完,就必须去压缩*、音频等等,这就是多模态。OpenAI 文本训练数据不够之后,把 YouTube 几百万小时的*转录成了文本,拿这个文本去给 GPT 训练。

但 Sora 只是生成。训练 Sora 的过程,OpenAI 是先拿一堆*用 GPT-4V 打标,把*用文字详细描述行为、场景、物体、镜头轨迹、光线,然后进行大模型训练,最后根据用户的输入,扩充为详尽的描述,再生成*。

也就是说真正理解*,把*动作和文字描述关联的是 GPT-4V。所以我不认为 Sora 是理解物理世界,真正理解物理世界是靠 GPT-4V 这种多模态大模型能力的增长。

Sora 是 AIGC 的赛道之一,它是 AGI 的副产物,但不是 AGI 的重要里程碑,把它吹成是理解物理世界,我觉得太扯了。

《晚点》:你们把天工大模型系列称为 “超级模型”,这个超级就是指多模态吗?

方汉:超级是指多模态,多模态是通向 AGI 的重要部分。

多模态就是对*和音频等数据的压缩,文本大模型是对文本的压缩;大模型本质上就是对人类知识的有损压缩,推理是展开。

多模态还有一个好处,在理解*、音频后,大模型能接入更多更有用的场景。如果你不做多模态,就做不了自动驾驶,也做不了机器人。

《晚点》:AGI 也是你们的目标吗?还是 AIGC 才是?

方汉:AGI 肯定是我们的目标。但我总得先活下去吧,AIGC 让我们先活下去。

如果 AGI 能够取代人类在科学研究上的能力,那么整个人类社会就会前进。当然在内容领域,AI 也会推进娱乐,“娱乐致死” 嘛,只是对人类文明来说没那么关键。

真正 AGI 的奇点到来,是上一代的大模型能够自动训练下一代的模型。但这有很多的限制,比如电力、算法、数据。

《晚点》:你之前提到,在垂类赛道 Scaling Laws 已经停滞了,这意味着我们通向 AGI 的速度在变慢吗?

方汉:一方面是因为垂类赛道的数据少。*数据比音频数据多,音乐赛道已经算多了,全世界有 4000 万曲子,3D 模型生成赛道,全世界的数据只有 1000 多万,优质的数据只有 200 万。

另一方面,一旦技术接近天花板,技术优势将不再明显,就能够靠产品、靠用户取胜。假设某垂直赛道第一名是 80 分,新产品 90 分也很难把原来 80 分产品的用户都抢来。但如果原来第一名是 40 分,新产品是 80 分,就能把所有用户抢过来。Sora 就是在别人 40 分时做到了 80 分。

很多领域已经到了 80 分阶段,比如文生图。DALL-E3 出来得比 Midjourney 早多了,但 Midjourney 到了 80 分后,没人再用 DALL-E3 。DALL-E4 我相信肯定比 Midjourney 强,但强得有限,因为现有产品已经够用了,所有工作流也都形成生态了。

再比如音频赛道,最好是的 Eleven Labs,OpenAI 刚刚发了做声音克隆的 Voice Engine,但没人关注。为什么?外面开源的都不比它差了。

技术接近天花板之外,人类的需求也不会无限提高。就像电池续航,800 公里之后就没有必要再卷资源去搞 2000 公里了。

《晚点》:中国公司现在要在更少的资源下,继续推进通用大模型的 Scaling Laws,你看到了什么可能性?

方汉:下一步首先是扩充计算资源,然后用非常创新的算法来优化,同时对数据处理提出更高要求。

基座模型需要的文本数据目前总量已经不够了。我认为大方向是 Self-play(自对弈)和合成数据。Self-play 就是 AlphaGo Zero 自己和自己下棋形成数据,合成数据包括 3D 引擎生成*数据等。我们也会在这方面持续开展工作。

《晚点》:除了多模态能力外,这次天工 3.0 的升级还有优化了 Agent 能力?你怎么定义 AI Agent?

方汉:在模型能力还不够发达时,Agent 能放大模型能力,更好地和实际应用场景结合。

比如我想把你的头发抠下来接到我的头上,用 Stability 文生图模型可能不知道怎么弄,但我现在在网上抄一个高手写的工作流,里面用了好几个 Lora,再结合 Stability,就能把你的头发拼到我头上,它就是一个完成固定任务的 Agent。

《晚点》:天工 3.0 的 Agent 可以做什么?

方汉:天工 3.0 的底座模型的逻辑能力得到了很大的提升,让我们的 Agent 更加鲁棒,更加智能,这其中,大模型的逻辑推断能力很关键的,它必须告诉 Agent 第一步、第二步、第三步怎么做,一旦中间有一步错了,整个能力就变差了。

现在普通用户就可以用我们的平台自己捏 Agent,或照搬别人的,就好比我们玩游戏时看别的高手写的攻略去执行。

《晚点》:天工 3.0 是一个 4000 亿级参数 MoE(混合专家模型)模型,为什么选择做 MoE?

方汉:我们是 2023 年 4 月开始开发 MoE 的。不做 MoE,文本大模型指标怎么能逼近 GPT-4?

现在行业都认为 GPT-4 用了 MoE,而且很多人都猜出来了规模,并不大,但效果非常好。MoE 本身是一种降本增效的做法。

《晚点》:开发 MoE 的过程曲折吗?MiniMax 创始人闫俊杰说他们最初开发 MoE 感觉像豪赌,失败了两次。

方汉:算法其实并不难。你看 OpenAI 的所有论文,算法都公开,而且绝对不骗你,但从来不说数据怎么弄的。所有的 Trick 都在数据侧和具体的训练工程侧,不是算法侧。

“中国像个工厂,美国像个 office,世界上其他地方都像农村”

《晚点》:你之前是中文 Linux 的创始人之一,你对开源比一般人的理解要深刻。这次天工 3.0 有一个比较大的变化是基础模型开源,为什么这样决策?

方汉:开源在中国没有什么好处。除非你做 To B,开源让大家试用,这样可以获得大量销售线索。

开源一开始在美国真的是一种嬉皮士文化的延伸,但到后来,尤其是以 MangoDB 为例,它基本上已经把开源做成了可以赚钱的商业模式,就是 SaaS、云托管服务。但开源商业模式只是在海外成立,在中国行不通,因为中国 SaaS 起不来。

开源更重要的是,把你的东西和别人比,这能提升整个公司的人才荣誉感。我跟原来阿里云第一任 CTO 章文嵩很熟,他在阿里推开源文化,对人才吸引力非常大。

《晚点》:刚才你也提到了全球范围内的文化平权,从昆仑万维在海外多个 做了多个内容产品的经验来看,这会如何改变产品形态?

方汉:每个 可能都有自己的小超级 App,或者一个超级 App 在很多 ,各自划地盘。

《晚点》:一个超级 App,是你们的目标之一吗?

方汉:我们肯定会进很多 。

《晚点》:现在有什么目标地域吗?

方汉:先想做欧美,欧美用户性价比最高,接受程度也高。欧美、日韩跟中国算是 T0,中东、东南亚、南美算是 T1,非洲、南亚算 T2。

《晚点》:先去欧美,意味着先去竞争最激烈的地方,这好像又和你们之前的经验不同?

方汉:我们一直在做欧美市场,只是不怎么提而已。Opera GX Browser 发布也就 2 年多,目前在欧美地区 3000 万 MAU,原来 Grindr 也是主做北美市场。我们是根据各种因素来选择市场,目前 AIGC 带来的大洗牌以及推理成本因素对 ROI 模型的修正,让我们觉得欧美日韩市场是更好的选择。

《晚点》:做大模型和 AIGC 产品时,你观察到中外公司的动作有什么区别?

方汉:如果中国公司在海外做大模型,产品肯定是偏娱乐,因为娱乐方向的海外管制少、对中国的歧视少,但是生产力方向,中国企业在海外被歧视,产品再好也不受欢迎,所以做不了。

《晚点》:那海外用户和中国用户对 AIGC 产品的需求差别呢?

方汉:与经济情况紧密相关的。欧美经济情况好,更容易做订阅,经济情况没那么好的就更容易接受*模式、娱乐模式。

提升生产力方面,中国很特殊。中国工业化生产发展好,最想提高的是实业生产效率,这是中国工业机器人很多,但是企业协作应用反而没那么多的原因。

中国像个工厂,美国像个 office,世界上其他地方都像农村。

《晚点》:之前的采访你说每周有将近一半的时间在看论文,看技术。

方汉:对,我天天看论文、拼命看论文就是为了判断产品方向。我们原来定战略,是靠我们的经验、得到的信息。现在这个方法不行了,现在技术跟产品是严重脱节,而且技术还每个月都在变,所以还得预测技术过六个月之后怎么样、我的产品该怎么样。

现在所有大模型公司 CEO 全是算法出身的,这是这一波 AI 的特点,但做算法的跟做产品的真不是同一拨人。我们公司 Leader 级别的都让懂产品的学技术、看论文,让懂技术的看产品,这样我们才能做出更好的决策。

《晚点》:昆仑万维想搭建什么样的大模型团队?

方汉:博士占 3 成,硕士占 5 成,本科占 2 成,这是我们内部定的死标准。算法是以博士为主,工程上以硕士为主。

我们招人过程中有个观察,就是现在最好用的是应届博士,而不是毕业了几年的博士。因为所有人都是在 2023 年才开始转向大模型 GPT 相关的技术研究,站在同一个起跑线上,之前都是做 BERT 的。毕业有工作的博士转得更慢,他们白天要做老技术,半夜回家才能研究新技术。

《晚点》:你们之前的全球布局,现在也是招聘人才的优势。

方汉:我们为什么在新加坡搞研究院?因为在新加坡招好的人更容易,有很多特别好的人愿意去新加坡。

《晚点》:团队补充了这么多年轻人,你也在读很多论文,怎么加速自己的学习速度?

方汉:主要靠压缩休息时间和不重要的工作。这波浪潮来了之后,我一天少睡了一两个小时,都用来学习各种前沿知识了。

并且我会用各种 AI 工具,比如*转录、文本总结、PDF 翻译等,也包括天工搜索,这让我更快获取信息。跟团队年轻人交流也是一个渠道。

《晚点》:你是中国最第一批接触互联网的人,而现在 AIGC 领域的大部分对手都更年轻。怎么和理论上学习更快、体力更好的年轻人竞争?

方汉:年轻人的优势很明显,但我也有我的优势,就是不断跟业界最顶尖的人交流,获取质量更高的信息,同时不断深入思考。

勤奋和高效的学习习惯,是可以赶上 90% 的年轻人的水平。

《晚点》:见证过周期与历史,这带来经验也可能带来成见,你们现在对 AIGC 的很多判断是对移动互联网的 “刻舟求剑”,是否担心在旧经验上看不到、做不出新东西?

方汉:这种思考方式的确有可能带来各种成见,但是这种思考更多是从道出发。

从术的层面,就完全不能依赖过往经验,因为 AI 对所有产品都是重塑,老的产品模式和商业模式的经验是完全不适用的,所以要不断看第一线的竞争态势和产品趋势,不断修正我们的决策。

另外就是要放手让一线的年轻人去创新,不要轻易用历史经验否定他们,他们才是这一波的主力军。

《晚点》:昆仑万维当年不再在国内做游戏了,是因为你们判断最后只有 、腾讯最大。但后来发现米哈游是个例外,可它不可复制,因为这群人是真热爱游戏,对游戏有信仰,而不仅是从商业角度考虑。现在这一波,你觉得是否有 AGI 信仰,对商业成功重要吗?

方汉:周老板肯定觉得重要,但我个人觉得这是个工程问题。工程问题就是有没有信仰不重要,你把东西做出来才重要。

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享