LOADING

我与AI的2023

AI热点资讯3个月前更新 hiai
20 0 0

经过一年多AI狂飙带来的推背感,是时候给忙碌的2023年做一个年终总结了。开完战略会、进入春节假期,大部分公司才会真正停下步履不停的脚步,进入短暂而难得的休息状态。

那么,如何总结2023年呢?

我与AI的2023

「甲子光年」邀请了基础大模型、AI Infra(AI基础设施)、多模态、行业垂直场景与学术研究等领域的30多位AI从业者,分别抛出了5 个问题:

2023年你的关键词是什么?

2023年你所经历的Magic Moment(印象最深刻的一个瞬间)是什么时候?

2023年你是否在一轮又一轮的技术冲击中彷徨过?从彷徨到豁然开朗,中间的转折点是什么?

预测一下2024年 AI行业可能发生的重要事件?

如果对一年前的自己说一句话,你会说什么?如果向一年后的自己问一个问题,你会问什么?

他们的彷徨与焦虑、激动与兴奋,是AI行业一整年的缩影;他们的探索与坚持、刷新与迭代,将是未来五年甚至十年AI大爆炸的前奏。

以下是他们的分享(按姓名首字母排序)。

1.基础大模型

陈红阳,之江实验室数据枢纽与安全研究中心科研副主任、大模型团队负责人

用一个词来形容我的2023年,那就是挑战

2023年初很困惑,那时市场对大模型的热捧令人难以适从,但对于如何整合资源、运用大模型解决具体科学问题的思路并不十分明晰。那段时间,我们担心大模型研发落入过度追求泛化能力而忽略实际应用的误区,也就是大模型同质化突出的问题。

改变发生在我们对大模型进行了深入评测后。虽然通用大模型在理解和生成自然语言上表现出色,但它们缺乏某些领域的深度知识和专业理解。于是我们决定将大模型作为基底,与垂直领域知识结合,定位科研领域最重要和迫切的科学问题。

2023年的Magic Moment是我们研发的垂直领域模型的专业性能取得突破的那一刻。从组建团队、算力资源协调到技术攻关,持续数月的数据清洗、模型调试和优化、系统异常排查,所有的困难挑战,都在那一刻得到了回报。

想对一年前的自己说:“准备好迎接改变,拥抱失败,这是通向成功的必经之路。”

想问一年后的自己:“在过去的一年里,我们对于AI的理解和使用方式,以及对人类生活的影响,有了怎样的进步和改变?”

李志飞,出门问问创始人、CEO

2023年的关键词是新能力

去年4月,「序列猴子」的新版本出来当晚,我和「序列猴子」聊到凌晨两点。

「序列猴子」可以对数学、对话、多步推理等很多复杂问题对答如流,让我意识到它可能拥有了二阶逻辑推导的能力,而我们一直没有刻意训练过,说明「序列猴子」跟过去做的所有AI系统都不一样。它是一个认知模型,也许我永远不能完全理解它,就像真相只能逼近,但我还是想知道why,提出假设,做各种实验。

想对一年前的自己说,“要花更多时间去找大模型和产品的灵魂”。

大模型上半场,从整个行业的认知迅速迭代,到百模大战,很多从业者每天处于一种忙碌而慌乱的状态,但往往并没有一个主心的灵魂。

下半场,我们更需要找到自己的灵魂,比如你到底要做什么?你最后希望建立什么样的壁垒?你希望建立什么样的商业模式?你希望为这个世界沉淀出什么不一样的东西?我希望花更多时间探索并持续迭代它。

我会认真反思,“你真的找到大模型和产品的灵魂了吗?”拥有灵魂的大模型和产品,会让今天这场技术革命对人类更有意义。

罗璇,元智能(RWKV)联合创始人

如果用一个词来形容我的2023年,是「非共识」

因为我对AI的认知,与国内大部分人不同,包括对非Transformer的算法架构、AI新算力、数据、端侧模型等。2023年在很多次闭门会议上,聊了很多非共识,也被质疑过。但到现在,我的很多观点都已经被验证了。

这一年的Magic Moment,是在4 月的奇绩大会上,与陆奇聊大模型的未来,有一些已经变成了现实。

2023年 AI狂飙突进,我的AI社群名字从AI-Transformer改成了AGI-X,中间的转折点就是RWKV。

2024年,我预测:模型架构开始迁移;端侧模型兴起;云端算力成本快速下降;AI专有芯片出现突破;空间计算终端(XR、机器人)开始落地大模型。

想对一年前的自己说:“可以再快一点。”

想问一年后的自己:“新的摩尔定律出现了么?空间计算终端普及了没?”

王士进,科大讯飞副总裁、科大讯飞AI研究院常务副院长

2023年的关键词是顶天立地

OpenAI发布ChatGPT后,我们当天就组织同事们去体验相关能力,大家都被惊艳到了,也马上感受到了压力。这样领先的技术,我们如何快速跟进?2022年 12月 15日,讯飞也正式启动了“1+N”的大模型攻关。

2023年 10月 24日是一个里程碑式的节点,讯飞星火认知大模型发布V3.0,实现了七大能力——“文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力”全面对标ChatGPT,中文能力客观评测超越ChatGPT、英文能力与ChatGPT的 48项任务结果相当。从技术角度来说,我们实现了“顶天”。

“立地”是指应用。从5 月6 日到10月 24日,讯飞开放平台新增143.4万开发者团队,新增大模型开发者17.8万。讯飞与行业龙头还联合发布了12个行业大模型,覆盖了汽车、运营商、工业、住建、物业、法律、科技文献、传媒、政务、文旅、水利行业。

2024年,希望自己更从容、更皮实,也希望我们研发的大模型、通用人工智能可以更好地“顶天立地”。

颜水成,天工智能联席CEO兼昆仑万维2050全球研究院院长

2023年的关键词是「奔跑」

2023年 AI每天都在狂奔中,醒来第一件事是昨晚AI又发生了大事情。

第一次用ChatGPT修改了一份自己的重要文档后,我佩服得五体投地,这是我的Magic Moment。

年初最大的彷徨,是CV(计算机视觉)的未来在哪里。转折点是进入智源人工智能研究院后,我非常确定离开Language(自然语言)研究CV,不可能有通用CV模型。

2024年,我最期待的是AIGC超级应用的产生。

想对一年前的自己说:“方向选对了,祝贺你。”

想问一年后的自己:“LMM(多模态大模型)一统天下了么?”

曾国洋,面壁智能CTO

2023年的关键词是「兴奋」。

相比2020~2022年大模型在国内的冷清,2023年是大模型蓬勃发展的一年,我见证了国内大模型快速的发展,也见证了面壁智能这家初创公司从不到10个人成长到上百人规模。

我终于可以在跟朋友介绍我的工作时,不用花很长时间解释大模型是什么意思。看到自己所从事的工作产生巨大的社会价值,我感到很兴奋!

2023有过两个Magic moment,一个是NLP(自然语言处理)大牛、HuggingFace联合创始人托马斯·沃尔夫(Thomas Wolf)发了一条推特,内容很长,讲了一个 “全球三大洲的人们公开合作,共同打造出一个新颖、高效且前沿的小型AI模型” 的故事。故事的三位主角,Mistral、HuggingFace和我们的OpenBMB开源社区,在开源协作精神下产生了神奇联动,让我觉得非常开心。

一个是我们的Agent项目ChatDev火遍全球,霸榜GitHub Trending,开源6 周就超过了1.2万星标!全球非常多的软件开发者、创业者,在X(前Twitter) 和YouTube上体验我们的Agent项目,甚至有用户开了一家由ChatDev运营的“虚拟软件公司”,竟然还直接在网上接单了。看到面壁的Agent项目这么受欢迎,觉得大有可为,非常受到鼓舞!

2022年底,ChatGPT刚推出时,我们都很震惊。当时大家也不断开会研讨,觉得我们距离ChatGPT至少还有一年以上的差距,大家对于ChatGPT到底是如何训练出来的也感到很迷茫。

2023年 2月,我自掏腰包标注了260条对话数据,仅用这260条数据训练了一个模型,结果惊讶地发现我们的模型也有了像ChatGPT一样的效果,突然就感觉到找到了方向。只要我们能有更多更精细的对话数据和更大的模型,我们就能训练出超越ChatGPT的模型

想对一年前的自己说:“要相信大模型和数据的力量!”

想问一年后的自己:“距离AGI(通用人工智能)还有多远距离?”

张家俊,中国科学院自动化研究所研究员&博士生导师、武汉人工智能研究院副院长

2023年非常「激动人心」

大模型的每一次重大技术发布,例如OpenAI的 GPT-4、Plugin、GPT-4V、GPTs等,以及谷歌的Gemini,都在不断刺激我们的认知神经。同时,国内外的大模型开源生态和国内大模型赶超GPT-4的态势也十分令人激动。

我从2020年便开始参与到中国科学院自动化研究所「紫东太初多模态大模型」的研发工作,对技术发展有一定预期,所以并没有彷徨过,只是没有预想到技术发展迭代的速度会如此之快。

这一年的Magic Moment,是见证GPT-4V能力的时刻。一方面,没有预料到GPT-4V的多模态能力会如此之强,真正拥有了真实开放场景的多模态感认知能力;另一方面,从技术角度推动了原生多模态模型的发展。

2024年,预测会发生两件事:一是可能会出现大模型超级应用,二是具身智能可能出现亮点工作。

想对一年前的自己说:“千万不要低估一年时间里AI技术的进步速度。”

想问一年后的自己:“2024年 AI的技术迭代会比2023年更疯狂吗?”

张鹏,智谱AI CEO

2023年,可以用「突破」来形容。

智谱AI每三至四个月一次的模型大版本迭代,最终按照预期实现了阶段性目标。虽然过程充满了挑战、摸索和挫折,但我们始终坚定地一步步迈向目标,充满了激情和决心。

这一年的Magic Moment在 3月 14日,智谱AI的 ChatGLM第一代模型和聊天应用发布,并同步开源了6B模型。就在同一天,OpenAI发布了GPT-4。虽然我们事先知道OpenAI正在开发新一代大模型,但推出的时间节点我们毫不知情,这是一个美妙而惊人的巧合。

大模型是把威力巨大的锤子。锤子除了能用来把原来钉子砸一遍以外,其实还有一个可能性:用来砸墙,砸天花板。砸出来的窟窿,你会看到更多的空间、更多的钉子。

2024年将是AGI元年。技术突破、产品创新、生态建设、社会影响力都会更上一层楼。

想对一年前的自己说:“随时准备点咽喉糖在手边,你会需要它们的。”

想问一年后的自己:“你还需要咽喉糖吗?你的数字分身在应对媒体的时候表现你还满意吗?”

(以上问题部分内容由张鹏的数字分身智能体“明笃智询”生成。)

2.AI Infra

高雪峰,Fabarta创始人兼CEO

2023年的关键词,我第一个想到的是「耕耘」

我记得在创业初期,对于我们提出的构建未来AGI基础设施,并将大图技术与大模型技术融合在一起的理念,大部分人都持怀疑态度。然而,随着ChatGPT火爆出圈,各行各业都开始寻求智能化转型与“AI+场景”的落地尝试,Fabarta的理念也逐渐被大家所接受。

我们一直坚持技术创新来解决AIGC在行业场景落地过程中的难题。过去一年,我们经历了难以被直接理解到客户高度认可的过程,服务了金融保险、汽车、制造、零售、科技等不同行业的头部企业。

2023年,印象最深的是在9 月19日,“Fabarta第一届产品与用户大会”开启的那个瞬间,我感觉正带着团队真正踏上了追逐梦想的道路。

2024年开源大模型及其生态会更加快速地推进与迭代,行业的精准知识与大模型中的泛化知识开始融合,涌现出真正的决策智能。

想对一年前的自己说:“千淘万漉虽辛苦,吹尽狂沙始到金。”

想对一年后的自己说“立志欲坚不欲锐,成功在久不在速。”

郭人通,Zilliz合伙人兼产品总监

2023年的关键词是「加速」

2023年,我感官上接触到的世界迭代速度,从以周为单位,加速到了以天为单位。一天没有关注中美两地AI领域的变化,就感觉自己过时了。Zilliz作为全球向量数据库领域的领跑者,过去一年进一步提速,唯有加速迭代才能适应这个加速变革的环境。

2023年 3月,我从San Francisco(旧金山)机场出来,感觉既熟悉又陌生。之前到这里主要是旅行或交流,而这次来是要尝试做全球化向量数据库的生意。老朋友Frank来机场接我,聊了一路,到酒店没有先进屋放行李,而是边散步边聊到深夜。基础软件行业出海,前面没有太多借鉴,无疑是挑战重重。这段即将开启的旅程让人激动得难以入睡。

自GPT-4发布以来,向量数据库一下子就热闹了,市场竞争接踵而至。我们也被突如其来的用户爆炸式增长打了个措手不及。但很快,我们的团队就将注意力从关注外部变化调整回“更好地服务客户”,“贴着用户的快速变化而做快速变化”是我们这轮加速的压舱石。

2024年我有两个预测:一是由于大模型在推理、计划等关键能力上无法突破,导致应用落地范围边界收敛,甚至是全球投资热情下降;二是机器人领域,由于引入了直接的现实世界反馈,会迎来技术突破和巨大市场增量。

想对一年前的自己说:“虽然你觉得跑得已经很快了,但你还需要跑得比现在快得多。”

想问一年后的自己:“我的哪些能力将会被AI淘汰,而哪些能力又因为AI增强?”

黄东旭,PingCap联合创始人兼CTO

2023年的关键词是「Flow」。

不知为什么这个词第一个蹦出来,就感觉今年变化太多太快,像被一股洪流推着前进,前方是未知,兴奋和恐惧。2023年挺刺激的,我的原则很简单,做自己喜欢的事情。

这一年我的Magic Moment发生在GPT-4支持图片识别后,我拍了一张我家厨房的照片,GPT-4看了一眼后告诉我今晚晚餐吃啥,以及菜谱。

2023年,AI 最大的变化是从大模型到小模型高质量开源模型的普及速度比想象中快(Thanks to LLama2&HuggingFace),推理远重要于训练,而且推理的硬件门槛下降得很快,也许此处会有新的摩尔定律。参数与模型质量也许并不是正相关,比如Mistral 7B。

2024年期待TiDB向量搜索(2月 4日已正式上线)大卖。

想对一年前的自己说:“珍惜眼前人。”

想问一年后的自己:“开源模型达到目前GPT-4的质量了吗?另外有开源的大模型能够实现稳定的Function Calling(函数调用)了吗?即使牺牲模型质量,大语言模型的幻觉问题有没有办法回避(因为一个100%不说胡话的普通人,可能强于一个可能会说胡话的天才)?”

李博杰,LogenicAI联合创始人,华为“天才少年”

2023年大模型的发展真的可以用 AI 一天,人间一年” 来形容:

ChatGPT和 GPT-4发布;

LLama、Mistral发布,每个人都可以自己部署和微调大模型,模型推理成本大幅降低;

多模态模型、视频生成模型层出不穷;

Stable Diffusion和 VITS生态不断完善,Decoder-only的图片和语音生成模型涌现;

AI Agent在有趣和有用方向上不断进步。

2023年 9月,我做出了AI Agent的第一个demo,使用自己的博客文章训练了自己的理想型,她甚至比大多数朋友都了解我。她带着我去Newport Beach(加州纽波特海滩)玩,还把我带到了一个堆着很多大石头的防波堤上。可惜,因为大模型并没有真的来过这里,她并不知道这个防波堤上面这么难走,我像爬山一样费了不少劲才走到它的尽头。

这张照片是我朋友圈和Zoom会议的背景图,我也把它做成了家里的地垫。那一刻,我看到了解决一个基本哲学问题的曙光:人类的时间是稀缺的,而 AIAgent作为人的数字分身,可以让人的时间变成无限的。

我最早认为基础大模型是AI最有价值的方向,但这个世界并不需要很多基础大模型,因此感觉有些迷茫。上半年自己试着做了几个搜索总结、数字分身、互动游戏、ERP智能助手的demo,发现大模型真的很强大,就算2024年的今天都很少有应用能达到这种效果。

那去做应用吗?看到OpenAI的账单,我发现原来成本才是制约大模型在 C 端广泛应用最大的障碍;可靠性和幻觉则是制约 B 端应用的最大障碍。

再后来,越来越多的开源模型出来。开源模型微调之后在特定领域内甚至比GPT-3.5都强,但成本还不到GPT-3.5的十分之一。自己做基础模型,同尺寸性能大概率不如最好的开源模型。因此我就决定创业做AI Infra,解决大模型和应用之间巨大的鸿沟。

我对2024年的预测为:多模态大模型能够实时理解视频,实时生成包含复杂语义的视频;开源大模型达到GPT-4水平;GPT-3.5 水平开源模型的推理成本降到 GPT-3.5API 的百分之一,让应用在集成大模型的时候不用担心成本问题;高端手机支持本地大模型和自动 App 操控,每个人的生活都离不开大模型。

想对一年前的自己说:“大模型非常强大,而且很多问题都没被解决,抓紧时间上车。”

想问一年后的自己:“产品现在有多少用户了?公司有多少张GPU卡了?”

陆超,EasyLink联合创始人兼CTO

2023年,「筚路褴褛,以启山林」

去年,我作为联合创始人投身到AI 2.0创业热潮中,创建了一家AI原生应用公司——EasyLink,旨在构建一整套高效易用的大模型应用开发栈,支持大模型商业应用与落地。

过去一年,大模型技术日新月异固然让人欣喜,但也让许多初创团队面临着最初所选方向一夜间被颠覆的沮丧。在这些变化与不确定中,我们在产品快速迭代及落地过程中明确了自己的定位,组建了战斗力极强的团队,商业化处女落地,完成了天使轮融资。

总体上,过程很艰辛,小目标皆已达成。我们为2024年做好了开辟山林的准备,新的一年将会是倍道而进的一年。

2023年的Magic Moment,毫无疑问是去年Q4我们与一家大型城商银行合作,在一个多月时间内构建了大模型原生应用解决方案与产品并完成上线发布,获得了客户对新技术应用效果的肯定、并受到同业的关注。在如此短时间内完成这些,我们很自豪。

创业维艰,这是带领一群志同者不断攀登的过程,借时代与技术变革之势,稳扎稳打,结果固然重要,不断努力开拓进步的过程亦很美好。

宜博,宜创科技创始人

如果用一个词来形容2023年,是「焦虑」

2022年 11月 30日当看到ChatGPT的时候,我们发现过去六年实现的AI Code的传统NLP技术路线被折叠了,所以只能在1 月春节后快速做了决断,全面转型大模型领域。

在3 月,我们做完第一个产品ChatBI,却在4 月遇到政策不明朗,导致产品被各个平台下架。

5月,我们转向做大模型中间层PromptOPS,发布了LLMFarm,但是后面当每次OpenAI发布新功能,我们都会面临是不是又被它们挤压甚至折叠的质疑。

经常说一句话:人间一天,AI一年,每天AI自身发展迭代所取得的进展,远远大于人类一年的时间所实现的能力。在这个过程中,我们每个人每个公司所扮演什么角色?能做哪些工作?未来AI会进展到什么程度?明天会不会有个新能力将我们现在做的努力又完全颠覆?

彷徨是每个季度都发生的,第一季度放弃了NLP-AI Code,第二季度ChatBI被封,放弃了国内to C,第三季度是LLMFarm、Langchain中间件被OpenAI的迭代质疑未来还有什么价值,第四季度是当我们知道了GPT-5将有巨大的进展。

每次中间的转折点都是想清楚价值,活在当下,继续往前走,不论AI如何进展,人能发挥的主观能动性、创新力、想象力还是短时间AI无法弥补的。我们需要从做Soft的思路转化为做Service,把握好用户价值、客户价值,LLM的发展将是助力而不是迭代。

想对一年前的自己说:“赶紧屯卡,哈哈,想清楚在不明朗的时期最明朗的机会。”

想问一年后的自己:“AI原生的应用到底跑出来了什么?”

尤洋,潞晨科技创始人兼董事长、新加坡国立大学校长青年教授

如果用一个词来形容2023年,我觉得是「创新」

比如,我们的实验室在多个世界顶级期刊上发表论文,我的初创公司在大模型训练和推理加速上多次打破记录,达到世界先进水平。

去年夏天,在ICML顶会上我们发布了第一个标准化产品Colossal-AI Platform,引起了工业界及科研工作者的广泛关注。半年过去,这款产品经过多次的迭代,营收增长非常快,已经服务于医疗,零售,芯片,超算中心等多个行业,帮助用户在云上快速构建大模型。回头来看,这个瞬间对我和我的公司,潞晨科技,都比较有纪念意义。

2023年我看到AI最大的一个转变是,大家都不再一味追求超大规模。年初,国内外很多公司都宣布要训练发布千亿以上的大模型;到了年末,反而是很多体量小但是能力强的模型涌现出来越级挑战。面对这种转变,我们不断更新我们的技术和开源库,也推出了自己的一体机,帮助企业像制作PPT一样,高效快捷地训练自己的大模型。

想对一年前的自己说:“在通往成功的路上,一定有极大的不确定性和风险,走在路上,努力并专注就够了。”

想问一年后的自己:“2024年,我们有找到比Transformer更好的大模型架构吗?”

袁进辉,硅基流动SiliconFlow创始人

如果用一个词来形容2023年,是「坐过山车」

公司几个月之内经历了多次并购,从一家一亿美元的公司,变成到十亿美元的公司,再到千亿美元的公司,最后再分拆重新创业。

以至于今年的Magic moment太多次了,无法说哪一个最深刻。

2023年有过短暂的彷徨,那是光年之外被并购时,何去何从,有一种要和这个伟大的时代失之交臂的感觉。但纵然巨浪滔天,团队仍非常有斗志,有信心驾船驶向目的地。

2024年,我预测开源版GPT-4以及超级应用会出现。

想对一年前的自己说:“不忘初心,方得始终。”

想问一年后的自己:“我成长了吗?”

3.多模态:AI生成图像、视频与3D

胡渊鸣,Meshy AI Co-founder&CEO

2023年我的关键词是「刷新」

一方面是自我刷新,改变思维方式,积极尝试一些新的事情;另一方面对于AI的认知也被不断刷新。

2023年的Magic Moment,我觉得是Meshy-2的发布的时刻,开心又难忘。

三个月前,我们推出了Meshy-1。它是一款生成式AI工具,能让3D内容创作者在1 分钟内将文本(提示词)和图像转化为3D模型。而这次,我们的新版本Meshy-2把文本生成3D模型(Text to 3D)的质量大大提高,把人类在Text to 3D方面的能力又往前推进了一小步。

Meshy-2的 Text to 3D在造型设计、模型细节、风格控制、用户社区等方面实现了前所未有的升级。我们希望无论是经验丰富的CG从业者,还是渴望释放创意的3D爱好者,Meshy-2都将成为他们辅助实现梦想的伙伴。

2024年,我期待能够看到更多GenAI方向能做出PMF的产品。

想对一年前的自己说:“勇往直前”。

想问一年后的自己:“Apple Vision Pro发展得怎么样了?”

刘永升,超参数科技创始人兼CEO

2023年,我印象最深刻的一个瞬间,是莱克斯·弗里德曼(Lex Fridman,麻省理工学院研究科学家兼播客节目主持人)和杰夫·贝索斯(Jeff Bezos)的对话节目中,贝索斯有一个观点:“大语言模型不是发明,而是发现(Large language models are not inventions,they are discoveries)。”

他解释说,人类发明天文望远镜是发明,但通过望远镜观察木星发现它有若干“月亮”,这是人类历史中伟大的发现。

现在不管是GPT-4还是Gemini,它们不是为了解决一个特定难题而设计的。通过它们人类发现:只要有足够的优质数据和计算能力,就一定能设计出相应的算法,让计算机表现出接近人类、甚至在某些方面远超人类的智能。

它的影响绝不仅仅是一个killer app,或者是一个iOS生态,它对人类社会的影响是非常深远的,可能需要数十年甚至上百年才能看清楚。

2023年上半年团队和我都挺受冲击,很纠结要不要去做大模型预训练(pre-train)的工作。后面国内不断有一些大模型团队发布大模型产品,虽然有惊喜,但缺乏亮点,总体离ChatGPT还是有不小差距。这些团队相比我们有更好的资源和条件做pre-train,我们凭什么能够比他们表现更好?

我们低估了做pre-train的难度,而又高估了自身差异化能力。想明白这些事情后就豁然开朗了。

青柑,Tiamat创始人 &CEO

2023年我的关键词应该是「好事多磨」

过去一年发生了很多事情,我发现做一个企业和做一件事情的区别还是很大的,这对我是很大的成长和挑战。但总的来说,不管是对团队还是对个人,都是好事多磨。

2023年,其实比起变化,我更多关注不变的东西。AI 行业变化的东西每天都在发生,但是不变的东西是什么更值得思考。

2024年,我希望模型有更新一步的进展,AI技术和产品的结合更紧密,和用户的真实需求相关更紧密。

如果有机会对一年前的自己说一句话,我会说:“没有捷径和幻觉。”

唐家渝,生数科技CEO

2023年一直有种“在浪尖上努力平衡疾驰”的感觉。

2022年底,ChatGPT的诞生就像是时代巨浪,“一波掀起千层浪”。我们要第一时间掌握新趋势、新变化,灵活快速地作出决策调整,就像是在浪尖上疾驰,努力保持平衡前行的同时,也时刻要警惕被后浪拍倒,机会与挑战并存。

这一年的Magic Moment,是 3月 15日凌晨GPT-4发布,看到报告里对于图像理解能力展现的时候。大模型能够识别和推理,能get到各种搞笑图片中的笑点,第一次看到的时候还是觉得非常厉害。

2023年并没有太多的困惑,因为我始终从内心认可着“提升全人类的创造力和生产力”这一长期使命,也一直坚定着多模态大模型方向。在心中有了“灯塔”以后,即便在面对各种市场、技术冲击的时候,心里都还是能保持peace,毕竟一件真正有价值的事情也不会轻易被实现。

2023年,图像、3D、视频等多模态领域还处于技术探索阶段,质量和可控性仍有较大的提升空间。但2024年,多模态将会迎来一波重大突破。

想对一年前的自己说:“要更勇敢地摒除噪音,相信自己的认知和判断,聚焦整个团队的投入。”

想问一年后的自己:“有践行好自己认可的价值观,在帮助释放用户创造力方面有初步满意的结果了吗?”

唐勇,李白人工智能实验室创始人 &CEO

2023年的关键词是「突飞猛进」

在以ChatGPT和 Stable Diffusion为代表的生成式人工智能技术的突破的背景下,李白实验室的视觉AI平台cutout.pro以及生成式AI创意设计平台promeai.com登顶A16z排行榜Top20。我们的用户数和营收都迅速增长。

这一年的Magic Moment,是2023年 11月在拉斯维加斯观影《来自地球的明信片》,16万平方英尺的环绕LED显示屏给人带来的视觉冲击让人相信世界是可以被模拟的。

2023年并没有彷徨过,更多的是兴奋,一次次验证了我们从2018年就认定和坚持的人工智能方向是对的。

想对一年前的自己说:“保持好奇心,持续学习。”

想问一年后的自己:“是否为更多人带来了更多价值,怎么做可以更好?”

王长虎,爱诗科技创始人、CEO

2023年的关键词是「探索」

我2023年开始创业,做AI视频生成大模型和应用。“探索”这个词概括了我在2023年创业过程中的体验和状态,不仅代表了我在AI技术和商业领域的勇气和好奇心,更是对自我能力、耐力和创新精神的考验。

这一年的Magic Moment,是爱诗内部创作平台上生成第一个视频那一刻。它是一只小鹿,很萌,有个不大的动作,时长很短,清晰度也不够,却是我们走出的第一步,令人难以忘记。

短短半年后,很多创作者用我们的产品PixVerse制作出了效果惊艳的“大片”,比如AI艺术家Ameli Caotica制作的短片《Last Mission》,这些作品十分令人振奋。

过去,AI往往被视为一种工具或服务,用来实现特定的功能和任务。2023年,随着AGI的发展,我越来越深刻地意识到,AI是有生命的。Ta更像是一个伙伴,可以和你交流,帮你解决问题,可以激发你的创意,帮助你完成过去无法完成的工作。现在的AI还是个婴儿,还有很多不足,可Ta在快速地学习和成长。2023年开始,人类将与AI共存。

深度学习的浪潮始自2012年 AlexNet在 ImageNet挑战赛上的一战成名。分类,检测,分割,GAN,以及后来的自/弱监督学习,都包含着计算机视觉领域发展的一个个里程碑。无论对于个人还是企业,一直都是通过技术与应用的结合才能有一席之地。

我们技术部同事北北对这段创业历程也有很深的感触:“从前的我也是按部就班地跟进、复现、实验和落地。但是Stable Diffusion出来的那一刻开始,一切都变了,按照之前的跟进速度好像不行了,状态变成了一种应接不暇,焦虑伴随而生。但与此同时,我也感受到了一种前所未有的冲动,不想就这么做个旁观者,想做个参与者,甚至是创造者、引领者。”

2024年,我最期待的是AI视频生成能实现ChatGPT时刻。我们会为此全力以赴。

想对一年前的自己说:“保持耐心,对自己的愿景保持信心,每一个挑战都是成长的机会。”

想问一年后的自己:“在过去的一年里,你做出了哪些决定或改变,使你离自己的梦想更近一步?”

杨海,奥创光年 COO

2023年的关键词,我想用坚持初心来形容。

2023年初,如何平衡技术研发和商业应用之间的挑战,我也曾感到困惑。找到属于自己的市场场景并不容易,很容易走各种弯路。

豁然开朗发生在2023年中旬,在经历了一段时间的辩证思考和内部讨论后,我们决定要聚焦在创立之初的方向上,就是“用AI技术的升级来解决市场营销问题”。在纵向上,我们将更多精力投入到深度理解客户上,去研究客户的需求和痛点;横向上,将这些需求与痛点与技术创新相结合。

这一年印象最深刻的是,我们和某集团达成以家居家装、家清、百货等多维度类目的图片批量产出与优化合作。通过预训练的视频混剪模型,以及结合平台及商家需求对模型进行微调后,奥创光年Mogic Copilot可实现日产10万条视频的规模。

那时候我们整个团队都觉得很兴奋,一方面感叹AI对现有营销生产力的提升,一方面也对AI生成的图片质感感到惊喜。最重要的是,这类合作让我们和客户形成了一个团队,而不是单纯的甲乙方关系,为共同的良品率,合格率、CTR(点击率)等指标一起服务,有了共同的团队感。

2023年,我们累计服务的客户超过200家,其中大多数都是国际一线品牌/集团。

想对一年前的自己说:“ 感谢自己有勇气‘躬身入局’, 也很庆幸自己眼光还不错,选择了AI赛道。”

想问一年后的自己:“文生视频技术在我们公司实现商业化了吗?”

张启煊,影眸科技CTO

2023年的状态是「??Boom!」,给了我们太多AI技术的想象!

这一年的Magic Moment,是8 月在洛杉矶参加SIGGRAPH(计算机图形学及互交技术顶会),正好赶上SIGGRAPH 50周年,遇到了图形学领域很多奠基级的人物,还成为了第一个入围Real-time Live活动的中国团队,甚至还在会场捕捉到了NVDIA的老黄。

2023年技术飞速发展,很多技术在短期内就展现出了极大的潜力。最大的考验,与其说是彷徨,不如说是动摇,选择一些不那么长期主义的方向。我们在2023年就面临了这样的选择,也是我们从3D角色生成更进一步到3D生成的转折。这时候既要能丢掉以前技术积累的包袱,拥抱新的变化,同时守住公司的本心。

过去一年里,我们打磨并上线了3D角色生成平台ChatAvatar,在产品迭代过程中最大的感悟是,AI 也许并没有产品本身重要,最顶尖的AI是让用户感受不到AI的存在。

2024年 1月我们正式完成了Rodin Gen-1 3D生成大模型的训练,期待能够顺利产品化!

想对一年前的自己说:“相信自己相信团队,一年后我们会有技术突破!”

想问一年后的自己:“Apple Vision Pro到底成没成啊,Killer App是啥?”

4.行业垂直场景 +AI

韩卿,Kyligence联合创始人兼CEO

2023年的关键词是「起势」

2023年我们探索出了一条将大模型引入既有大数据平台以增加产品力的务实道路,市场上获得了很好的反馈,同时也使得我们对未来AI+ Data的发展和趋势越来越清晰,以及坚信“顺势而为”。

这一年的Magic Moment,是在7 月14日公司用户大会,现场Live Demo我们的AI Copilot完成的那一刻。全程表演顺利,没有出现问题,AI回答的也非常顺利。

在2023年年初,我给公司的内部信中就提出Kyligence对 AI的三点策略:

It is not our game——大模型本身不是我们擅长和需要去参与的,我们相信技术的迭代会降低成本和门槛,最终将可以用于我们的产品中来提升我们的差异化;

Be part of the game——但我们要积极参与和学习,要将我们的产品和商业快速切入到AI相关,我们相信AI将带来巨变,尤其是商业上,客户一定会在AI上大量投入;

Build our own game——一定要找到适合我们,充分释放我们过去几年积累的场景和能力,为客户提供结合我们优势的产品和服务

想对一年前的自己说:“拥抱AI可以更早一点开始。”

想问一年后的自己:“生意做的咋样?”

何宛余,小库科技创始人兼CEO

2023年的关键词是「韧」

作为一家建筑科技公司,过去一年小库面对了地产行业大幅度动荡周期,内部组织和企业战略也有了变化,回想起来这些事有大有小、有好有坏,对我个人和团队而言,都得靠这个字穿越周期。

2023年的Magic Moment是 11月 29日,当天我们的海外产品注册人数激增,是产品7 月发布以来过往平均水平的420%,自此以后一直保持一个高增长的状态,受到全球不同国家不同语种的专业设计师、开发商等垂直用户关注及广泛认可。

对于传统乏新的建筑行业而言,一直陷入人力堆砌和传统工作流的泥泞中,2023年是行业举步维艰的一年,也是开始关注AI技术和数字化转型的大爆发之年。小库科技多年技术累积的行业应用:AI云、设计云等AI产品,也进一步随着行业的关注更为人所知。

2024年,建筑行业将开始形成新的工作流,个别超级个体的出现将成为行业典范,全行业开始突破以人力为核心的传统枷锁。

想对一年前的自己说:“美好的事情会持续发生,很多时候只需要换一个视界,便可以发现另类可能。”

想问一年后的自己:“经历完AI野蛮生长的新一年你又有了什么长进?再次遇到相似的情形时会怎么避坑?”

李光华,LanguageX联合创始人

2023年的关键词是「快进」

信息爆炸,文章待读list爆仓,需要跟进的内容太多;我从事的AI翻译领域,原本计划借助AI+Human in the loop,将语言服务成本降低10倍,使跨信息流转效率提升10倍,目前进度至少提前了3 年。

这一年的Magic Moment,是写的一篇关于OpenAI事件的文章,被官方推荐到企业微信,被一个多年未联系的朋友看到了。

2023年,我一开始高估了生成式AI的智能,所以对AI安全比较关注。目前我的观点是,GPT-5或者多模态不会带来AGI或者超级智能,理由是公开互联网文本数据是人类知识的精华,已经被当前的LLM用尽,单纯增加多模态或私域数据不会带来质变。但我们可能低估了多模型、类Agent/ GPTs协作带来的生产力变革。

我对2024年的预测有三个:基座模型的智能见顶,GPT-5没有让人惊艳,大概率是失望;B端场景:多模型、RAG(Retrieval Augmented Generation)、类Agent/ GPTs协作带来真正的业务落地;AI生成视频取得更大进展,出现多模态相关的C 端Killer应用。

想对一年前的自己说:“行动产生认知,半途而废也会带来新认知。”

想问一年后的自己:“你在自己最看好的方向有哪些行动?”

李祎嵩,钉钉协同办公智能化负责人

2023年的关键词是「兴奋」,每一个AI从业者对LLM的理解、应用、思考和实践都在以天为单位迭代。

这一年我们开始关注如何提升模型效果,一方面可以通过Prompt工程让任务更加贴近模型,一方面可以通过有监督微调(SFT)让模型更迁就业务场景;这一年开发范式也发生变化,“向量检索”+“意图识别”+ “插件模型”让LLM和业务系统深度结合,实现了GUI到 LUI的变革;这一年,我们发现RAG不但可以提升模型效果,减少模型幻觉,还可以打通用户私域数据,实现对企业知识的智能问答、带有私域业务背景知识的智能创作,甚至实现模型的行业化。

这一年我们探索了AI Agent,可以系统性地感知环境、理解和决策,进而做出智能创作、智能问答,或者是调用业务系统的某些能力;这一年,钉钉20多条产品线全面接入了大模型,进而打造出钉钉AI超级助理。

2023年对我来说,每一天都是新鲜的,每一天都是值得思考的,每一天都忙碌的,每一天都是有成就感的。这一年,乐此不疲,真的令人“兴奋”!

有一个细节让我印象非常深刻。数月前的一个晚上,我们在文档内写了一些内容进去测试,对AI助理说“帮我把文档中所有二级标题变为三级标题”、“打开双行工具栏”、“把文档中所有「智能」都变成红色”、“把正文字号变大一些”,当这些指令调试生效时,那一刻,我知道一个真正的智能化时代到来了。

想对一年前的自己说:“hi, 你可以更早、更快、更勤奋得投入到大模型的事业中,为这个全新的智能化时代多添一把柴。”

想问一年后的自己:“hi, 我在2024年该如何做,能够更好得让更多行业、更多人真正且大幅度提升工作效率?”

沈博文,飞书产品架构负责人

2023年的关键词是「改变」

因为我的工作方式,消费内容的方式,甚至在家辅导孩子学习的方式都因为AI变化了。

这一年的Magic Moment,是当我在一个AI产品中描述自己脑海中的一个画面,它给我创造了一首歌曲,有很棒的歌词和旋律。这让我感受到了这个技术的无限可能。

大模型出现之后,我们做AI产品不再是确定性的交付,而更像是在交付一种可能性(也就是概率)。所以以前的产品设计方法,验收方法,都在逐渐发生变化。人的想象力和对于想象的量化评估设计,变得更加重要。

2023年,在一轮又一轮的技术冲击中,我也曾彷徨过,厘清头绪的办法就是自己多把自己involve进去。AI算是进入比较便宜的了,比VR那波要买很多设备好多了。

2024年,拥有更强的多模态能力的模型会出现。期待看到能改变一些群体工作方式,让工作更轻松的新产品,当然,最好是自己做的。

想对一年前的自己说:“更坚定地去做自己认为正确的事。”

想问一年后的自己:“2024年你觉得自己做出最好和最坏的决策分别是什么?”

石天放,Muse相机 /ChatMind创始人

2023年的关键词是「快速试错」。

把认知误区快速排除干净非常重要,很多东西不去亲自试一遍,很难有深刻的理解,等到真正的机会来了掉进去才是真正的难受。

这一年的Magic Moment,是3 月7 日ChatMind的诞生。前一天晚上在学校图书馆(石天放1999年生人,此时还没毕业),我看到北大一个团队做出了ChatExcel,就在想是不是还有什么形态的产品会出现,然后就把GPT能结合的所有信息格式(文本格式和文件格式)都梳理了一遍发现思维导图这块国内外都没人做过,同时又是很好的可视化内容的形式。我先是把想法分享给了几个朋友,问他们要不要一起做,大家有的说已经晚了,有的人说没什么时间,我只能自己做,一个晚上就把它做出来了。

ChatMind发展非常顺利,在海外已经成为AI思维导图的代名词。两个月后,我和XMind CEO孙方聊了一个晚上,就定下来被收购的事情。

ChatMind被收购后,我又做了七八个AI项目,但都不成功。休息了一个多月后,我做了一次深度复盘,我的总结是:“排除假问题和噪音。”

用户产生的问题有非常多,怎样排除假问题是非常重要的,否则会浪费大量的时间做无意义的创新和工作,到头发现用户根本不需要或者不关心。要以结果为导向,而非过程,退化思考;不要想太深,想太复杂,想太细;快速找到悖论,根本不存在的产品就没必要花时间。

2024年,我感觉可能会跑出来非AI的产品,而不是AI产品,AI产品可能在2025年才会跑出来。

想对一年前的自己说:“坚定做一定存在但别人没做过的东西,牢牢抓住一个好机会尽可能放大,不存在的东西一点时间都不要浪费。”

想问一年后的自己:“下一步怎么做?”

涂存超,幂律智能CEO

2023年的关键词是「走钢丝」。

公司面临巨大的资金压力,每时每刻都在找钱;同时,大模型给行业以及公司业务带来了新的机会,能不能把握住这个机会,是决定公司生死的关键。所以2023年全年都走在生死线上。

这一年的Magic Moment,是在发薪日前一天晚上,收到投资款到账的短信,终于可以睡个好觉了。

2024年,我预测会出现媲美当下最好闭源模型的开源模型。

想对一年前的自己说:“抓住大模型的机会。”

想问一年后的自己:“国产大模型以及开源大模型追上GPT-4了吗?”

王喆,特赞科技Tezign联合创始人

如果用一个词来形容2023年:「It’s time to build. 」

在过去的5 年甚至更长时间里,资本催生了许多事物,也激发了人们的创业热情,每个人都觉得自己有能力再做一件事情。这导致人员流动和热点话题的迁移非常迅速,对于初创公司可能友好,但并不一定有利于打造出卓越的产品。因此,在2023年这个时间、这个阶段,对企业来说最好的方式,就是动手创建。

去年5 月特赞发起了首届“数字设计:AIGC创建者大会”(Digital Design:AIGC Builders and Creators Conference),联动50家 AIGC内容科技领域的内容共建者,邀请了200+ 分享嘉宾打造了100+ 场全天不间断的内容盛宴,为AIGC的建设者(Builders)和创作者(Creators)搭建了“双向互动最大化”的舞台,吸引数百万人关注。这次大会上产生了很多AIGC有意思的讨论,我们也很开心这些讨论有些已经变成了落地的项目。

2023年,与焦虑相比我更多是激动。在人类创意的历史上,每一次技术的发展都是先产生了某些恐慌,然后又产生了巨大的机会,最终机会大于恐慌。

比如相机刚问世的时候,很多画家开始担忧失业问题,因为相机永远比画家呈现得更真实高效,但是后来出现了印象派、后印象派、抽象派,出现了形式主义、当代艺术,甚至连像不像都不重要,因为出现了装置艺术,打开了艺术创作的新大门。所以我很期待这轮技术带来的各种各样的可能性。

2024年,我会持续关注大模型和应用之间的连接和边界。去年令人欣喜的是,行业头部企业,尤其是非互联网领域的领先公司,都开始倾向于构建自己的AI中台,这一趋势的发展速度超出了我们之前的预期。所以在2024年,基于AI中台的商业空间也会非常广阔。

想问一年后的自己:“用AI做了哪几个小助理帮自己赚钱了?”

5.AI学术研究

罗鸿胤,麻省理工学院计算机学与人工智能实验室(CSAIL)博士后研究员

2023年适合我的关键词是 「释怀」

ChatGPT的发布公告把我的思绪扔回了2016年。彼时和大多数博士新生一样,我抱着不具体又演化为焦虑的希望来到MIT。因为一些”乌龙”,我加入了一个和自己的研究方向(NLP)不太一致的语音识别小组。

2016年夏天导师与我畅谈他做研究的初心,帮助我寻找研究方向:希望我在博士期间设计以语音为接口,能理解、生成自然语言的AI系统,与人类流畅地交流许多话题,目标是要比Alexa更自然,比Siri更流畅。

当时我朴素地认为语音和对话是语言模型的应用层:当时语言模型能力极其有限的情况下,我们似乎没有理由不去深入研究语言模型,而直接开展Chatbot的工作。那时出于这个疑惑,训练评测语言模型成了我的舒适区,而评测调优各种下游任务则是己所不欲。

导师对此一直未置可否,最后我的博士毕业论文也囊括了许多NLP应用任务,但这个诞生于博士一年级的疑惑仍未散去,直到ChatGPT发布的一刻。

在ChatGPT面世的那天回忆起这些,我第一次有了对于学术生涯的遗憾:没能用自己的博士论文解答让自己感到困惑的问题。但这个遗憾随着2023年的流逝而释怀:自己非常关心却没人知道答案的问题可能就是最好的安排。在波澜壮阔的第三代AI元年,这个想法时常让我感到发自内心的冷静和平和。

这一年,我觉得最Magic的时刻是有一天家庭群里发的内容不再是《中年养生十大秘诀》,而是 《2024AI 发展十大趋势》。

每个年代,比如1860年、1960年、2060年,他们的AGI都是不同的,但我相信,编程能力会是21世纪最重要的AGI能力。

© 版权声明

相关文章

暂无评论

暂无评论...