体育游戏app平台我是把数据引入AI天下的东谈主-开云官网切尔西赞助商(2025已更新(最新/官方/入口)
发布日期:2026-06-16 07:30 点击次数:57

作家|大模子活泼组
在新一期a16z播客节目中,由a16z结伴东谈主Erik Torenberg阁下,与World Labs长入创始东谈主兼CEO李飞飞,以及a16z结伴东谈主 & World Labs早期投资东谈主 Martin Casado 进行了一场对话。共同探讨了"天下模子"的倡导——即AI系统能领路并推理物理3D天下,而不仅限于文本。
被誉为"AI教母"的李飞飞证明了为何空间智能是面前AI系统要害却缺失的构成部分,以及她的新公司为何全力攻克这一挑战。Martin共享了他们早在该理念流行前就达成共鸣的故事,并表现这可能界说机器东谈主、创意产业和计较本人的改日。
从大讲话模子的局限到具身AI的远景,从个东谈主遗闻到深度技艺瞻念察,这是一场对于构建委果与编造天下智能实质的盘问。以下是这期节主见内容实录:
Erik Torenberg:
伸开剩余92%Martin ,你能不行简要隘代表飞飞吹嘘一下,跟不纯属的东谈主回想下你对AI的孝顺。
Martin Casado:
公共对她并不生分无需过多先容,她作念了太多的事,我齐说不完。是以也许我只说一些与面前话题关联的事。固然,她是 Twitter 董事会成员,曾任职于谷歌。她如故 World Labs 的创始东谈主兼CEO。但很是遑急的是,就像咱们齐知谈的,AI鸿沟里,公共齐在指摘神经网罗,也有好多东谈主专注于让这些神经网罗更有用。但飞飞真确地将数据引入了这个方程式,而当今咱们签订到,数据可能才是更大、更意旨的问题,是以公共齐称她为“AI之母”。
Erik Torenberg:
飞飞,你为什么选用 Martin 成为首位投资者?
李飞飞:
来源,我贯通 Martin 仍是十多年了。2009年我动作助理讲授加入斯坦福大学时,Martin 正在那边攻读博士学位。是以我一直齐了解他,固然, Martin 的导师 Nick McCune 是我的好一又友。我一直知谈 Martin 会成为一位很是得手的企业家和投资者,咱们经常碰面和调换。
当我构想 World Labs 的想法时,我在寻找我所谓的“独角兽投资者”。我不知谈这个词是否准确,但我等于这样名称他的。他不仅是树立斐然的投资者,能和创业者通盘资格升沉,有深刻观点,能带来学问、提议和资源的东谈主,但我特地需要一位才气伙伴。因为 World Labs 作念的是曲常深度的技艺。咱们正在尝试作念别东谈主从未作念过的事,咱们驯顺这将真确编削天下。我需要一个既是计较机科学家,又是AI推敲者,了解家具商场、商场推行战略的东谈主,还能随时与我进行才气对话。
Martin Casado:
履行上,咱们领先结缘的故事还挺意旨的。飞飞显著想考这个想法仍是很深化,致使在阵势启动前好几年就运转了。她一直在说她对AI要如安辞天下中运行有着深刻的直观。其时咱们参加了 Mark 的豪华午餐会,有好多AI鸿沟的东谈主齐在,公共齐对大讲话模子很是兴盛,齐在指摘讲话。我我方也得出了一个沉寂的论断,因为我作念过好多图像投资方面的责任,我合计讲话并不是故事的尽头。
其时飞飞坐在餐桌另一头,听着这些东谈主指摘。她拜访我:“你知谈咱们缺什么吗?咱们缺一个天下模子。”我其时就想:“没错!”那一刻一切齐对上了,因为我一直在宏不雅层面想考这些问题,但她就像往常相同,精确地阐发了这个不雅点。她为此想考了一年,和好多东谈主调换过。是以在某种进程上,咱们各自同归殊途,得出了很是相似的直观。她的想法更完善,我的则仅仅个初步的倡导。但从那之后,咱们进行了屡次交谈,咱们齐认可这个想法。
李飞飞:
履行上,你们可能不知谈,在那次午餐时,咱们一拍即合,齐认可天下模子的想法。但那时我仍是在和不同的东谈主调换了,不仅仅计较机科学家和技艺东谈主员,还有投资者和潜在的交易伙伴。说真话,大多数东谈主齐没领路。当我说天下模子时,我能嗅觉到他们仅仅规则所在点头。是以我给 Martin 打电话,说:“你严防来斯坦福和我喝杯咖啡吗?”
我对 Martin 说:“你能给我界说一来天下模子吗?”我简直想阐发下 Martin 是不是简直领路这个倡导。他对天下模子的界说是一个真确领路天下3D结构、体式和组合性的 AI 模子,这和我想的完全一致。我其时就想:“哇,他是我到目下为止交谈过的东谈主中独逐个个真确领路的,而不是只点头援手的东谈主。”
Erik Torenberg:
好的,咱们接下来会聊聊World Labs 以及具体情况,但无意来源咱们先回到你们读博时期和讲授时期,并反想一下。如果你们能回到以前,况兼领会以前十年AI鸿沟发生的事,你们合计最大的不测会是什么?或者说有什么是你们当初没预猜度,会让年青时的我方感到畏缩的事?
李飞飞:
这提及来很讪笑,就像 Martin 说的,我是把数据引入AI天下的东谈主,但我仍然在情怀上很是诧异,这些依赖大齐数据的模子、数据驱动的AI能发展到如今的进程,况兼简直展现出了想维机器般令东谈主难以置信的清楚性行动。
Erik Torenberg:
为什么要再创办一家基础模子公司呢?为什么不专注于大讲话模子呢?
李飞飞:
我的学术追求不在于创办公司或发表论文,而在于寻找北极星问题。是以不是我某天醒来,就说一定要开家公司。在以前几年里,我每天醒来齐在想,天下上远不啻讲话。讲话是一种很是宽敞的想想和信息编码面目,但它并不是对3D物理天下的有用编码,而扫数动物和生物齐生活在这个3D物理天下里。
如果你不雅察东谈主类智能,好多齐超出了讲话的范围。讲话是一种有信息亏空的捕捉天下的面目。而且还有一个好意思妙之处,正派的生成式“讲话”在当然界中并不存在。咱们环视四周,莫得现成的句子或单词,而总共物理、感知、视觉天下却委果存在。动物的总共进化史齐是建造在大齐感知和最终具身智能之上的。东谈主类不仅糊口、生活、责任,还通过构建和编削天下建造了文静,这等于我想科罚的问题。
为了科罚这个问题,推敲显著很遑急。我动作学者花了好多年作念推敲,也很享受这个流程。但我如实签订到,特地是和 Martin 调换后,当今是时候纠合行业级的力量,特地是在计较、数据和东谈主才方面纠合发力,才能真确杀青这个方针。这等于我创办 World Labs 的原因。
Martin Casado:
Erik ,你不错作念一个浅易的想维实验,来突显讲话和空间的远隔。如果我把你放在一个房间里,蒙上你的眼睛,然后给你形容这个房间,再让你完成一项任务,你得手的可能性很是小。比如我说:“在你前哨十英尺处有一个杯子,左边还有……”这是一种很是不准确的形容现实的面目,因为现实很是复杂、精确。
反之,如果我拿掉你的眼罩,让你看到履行的空间,你的大脑履行上会重建3D空间,然后你就不错去操作主西、触摸东西。是以不错这样领路,咱们进行大齐的讲话处理,用它来调换和传达高级次的想法等。但当波及在现实天下中导航时,咱们真确依赖的是天下本人以及咱们重建它的能力。
Erik Torenberg:
你是如何以及何时签订到讲话可能不够用的?因为这似乎并莫得得到平素剖释,我也不是经常听到这方面的盘问。
Martin Casado:
如果问我最大的冲突性发现,那等于讲话技艺先获得了进展,而咱们在机器东谈主技艺上进入了好多奋发,仅自动驾驶汽车行业,咱们在这个行业进入了大致1000亿好意思元。我难忘2006年 DARPA(好意思国国防部高级推敲推敲局)挑战赛,咱们齐快活“自动驾驶汽车成了!”。但20年以前了,进入1000亿好意思元,这还仅仅一个二维问题。咱们原来的途径是先科罚天下导航问题,但截特地其坚苦。蓦地出现了大讲话模子,它们经济高效,险些一霎就科罚了好多讲话问题,我花了一些时辰才领路。
飞飞说得很是好,我花了一些时辰才领路,咱们大脑讲话处理区域很新,咱们后果其实很低,计较机更擅长不及为奇,但大脑中肃穆导航、空间感知的部分仍是存在很深化,可能有几百万年,也许从爬行动物脑期间就有了,粗拙有四百万年。
李飞飞:
致使更陈腐,如三叶虫期间。
Martin Casado:
是以这就像是咱们正在重现进化历程。讲话部分对于高级次倡导和一些脑力责任很是遑急,这亦然目下它正在对白领责任范围产生影响的鸿沟。但当波及空间时,从机器东谈主技艺到任何需要构建物理实体的鸿沟,齐必须科罚这个问题。咱们从自动驾驶汽车鸿沟就知谈这是个很是辣手的问题。而退化波澜给了咱们一些如何科罚这个问题的想路,其时恰是推敲良机。
李飞飞:
我的资格不太相同,因为我专注从事视觉推敲,是以我不需要大讲话模子来让我信托天下模子的遑急性。声明并非诽谤讲话。履行上,看到ChatGPT、大讲话模子和这些基础模子获得如斯冲突性的得手让我很兴盛,这让咱们签订到天下模子杀青的时刻越来越近了。
就像 Martin 表述很精妙,3D空间与心智空间,这种空间智能能让东谈主作念好多卓著讲话的事情,是智能的要害部分。从旷古动物到东谈主类最具改进性的发现,比如DNA双螺旋结构,仅靠讲话是无法推理出来的,这是我最爱的科学例证,我合计他的例子是巴克球,碳分子结构筹算得很是精采。这样的例子炫耀了空间和3D天下的艰深。
Erik Torenberg:
让咱们更具体地假想一下。当 World Labs 杀青其愿景,或者讲话天下模子杀青其愿景时,有哪些期骗场景或用例不错具体说明呢?
李飞飞:
有好多。比如,创造力很猛进程上是视觉化的。从筹算、电影、建筑到工业筹算,创作家波及多个鸿沟。筹算和创意不仅用于文娱,还可用于晋升坐蓐力、制造机械等好多方面,这本人等于一个高度视觉化、感知化、空间化的责任鸿沟。固然,咱们提到的机器东谈主技艺,对我来说是指扫数具身机器,不仅仅类东谈主机器东谈主或汽车,中间还有好多种类。但它们齐需要领路3D空间,需要查考领路3D空间,并进行任务履行,有时致使要与东谈主类合作,这固然需要空间智能。
我合计让我很是兴盛的少量是,在总共东谈主类文静历史中,咱们扫数东谈主齐共同生活在一个3D天下里,也等于地球的物理3D天下。唯有少数东谈主去过月球,但东谈主数很是少。而这项技艺让数字编造天下变得无比精彩,它勾通了生成和重建。
蓦地间,咱们履行上不错创造无穷的天地。有些是为机器东谈主创造的,有些是为创造力创造的,有些是为外交创造的,有些是为旅行创造的,有些是为讲故事创造的。蓦地之间,咱们能够生活在一个多元天地中,假想的空间是无穷的。
Martin Casado:
这些盘问听起来可能很空洞,但履行上并非如斯。它们听起来空洞是因为这个鸿沟很是平素,就像大讲话模子相同横向通用。如果问大讲话模子擅长什么,磨灭个大讲话模子可用于情怀调换、编写代码、列清单,还不错用于自我杀青。
我认为咱们不错很是具体地说明这些模子能作念什么。有了这些模子,你不错通过对天下的二维视角,在计较机中创建一个齐备的3D默示,包括你看不到的部分,比如桌子的背面。仅通过二维视角,你就能得到齐备的信息,你不错问“用这个模子能作念什么?”,然后你不错对它进行操作、挪动、测量、堆叠,是以在空间中能作念的任何事情齐不错杀青。这意味着不错用于建筑筹算、创意筹算。而且能够填充桌子背面的信息意味着不错创造原来不存在的东西。
比如,我唯有一张二维图片,就不错创建一个360度的齐备视图。这等于完全的生成式能力。这意味着不错用于视频游戏、创意筹算等鸿沟。这是一个超等横向的技艺,它不错通过计较机对天下的单一或多个视角,创建一个齐备的3D默示,然后计较机就不错基于此进行操作。不错看到,这对从机器东谈主技艺到视频游戏、艺术筹算等各个鸿沟齐有着要害的作用。
Erik Torenberg:
似乎直到当今咱们才充分贯通到3D元素的遑急性,这样连系理吗?
李飞飞:
这样说是合理的。履行上,这资格了很长的进化流程。3D问题并阻截易科罚,但我总会想起几年前我和我六岁孩子的一次对话,对于为什么树莫得眼睛。根底原因是树不会挪动,是以不需要眼睛。动物人命的基础是挪动、行动和交互,这就催生了感知和空间智能。而空间智能,就像 Martin 说的,将全面重塑东谈主类的责任和生活面目。
Erik Torenberg:
一定淌若3D的吗?为什么不行只用二维呢?
李飞飞:
物理征象发生在3D空间中,交互也发生在3D空间中。在桌子后头导航需要在3D空间中进行。无论是在物理天下如故数字天下中构建事物,齐需要在3D空间中进行。是以从根底上说,这是一个3D问题。
Martin Casado:
一种想考面目是,如果是东谈主类看二维视频,东谈主类不错在脑海中重建3D空间。但如果是一个机器东谈主,它的模子输出是二维的,然后让它去完成一些任务,比如测量距离、执取东西,就会费劲要害信息,唯有X、Y轴,因为费劲了Z轴信息。是以对于好多与空间关联的任务,需要向计较机提供3D信息,这样它才能在3D空间中导航。二维视频对东谈主类来说没问题,因为咱们不错将其转念为3D信息,但对于任何计较机设施来说,齐需要3D信息。
李飞飞:
履行上,我想讲共享个躬行资格。粗拙五年前,我因为眼角膜受伤,有几个月失去了立体视觉,只可用一只眼睛看东西。就像 Martin 说的,我一世齐习气了立体视觉。是以即使只用一只眼睛看,我大致也知谈3D天下是什么样的。但动作又名视觉科学家,那段时辰对我来说是一次意旨的实验,让我体验了另一种看天下的面目。
有一件事让我印象深刻,我不敢开车了。来源,我不敢上高速,速率太快我搪塞不来。我只可在我方家隔邻开车,我发现我无法很好地判断我的车和路边停着的车之间的距离,即使是在一条小径上。尽管我很是表露我的车有多大,也大致知谈邻居家停的车有多大,而且我在这条路上开了好多年。但开车的时候,我只可开得很慢,时速险些唯有十英里,以免刮到其他车。这等于咱们需要立体视觉的原因。
Martin Casado:
这很好地说明了为什么在进行某些处理时,3D信息是必不可少的。
李飞飞:
没错,我不提议公共尝试,但如果你有空,不错用一只眼睛看,然后停一辆车,再开另一辆车,感受一下。
Erik Torenberg:
在大讲话模子方面,好多推敲是由大公司完成的。目下这个鸿沟的推敲进展如何?
李飞飞:
与大讲话模子比拟,这全齐是一个较新的推敲鸿沟。但也不行说全新,因为在计较机视觉鸿沟,咱们一直在作念关联的推敲。举例,3D计较机视觉鸿沟的一个遑急冲突是神经辐照场(NeRF),是咱们的长入创始东谈主 Ben Mildenhall 和他在伯克利的共事们完成的,这是一种杀青3D的面目。四年前,深度学习重构技艺曾席卷全球。咱们还有一位长入创始东谈主 Christoph Lassner ,他的创始性责任是高斯泼溅默示法复苏起来的原因之一,这种步履用于表现3D体积数据。
固然还有 Justin Johnson ,他曾是我的学生,亦然 World Labs 的长入创始东谈主,他们属于第一代深度学习计较机视觉鸿沟的学生,在图像生成方面作念了大齐奠基性责任。在 Transformer 出现之前,咱们用GANs(高斯步履)进行图像生成,还有作风迁徙技艺,这推行了咱们当今所作念责任的一些构成部分。学术界和工业界齐在开展关联责任。在 World Labs ,咱们驯顺要专注于这个最遑急的中枢问题,集聚计较机视觉、扩散模子、图形计较机图形学、优化、AI和数据等鸿沟最精明的东谈主,构成一个团队,奋发让这个阵势取奏效利并杀青家具化。
Martin Casado:
我并非这些鸿沟的大众,但我要科罚这个问题,需要AI鸿沟的大众体育游戏app平台,包括在数据、模子架构方面的大众,也需要图形学大众,他们不错科罚计较机内存和屏幕呈现问题。是以我认为这是一个很是特地的团队,能攻克这个难题,而飞飞仍是得手组建了这个团队。
发布于:北京市