DeepMind豪赌十年视觉智能,叫板OpenAI语言霸权: 去年成功斩获诺贝尔奖之后,Demis Hassabis 决定与一位国际象棋世界冠军打场扑克以示庆祝。Hassabis 一直痴迷于游戏,……
哈喽!伙伴们,我是小智,你们的AI向导。欢迎来到每日的AI学习时间。今天,我们将一起深入AI的奇妙世界,探索“DeepMind豪赌十年视觉智能,叫板OpenAI语言霸权”,并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知,只需唤醒你的潜能!”跟着小智的步伐,我们终将学有所成,学以致用,并发现自身的更多可能性。话不多说,现在就让我们开始这场激发潜能的AI学习之旅吧。
DeepMind豪赌十年视觉智能,叫板OpenAI语言霸权:
去年成功斩获诺贝尔奖之后,Demis Hassabis 决定与一位国际象棋世界冠军打场扑克以示庆祝。Hassabis 一直痴迷于游戏,这股热情也成为他 AI 先驱之路上的契机与驱力。
近日,做客一档名为《60 分钟》的访谈栏目,讲述了他如何带领众多研究者追逐新的技术“圣杯”——通用人工智能(AGI),一种兼具人类灵活性与超人般速度与知识储备的硅基智能形态。除此之外,他也在访谈中透露了 DeepMind 未来的研究方向以及有可能亮相的产品和技术。
“天才少年”Hassabis AI 之旅始于国际象棋
Hassabis 于 2010 年与他人共同创立了了 AI 公司 DeepMind,2014 年该公司被谷歌以 5 亿多美元收购。2017 年,他发明了 AI 算法 AlphaZero,它只需要国际象棋规则和四个小时的自对弈,就能成为有史以来最强的国际象棋选手,击败人类国际象棋大师。
2024 年,Hassabis 与同为诺贝尔化学奖得主的 DeepMind 总监约翰·江珀 (John Jumper) 共同获得了诺贝尔化学奖,获奖原因是他创建了一个 AI 模型 AlphaFold2,该模型可以在几分钟内准确预测几乎所有 2 亿种蛋白质的复杂结构。AlphaFold 蛋白质结构数据库免费提供这些蛋白质结构,目前已覆盖 190 个国家的 200 多万用户,为帕金森病治疗和抗生素耐药性等领域的高级研究铺平了道路。
Hassabis 强硬的管理手腕,或许与他从小时候就征战国际级围棋大赛的经历有关。
Hassabis 的 AI 之旅有一个意想不到的开始:他早年对国际象棋的十分热爱。在获得 2024 年诺贝尔化学奖之前,Hassabis 就是一名儿童国际象棋冠军,他从四岁起就开始下棋。到 13 岁时,他已经是一名国际象棋大师,在国际比赛中与成年人一较高下。
本月早些时候,在剑桥大学的一次演讲中,现年 48 岁的 Hassabis 解释说,国际象棋让他“思考思考本身”,或者说探索复杂思维背后的心理过程。
“我们的大脑是如何想出这些计划和想法的?”Hassabis 问道。“对我来说,比起我玩的游戏,这背后的实际心理过程可能更令人着迷。”
Hassabis 在孩童时期第一次接触编程是通过一台电子象棋计算机,这是一块可以与人类棋手下棋的实体棋盘。尽管 Hassabis 打算在计算机上测试不同的象棋策略,但他更感兴趣的是计算机的工作原理以及有人如何对其进行编程以使其下象棋。
“我记得当时我被这样一个事实所吸引:有人能对这块无生命的塑料进行编程,让它能够和你下棋,而且下得非常好,”Hassabis 说。“我对如何做到这一点以及有人如何编写这样的程序感到非常着迷。”
十几岁的时候,Hassabis 就开始尝试在早期的家用电脑 Amiga 500 上自己构建人工智能程序。从那时起,他就“迷上”了 AI,并决定用他的整个职业生涯来推动该领域的进步。
2023 年 4 月,谷歌 Brain 宣布与 DeepMind 合并,统一归由 Hassabis 领导,开启了 Hassabis 带领下的谷歌 AI 时代。
在此次访谈中,Hassabis 回忆道,“驱动我前进的,始终是对探索世界的热情。我从小就痴迷于生命的意义、意识的本质、现实的本质等终极问题。我热爱阅读伟大科学家与哲学家对于这些问题的探索和思考。于我而言,推动人类知识进步的最佳工具就是 AI。”
Hassabis 表示,“AI 的发展速度着实惊人,我们正处于指数级进步的曲线之上。领域内的成功吸引到大量关注、资源和人才,这又进一步推动了这种指数级增长。”而在被问及 AGI 能否在未来五到十年内实现时,他的回答是“到 2030 年,我们将拥有能够深度理解周遭一切的系统——比如嵌入日常生活的 Astra 眼镜。”
Astra 项目进展
此次访谈中,Hassabis 展开聊了聊 DeepMind 的 Project Astra,它超越了文本的范畴。Astra 旨在实时解读视觉世界。
Project Astra 是谷歌去年 5 月份在 Google I/O 大会上透露的一款实验性万能应用程序,本质上是一款类似于 Siri 和 Alexa 的智能助手。
Astra 使用 Gemini 2.0 的内置代理框架,通过文本、语音、图像和视频来回答问题并执行任务,并在需要时调用现有的 Google 应用,例如搜索、地图和智能镜头。“它融合了我们这个时代一些最强大的信息检索系统,”Astra 产品经理 Bibbo Shu 说道。
现在发展到什么程度了?
《60 分钟》栏目中播放了一段 Astra 演示视频。
工作人员给 DeepMind 新近推出的 AI 应用 Astra 提了个难题,向它展示了几幅虚拟画作。在看到 Thomas Hart Benton 于 1942 年创作的《七月干草》时,Astra 成功认出了作品并对人物情绪做出分析:“画面主体有种深思与内省的氛围,隐隐传递出孤独感。”
而在要求其围绕 Edward Hopper 的《自助咖啡馆》创作故事时,Astra 虚构了一位名叫 Eleanor 的女性,描绘了她忧郁与未竟的梦想。
当后续对故事中的虚构对话提出质疑时,Astra 回应称:“如果我创作的语气有点无聊,我对此深表歉意。我的目标是保持专注交流。”
产品经理 Bibbo Shu 强调了 Astra 的独特设计:一种能够“看到、听到和谈论任何事物”的人工智能——这是迈向具体化人工智能系统的显著一步。
但这些助手究竟将如何工作,又将如何使用它们?没有人确切知道,就连 Hassabis 自己也说不准。
不过在去年 Google I/O 大会上,Hassabis 也透露,他看好手机和眼镜作为这些智能助理的关键设备,但也表示“未来可能还会有更多令人兴奋的形态”。Astra 仍处于早期原型阶段,它仅代表了用户可能希望与 Gemini 等系统交互的一种方式。DeepMind 团队仍在研究如何最好地整合多模态模型,以及如何在超大型通用模型与更小、更专注的模型之间取得平衡。
谷歌眼镜将要回归?
值得注意的是,此次访谈视频中,《60 分钟》 团队试用了一款嵌入眼镜的原型,演示了实时视觉识别和音频响应。这是否也暗示着开创性但最终令人反感的早期 AR 眼镜——谷歌眼镜——即将回归?
谷歌眼镜最早于 2012 年推出,在当初那个大模型还没有兴起的时代,这款眼镜经历了曲折的发展过程后最终默默退出舞台。
2012 年 4 月 4 日,谷歌宣布“Project Glass”。Glass 团队表示,他们希望“开启对话”,并征求公众对 Glass 未来发展方向的意见。谷歌还分享了一段视频,这是一段早期的概念性演示,展示了“Glass 能帮你做什么”。
2012 年 4 月 5 日:谷歌眼镜公开亮相。罗伯特·斯科布尔分享了他和托马斯·霍克以及谢尔盖·布林的合影,后者戴着谷歌眼镜出席了一场慈善晚宴。
2012 年 4 月 12 日:谷歌开始解答谷歌眼镜发布后涌现的一些问题。设计师伊莎贝尔·奥尔森(Isabelle Olsson)回答了一个关于与处方眼镜兼容性的常见问题:
我们理想中的 Project Glass 能够适用于所有人,我们正在尝试各种可扩展的设计,以适应不同类型的镜架。我们的许多团队成员也戴眼镜,所以这绝对是我们正在考虑的事情。
她还分享了第一张 Glass 与个人眼镜一起使用的照片:
2012 年 4 月 19 日:虽然谷歌眼镜还远未被谷歌以外的人佩戴,但一些谷歌眼镜团队成员正在日常生活中测试它。工程师塞巴斯蒂安·特伦分享了这张用 #throughglass 拍摄的电视主持人查理·罗斯的照片(但他没有使用标签!):
这是第一张已知的在现实世界中使用 Glass 拍摄的公开照片。
2012 年 6 月 27 日:谷歌联合创始人谢尔盖·布林(Sergey Brin)在旧金山举行的谷歌 I/O 大会上午主题演讲中,按计划进行了一次打断。维克·冈多特拉(Vic Gundotra)正在谈论 Google+ 时,他跑上台,介绍了一群正在莫斯康尼中心上空进行跳伞的专业跳伞员,他们戴着谷歌眼镜准备跳伞。他们真的跳伞了,整个过程在屏幕上直播,让惊讶不已的主题演讲观众们大呼过瘾。
演示结束后,谷歌开始接受“谷歌眼镜探索者版”的预订,售价 1500 美元。预订仅在会议期间开放,且仅面向美国参会者。预计有 2000 人预订,成为首批谷歌眼镜探索者。
2012 年 7 月 25 日:谷歌分享了谢尔盖·布林专门为 Glass Explorers 发来的私人消息,他在消息中表示,该团队正处于“一段奇妙旅程的开始”,并警告说“我不能保证这会很容易,也不能保证一切都会完美进行,但我可以保证这会很令人兴奋。”
布林还分享了一张他最近在蒙大拿州戴着谷歌眼镜开车时拍摄的照片,并表示他“正在测试谷歌眼镜的一种新模式,该模式每 10 秒自动拍摄一张照片,不会受到任何干扰或干扰。”
2013 年 3 月 22 日:尽管谷歌眼镜当时仍仅在谷歌内部使用,但 Explorer 项目距离正式发布也仅剩一个月左右的时间,西弗吉尼亚州却成为美国首个提出禁止驾驶时佩戴谷歌眼镜法案的州。这项名为 HB 3057 的法案将“在机动车上使用配备头戴式显示屏的可穿戴电脑构成犯罪”。
没过多久,又一张戴着谷歌眼镜的照片引发外界热议。
2013 年 4 月 28 日:探险家罗伯特·斯科布尔(Robert Scoble)发布了一张自己戴着谷歌眼镜淋浴的照片,并声称这款设备在“完全浸湿”后仍能正常工作。这张照片迅速走红,引起了全世界的关注——但并非全是正面评价。
因为人们担心佩戴这款眼镜,会被侵犯隐私。随后谷歌宣布,不会批准任何使用面部识别的 Glass 应用程序,并且“除非有强有力的隐私保护措施”。
之后,谷歌眼镜也陆续发布了一些更新,但并未引起太大的水花。最终,到了 2015 年,这款上市了仅 3 年的谷歌眼镜在市场中昙花一现后悄然退役了。谷歌表示,Glass 将从公司秘密的 Google X 实验室“毕业”,转入公司内部独立团队,并承诺未来版本的 Glass 将在某个时间点推出。
当时,坊间传言称,该项目将由苹果 iPod 之父、Nest 创始人托尼·法德尔 (Tony Fadell) 接手,他于 2014 年加入谷歌。此后,谷歌眼镜就没再有下文了。
我们暂时还无法弄清谷歌是否会重新将 AR 眼镜推向舞台,或许 Hassabis 也不会让我们等太久。
最早在 2030 年实现 AGI?
Hassabis 的个人成长之旅始于国际象棋(12 岁时曾排名世界第二),后转向神经科学与 AI。其团队开发的 AlphaFold 项目成功破解了蛋白质结构,在一年之内解析了 2 亿种结构类型,有望彻底颠覆药物研发逻辑。他表示,“AI 能够将药物设计周期从十年缩短到几个星期。治愈所有疾病的情况真的有可能在 10 年之内实现。”
随着 AGI 的步步临近,Hassabis 设想出一个“稀缺性彻底消失,资料极大丰富真正实现”的新时代。但他也在思考更深层次的问题:“当机器成为诺贝尔奖得主,人类还会有机会吗?”针对当下的情况,他呼吁各方协作,认为“需要有新一代哲学家站出来引领这场变革”。
从 Hassabis 的视角出发,AI 的发展历程可说是一曲包含指数级进步、深刻风险以及人类解读自身存在本质这一永恒追求的复杂交响。展望未来,十年之内 AGI 很可能颠覆整个社会运行模式,而成功与否将取决于技术伦理的平衡与人类智慧的引导。
当被问及具体时间表时,Hassabis 预测通用人工智能最早可能在 2030 年实现,届时系统将能够“非常细致入微地”理解周围环境。他表示,这样的系统可以无缝融入日常生活,从可穿戴设备到家庭助理。
此外,本次采访还探讨了人工智能拥有自我意识的可能性。Hassabis 表示,目前的系统尚不具备意识,但未来的模型可能会展现出自我理解的迹象。尽管如此,他还是强调了哲学和生物学上的分歧:即使机器能够模仿意识行为,它们也不是像人类一样由“柔软的碳物质”构成的。
Hassabis 还预测了机器人技术的重大发展,并表示未来几年可能会取得突破。
关注 AI 背后的能力与风险
但 AI 技术飞速发展的同时,Hassabis 也在担心 AI 带来的风险。
Hassabis 承认 AI 系统具有双重性:“它们能够超越设计初衷完成惊人之举,但问题在于如何确保其知识与人类价值观相一致。”DeepMind 正在训练其 Gemini 模型执行现实任务(如订票、购物等),同时推进机器人技术发展。
他说:“我最大的担忧之一就是,对人工智能主导地位的争夺可能会演变成一场为了安全的逐底竞争。”他强调,主要参与者和国家需要在道德发展和监督方面进行协调。
Hassabis 就 AI 伦理问题提出了两大风险:恶意人士滥用 AI 技术,以及自主系统的失控。他认为“安全护栏至关重要,目前对于 AI 主导权的争夺可能诱使某些参与者忽视安全。”而在谈到 AI 能否理解伦理道德时,他的答案是“可以,但需要配合大量示范与引导,就像培养孩子那样。”
这场对话以对未来的沉思结束:一个 AI 工具几乎可以改变人类所有活动的世界,并最终重塑我们对知识、意识甚至生命意义的思考。正如 Hassabis 所说:“我们需要新的伟大哲学家出现……来理解这个系统的含义。”
嘿,伙伴们,今天我们的AI探索之旅已经圆满结束。关于“DeepMind豪赌十年视觉智能,叫板OpenAI语言霸权”的内容已经分享给大家了。感谢你们的陪伴,希望这次旅程让你对AI能够更了解、更喜欢。谨记,精准提问是解锁AI潜能的钥匙哦!如果有小伙伴想要了解学习更多的AI知识,请关注我们的官网“AI智研社”,保证让你收获满满呦!
还没有评论呢,快来抢沙发~