AI大战进入实体化阶段 谷歌刚发布的PaLM-E模型有哪些亮点?
财联社3月8日讯(编辑 史正丞)过去几个月里,大战段谷的P点由ChatGPT引发的进入AI热潮向人类展现了通用语言模型的生产力前景。就在聊天机器人逐渐变成生产力工具之时,实体利用通用语言模型驱动真正的化阶机器人也已经提上日程。 本周老牌AI大厂与柏林工业大学的歌刚研究人员联合发布PaLM-E视觉语言模型,通过同时处理图像和语言文本,发布解锁人类与机器人交互的模型新篇章。 顾名思义,进入PaLM-E模型源自于谷歌的实体大型语言模型PaLM,E指的化阶就是具象化(Embodied)。通过将通用语言模型与视觉转换模型ViT相结合,歌刚PaLM-E成功实现让AI同时具备“理解文字”和“读懂图片”的发布能力,不仅能够输出文字,模型还能输出指令使得机器人的智能化跃上一个新的台阶。 研究人员介绍称,PaLM和ViT的结合,使得PaLM-E的参数量最高可达5620亿组,也是全球已知的最大视觉语言模型。 回归到资本市场最关心的问题,这个听上去很厉害的AI模型,到底能干什么事情呢?对此研究人员也给出一系列案例,帮助外界理解这个模型的妙处。 首先,具备视觉属性的AI模型将拥有解读图片并进行思维推理的能力。例如可以通过一张禁行交通标志(除自行车外)的图片,来解答“我能否在这条马路上骑自行车”;通过OCR识别餐馆的手写菜单,能进行账单的计算;或是通过识别一系列烘焙材料的照片,向机器人传达“制作蛋糕胚”的流程。 在AI模型与机器人结合的实验演示中,机器人得到“从抽屉里拿出米饼”的指令后,能够顺利地从十多个开放式抽屉中找到米饼,拿给研究人员。 在后续的实验中,研究人员还要求机器人“将所有色块按颜色堆放到不同角落”的指令,以及将“绿色色块推到乌龟旁边”的指令,即便机器人之前没有见过这只乌龟摆件,也能顺利地完成任务。 虽然从演示视频中来看,受限于演示机器人较为简单的设计,执行指令的时候仍显得“笨手笨脚”。但随着PaLM-E模型赋予机器思考如何执行人类指令的能力,工业应用和工业设计上的突破也指日可待。或许在不久的将来,就会出现一款风靡全球的智能机器人硬件。 值得一提的是,作为AI大战的老对手,也已经在“图像+语言模型”的路数上有所布局。在今年2月底发表的研究中,微软就展现了如何使用ChatGPT为大疆Tello无人机编写“找饮料”程序的案例。
-
上一篇
-
下一篇
- 最近发表
- 随机阅读
-
- 中金:维持网易-S跑赢行业评级 目标价199港元
- 神舟十四号载人飞行任务新闻发布会将于6月4日上午召开
- 600亿购置税减免、新能源车下乡,45亿资金应声流入汽车股!
- 锂价飙升“绑架”新能源车
- 凛冬将近英国的许多家庭却用不起暖气
- 两家发放山寨职业资格证书的网站被查处关停
- 神舟十四号载人飞船发射取得圆满成功
- 科技巨头们“不再是稳赚不赔的赌注”
- 内蒙古赤峰:二胎及以上家庭买二套住房的 按首套政策执行
- 场外期权业务迎强监管,华泰、中金、中信建投齐收罚单
- 马克龙:半年间我与普京对话至少100小时,“法国应当充当调解人”
- 苹果AR/VR头显因处理器散热问题推迟到明年发布
- 全力推进“温暖海游” 建设现代化社区
- 深圳停车位“悬空”之辩
- 被马斯克指控违反并购契约!推特回应
- 拍卖!明星夫妇主演的经典电视剧,摊上事了?
- 王滨被双开!中国人寿集团党委:坚决拥护党中央决定
- 金融中心,香港输给新加坡了吗
- 神舟十四号载人飞行任务将实现多个首次
- 点火!神舟十四号发射升空
- 搜索
-