谷歌发布史上最大“通才”ai模型,能看图说话、操控机器人
发布时间:2023-03-09
信息来源:华尔街见闻
字体: 【 】
近日,来自谷歌和柏林工业大学的团队重磅推出了史上最大视觉语言模型——palm-e(全称pathways language model with embodied,是一种具身视觉语言模型)。作为一种多模态具身视觉语言模型(vlm),palm-e不仅可以理解图像,还能理解、生成语言,而且还能将两者结合起来,处理复杂的机器人指令。此外,通过palm-540b语言模型与vit-22b视觉transformer模型相结合,palm-e最终的参数量高达5620亿。它的强大之处在于,能够利用视觉数据来增强其语言处理能力。(华尔街见闻)
往期推荐
- 国务院机构改革方案:组建国家数据局2023-03-08
- 中国证券监督管理委员会调整为国务院直属机构2023-03-08
- 国务院机构改革方案:完善国有金融资本管理体制2023-03-08