发布日期:2024-09-04 13:24 点击次数:175
中国石油
7月4日,2024世界人工智能大会(WAIC)暨人工智能全球治理高级别会议在上海开幕,集中展示“人工智能+”创新应用最新成果及首发产品。岩山科技(002195)(002195)旗下岩芯数智RockAI应邀参加,携Yan1.2多模态大模型亮相,其无损跑通树莓派的性能和跨模态能力引人注目。
Yan1.2演绎超强多模态整合及生成能力
大会现场,岩芯数智研发团队展示了一款部署了Yan1.2多模态大模型的智能机器人小智,它能够基于Yan1.2的语音和视觉处理能力,实时识别环境、准确理解用户的模糊指令和意图,并据此高效完成各类复杂任务。值得一提的是,此次“小智”机器人搭载的核心硬件是以低算力著称的树莓派第五代芯片。在极低算力的设备上实现了强大的多模态能力。
比如,小智可以根据“让一让,我要放东西”的模糊指令,做出相应的避让动作。当有人问“小智,你现在看到了什么”或手捧书籍邀请小智一同看书时,它能够基于多模态能力进行学习和创作,精确描述环境和人物特征、学习书籍信息。而对于需要大脑和躯干协调完成、复杂程度翻倍的任务,小智的表现也不逊色,如“在四步之内创作出以枫叶为主题的一首古诗”。
整个展示过程中,小智的表现体现了Yan1.2大模型强大的多模态整合及生成能力,不仅能够处理复杂的跨语言任务,还能够针对不同需求和偏好,与人类进行自然的互动交流。除机器人外,此次大会RockAI团队还展示了Yan1.2的云端应用能力,以及Yan1.2多模态大模型在树莓派端、手机端、PC端等其他低算力设备上的无损运行能力。
树莓派上的革命:“原生无损”跑通低算力设备
在PC端和手机端,Yan1.2可流畅地执行大规模数据集的自然语言处理任务和复杂计算,无需依赖云端即可实现快速响应,实现每秒20+tokens的输出,其Agent联动能力可根据用户指令进行图文识别、主体创作等多项任务,为用户提供更优质的体验。而在树莓派这样的微型计算机上,Yan模型甚至实现了每秒6-7个tokens的响应速度。
而树莓派的算力只有普通电脑的八分之一,可广泛应用于物联网、工业自动化、智能家居等场景及设备,譬如门禁、机器人等终端,同时,树莓派大部分情况没有联网。目前的Transformer大模型不经压缩和裁剪是很难部署到树莓派上的。
在向更多低算力端侧设备兼容的路上,RockAI一边通过自研底层架构减少算力消耗,一边凭借算法创新进一步降本增效,打破大模型在端侧部署“有损压缩”的魔咒。今年1月,公司推出了国内首个非Attention机制的Yan架构,以线性计算取代Attention,大幅降低算力需求。其云端大模型以百亿级参数媲美千亿参数大模型性能效果的同时,Yan1.0在个人电脑端的成功运行,也证实了Yan模型“原生无损”在主流消费级CPU等端侧设备上运行的实操性,迈出了“由云入端”的第一步。
历经半年的技术更新和迭代升级,Yan1.2更进一步,“原生无损”跑通树莓派,打开了低算力设备端及离线多场景应用的大门。这一突破得益于RockAI通过类脑分区激活的工作机制,打造了基于仿生神经元驱动的选择算法,使大模型不再需要全量的参数去训练,而是可以根据学习的类型和知识的范围分区激活,如同人开车跟写字会分别激活脑部的视觉区域和阅读区域一般,不仅可以减少数据训练量,进一步降本增效,也能有效发挥多模态的潜力,实现Yan1.2大模型在机器人端的部署及应用。
首创“同步学习”理念,为终端设备补齐大脑
解决了“有损压缩”的问题,RockAI紧锣密鼓地开始了对更大目标的挑战,即让部署在端侧的模型能够实时更新自身的知识体系,实现个性化的即时学习。
众所周知,以往对大模型的开发主要是通过预训练和后期的微调对齐,让大模型在通用场景使用绰绰有余,但换一个没有经过预训练的工作场景,一切都要从头再来。在实际应用中,一旦产生内容变化,Transformer大模型往往要先经过1-2个月去把原有数据清掉后,再重新训练并投入使用,无论是算力、时间还是经济成本,企业可能都“难以接受”。
RockAI早在Yan架构设计之初就考虑到了这个问题,并首创性地提出了解决方案——“同步学习机制”,即让模型具备实时学习的能力,可以在推理的同时,实时有效且持续性地进行知识更新和学习,无需“返厂”再次更新或预训练,从而使得大模型可以像人类学习一样建立自己独有的知识体系。为此,RockAI不断尝试寻找反向传播的更优解,试图能以更低代价更新神经网络,同时以模型分区激活降低功耗和实现部分更新,目前,RockAI已经走通了全模态部分视觉、音频支持,“同步学习”也进入实验室最后验证阶段,并于大会现场进行了实验室示例展示。
无论在云端还是端侧,Yan模型都展现出了强大的通用自然语言和图像处理能力。下一步,RockAI计划基于Yan模型打造通用人工智能操作系统,也就是1.0时提出的全模态实时人机交互系统,并以此搭建诸如群体智能等多样交互的人工智能生态。
RockAI CEO刘凡平说:“我们所构想的通用人工智能,是在诸如智能手机、机器人以及其他多样化设备上展现出的非凡适应力与高度个性化的交互能力。RockAI期待能够重新定义大模型的价值,让世界上每一台设备都拥有自己的智能,让每个人都能拥有专属人工智能服务。”
伴随Yan2.0下半年持续演进,其多模态感知体系将全面升级,构建更为丰富细腻的环境认知,深度整合同步学习机制,为大模型提供自主学习能力中国石油,驱动其向更高层次智能形态跃迁。