岩芯数智CEO刘凡平:分区激活 同步学习,开启AGI新路径
网络 阅读: 2024-07-03 18:42:20
本期嘉宾简介:刘凡平,毕业于中国科学技术大学,上海市科技专家库专家。他是一位技术著作丰富的作者,包括《大数据搜索引擎原理分析》、《大数据时代的算法》、《神经网络与深度学习应用实战》和《突围算法》等。作为发明人,刘先生已申请了20余项人工智能技术相关专利。
Key points: 1、Transformer大模型在实现AGI上存在局限性 2、大模型根据任务需求分区激活才是符合人脑的方式 3、端侧模型部署的竞争需要向更低算力设备发展
近日,麻省理工学院(MIT)等机构在顶级学术期刊《自然》杂志发表的一篇文章指出,语言并不等于思维。这一观点引发了AI社区的广泛讨论,人们开始质疑以chatGPT为代表的大语言模型通向通用人工智能(AGI)的路线是否正确。
对此,岩芯数智CEO刘凡平在接受第一财经专访时表示,他认同语言并不等于思维的观点。他认为,基础算法的局限性导致现有大模型并不具备自我学习的能力,如何解决模型个性化即时学习成为关键。
刘凡平领导的RockAI于2024年1月发布了非Transformer架构的通用自然语言大模型——Yan1.0模型。这款模型提出了“同步学习”的概念,允许模型在训练和推理过程中实时更新知识,这种学习方式类似于人类大脑的工作机制,能够快速适应新的情况和需求。
刘凡平强调,通用人工智能应有多种实现方式。以chatGPT为代表的Transformer大模型需要前期通过大量文本数据进行预训练,让模型学习语言的通用模式和知识。然而,预训练完成后,通过在特定下游任务中进行微调对齐,激发模型举一反三的能力。这些训练机制使得Transformer大模型能够模拟人类语言表达,并在多种任务上展现出卓越的性能。
刘凡平指出,虽然Transformer大模型能够模拟人类语言表达,但表象的模拟并不等于思维。这也是近期chatGPT被质疑是否能够实现通用人工智能的原因之一。同时,Transformer大模型每一次训练都需要耗费巨大的算力和数据。刘凡平表示,Transformer大模型虽然目前能通过预训练实现举一反三的能力,在实践中却有着不能实时改进和学习的问题,每3-6个月都需要重新训练一次。
刘凡平表示,主流Transformer大模型的全参数激活本身就是不必要的大功率消耗。他认为,思维的表达方法和呈现方法是Yan模型算法的重要方向。参考人脑大概800亿-1000亿个神经元,人在开车和读书时分别激活的是脑部的视觉区域和阅读区域,实现大模型根据任务需求分区激活才是符合人脑的方式。这不仅可以减少训练数据量,同时也能有效发挥多模态的潜力。
据悉,RockAI的Yan模型是基于仿生神经元驱动的选择算法。这款模型可以根据学习的类型和知识的范围分区激活,同时提出同步学习概念。在对知识更新和学习时,模型层面训练和推理同步进行,以期实时、有效且持续性地提升大模型的智能智力,应对各类个性化场景中出现的问题。
在研发进度方面,今年3月,Yan 1.2模型已经实现类脑分区激活的工作机制,5月底,实现全模态部分视觉支持。目前同步学习仍在实验室最后验证阶段,仍需要大规模测试。刘凡平表示,随着把多模态的视觉、触觉和听觉能力补齐,Yan 2.0最快将于今年年底面世。
刘凡平表示,端侧大模型部署需向更低端设备走。人工智能技术飞速发展,大模型在实现通用人工智能(AGI)方面虽展现出巨大潜力,但传统的Transformer架构在端侧部署时面临算力成本高、运算速度慢和隐私安全等挑战。因此,端侧智能的实现已成为科技界的新战场。
Key points: 1、Transformer大模型在实现AGI上存在局限性 2、大模型根据任务需求分区激活才是符合人脑的方式 3、端侧模型部署的竞争需要向更低算力设备发展
近日,麻省理工学院(MIT)等机构在顶级学术期刊《自然》杂志发表的一篇文章指出,语言并不等于思维。这一观点引发了AI社区的广泛讨论,人们开始质疑以chatGPT为代表的大语言模型通向通用人工智能(AGI)的路线是否正确。
对此,岩芯数智CEO刘凡平在接受第一财经专访时表示,他认同语言并不等于思维的观点。他认为,基础算法的局限性导致现有大模型并不具备自我学习的能力,如何解决模型个性化即时学习成为关键。
刘凡平领导的RockAI于2024年1月发布了非Transformer架构的通用自然语言大模型——Yan1.0模型。这款模型提出了“同步学习”的概念,允许模型在训练和推理过程中实时更新知识,这种学习方式类似于人类大脑的工作机制,能够快速适应新的情况和需求。
刘凡平强调,通用人工智能应有多种实现方式。以chatGPT为代表的Transformer大模型需要前期通过大量文本数据进行预训练,让模型学习语言的通用模式和知识。然而,预训练完成后,通过在特定下游任务中进行微调对齐,激发模型举一反三的能力。这些训练机制使得Transformer大模型能够模拟人类语言表达,并在多种任务上展现出卓越的性能。
刘凡平指出,虽然Transformer大模型能够模拟人类语言表达,但表象的模拟并不等于思维。这也是近期chatGPT被质疑是否能够实现通用人工智能的原因之一。同时,Transformer大模型每一次训练都需要耗费巨大的算力和数据。刘凡平表示,Transformer大模型虽然目前能通过预训练实现举一反三的能力,在实践中却有着不能实时改进和学习的问题,每3-6个月都需要重新训练一次。
刘凡平表示,主流Transformer大模型的全参数激活本身就是不必要的大功率消耗。他认为,思维的表达方法和呈现方法是Yan模型算法的重要方向。参考人脑大概800亿-1000亿个神经元,人在开车和读书时分别激活的是脑部的视觉区域和阅读区域,实现大模型根据任务需求分区激活才是符合人脑的方式。这不仅可以减少训练数据量,同时也能有效发挥多模态的潜力。
据悉,RockAI的Yan模型是基于仿生神经元驱动的选择算法。这款模型可以根据学习的类型和知识的范围分区激活,同时提出同步学习概念。在对知识更新和学习时,模型层面训练和推理同步进行,以期实时、有效且持续性地提升大模型的智能智力,应对各类个性化场景中出现的问题。
在研发进度方面,今年3月,Yan 1.2模型已经实现类脑分区激活的工作机制,5月底,实现全模态部分视觉支持。目前同步学习仍在实验室最后验证阶段,仍需要大规模测试。刘凡平表示,随着把多模态的视觉、触觉和听觉能力补齐,Yan 2.0最快将于今年年底面世。
刘凡平表示,端侧大模型部署需向更低端设备走。人工智能技术飞速发展,大模型在实现通用人工智能(AGI)方面虽展现出巨大潜力,但传统的Transformer架构在端侧部署时面临算力成本高、运算速度慢和隐私安全等挑战。因此,端侧智能的实现已成为科技界的新战场。
本文 原创,转载保留链接!网址:https://licai.bangqike.com/cjnews/622628.html
声明
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。


