GPT-5即将问世,有望撼动整个行业。但创建更强大的模型是否只需要更多参数?
在不断发展的软件开发领域,人工智能(AI)已成为游戏规则改变者。它具有彻底改变行业和推动业务增长的潜力,引起了首席执行官、首席财务官和投资者的关注。随着技术继续以前所未有的速度发展,一个问题出现了:人工智能能否通过原始力量得到增强?在本文中,成都小程序开发将探讨通过增强计算能力来增强人工智能的可能性和影响。
从早期的聊天机器人(如Eliza)到现代机器学习算法,人工智能以惊人的速度发展,而这种快速发展得到了人工智能开发服务的大力支持。人工智能现在能够在许多领域匹敌甚至超越人类智能。然而,这种潜力的实现需要付出巨大的代价:更强大的人工智能需要更多的能力,也就是更强的计算能力。
通过为AI系统增加更多处理能力,工程师可以解锁新的性能水平并取得突破性成果。这可以通过各种方式实现,例如利用高性能计算集群或利用基于云的基础设施。
让我们以GPT-3及其模型系列为例。对于大型语言模型(LLM),在尝试创建AI时,似乎评估模型能力的标准是根据其参数数量给出的。参数数量越大,AI越强大。虽然尺寸确实很重要,但参数并不是一切,在某个时候,我们将遇到需要比我们所能提供的更多的处理能力的工程问题。
在我们深入探讨之前,我想拿我最喜爱的一个主题来做个类比:电子游戏和游戏机。看,我是80年代的孩子;我经历过90年代伟大的游戏机大战——世嘉做了任天堂做不到的事情,等等。在某个时候,游戏机停止了对其音效功能或色彩质量的营销,而是开始谈论比特。
从本质上讲,位数越多,游戏机就越强大;每个人都在追求那些大位数。这导致公司想出了一些非常古怪的架构。只要他们能宣传自己的硬件比竞争对手拥有更多的位数(啊哈,AtariJaguar),硬件有多疯狂就不重要了。
这种情况持续了相当长一段时间——世嘉退出游戏机市场,索尼凭借Playstation席卷全球,微软凭借Xbox加入竞争——每一代游戏机的核心都是这些部件。在PS2时代,我们也开始谈论多边形和万亿次浮点运算;再一次,一切都围绕着大数字。
然后PS3和Xbox360时代来临了。哦,逼真的图形、身临其境的声音等等。现在,它不再是关于比特,而是关于屏幕上的多边形数量、fps、存储能力;再说一次,它是关于最大数字。
这两家游戏机制造商展开了激烈竞争,在他们没有意识到的情况下,一款小型替代品进入了市场——任天堂的Wii。与索尼和微软推向市场的野兽相比,Wii只是一个玩具,但任天堂很聪明。他们瞄准的是普通观众,那些不沉迷于大数字的观众。最终结果不言而喻。在那一代游戏机中,PS3售出了8000万台,Xbox360售出了8400万台,而Wii呢?——1.01亿台。
小小的弱势企业迅速占领了市场,而这只需要一些创造力和独创性。
我的这些胡言乱语和AI军备竞赛有什么关系?实际上,正如我们所见,我们有充分的理由对更大的模型保持谨慎,这并不是因为它们将统治世界。
为了营造一些紧张气氛,我们来谈谈变换器模型,以及它们为何对现代计算和机器学习如此重要。让我们探索变换器模型的变革力量(完全是双关语)及其对企业的影响。
Transformer模型是一种深度学习架构,利用自注意力机制高效处理序列数据。事实上,注意力机制非常重要,以至于原始论文的标题是“注意力就是你所需要的一切”。
为了简化一个非常复杂的主题,与传统的循环神经网络(RNN)或卷积神经网络(CNN)不同,Transformer可以捕获数据中的长距离依赖关系,而无需依赖顺序处理。换句话说,假设您有一个装满照片的盒子,您希望按时间顺序整理它们。
一种方法是将照片堆叠起来,然后按顺序查看每张照片,根据其与最近邻居的关系对其进行分类。这肯定可行,但它确实带来了一些关键问题:主要是你不会关注整堆照片,而是一次关注几张。
第二种方法类似于变形金刚,将所有照片放在地板上,然后同时查看所有照片,根据颜色、风格、内容等找出哪些照片更接近哪些照片。发现区别了吗?这种方法更注重背景,而不是顺序分析。
这一突破为机器翻译、情感分析和问答等自然语言处理(NLP)任务的显著进步铺平了道路。
Transformer模型的一个关键优势是它们能够以极高的准确度理解复杂的语言结构。通过利用自注意力机制,这些模型可以比以前的方法更有效地分析句子中单词或短语之间的关系。
这样说来很简单,对吧?语境是语言的一切,Transformer可以“感知”除几个单词之外的更多信息,因此它拥有更多信息来准确预测句子中的新词。或者在情绪分析等其他应用中,它可以精确定位与某个主题相关的情绪,甚至可以根据上下文区分评论是否具有讽刺意味。
由于语言细微差别和不同语言之间的文化差异,机器翻译一直是一项具有挑战性的任务。然而,Transformer模型通过对单词之间的全局依赖关系进行建模,而不是像传统方法那样仅仅依赖于本地上下文,显著提高了翻译质量。这一突破使全球运营的企业能够更准确地翻译其产品、服务和营销材料。
长期以来,人工智能领域的竞争一直被视为谷歌和OpenAI等科技巨头之间的战场。然而,一个意想不到的竞争者正在迅速崛起:开源社区。谷歌工程师的一封泄露的信认为,在争夺人工智能主导地位的竞争中,开源有潜力胜过谷歌和OpenAI。
开源平台的一大优势是协同创新能力。随着Meta强大基础模型的泄露,开源社区取得了巨大的飞跃。全球各地的个人和研究机构迅速开发出改进和修改,其中一些甚至超过了Google和OpenAI的发展速度。
由于开源社区具有去中心化和开放的特性,其产生的各种想法和解决方案影响深远且极具影响力。该社区创建的模型迭代并改进了现有解决方案,这是Google和OpenAI可以借鉴的战略。
有趣的是,这位工程师还指出,这些开源模型的构建考虑到了可访问性。与GPT-4这样的庞然大物相比,其中一些模型取得了令人印象深刻的结果,并且可以在功能强大的笔记本电脑上运行。我们可以用五个关键点总结他们对LLM的看法:
缺乏灵活性和速度:大型模型开发速度慢,难以快速进行迭代改进。这阻碍了创新步伐,并阻碍了对新数据集和任务的快速反应。
昂贵的再训练:每当有新的应用或想法时,大型模型通常需要从头开始重新训练。这不仅会丢弃预训练,还会丢弃在此基础上进行的任何改进。在开源世界中,这些改进会迅速累积,使全面重新训练的成本极高。
阻碍创新:虽然大型模型最初可能提供卓越的功能,但其规模和复杂性可能会扼杀快速的实验和创新。开源社区中小型、快速迭代的模型的改进速度远远超过大型模型,它们的最佳版本已经与ChatGPT等大型模型基本没有区别。因此,对大型模型的关注使谷歌等公司处于不利地位。
数据缩放定律:大型模型通常严重依赖数据的数量,而不是质量。然而,许多开源项目现在都在小型、精心策划的数据集上进行训练,这可能会挑战机器学习中关于数据缩放定律的传统观点。
受限的可访问性:大型模型通常需要大量计算资源,这限制了更广泛的开发人员和研究人员对其的可访问性。这一因素阻碍了人工智能的民主化,而民主化正是开源社区的一个关键优势。
换句话说,较小的模型可以实现更快的迭代,从而加快开发速度。在这种情况下,我们可以自信地说“少即是多”。开源社区对这些模型进行的实验令人难以置信,正如我们在第四点中提到的,它基本上质疑了我们迄今为止对机器学习所做的许多假设。
成都小程序开发以电子游戏类比作为开篇,也以一个类比作为结束。在接受《最终幻想VI》的导演北濑佳范采访时,这位日本开发者被问及90年代游戏开发的氛围和文化。不出所料,北濑佳范承认这很痛苦。
以今天的标准来看,要在8兆字节的存储空间中容纳一个史诗故事、图像、对话、音乐甚至场景剪辑似乎是不可能的。但北濑实际上对这次体验评价颇高。在他看来,时间的限制迫使团队发挥创造性思维,不断塑造和重塑他们的愿景,直到他们设法将其压缩到8兆字节以下。
开源社区似乎体现了这种精神。面对没有科技巨头那样的资源,他们承担起了创建和开发可能在土豆上运行的模型的任务。在这个过程中,他们向我们展示了更多参数只是构建强大语言模型的一条途径。