板,在2017年变压器之后,在LLM领域的重要作用

日期:2025-07-02 浏览:

在过去的两天中,Andrej Karpathy的最新演讲为AI社区带来了激烈的讨论。他提出了“软件3.0”的概念。自然语言成为一个新的编程接口,AI模型负责执行特定任务。 Karpathy探索了这种变化对开发人员,用户和软件设计理念的深入影响。他认为,我们不仅使用新工具,而且还开发了一个全新的计算范式。鉴于LLM开发历史:自2017年Transformer Architecture推出以来,我们目睹了GPT系列的快速发展以及多模式功能和完成应用程序的全面发展。整个领域都以前所未有的速度出现。为了深入了解这种变化的性质,Youlet回到了技术来源。今天为AI能力奠定基础的关键论文不仅记录了算法的演变,而且还揭示了T他的内部逻辑是从传统编程转变为自然语言接触的内部逻辑。过去,我们通过50个主要问题回顾了LLM的关键概念。今天,我们将在2017年以来在LLM字段中撰写重要论文。本文已从X用户Pramod Goyal Paper库存中选择了22篇文章,以详细介绍,其余文章在文章末尾列出,以供参考参考。基础的基础理论是您需要的(2017)链接:https://arxiv.org/pdf/1706.03762主要内容:已提出了变压器体系结构,这完全使传统的重复且相处融为一体,并且完全依赖于数据顺序的自我自我机制。通过并行计算和位置编码,它可以极大地获得多年生和完整任务的依赖性,例如以更快的速度和更高质量的机器翻译。影响:变压器架构是现代AI的基础,可怕Ctly生下了LLM,例如GPT和BERT,并触发了当前的AI繁荣。它的效率和灵活性不仅完全改变了自然语言处理,而且在许多领域(例如计算机视觉)中成功应用,这成为革命性的技术。语言模型是几个镜头学习者(2020)纸质地址:https://arxiv.org/abs/2005.14165基本内容:识别并确认强大的自动回归语言模型GPT-3和1750亿个参数。研究表明,与以前需要大量数据进行特定任务的模型不同,GPT-3不必更新权重,并且可以在大量不同的自然语言处理活动中实现竞争性能,例如翻译,问卷,文本输入,甚至编写代码,SIMP,SIMP(即“小样本研究”或“上下文研究”或“上下文研究”))。此外,模型的性能随着参数的大小而连续增加e的示例数量越来越大。影响:建立“大型模型 +大数据”的缩放定律是通往更一般人工智能的有效途径,它直接领导着全球LLM ARM竞赛。同时,Lumiit是一种新的AI应用程序范式,其主要是“及时的工程”,它大大降低了开发AI技术的阈值,以及随后由Chatgpt代表的AI开发浪潮的跨越,这严重改变了技术行业的模式和未来趋势。在 - 从人类偏好中加强的 - 深度研究(2017)纸质地址:https://arxiv.org/abs/1706.03741基本内容:本文pam不再是不再设计复杂奖励的想法,而是直接从人类的偏好中学习。基本方法是:收集比较AI行为片段的对(“哪个更好?”),使用此数据训练“奖励模型”来模拟人类判断标准,最后将此模型用作G信号G Gremember通过研究加固来训练AI。已显示该方法仅使用少量的人类反馈来正确解决复杂的任务。影响:本文是“基于人类评论的加强研究”领域的理解工作(RLHF)。 RLHF最终成为CHATGPT等对齐和微调LLM的主要技术,该技术通过研究人类的偏好使AI输出更有用,并且根据人类价值观更加有用。它已将“ AI对齐”从抽象理论改为工程技能,提供了可衡量的解决方案,以确保AI系统与人类意图一致,这是发展现代AI通信的基础。培训语言模型遵循人类反馈的说明(2022)纸质地址:https:// arxiv.org/abs/2203.02155基本内容:本文提出了一种研究增援部队(RLHF)的方法Y可以更好地遵循用户的说明。具体步骤包括:首先使用少量手动书面示例的精细预先经验的GPT-3;然后,为不同模型输出收集人类偏好数据,并使用此数据来训练“奖励模型”;最后,使用此模型奖励作为增强研究的信号,以进一步优化语言模型。通过这种方式,即使参数模型小于GPT-3,DendertionGpt也会执行更好,更真实和危害的内容。影响:它出生于产品Antas现象,并为LLM开发建立了新的技术途径。通过人类反馈进行了证明的一致性是解决“胡说八道”问题而不是按照大型模型中的说明的有效方法。从那时起,RLHF一直是该行业的基本AI对话和大型以服务为重点的模型的培训的标准,并深层改变了AI R&D范式,AI R&D范式正从CHA转向研究重点演唱量表,以如何更好地使人类意图的模型保持一致。这种方法的成功是在大规模实用应用中促进纯技术显示的AI发展的关键步骤。 BERT:对语言理解的深度双向变压器的运动前(2019)纸质地址:https://aclanthology.org/n19-1423/mainman:本文建议BERT是一个基于变形金刚的语言表示模型。它的主要变化是通过创新的“模型”(MLM)预训练任务对双向上下文的真实理解,该模型可以同时使用单词两边的所有上下文。它已经完成了过去单向型号的限制。伯特(Bert)通过预先培训大规模文字和针对特定活动的精细范式调整来大大提高语言理解能力。影响:伯特的发射是NLP领域的一场革命,该革命创造了11项主要活动中的最高记录,建立了“预培训 +微调”为印度河尝试该行业的范式。这大大简化了为特定任务开发高性能模型的过程,并减少了用于复杂自定义体系结构的Pangrequred。伯特(Bert)开设了现代LLM的新时代,并成为无数随后的模型的基础。培训计算 - 最佳语言模型(2022)纸质地址:https://arxiv.org/abs/2203.15556基本内容:由DeepMind发表的本文(通常称为“ Chinchilla Paper”)发表(通常称为“ Chinchilla Paper”)挑战了对“更大的模型,更好”的一般理解。通过对400多个模型的系统培训和评估,研究人员发现现有的LLM通常处于“不足”状态。为了在给定的计算预算下实现最佳性能,模型的大小和培训数据的大小必须同时增长。具体而言,对于每个双重模型参数,训练数据的量不应相应双重。它显示了一个新的更好“计算最佳”量表规则,该规则仅降低了仅关注增加模型参数的先前技术。影响:更改研发方向和LLM资源分配方法之后。拟议的“计算最佳”量表规则已成为培训新模型时遵循行业的黄金法则。 Before this, the major institutions compete to pursue the larger model size, and "Baba" proves Chiilla "at the same computational cost, a model with smaller parameters but trained with more data (such as 70 billion chinchilla model parameters) could be better than a model with larger parameters (like GPT-3). that moved from the simple chase of “big” sA pursuit "large and many balances", which played a basic guide role in the birth of诸如LLA之类的模型igence。加速研究和扩展相关保护措施和管理框架。相对较小的模型(例如具有130亿参数的Llama模型)可以超过具有较大参数(例如GPT-3)的模型。社区泄漏并诞生了许多开放资源模型的微调模型,例如羊驼和维库纳,这些模型已经完全确立了Llang大型企业的民主化研究过程,还可以参与大型模型的Pan Panresearch,开发和应用,破坏了一些巨大的技术,以及一些巨大的技术,以及对热情和热情的eCos ecos and op ecos aii aii ai n over n op of the ecos ai ecos ai n op of the ecos ai ecos ai e e ei n o e ecos a ii a ii a ii ai n a ii ai n a i a ii aig a ii a ii a ii aig a ii。 Flashhattention:使用IO-Wareness(2022)纸质地址:https://arxiv.org/abs/2205.14135基本内容:提出特定注意的快速和保存记忆。这有效地减少了读数的数量和写入带宽的高度记忆(HBM)when通过合并计算内核,修复计算计算以及使用GPU内存级别(IO理解)来计算注意力。这使该模型在处理长序列时可以显着提高计算速度,并显着降低记忆使用的使用,并且计算结果与通常的关注相同。效果:闪存已成为LLM培训和部署的工业标准。这项技术使使用较小的硬件训练更大且更长的模型成为可能,从而直接促进了长上下文模型的开发。由于加速和优化的显着影响,它很快与对框架和图书馆(如Pytorch and Embrace Face)的主要深入研究相结合,这极大地促进了整个AI领域的发展。大语言模型中推理引发推理的动机(2022)纸质地址:https://arxiv.org/abs/2201.11903主要内容:PAP在与复杂的推理活动(例如数学问题)交谈时发现,如果LLM被指导改善最终思维过程,第一个思考过程,第一个思考过程,第一个思考的过程,第一个思考过程,第一个思考过程,第一个思考过程,第一个思考过程,逐步逐步进行“思考链”,然后给出最终答案,则得到了大大改善。该提示的简单方法有效地刺激了模型推理的隐藏逻辑能力。影响:这项工作对“链接链”(COT)技术的底线降低,这是提高大型推理能力的最重要,最基本的方法之一。它极大地影响了以下即时工程的发展和一系列更先进的理解方法的灵感,这是对理解和应用现代LLM的基础的研究。直接优先反对:您的语言模型是秘密奖励模型(2023)纸质地址:https://arxiv.org/abs/2305.18290主要内容:已提出了一种称为“直接偏好优化”(DPO)的新技术以使语言模型对齐。它不必培训诸如RLHFINDEPTRIDENT奖励模型的传统方法之类的培训,然后通过研究强化来优化。 DPO直接使用人类偏好数据,并可以通过简单的分类目的正确调整语言模型,以使其与人类期望更加一致。此方法简化了一个步骤维修中的复杂对齐过程。影响:DPO由于其简单性和效率而迅速产生巨大影响。它极大地简化了从人类偏好中学习,降低计算成本和技术障碍的学习过程,并允许更多的研究人员和开发人员有效地对齐其模型。目前,该方法已被行业广泛采用,并已成为与许多领先的开放资源模型(例如Zephyr,Tulu 2)保持一致时使用的关键技术之一。 SCA神经语言模型的Ling法律(2020)纸张地址:https://arxiv.org/abs/2001.08361基本内容:神经语言模型的性能与其大小之间的关系是系统地研究的。研究发现,模型性能与模型参数,数据集大小以及用于培训的计算量之间的功率定律(功率定律)之间存在整洁的可预测相关性。这意味着,当我们的计算资源有限时,我们可以根据“缩放规则”来优化资源,以实现最佳的模型性能,而无需昂贵的试用和错误。 EPECT:为后来的LLM研究和开发提供了理论基础和路线图。这清楚地表明,通过模型,数据和计算量的最终规模可以实现绩效的持续,可预测的提高。它直接指导随后的超大规模模型(例如GPT-3和Palm)建立“暴力Scaling“作为AI更强能力的主要方法,并深层塑造了AI领域中当前的武器竞赛模式。近端政策优化算法(2017)论文地址:https://arxiv.org/abs/1707.06347主要内容:本文建议PPO ALGORITH,在新的方面,该论文启发了新的方法。它的主要变化是“剪切的替代目的功能”,它通过将新技术和旧技术的可能性与小型范围相比,可以防止过度的Mapolicy策略更新。稳定性,性能和简单和完美的平衡。可以使诸如chatgpt之类的LLM对齐,以确保AI更有益和无害。此外,它被广泛用于机器人等磁场,并已成为一种新的基准测量算法。核心体系结构和方法MAMBA:具有选择性状态空间的线性时间序列建模(2023)纸张地址:https://arxiv.org/abs/2312.00752主要内容:MAMBA是一种新型的建筑建模类型,可通过引入选定的机构来改善状态空间(SSM)模型。它允许它具有动态性,可以根据输入内容压缩和传递信息,从而有效地处理与订单相关的时间复杂性,以及可比甚至超过性能变压器的传统变压器体系结构。影响:Maba为长期建模提供了一个强大的新选择,可以将自己与变压器区分开来,其出色的性能迅速刺激了国家空间模型中的社区研究。这是被认为是强大的竞争对手的下一代基本模型架构,并在语言模型,基因组学,多模式等领域的基础体系结构中被认为是一个巨大的潜在应用。 Qlora:LLMS的良好填充(2023)纸张地址:https://arxiv.org/abs/2305.14314基本内容:提出了良好的LLM体积修复方法。这大大降低了安排大型模型所需的内存,通过引入新型的4位数据(4位Normfloat),双量化和优化器技术,并仅使用GPU级别消费者使用数十亿个参数来微调模型。该过程节省了过多的资源,而模型的性能几乎正在损失,并且可以实现相同的16位定量微调。影响:它大大降低了参加LLM研发的门槛,使个人开发人员和小型研究团队可以安排强大的级别消费者硬件模型。它很快成为最主要的EAM和流行的微调技术,推动了丰富的开放社区资源并更改AI应用程序。 Qlora技术思想也受到了有关模型和卓越模型的更多研究工作的启发。诉讼:LLM服务的出色内存管理(2023)纸张地址:https://arxiv.org/abs/2309.06180主要内容:提出了一种称为“ PageDational”的新机制。它借鉴了在操作系统上的虚拟内存和分页的想法,以在无法控制的固定固定“块”大小中以value(value)缓存的llm的键(键)为管理。它解决了注意力缓存(KV缓存)严重的记忆损害和由于导致的大量问题)使记忆使用在处理长期逆境或多个请求时会大大改善。影响:作为一项主要技术,它将其集成到VLLM行业领导的服务中,从而增加了LLM吞吐量多次,并显着增加tly减少了内存的痕迹。这使得可以将更多用户交付到相同的硬件并运行更大的模型,从而大大降低了LLM的扩展和延迟的成本,并已成为当前高性能大型服务模型(LLM交付)的标准行业解决方案。 MISTRAL 7B(2023)纸质地址:https://arxiv.org/abs/2310.06825introduction:Mistral 7b本文介绍了一个很好的70亿个参数语言模型。它通过现代体系结构(例如 - 关节查询关注(GQA)和窗口幻灯片(SWA))实现了更有效的性能。在许多基准测试中,该模型不仅超过了相同大小的模型的表现,而且比具有较大参数(例如Llama 2 13B)的模型更好,该模型显示了小型模型实现高水平的理解和长阶过程的能力。影响:Mistral 7B推出对开放的AI社区资源产生了巨大影响,并很快成为小型高性能的基准ANCE模型。这证明了小型模型旨在匹配大型模型,这是一种独特的设计,这激发了社区对改变模型优化的热情。该模型不仅被广泛用作各种下游任务进行微调的基本模型,而且还促进了AI技术在较低资源设备上的普及和应用,从而确立了Mistral AI在开放资源中的领先地位。 LAION-5B:一个开放的大规模数据集,用于训练下一代图像文本模型(2022)纸张地址:https://arxiv.org/abs/2210.08402主要内容:Laion-5B纸张引入公开发布和最大的图形和最大的图形和文本数据集。它包含一个58.5亿个剪辑过滤的图像对,从互联网上爬行,并根据语言,解决方案,水印的可能性等进行分类。它有becOME许多流行模型的主要训练数据(例如稳定扩散),这大大降低了顶级AI模型的研究和阈值开发。该数据集的开放性促进了全球研究的变化和再现,并深深影响了AIANG技术模型途径和生态模式的开放资源的随后发展。充满想法:意外解决LLM(2023)纸质地址:https://arxiv.org/abs/2305.10601主要内容:已提出了一个称为“思想之树”(TOT)的新框架,以增强LLM解决复杂问题的能力。与传统的一代一代答案不同,TOT允许Modelsto探索许多不同的推理途径,像人类一样仔细思考。它通过自我评估和寻求前瞻性的计划来研究中级步骤的价值,并选择了继续探索的最有希望的途径,从而显着改善了数学等活动的绩效D逻辑推理。影响:提供了一种新的有效方法来提高LLM推理能力,从而引起了学术界和行业的广泛关注。它激发了一系列的后续研究,探讨了如何创建模型以具有更强的计划和独立的思维能力,并促进了从简单的“发电”到复杂“识别”的技术发展。 TOT框架已成为Agalang工程和开发更强大的AI代理的重要思想之一。大型语言模型的新兴功能(2022)纸质地址:https://arxiv.org/abs/2206.07682主要内容:本文的要点是,LLM功能在尺寸上没有正确地提高,但“出现”一些新的功能,这些小型小型模型根本不是。研究人员发现,在复杂的活动中,诸如多步推理和教学合规性之类量表越过特定的密钥阈值。这种现象是不可预测的,只能通过实际测试更大尺寸的模型来发现。影响:本文为“做奇迹做”的扩展定律提供了更深入的理论解释和期望。它激发了该行业在探索和理解大型模型的“出现”能力方面的强烈利益,并促进了模型能力边界的研究。同时,“出现”的概念已成为解释为什么较大模型(例如GPT -4)可以处理更复杂和更深层次的工作的理论基础,从而影响了后续模型的研发方向以及评估的方向。巨型模型将能够推荐“张量并行性”(即,层模型并行性)旋钮,该旋钮将变压器层中的大重矩阵划分为许多GPU,每个GPU仅计算一部分,然后通过良好的C通过良好的C组合结果。沟通。该方法很容易实现,并且可以与其他并行方法中的其他方法结合使用。当时,研究人员利用这项技术成功培训了一个不间断的83亿参数模型,从而确认了其可行性。效果:这项工作是AI基础架构中的一个里程碑,它提供的十幅技术是破坏单GPU的内存瓶颈的关键。这为培训模型提供了一种数亿甚至万亿个参数的培训模型,并且使用数据和管道,它为现代大型共享培训提供了基础。 Megatron-LM Orpen源库已迅速成为行业的标准,为实现超级大规模的AI提供了工程蓝图的学术和行业,使行动现实中的“规模”理论成为现实。零:训练火车模型参数的内存优化(2019)纸质地址:https://arxiv.org/abs/1910.02054基本内容:本文提出了一种技术。视频内存co称为零(零冗余优化器)。它通过巧妙地分割和分配模型状态(优化器状态,​​梯度和参数)来消除内存的冗余,并在现有硬件上实现了巨型模型的实践,从而使巨型模型的实践超出了现有硬件的方式,这构成了实现Trillion-Dolly Dolly Dolly Dolly Dolly Dolly Dolly Dolly Dolly Dolly Dolly Dolly-Dolly-Dolly Dolly-Dolly-Dolly-Dolly Models的方法。影响:零技术与对Microsoft DeepSpeed等框架的主要研究集成在一起,并广泛采用。这项技术大大降低了训练超级型号的硬件阈值,该模型直接促进了随后的GPT,BLOOM和其他1000亿甚至万亿个参数模型的成功培训。它是支持大型模型当前开发的主要基础设施技术之一。大型神经网络:稀疏门控的晕圈层(2017)纸张地址:https://arxiv.org/abs/1701.06538 MAIN内容:本文引入了稀疏的门控专业混合层(MOE)体系结构,并解决了模型能力和通过模型计算和计算之间的冲突。架构包含数千个“专家”,这就是启蒙网络,并处理一个封闭式网络,该网络仅激活每个输入的少数专家。这允许模型参数增加超过1000倍,因为计算成本仅略有增加,从而大大提高了模型知识的吸力能力而不牺牲效率。影响:这项工作首次以较大的练习规模证明,有条件计算的可行性让位于开发具有公路亿美元甚至数万亿个参数的巨型模型。 Moe已成为现代LLM的主要技术之一(如Mixtral)。通过允许专业网络识别其操作,它可以保持计算效率,同时提高模型性能,并具有深度的IMPACt在整个AI领域开发大型模型。重要的优化和应用程序通过生成预训练(2018)地址:https://cdn.openai.com/research-povers/langueep-supervissed https://aclanthology..org/n18-1202/retrieval-ighated nlp任务(2020年地址): https://arxiv.org/abs/2005.11401Exploring the Limitations of the Transfer Study with a Unified Text-To Text Transformer (2020) Address: https://arxiv.org/abs/1910.1068333RoBerta: A Robustly Optimized Bert Pretraining Approach (2019): https://arxiv.org/abs/1907.11692Holistic语言模型(Helm)(2022)地址:https://arxiv.org/abs/2211.09110Chatbot Arena:一个开放的平台,用于审查人类优先(2024)地址: https://arxiv.org/abs/2403.04132lima:更少以保持对齐时间)调整(2023)地址:https://arxiv.org/abs/2304.08485palm 2/bloom/qwen(系列)(2022-2023)PALM 2地址:https://ai.google/static/static/documents/documents/documents/palm2techreport.pdfbloom地址: https://arxiv.org/abs/211.05100qwen地址:https://arxiv.org/abs/2309.16609niversal and transled transpersed对对抗性攻击对位的语言模型(2023)地址:对抗性语言模型(2023)地址:Edversarial语言地址:Adversarial Address offersarial Adveress odversarial offor https://arxiv.org/abs/2307.15043DeepSpeed-chat: Easy, fast and fast and fast and fast and fast and fast and fast and fast and fast and fast and fast and fast and fast and fast and fast and fast and fast, fast and fast and fast, fast and fast and fast and fast and fast and fast and fast, fast and fast and fast and fast, fast and fast and fast and fast, fast and fast and fast and fast and fast, fast and fast快速快速,快速,快速,快速的负担得起的RLHF培训(2023)地址:https://arxiv.org/abs/2308.01320 Fronier Exploration and Nnew语言模型是非搜索的多任务(2019年)地址:地址:地址:地址:地址:地址:地址:地址:地址:地址:地址:https://cdn.openai.com/better-language-models/language_models_models_are_unsupervise_multitask_multitask_meledners_learners.pdfdfdistilbert,地址: (稀疏/longformer/Reformer/Performer)(2019-2020)稀疏变形金刚地址:https://arxiv.org/abs/1904.104.10509-longformer地址:https://arxiv.org/arxiv.org/abs/2001.0444451performers地址: https://arxiv.org/abs/2009.14794SentencePiece:Isang Simple在Wika Indepentiyenteng子词Tokenizer(2018)地址:https://arxiv.org/abs/1808.062226 generated Agents:Interactive Suncra of Human Suncra of Human Capry(20223)。 https://arxiv.org/abs/2304.03442Voyager:具有大语言模型的开放体现代理(2023)地址:https://arxiv.org/abs/2305.16291textbooks textbooks Bookss Books是您需要的(Phi Series)(Phi Series) https://arxiv.org/abs/2306.11644(phI-1)JAMBA:一种混合变压器 - 马姆巴语言模型(2024)地址:https://arxiv.org/abs/2403.19887wizardlm:增强大型语言模型以遵循复杂说明(2023)地址:地址:https://arxiv.org/abs/2401.02385-Deepseek-r1:通过增强学习中的LLMS中的推理能力(2025)地址:https://arxiv.org/arxiv.org/abs/2501.12501.12948train trib long:with linib long linib linib linibi linibi linibi linibi linibi linibi linibi linibi linibi linibi linibi(( https://arxiv.org/abs/2108.12409AWQ:LLM压缩和加速度的激活 - award重量量化(2023)地址:https://arxiv.org/abs/2306.00978 Ressance Models具有语言模型(20222)地址:地址:地址: https://arxiv.org/abs/2202.03286 Universal模型模型文本分类(ULMFIT)(ULMFIT)(2018)地址:地址:地址:地址:地址:https://arxiv.org/abs/1801.061.06146xlnet:通用自动化的通用自动化,以了解语言(2019年)ddress: https://arxiv.org/abs/1906.08237Bart: Denisising: Sequence-to-sequence pre-training for natural generations of language ... (2020) Address: https://aclanthology.org/2020.acl-main.703/electra: pre-training text encoders as discriminator instead of generators (2020) Address: https://arxiv.org/abs/2003.10555555555GSARD:缩放:带有条件计算和自动碎片的缩放巨型模型(2020)地址:https://arxiv.org/abs/abs/2003.10555555gshard:带有条件定量和自动定量的尺度级别(2020) https://arxiv.org/abs/2003.1055555gshard:缩放巨型模型和自动碎片(2020)地址:https:///////arxiv.org/abs/2006.16666668memememememememememememise Massive Gealsive Gealsive Mealdive Sapask语言(MMLU)(MMLU)(MMLU)(2020)地址:2020年地址:2020年地址:2020年地址:2020年地址:2020年地址:2020年地址:2020年地址:2020年地址:2020年地址:2020年地址: https://arxiv.org/abs/2009.03300beyond模仿游戏:量化和外部胶合...(Big-Bench)(Big-Bench)(2022)地址:https://arxiv.org/abs/2206.046115Parameter-parameter-forice for for for for for for for PSSECURE的程序为程序进行程序的程序,用于程序的程序,用于程序的程序,用于程序的程序,用于程序的程序,用于程序的程序,用于程序的程序,用于程序中的程序,用于程序中的过程。 (2022)地址:https://arxiv.org/abs/2207.000322

0
首页
电话
短信
联系