大语言模型-百问十九

大语言模型

大语言模型（Large Language Model，简称LLM），指使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务，如文本分类、问答、对话等，是通向人工智能的重要途径。目前大语言模型采用与小模型类似的Transformer架构和预训练目标（如 Language Modeling），与小模型的区别是增加模型大小、训练数据和计算资源。

2020年1月23日，OpenAI发表了论文《Scaling Laws for Neural Language Models》，研究基于交叉熵损失的语言模型性能的经验尺度法则；同年5月，OpenAI发布具有1750亿参数规模的大语言模型GPT-3，GPT-3的发布是一件跨时代的事情，意味着自然语言处理领域的大语言模型真正意义上出现了，从此正式开启大语言模型时代。2022年11月30日，OpenAI公司发布ChatGPT，迅速引起社会各界关注。ChatGPT属于一类基于GPT技术的大语言模型。Google、Microsoft、NVIDA等公司也给出了自己的大语言模型。2024年3月，马斯克的xAI公司正式发布大模型Grok-1，参数量达到3140亿，超OpenAI GPT-3.5的1750亿。

2023年12月26日，大语言模型入选“2023年度十大科技名词” 。2024年4月，在瑞士举行的第27届联合国科技大会上，世界数字技术院（WDTA）发布了《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准，由OpenAI、蚂蚁集团、科大讯飞、谷歌、微软、英伟达、百度、腾讯等数十家单位的多名专家学者共同编制而成。

想要了解更多“大语言模型”的信息，请点击：大语言模型百科

大语言模型

相关推荐