百问十九

大语言模型

编辑:Simone 2024-12-14 17:44:10 560 阅读

大语言模型

大语言模型(Large Language Model,简称LLM),指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的重要途径 。目前大语言模型采用与小模型类似的Transformer架构和预训练目标(如 Language Modeling),与小模型的区别是增加模型大小、训练数据和计算资源。

2020年1月23日,OpenAI发表了论文《Scaling Laws for Neural Language Models》,研究基于交叉熵损失的语言模型性能的经验尺度法则;同年5月,OpenAI发布具有1750亿参数规模的大语言模型GPT-3,GPT-3的发布是一件跨时代的事情,意味着自然语言处理领域的大语言模型真正意义上出现了,从此正式开启大语言模型时代。2022年11月30日,OpenAI公司发布ChatGPT,迅速引起社会各界关注。ChatGPT属于一类基于GPT技术的大语言模型。Google、Microsoft、NVIDA等公司也给出了自己的大语言模型 。2024年3月,马斯克的xAI公司正式发布大模型Grok-1,参数量达到3140亿,超OpenAI GPT-3.5的1750亿。

2023年12月26日,大语言模型入选“2023年度十大科技名词” 。2024年4月,在瑞士举行的第27届联合国科技大会上,世界数字技术院(WDTA)发布了《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准,由OpenAI、蚂蚁集团、科大讯飞、谷歌、微软、英伟达、百度、腾讯等数十家单位的多名专家学者共同编制而成。

想要了解更多“大语言模型”的信息,请点击:大语言模型百科

版权声明:本站【百问十九】文章素材来源于网络或者用户投稿,未经许可不得用于商用,如转载保留本文链接:https://www.baiwen19.com/life/115631.html

相关推荐