华中科技大学的研究人员进行了一项关于大规模语言模型的综述性研究。研究强调了在ChatGPT发布之后的数月内,生成式人工智能技术领域的取得了巨大的突破和进步。同时也吸引了大量资本的涌入和促进了多个领域的革命。
研究深度探讨了一系列大型语言模型(Large Language Models, LLMs)的构建技术以及参数优化策略。在构建类ChatGPT模型时,通常首先需要进行预训练以获得一个富含知识的基础模型,然后通过监督微调和强化学习将基础模型转化为助手模型。然而,类ChatGPT模型需要高昂的训练成本,因此,研究列举了一系列开源模型,如LLAMA、alpaca、vicuna等,以及节约微调成本的方法LoRA和降低数据成本的技术APE。这些开源模型和技术提供了一种降低训练成本同时保持模型性能的有效方式。
对于LLM的性能进行精确评估是一项至关重要的任务。目前,主流的评估方法主要可以概括为三大类别:人工评估、数据集自动评估以及其他LLM评估。根据Chatbot Arena基准平台的评估结果,GPT-4在多数指标上都大幅领先其他模型,而大量的开源模型在生成质量上仍存在较大的差距。
多模态技术是生成式人工智能领域中的重要一环。研究总结了三类目前主流的图像-文本的多模态模型实现方法:训练中间层以对齐视觉模块和语言模型;多模态指令微调;LLM作为理解中枢。多模态大模型更接近人类认知世界的方式,是大模型未来的重要发展方向之一。
研究还详细列举了当前LLMs所面临的一系列挑战及其根源,包括开源的大模型与数据集匮乏,模型稳定性不足,知识获取困难,模型可解释性较弱,部署过程复杂,以及安全和隐私方面的问题。同时,也提出了针对数据、技术和应用三个方面的潜在研究方向。
最后,研究指出,目前性能最优的LLMs已经展现出非常明显的初级通用人工智能的能力,学习并应用提示工程技巧可以显著提高社会总体生产力。然而,LLMs的技术仍然急需技术创新,需要头部大公司与开源社区的相互协同和促进。
Journal
Journal of Image and Graphics
Article Title
Exploring Large Language Model: Construction, Multimodal, Evaluation and Prospects
Article Publication Date
20-Sep-2023