Skip to content

Latest commit

 

History

History
20 lines (15 loc) · 1.74 KB

2405.19327.md

File metadata and controls

20 lines (15 loc) · 1.74 KB

机构&分类

None Pre-training and Instruction Fine-tuning


背景

  • 背景
    论文介绍了通用大型语言模型(LLMs)如GPT-4、Claude和Gemini等,它们在自然语言处理(NLP)界内显著拓宽了研究和应用的边界,并且是朝着人工通用智能(AGI)发展的一个标志。这些模型展示了包括复杂推理、角色扮演、创意写作、心理评估、科学教育和音乐生成等通用能力。然而,由于商业利益,最先进的一些模型仍然是闭源的。

  • 已有的工作 论文指出,尽管以往的工作已经发布了许多开源甚至是透明的LLMs,但这些模型通常与商业级LLMs相比仍有所不足,特别是在编码(HumanEval)、推理(MATH, GSM8K)、知识(MMLU)和多语言(CMMLU)等方面的表现。此外,这些开源模型往往不透明,因为它们没有透露其训练数据的详细信息,这限制了它们对学术研究和民主化LLMs的贡献。

核心贡献

  • 提出了一个xxx
    • 挑战1:性能与透明度 论文提交了MAP-Neo,一个全开源和透明的双语LLM套件。与其他模型相比,MAP-Neo不仅提供中间检查点、综合数据清洗过程和可访问的预训练语料及复制代码这些透明度要素,而且在核心性能测试上也显示出更卓越的能力。该模型特别强调全透明度,为研究社区提供了深入的分析和独立验证的可能。

    • 挑战2:多语言处理 MAP-Neo实现了对中英文的高水平理解、数学能力和编码能力,展示了其高效的训练和数据质量。不同于OLMo等只支持英语的开源模型,MAP-Neo支持中英双语处理,为世界各地非英语区域从事LLM研