AI训练模型

Gemma

谷歌研发的AI大模型

标签:

AI训练模型Gemma 是 Google 推出的一系列轻量级、最先进的开放模型,采用与创建 Gemini 模型相同的研究和技术构建。它们是文本到文本、仅限解码器的大型语言模型,提供英语版本,具有开放权重、预训练变体和指令调整变体。Gemma 模型非常适合各种文本生成任务,包括问答、摘要和推理。它们的尺寸相对较小,因此可以将它们部署在资源有限的环境中,例如笔记本电脑、台式机或您自己的云基础设施,从而实现对最先进人工智能模型的民主化访问,并帮助促进每个人的创新。

Gemma

型号数据

用于模型训练的数据以及数据的处理方式。

训练数据集

这些模型在包​​含各种来源、总计 6 万亿个令牌的文本数据集上进行训练。以下是关键组件:

  • 网络文档:多样化的网络文本集合确保模型能够接触到广泛的语言风格、主题和词汇。主要是英语内容。
  • 代码:将模型暴露给代码有助于它学习编程语言的语法和模式,从而提高其生成代码或理解与代码相关的问题的能力。
  • 数学:数学文本训练有助于模型学习逻辑推理、符号表示以及解决数学查询。

这些不同数据源的组合对于训练可以处理各种不同任务和文本格式的强大语言模型至关重要。

数据预处理

以下是应用于训练数据的关键数据清理和过滤方法:

  • CSAM 过滤:在数据准备过程的多个阶段应用严格的 CSAM(儿童性虐待材料)过滤,以确保排除有害和非法内容。
  • 敏感数据过滤:为了使 Gemma 预训练模型安全可靠,我们使用自动化技术从训练集中过滤掉某些个人信息和其他敏感数据。
  • 其他方法:根据 我们的政策根据内容质量和安全性进行过滤。

实施信息

有关模型内部结构的详细信息。

硬件

Gemma 使用最新一代张 量处理单元 (TPU)硬件 (TPUv5e) 进行训练。

训练大型语言模型需要强大的计算能力。TPU 专为机器学习中常见的矩阵运算而设计,在该领域具有多种优势:

  • 性能:TPU 专门设计用于处理 LLM 训练中涉及的大量计算。与 CPU 相比,它们可以大大加快训练速度。
  • 内存:TPU 通常配备大量高带宽内存,允许在训练期间处理大型模型和批量大小。这可以带来更好的模型质量。
  • 可扩展性:TPU Pod(大型 TPU 集群)提供了可扩展的解决方案,用于处理大型基础模型日益增长的复杂性。您可以在多个 TPU 设备上分配训练,以实现更快、更高效的处理。
  • 成本效益:在许多场景中,与基于 CPU 的基础设施相比,TPU 可以为训练大型模型提供更具成本效益的解决方案,特别是考虑到由于更快的训练而节省的时间和资源。
  • 这些优势与 Google 可持续运营的承诺是一致的。

软件

训练是使用JAXML Pathways完成的。

JAX 使研究人员能够利用包括 TPU 在内的最新一代硬件,更快、更高效地训练大型模型。

ML Pathways 是 Google 构建能够跨多个任务进行泛化的人工智能系统的最新成果。这特别适合 基础模型,包括像这样的大型语言模型。

JAX 和 ML Pathways 一起使用,如 有关 Gemini 系列模型的论文中所述;“Jax 和 Pathways 的‘单控制器’编程模型允许单个 Python 进程协调整个训练运行,从而极大地简化了开发工作流程。”

相关导航