Hugging Face 推出 SafeCoder：为企业打造的代码助手解决方案

Hugging Face 推出 SafeCoder：为企业打造的代码助手解决方案四海第1张

代码助手解决方案是一种在编写和编辑代码时帮助开发人员的工具或软件应用程序。由于其重要性日益增加，代码助手解决方案最近在全球范围内得到广泛使用。全球范围内正在进行实验和研究项目以推进这个领域。这些代码助手解决方案是建立在LLM（语言模型）之上的。一些代码助手解决方案包括GitHub Copilot、TabNine、IntelliCode等等。它们能够极大地提高生产力。这些平台极大地提升了生产力，提供了上下文相关的代码建议和补全。它们的影响正在为软件开发过程带来显著的效率改进。

然而，使用这些代码助手也存在问题，因为使用这些助手会将代码库暴露给第三方。在训练和推理过程中，代码库都会暴露给第三方，因为经过微调的代码LLM很可能在推理过程中泄露其训练数据集中的代码。SafeCoder允许客户学习创建和更新模型的过程，并掌握他们的AI能力。

因此，Hugging Face的研究人员对这些代码助手解决方案进行了深入研究，并制定了一种名为SafeCoder的方法，以帮助客户构建自己的代码LLM。这种方法涉及在客户的私有代码库上对模型进行微调，利用先进的开放模型和库。重要的是，这个过程允许客户通过避免与Hugging Face或外部实体共享来保持代码的机密性。SafeCoder的核心原则是，在训练或推理过程中，客户的内部代码库将永远不会被任何第三方（包括Hugging Face）访问。在训练和推理过程中，代码始终保持在虚拟私有云（VPC）中，确保其完整性。

StarCoder使用了稳健的150亿参数进行训练，并结合了代码优化技术。引入了Flash Attention进一步提升了模型的效率，使其能够涵盖8192个标记的上下文。它在80多种编程语言上进行了训练，并在多个基准测试中提供了最先进的性能。

研究人员开始参与一个可选的训练阶段，以提供用户特定的代码建议。Hugging Face团队与客户团队密切合作，提供逐步指导，以策划和构建训练数据集。这个过程还包括通过微调来打造个性化的代码生成模型，同时确保最高的隐私性。

在SafeCoder的部署阶段，客户通过将Hugging Face提供的容器实施到自己的基础架构上来掌控情况。这些容器的配置与客户的特定硬件设置相一致，包括NVIDIA GPU、AMD Instinct GPU、Intel Xeon CPU、AWS Inferentia2或Habana Gaudi加速器等选项。在部署和激活SafeCoder的端点后，开发人员可以集成兼容的SafeCoder IDE插件。此集成允许开发人员在工作时实时接收代码建议。

在未来，SafeCoder可能会提供其他类似的可商业允许的开源模型，这些模型以道德来源和透明数据集作为基础LLM进行微调。