#1237 关于资源优化分配的一个建议

Open
created 2 months ago by kewei · 2 comments
kewei commented 2 months ago
在学术研究的背景下,实验室通常面临着复杂的实验规划需求。以我们的课题组为例,我们配置了一台配备8张NVIDIA A100-80G显卡的服务器,旨在支持大规模(如7B级别)模型的推理测试。基于我们的经验,单张A100显卡的24G显存已足以高效运行7B模型,并通过vllm技术实现快速推理。 此外,我们的服务器拥有50TB的存储容量,这对于团队中大约50名成员的日常需求来说是充足的。得益于8张A100显卡的配置,我们的服务器能够支持多用户同时进行模型调试,极大提升了资源的利用效率。 为了确保系统的兼容性和使用便利性,我们通过root权限在主机上安装了最新版的CUDA驱动(例如12.3版本)以及一系列常用工具(包括但不限于wget、curl、unzip、tar、make、gcc等)。这一做法允许每位学生根据自己的需要配置个性化的conda环境,例如安装特定版本的cuda-toolkit(如11.6版),从而在保持系统整体稳定的同时,也能享受到灵活配置CUDA版本的便利。 然而,我们注意到,使用OpenI的镜像时,由于其体积较大(通常包含CUDA和各种模型),导致拉取和等待时间较长。这对于执行较小规模测试任务的用户来说,可能不是最高效的选择。 基于以上考虑,我们建议探索提供一种更加轻量化的镜像方案。这样的方案应当侧重于提供必要的基础设施和工具,同时允许用户根据自己的具体需求进行快速、灵活的环境配置。我们相信,通过实施此类改进,可以进一步提升资源的使用效率和用户的工作效率,从而更好地支持科研工作的进展。 期待您的回复和反馈。
liuzx commented 2 months ago
Collaborator
感谢您的提议,社区已在开发新版本的镜像管理,后续上线后若有任何问题,欢迎来这个项目下提issue。
liuzx added the
开发中
label 2 months ago
zeizei commented 2 months ago
Owner
建议很好,奖励10算力积分
Sign in to join this conversation.
No Milestone
No Assignees
3 Participants
Notifications
Due Date

No due date set.

Dependencies

This issue currently doesn't have any dependencies.

Loading…
There is no content yet.