Are you sure you want to delete this task? Once this task is deleted, it cannot be recovered.
|
1 year ago | |
---|---|---|
docs | 1 year ago | |
flash_attention | 1 year ago | |
src | 1 year ago | |
tokenizer | 1 year ago | |
auto_curl_postprocess_with_token.py | 1 year ago | |
client_api.py | 1 year ago | |
curl_demo.sh | 1 year ago | |
readme.md | 1 year ago | |
self_image_ma_serving.py | 1 year ago | |
server_local_npu.py | 1 year ago | |
server_modelarts_api.py | 1 year ago | |
serving_7B.py | 1 year ago |
PengCheng-Mind 7B | 结构参数 |
---|---|
seq_length | 4096 |
vocab_size | 125952 |
embedding_size | 4096 |
num_layers | 32 |
num_heads | 32 |
[两种部署方式,均需要一定的步骤操作,请您耐心按照流程执行哈。请期待部署的模型效果体验]
资源需求:【开通推理资源的MA账户+NPU/CPU裸机服务器】
*** Modelarts-AI应用-在线服务推理镜像 ***
一、联系 [yizx@pcl.ac.cn] wxid: YYYzx1015,获取docker登陆指令
二、拉取镜像
docker pull swr.cn-south-222.ai.pcl.cn/openi/pcmind_new7b_ma_serving:v1_sft_v1080
三、按照您的AICC-Modelarts组织名,给镜像打标签(在MA的“容器镜像服务SWR”中需自行创建“组织名”,根据实际的swr地址来打tag!)
docker tag swr.cn-south-222.ai.pcl.cn/openi/pcmind_new7b_ma_serving:v1_sft_v1080 swr.cn-XXX/YOUR_IMAGE
四、按照您的AICC-Modelarts客户端登陆指令(在MA的“容器镜像服务SWR”中获取,同时需要自行创建“组织名”),docker login后,docker push swr.cn-XXX/YOUR_IMAGE
五、登陆modelart界面,启动AI应用。服务默认8080端口,apis配置如下图
六、等待AI应用运行成功后,点击部署,部署单910A卡在线服务。配置如下图
七、进入在线服务,等待service运行。
流程为:加载预训练模型--前传推理编译加速--推理一条样本--等待用户请求
(这个流程需要等待约15分钟,如出现报错且界面日志看不到logs,联系MA支撑人员看看后台信息,可能资源池配置问题)
serving-step1:【inference-ok】
可在MA“在线推理”服务的预测模块,测试模型输出。参考下图,说明推理引擎验证passed!
serving-step2:【前后端部署-环境准备】
【NPU服务器-欧拉系统环境】
docker pull fangj456/maas_server:v1
docker pull wenlong92/chatmind_frontend:v0.1
docker pull imyzx/pcmind7b_img:npu
【CPU服务器-ubuntu系统环境】
docker pull fangj456/maas_server_cpu:v1.2
docker pull wenlong92/chatmind_frontend:v0.1
docker pull imyzx/pcmind7b_img:cpu-ubuntu
serving-step3:【启动前/后端服务;启动modelartsAPI推理服务】
# 启动前端服务
sudo docker run --restart=always -d --net=host wenlong92/chatmind_frontend:v0.1
# 启动后端服务
sudo docker run --restart=always --shm-size 80g --net=host -e MODEL_URL=$MODEL_URL -d fangj456/maas_server:v1
(或者cpu-Ubuntu系统镜像fangj456/maas_server_cpu:v1.2)
其中 $MODEL_URL为部署的模型服务的http://ip:port/insert
$port: 模型推理服务端口默认使用6900,请确认端口不被占用!配置如MODEL_URL=localhost:6900/insert
# 启动modelartAPI推理服务
sudo docker run --restart=always -it --net=host imyzx/pcmind7b_img:npu
(或者cpu-ubuntu系统镜像imyzx/pcmind7b_img:cpu-ubuntu)
# 1、将本项目copy至执行路径
# 2、《注意》请根据您所拥有的ma-aicc账户信息,修改curl_demo.sh脚本中,$USERNAME;$PASSWORD;$REGION_NAME;$YOURAICCURL,如有疑问请您咨询
python server_modelarts_api.py
资源需求:【≥1卡NPU裸机服务器】
*** NPU裸机-docker启动服务,需要单卡910A资源 ***
serving-step0:【申请获取鹏城脑海7B模型】
鹏城·脑海模型申请
鹏城·脑海7B模型仓库
serving-step1:【docker镜像环境】
【NPU服务器-欧拉系统环境】
docker pull registry.cn-hangzhou.aliyuncs.com/pcmind/new7b_local_npu:v1_needckpt
docker pull fangj456/maas_server:v1
docker pull wenlong92/chatmind_frontend:v0.1
serving-step2:【启动推理引擎容器,需挂载ascend驱动。如无驱动,请参照华为文档安装配置】
# 启动推理服务
#【注意!需要将本地的脑海7B模型,在docker run的时候-v挂载到固定路径/cache/PengCheng-Mind-7B-SFT_fp16.ckpt】
sudo docker run -it -u root --ipc=host --network host --device=/dev/davinci0 --device=/dev/davinci1 --device=/dev/davinci2 --device=/dev/davinci3 --device=/dev/davinci4 --device=/dev/davinci5 --device=/dev/davinci6 --device=/dev/davinci7 --device=/dev/davinci_manager --device=/dev/devmm_svm --device=/dev/hisi_hdc -v /usr/local/Ascend/driver:/usr/local/Ascend/driver -v /var/log/npu/:/usr/slog -v PCMIND7B_MODEL.ckpt:/cache/PengCheng-Mind-7B-SFT_fp16.ckpt registry.cn-hangzhou.aliyuncs.com/pcmind/new7b_local_npu:v1_needckpt
#
# Serving启动的url默认地址为0.0.0.0:6900.注意端口占用以及释放。
# 启动前端服务
sudo docker run --restart=always -d --net=host wenlong92/chatmind_frontend:v0.1
# 启动后端服务
sudo docker run --restart=always --shm-size 80g --net=host -e MODEL_URL=$MODEL_URL -d fangj456/maas_server:v1
其中 $MODEL_URL为部署的模型服务的http://ip:port/insert
$port: 模型推理服务端口默认使用6900,请确认端口不被占用!配置如MODEL_URL=localhost:6900/insert
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》