You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
 
 
 
houysh d5bd0e5622 add content 5 months ago
docs/material update figure 5 months ago
jointai-agent add readme content 5 months ago
jointai-client add npu support 5 months ago
jointai-client-npu add try catch 5 months ago
text_classification_paddle change Dockerfile 5 months ago
README.md add content 5 months ago
introduction.md update introduction 5 months ago

README.md

云际学习NLP算法

运行平台

  • paddle=2.1.2
    • 当前使用的paddle镜像 paddlepaddle/paddle:2.1.2-gpu-cuda10.2-cudnn7
  • paddlenlp
  • 云际学习平台
    • 管理平台:管理平台算力、数据集、算法、任务等,并负责启停训练任务
    • agent节点:进行参数融合
    • client节点:进行模型训练

样例任务

情感分析

代码说明

client端

server端

云际学习参数服务器端代码

paddle 情感分析例子

情感分析算法例子

平台使用

使用指引

实验

ChnSentiCorp 数据集

构建方式:把原始ChnSentiCorp数据集的训练数据随机拆分成part_a、part_b和test三部分

数据集 样本数 格式 位置
训练集big 6000 标签\t文本内容 ChnSentiCorp_a/train.tsv
训练集small 2524 标签\t文本内容 ChnSentiCorp_b/train.tsv
验证集 1200 样本id\t标签\t文本内容 dev.tsv
测试集 1076 标签\t文本内容 test.tsv

实验设置

模型训练 数据集 数据规模
单机训练 全量训练集 8524
单节点训练 全量训练集 8524
client_A 训练集big 6000
client_B 训练集small 2524
A_B融合 对A和B进行模型融合 8524

模型对比

模型 epoc1 epoc2 epoc3 epoc4 epoc5 epoc6 epoc7 epoc8 epoc9 epoc10
单机 0.8808 0.8900 0.8850 0.8742 0.8683 0.8767 0.8775 0.8933 0.8800 0.8833
单节点 0.8808 0.8875 0.8825 0.8842 0.8758 0.8808 0.8775 0.8792 0.8750 0.8658
client_A 0.8508 0.8575 0.8675 0.8608 0.8683 0.8533 0.8608 0.8642 0.8592 0.8400
client_B 0.6725 0.8242 0.8092 0.8300 0.8192 0.7867 0.8050 0.8025 0.8108 0.8142
A_B融合 0.7992 0.8617 0.8833 0.8750 0.8783 0.8733 0.8700 0.8683 0.8742 0.8667


模块耗时

  • 模型训练耗时对比
模型训练 迭代轮数 总耗时(s)
单机训练 10 228
云际学习(2个client) 10 1570
  • 云际学习各模块耗时
云际学习模块 数据加载 初始化 参数加载 模型训练 模型评估 结果上传 参数上传 总计
耗时(s) 15 27 393 351 10 361 413 1570
  • 云际学习各模块耗时占比

云际学习控制台

简介

基于PaddlePaddle框架的跨平台云际学习NLP算法库

Text Python Go other

贡献者 (1)