You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.
alex45854361 e53c9b23c5 更新 'OpenCourse_Video' 15 hours ago
CubeAI智立方 上传文件至 'CubeAI智立方' 2 months ago
HiStar简介 上传文件至 'HiStar简介' 3 months ago
OpenI启智开发协作平台 上传文件至 'OpenI启智开发协作平台' 3 months ago
OpenI启智章鱼介绍 上传文件至 'OpenI启智章鱼介绍' 2 months ago
TensorLayer简介 上传文件至 'TensorLayer简介' 3 months ago
Transformer In tensorlayer 上传文件至 'Transformer In tensorlayer' 1 month ago
半自动标注系统 上传文件至 '半自动标注系统' 1 month ago
大数据处理平台实践 上传文件至 '大数据处理平台实践' 2 months ago
预训练大模型的应用技术 预训练大模型的应用技术 1 month ago
鹏程·盘古简介 add video 2 months ago
OpenCourse_Video 更新 'OpenCourse_Video' 15 hours ago
README.md 更新 'README.md' 15 hours ago

README.md

本项目为鹏城实验室开源所EngineClub开源讲座项目,将历次技术讲座及分享内容上传,欢迎各位开发者踊跃交流

2021年7月16日-首场技术讲座
讲座题目:TensorLayer简介
分享人:赖铖
分享人介绍:鹏城实验室开源所统一编程框架子课题成员,负责兼容多种深度学习框架的深度学习统一编程库的开发和维护,联系方式:laich@pcl.ac.cn
分享内容介绍:
TensorLayer是一款兼容多种深度学习框架后端的深度学习库,支持TensorFlow、MindSpore、PaddlePaddle为计算引擎。TensorLayer提供了数据处理、模型构建、模型训练等深度学习全流程API,同一套代码可以通过一行代码设置后端从切换不同的计算引擎。在工程开发中,有效减少深度学习框架之间算法迁移需要重构代码的繁琐工作。

如果这项工作对你有帮助,请引用以下论文

@inproceedings{tensorlayer2021,
  title={Tensorlayer 3.0: A Deep Learning Library Compatible With Multiple Backends},
  author={Lai, Cheng and Han, Jiarong and Dong, Hao},
  booktitle={2021 IEEE International Conference on Multimedia \& Expo Workshops (ICMEW)},
  pages={1--3},
  year={2021},
  organization={IEEE}
}

2021年7月20日-第二场技术讲座
讲座题目:联邦学习中间件HiStar简介
分享人:秦爽
分享人介绍: 清华大学电子与通信工程硕士毕业,现在鹏城实验室开源所云际联邦子课题工作,负责云际联邦学习框架开发和维护。联系邮箱:qinsh@pcl.ac.cn
分享内容介绍:
HiStar是由鹏城实验室联邦学习中间件研发团队自主研发的鹏城云脑联邦深度学习中间件,致力于解决人工智能领域面临的数据孤岛以及隐私安全问题,以安全聚合、多方安全计算等多种主流的隐私保护策略为技术手段,提供非侵入式、适用于端边云架构、性能-安全可综合调控、多场景适用的深度学习隐私保护方案。通过HiStar联邦学习中间件,开发人员只需要在原有深度学习代码中添加三行代码,便可以将其转换为可以实现支持多方协同训练且对训练数据进行有效保护的联邦学习训练模型代码。

2021年7月23日-第三场技术讲座
讲座题目:启智OpenI开发协作平台
分享人:徐春香博士
分享人介绍: 北京大学信息科学技术学院博士毕业,现在鹏城实验室开源所开源协同与生态技术研究室,负责启智OpenI协作开发平台的研发工作。联系邮箱:xuchx@pcl.ac.cn
内容介绍:  
OpenI开发协作平台是启智社区面向AI开发者提供的一站式AI开发协作平台,提供了代码托管、数据集管理、基于异构计算资源的模型开发等功能。
代码托管基于广泛使用的git技术,方便开发者进行代码版本管理;数据集管理提供了大文件的管理和共享;同时面向底层异构的计算资源,基于Web提供了统一的入口,支持GPU和华为ASCEND NPU芯片上的模型调试、训练、评测和推理任务。

2021年7月27日-第四场技术讲座
讲座题目:OpenI启智章鱼简介
分享人:刘瑾
分享人介绍: 鹏城实验室开源所网络智能集群系统软件子课题成员,负责开源章鱼系统开发和维护,联系方式:liuj@pcl.ac.cn
内容介绍:  
启智章鱼项目是一款开源面向 AI 模型开发的集群管理平台,面向 AI 模型生产的生命周期,提供了数据集管理、镜像管理、算法管理、训练、部署等功能,方便用户一站式构建AI算法,另外平台还提出了“工作空间”概念,满足不同用户群体的资源使用与管理述求,方便平台管理者更好的管理资源集群。同时结合了一些在大规模生产环境中表现良好的成熟设计,主要为提升学术研究效率,复现学术研究成果而量身打造。

2021年7月29日-第五场技术讲座
讲座题目:鹏程·盘古简介
分享人:颜达森
分享人介绍:深圳大学计算机科学与技术专业硕士毕业,现在鹏城实验室网络智能部开源所,负责大模型的开发和大模型算法库的研发工作。邮箱:yands@pcl.ac.cn
内容介绍:
鹏程·盘古是业界首个2000亿超大参数中文预训练模型。由鹏城实验室联合有关单位技术团队组建的「盘古α」联合攻关团队,首次基于“鹏城云脑Ⅱ”和MindSpore框架的自动混合并行模式实现在2048卡算力集群上的大规模分布式训练,训练出业界首个2000亿超大参数中文预训练模型“鹏程·盘古”。模型在16个下游任务中大部分指标优于SOTA模型,其中零样本学习任务11个任务领先,单样本学习任务12个任务领先,小样本学习任务13个任务领先。代码、模型以及在线体验服务已经在OpenI 启智社区全部开源开放。

2021年8月4日-第六场技术讲座
讲座题目:大数据处理平台实践
分享人:邓凌风
分享人介绍:武汉大学计算机软件与理论专业硕士毕业,现在鹏城实验室网络智能部开源所,负责大数据处理平台的研发工作。联系邮箱:denglf@pcl.ac.cn
内容介绍:
启智数据处理平台是启智社区面向AI开发者提供的大数据分析和处理平台,平台基于Spark、Hdfs、ElasticSearch等开源组件,结合人工智能领域的数据处理经验搭建,研发AI数据处理工具和数据自动处理系统,致力于解决AI训练的大规模训练数据分析和处理问题。平台为AI开发者提供分布式计算资源调度、分布式计算框架和AI相关的高效数据处理工具集,并抽象通用流程构建全流程数据处理架构,帮助AI开发者在不了解分布式编程架构的条件下也能利用平台进行大规模数据的高效处理和分析,为AI训练提供高质量的训练数据集。平台成功支持鹏程·盘古的多个TB级大数据处理任务,并在内部不断孵化发展中。

2021年8月11日-第七场技术讲座
讲座题目:OpenI启智社区活动策划
分享人:邓清
分享人介绍:哈尔滨工业大学硕士毕业,现在鹏城实验室网络智能部开源所-社区运营子课题,负责OpenI启智社区运营工作。联系邮箱:dengq@pcl.ac.cn
内容介绍:
本次主要介绍OpenI启智社区近年各类型开源活动的发展情况与开源成果,分享启智社区运营团队在探索创新性开源生态建设模式过程中的各种经验与感悟,就未来启智社区各项开源活动的策划与各位开发者进行讨论。

讲座题目:CubeAI简介
分享人:联通智立方专家
内容介绍:
CubeAI智立方是中国联通研究院自主研发的集AI模型自动化服务封装、发布、共享、部署和能力开放等功能于一体的开源AI算能服务平台,其核心作用在于打通AI模型开发至实际生产应用之间的壁垒,加速AI创新和应用进程,促进AI应用从设计、开发直到部署、运营整个生命周期的自动化快速迭代和演进。

2021年8月18日-第八场技术讲座
讲座题目:自动并行技术简介
分享人:王进
分享人介绍:北京邮电大学信息与通信工程专业硕士毕业,鹏城实验室网络智能部开源所-AI大模型技术子课题成员,负责深度学习模型高效分布式训练方向的研发工作。邮箱:wangj05@pcl.ac.cn
内容介绍:
自动并行技术研究如何将深度学习算法在AI集群上实现高效的自动化分布式模型训练。本次分享从分布式深度学习综述出发,介绍包括算法逻辑、并行逻辑、通信模式、网络拓扑等在内的整体框架,分享现有自动并行框架的技术架构、性能对比,以及针对并行搜索空间建模、搜索性能提升等问题的分析思考。

2021年8月25日-第9场技术讲座
讲座题目:半自动标注系统介绍
分享人:邹安平
分享人介绍:武汉大学计算机学院软件理论专业硕士毕业,鹏程实验室网络智能开源所开源生态与技术室成员,负责标注系统及启智社区后端开发,邮箱:zouap@pcl.ac.cn
内容介绍:
想要模型效果好,数据质量是关键,而好的数据都是通过标注系统标注得来的,本次分享主要介绍鹏城实验室自研的半自动标注系统的架构及相关功能,包括模型管理,自动标注,人工标注,视频标注,超大图像标注,模型重训等,本标注系统已经在Github及Ihub上开源,有了一定的使用用户,同时调研了一些同行的一些标注软件,在此基础上提出后续标注系统的发展方向。

2021年9月1日-第10场技术讲座
讲座题目:TensorLayer中Transformer组件实现简介
分享人:韩佳容
分享人介绍:国防科技大学模式识别与智能系统专业硕士毕业。鹏城实验室网络智能部开源技术研究所成员,负责统一深度学习编程框架开发。邮箱:hanjr@pcl.ac.cn
内容介绍:
Transformer是一个完全基于注意力机制的编解码器模型,在任务表现、并行能力和易于训练性方面都有大幅的提高。本次分享以transformer的算法思想与模型结构为切入点,介绍transformer组件在统一编程框架tensorlayer中的实现方式,分享在不同后端提供相关组件的灵活调用方法,使用组件有助于降低语言模型编写重复工作量,提高开发效率。

2021年9月8日-第11场技术讲座
讲座题目:预训练大模型的应用技术
分享人:蒋芳清
分享人介绍:中南大学硕士研究生毕业,鹏城实验室网络智能部开源技术研究所成员,负责大模型、知识图谱、自然语言处理的研发工作。
内容介绍:
盘古系列大模型是在超大规模数据上训练预训练模型,具备强大的基础能力。基于模型应用的目标,整理了盘古系列大模型的应用技术框架,从算法到应用提供baseline和示范应用,形成了盘古系列大模型应用的技术生态。本次分享从技术层面介绍盘古大模型的应用方法以及相应的baseline和示范应用,提高模型应用者的使用效率。

2021年9月29日-第12场技术讲座
讲座题目:预训练大模型并行训练加速技术
分享人:张艳
分享人介绍:深圳大学信号与信息处理硕士毕业,现在鹏城实验室开源所大模型技术研究室,主要负责预训练大模型并行训练技术的研究。联系邮箱:zhangy03@pcl.ac.cn
内容介绍:
目前制约我们高效训练大模型是硬件上的一些限制,比如计算资源、网络通信、存储资源等,本次分享从数据并行、模型并行、pipeline并行、zero、分布式矩阵乘法等方面介绍大模型训练一些并行加速的技术。

2021年10月13日-第13场技术讲座
讲座题目:鹏程·通言—基于稀疏激活与增量训练的多语翻译模型
分享人:张晗
分享人介绍:鹏城实验室-哈尔滨工业大学联培博士生,网络智能部门开源所大模型子课题组,研究方向为自然语言处理中的机器翻译与语言模型的预训练技术。联系方式: zhangh04@pcl.ac.cn
内容介绍:
“通言"多语言机器翻译模型旨在为“一带一路”建设提供语言服务支撑,让“语言通”成为一带一路”五通的基础与依托。目前"通言"模型支持包括中文和十七种“一带一路”语言的任意方向互译,平均翻译性能相比标准transformer模型提升19% (BLEU值)。“通言”模型预训练采用了更加节约能耗的增量式方法,模型结构采用基于稀疏激活的混合专家策略,参数量达到132亿,其推理速度与十分之一参数量的模型相当。“通言”还提供新语言的可持续学习方案,学习新语言时对旧语言翻译的遗忘率控制在1-2%,在一定程度克服了“灾难性遗忘”的问题。

2021年10月22日-第14场技术讲座
讲座题目:容器云平台调度器方案简介
分享人:李俊茂
分享人介绍:北京大学计算机应用技术专业硕士毕业,现在鹏城实验室网络智能部开源所,负责章鱼系统开发和维护工作。
内容介绍:
容器云平台对任务调度有各类限制,譬如某些服务必须在业务独享的机器上运行,或者从灾备的角度考虑尽量把服务调度到不同机器。调度器通过结合节点资源、负载情况、数据位置等各种因素进行调度判断,确保在满足场景需求的同时将任务分配到最优节点。本次分享主要介绍一些知名的基于Kubernetes的开源调度器方案。

简介

启智社区开源技术讲座及分享

other