第三届鹏城·暹星杯高手集结赛,邀你迎战(征求意见稿)
“鹏城云脑 II”(以下简称 “云脑Ⅱ” )在深圳市大力支持下,由鹏城实验室联合国内优势科研力量研制建成,具备世界顶尖的数据吞吐能力和 AI 算力,连续多届夺得 IO500 总榜冠军和国际AIPerf500评测排行榜第一,引发国内外广泛关注。
为进一步推动 “云脑Ⅱ” 使用,更好支撑科研,实验室启动第三届鹏城·暹星杯-高手集结赛。本届大赛基于 “云脑Ⅱ”, 探索基于长窗口的模型调优和事实一致性检测算法。大赛面向实验室全体人员(含鹏城实习生、联培博士),旨在挖掘 “云脑Ⅱ” 使用高手,促进优秀人才脱颖而出。
本次大赛通过 OpenI 启智社区 AI 协作平台的线上协作开发环境与 “云脑Ⅱ” 算力接入,支持参赛选手从写脚本代码、模型训练调试到赛题线上验收的全流程工作。赛后所有获奖选手的开发记录、获奖成果将以开源的形式在平台上呈现。
一、赛题设置
本次比赛设置2个赛道,赛道报名人数要求10人及以上,否则取消赛道。
赛道一、基于长窗口的模型调优
- 背景:大模型在应用如法律、医药、公文等领域,一个较长的窗口是必不可少的,GPT-4可以达到128K,Gemini 1.5可以达到1M。
- 要求:本赛道要求以 “鹏城 Mind 7B” 模型为基础模型,参赛选手自行收集训练和微调数据集,在模型通用能力损失尽可能低的条件下将模型窗口从4k扩展至128k,模型能力越好,分数越高。
- 评比方式:主要考察大模型在窗口扩展之后的通用能力和长窗口能力,将选取mmlu、cmmlu和ceval来评测模型通用能力,选取needlebench (包括32k, 64k, 128k)评测模型长窗口能力。其中通用能力和长窗口能力的权重占比为3:7。通用能力的三个评测集权重比例为1:1:1;长窗口能力中,32k, 64k, 128k窗口长度的权重比例为1:2:4。即最终的评分为: (mmlu + cmmlu + ceval + needlebench-32k + 2needlebench-64k + 4 needlebench-128k)/10。
赛道二、事实一致性检测算法
- 背景:幻觉带来事实不一致是目前影响大模型落地的主要障碍之一,幻觉导致模型生成的内容与客观世界的事实不符(事实是指公认的或者可以被权威信息源验证的)。
要提升大语言模型事实一致性能力,首先要解决的问题是检测生成内容是否包含事实不一致。当前事实一致性的检测主要依靠人工来完成,费时费力,严重制约了大语言模型的能力优化。
在此背景下,参赛选手设计出一个事实一致性检测算法,能以较高地准确率检测出事实不一致。
- 要求:给定一段模型生成内容(以<问题,答案>的形式给出),以及支持推理的“鹏城 Mind 7B”模型版本,参赛选手开发优化模型生成内容的事实一致性检测算法,以检测该段内容是否包含事实不一致。
- 评比方式:在“鹏城 Mind 7B”模型200条生成内容上测试提交的检测算法,评估检测算法的调和平均数F1-Score(F1-Score与准确率ACC和召回率的关系为 ),调和平均数相同情况下,检测效率高则排名优先。
二、比赛形式
参赛选手(限 1 人),利用云脑Ⅱ环境进行开发,在截止日期前提交成果,最后根据精度和性能确定最终排名。
三、比赛时间
初步确定比赛时间为2024 年9 月 至 2024 年 12 月 。
四、报名规则
- 参赛人群
大赛面向实验室全体人员(含鹏城实习生、联培博士)。
选手可扫描如下报名二维码参与,其它信息及相关比赛通知可以登录第三届暹星杯官方主页进一步了解,官方主页地址:https://openi.pcl.ac.cn/xianxing_cup3/third,也可加入选手交流群实时沟通确认。报名截止时间:2024年10月7日,如报名赛道的参赛人数少于10人,截止时间可延期2天。
- 实名认证
选手应按要求完成实名认证和实验室所在部门登记,参赛选手应保证身份信息的真实性。大赛组委会承诺个人信息仅用于赛事数据授权与奖励发放,对其中所有涉及个人隐私的内容予以保密。
五、评审规则
- 评审条件
所有符合资格的参赛选手在截止日期前按照赛题要求提交的结果才纳入评审。
大赛组委会不对任何因电脑、互联网、移动网络等故障而造成的参赛作品损坏、缺失、提交延时等后果承担责任。
- 公平竞技
参赛选手禁止在指定考核技术能力的范围外,利用规则漏洞或技术漏洞等不良途径提高成绩与排名;禁止在比赛中抄袭他人作品、交换答案、使用多个小号,一经发现将取消比赛成绩并严肃处理。
- 作品复现及验证
参赛选手需要配合大赛组委会对比赛作品的有效性与真实性进行验证,同时自行检查提交作品的正确性,确认无误后再进行提交,大赛组委会不负责对比赛作品进行更改和调整。
- 评审结果确认
选手需在组织xianxing_cup3(https://openi.pcl.ac.cn/xianxing_cup3)下创建个人项目,并把代码、相关模型文件、数据集等赛题所需资料集上传至该项目下,如果选手创建的项目不在大赛组织xianxing_cup3下,比赛结束后需把所有权转移到大赛指定组织xianxing_cup3;
大赛专家委员会对作品进行统一评审,结果一旦给出则为最终结果,不另对评审结果给出反馈意见。
六、奖励
- 根据赛道参赛人数设置获奖名额:5人以下,取消赛道,无获奖名额。
- 获奖选手将会得到顶级AI专家指导机会、云脑卡时费及贺信表彰,其中总排名前两名的联培博士生,将有机会直接获得年度鹏城主任奖学金;其他获奖选手的作品将推荐到启智社区和昇腾社区,将有机会获得丰富礼品(华为手机、手表、平板等)。
- 大赛组委会将通过参赛选手预留的联系方式邀请参赛选手参与大赛各项活动,若参赛选手在相关通知发出后 3 日内未答复,则视为自动放弃相应机会,主办方有权顺位递补其他参赛选手。
七、组织方权利说明
- 大赛组委会保留拒绝某人、某选手参赛或提交作品的权利;
- 大赛组委会拥有对比赛违规、作弊行为的判定权利和处置权利,对影响比赛组织及比赛公平性的参赛选手,大赛组委会保留收回或拒绝授予其奖项、奖金的权利;
- 若因故出现数据更新、评审代码更新、作弊检查等原因,大赛组委会有权对参赛结果进行重新测评并更新排行榜;
- 大赛组委会保留修改比赛各环节时间,包括但不限于作品提交截止日期、线上线下活动日期以及路演、颁奖典礼日期的权利,大赛组委会有权随时暂停或终止比赛;
- 大赛组委会保留调整比赛各阶段入围选手数量的权利,调整奖项设置及奖金数额的权利,收回或拒绝授予某个特定参赛选手奖项、奖金的权利;
- 大赛组委会保留对比赛规则进行调整修改的权利,大赛主办方拥有对大赛的最终解释权。
