启智社区最近又发版了,新增模型推理功能,欢迎大家体验>>>
You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.

7.2 kB

小白训练营第7课-数据集

如何上传、预览、标注数据

经过前面几节课,我们已经学会了创建项目,创建完项目之后,我们可以在项目下上传相应的数据集。数据集主要是为我们的项目服务的,当我们准备在云脑平台上运行项目时,数据集来源于这里。

所以本节课我们将来学习数据集里的主要功能,包括上传、预览、标注和设置,以及一些使用时的注意事项。

1. 进入数据集页面

首先,选择相应项目后,打开【数据集】页面


2. 上传数据集

数据集可以通过拖动文件或者点击进行上传,但前提是要选择云脑1或云脑2 的上传路径。

数据集名称下方有两个按钮,【CpU/GpU】和【Ascend NpU】,点击这两个按钮可以切换云脑1和云脑2。其中云脑1提供 CpU / GpU 资源,云脑2提供 Ascend NpU 资源,需要根据具体需求选择上传路径。


数据集支持任意格式进行上传,但如果要发起云脑任务,那数据集格式必须是zip的压缩格式。此外,云脑1和云脑2 数据集不共用,当前两个计算平台都支持断点续传功能。

我们可以直接将文件拖入,或者点击上传一个zip格式的数据集,可以在网上下载一些相应的图片,通过压缩软件将文件夹进行压缩,在压缩时需要选择zip格式


完成文件的上传


另外,我们也可以再上传非zip格式的文件,我们选择一张猫咪的照片


上传之后,我们可以发现zip格式文件除了能进行【复制下载链接】和【复制文件MD5】,还能进行【数据集预览】和【创建标注任务】动作,这也是平台针对压缩包的数据集文件提供了在线解压和标注功能。


3. 预览数据集

我们针对zip格式的数据集,点击右侧的文件图标,可以进行预览


4. 标注数据集

数据标注是大部分人工智能算法得以有效运行的关键环节。我们可以通过人工贴标的方式,为机器系统可供学习的样本。

点击zip格式数据集旁边的小铅笔图标,可以创建标注任务


进入标注任务页面,可以查看所有标记任务,也可以新建标注


点击【新建图片人工标注】,进入标注任务创建页面


选择想要标注的数据集,这里我们随意选择一个zip格式的对象,任务名称也自动关联了


然后我们点击提交,标注任务就创建好了,在操作栏点击【人工标注】


进入到标注工作区,一起来体验数据标注的快乐~


工作区左侧是工具栏,当鼠标停留在图标上时,会有相应的注释,工作区右侧则是标注的进度,中间是标注的图片对象。

我们点击设置按钮,打开设置弹窗,对我们将要标注的内容提前设置一些基本标签


如果要新增属性值,可以在attribute name 栏输入任意名称,然后点击旁边的【+】号进行添加,也可以基于已有的属性值进行修改,比如我们点击type的【显示属性】进行修改,配置一些猫咪的类型


我们看到Type下拉有四个选项,如果选择text,那标注时可以直接输入文本进行标注;如果选择checkbox,则可以设置多个标签;选择radio,则只能选择1个标签;选择dropbox,则是下拉框的形式选择1个标签。


我们可以在左侧选择一个标注工具,然后在图片上框出你要标注的对象,在右侧的【标签列表】可以查看已记录的标注。

第一列数字表示所选类型的id,比如我们设置的波斯猫的id是3,那么这么数字3就表示”波斯猫“,第二列的”bbox“表示所选的标注形状是矩形,第三列的数字表示矩形的长宽。输入或者选择一个标签进行标注,大家可以多体验,这里就不一一展示了


标注完可以导出标注,先点击左侧工具栏里的保存,然后点击左上角Home图标,返回数据集标注页面,点击操作栏里的【导出标注】


弹出导出确认窗口,根据需求选择是否带图片导出及导出格式的相应选项,然后点击提交就可以导出标注啦


5. 数据集设置

当我们创建数据集时,默认设置为私有,可以直接点击【公开】将数据集对所有人可见


为了方便查看管理数据集,页面右侧有数据集分类、研究方向/应用领域、license等标签供我们选择。为数据集添加标签能够提高项目的标识度,提高检索率。


点击分类,可以选择”计算机视觉“、”自然语言处理“等分类标签


点击研究方向/应用领域,可以添加”机器翻译“、”问答系统“等领域标签


以及选择相应的license


数据集右侧有个【编辑】按钮,可以编辑数据集的信息


进入编辑页面后,可以添加数据集名称和介绍,输入信息后点击【更新数据集】


好了,数据集的相应功能就为大家介绍到这里了,大致总结一下就是:

  1. 根据云脑任务上传相应的数据集
  1. 对数据集进行预览和标注
  1. 对数据集进行权限及分类设置

简介

启智社区AI协同平台小白操作指南~~~~ 社区新童鞋们可以参考本项目下的小白训练课程,从单个功能讲解到项目实战,手把手带你了解和上手平台的代码、数据集、云脑、任务等各功能,好用到根本停不下来~!!更有免费的算力哦~!!

Python Markdown

贡献者 (1)