小白训练营第7课-数据集
如何上传、预览、标注数据
经过前面几节课,我们已经学会了创建项目,创建完项目之后,我们可以在项目下上传相应的数据集。数据集主要是为我们的项目服务的,当我们准备在云脑平台上运行项目时,数据集来源于这里。
所以本节课我们将来学习数据集里的主要功能,包括上传、预览、标注和设置,以及一些使用时的注意事项。
1. 进入数据集页面
首先,在【个人中心】打开【数据集】页面
2. 上传数据集
数据集可以通过拖动文件或者点击进行上传,但前提是要选择云脑1或云脑2 的上传路径。
数据集名称下方有两个按钮,【CpU/GpU】和【Ascend NpU】,点击这两个按钮可以切换云脑1和云脑2。其中云脑1提供 CpU / GpU 资源,云脑2提供 Ascend NpU 资源,需要根据具体需求选择上传路径。
数据集支持任意格式进行上传,但如果要发起云脑任务,那数据集格式必须是zip的压缩格式。此外,云脑1和云脑2 数据集不共用,当前两个计算平台都支持断点续传功能。
我们先通过拖动的方式上传一个zip格式的数据集,可以在网上下载一些相应的图片,通过压缩软件将文件夹进行压缩,在压缩时需要选择zip格式
然后,我们直接将文件夹拖入数据集页面的虚线框内
完成文件的上传
另外,我们再通过点击文件的方式上传非zip格式的文件,我们选择一张猫咪的照片
上传之后,我们可以发现图片格式的文件只能进行【复制下载链接】和【复制文件MD5】,相比zip格式的文件,缺少了【数据集预览】和【创建标注任务】动作,也就是这两个动作只能针对zip格式进行操作。
3. 预览数据集
我们针对zip格式的数据集,点击右侧的文件图标,可以进行预览
4. 标注数据集
数据标注是大部分人工智能算法得以有效运行的关键环节。我们可以通过人工贴标的方式,为机器系统可供学习的样本。
点击zip格式数据集旁边的小铅笔图标,可以创建标注任务
进入标注任务页面,可以查看所有标记任务,也可以新建标注
点击【新建图片人工标注】,进入标注任务创建页面
选择想要标注的数据集,这里我们随意选择一个zip格式的对象,任务名称也自动关联了
然后我们点击提交,标注任务就创建好了,在操作栏点击【人工标注】
进入到标注工作区,一起来体验数据标注的快乐~
工作区左侧是工具栏,当鼠标停留在图标上时,会有相应的注释,工作区右侧则是标注的进度,中间是标注的图片对象。
我们点击设置按钮,打开设置弹窗,对我们将要标注的内容提前设置一些基本标签
如果要新增属性值,可以在attribute name 栏输入任意名称,然后点击旁边的【+】号进行添加,也可以基于已有的属性值进行修改,比如我们点击type的【显示属性】进行修改,配置一些猫咪的类型
我们看到Type下拉有四个选项,如果选择text,那标注时可以直接输入文本进行标注;如果选择checkbox,则可以设置多个标签;选择radio,则只能选择1个标签;选择dropbox,则是下拉框的形式选择1个标签。
我们可以在左侧选择一个标注工具,然后在图片上框出你要标注的对象,在右侧的【标签列表】可以查看已记录的标注。
第一列数字表示所选类型的id,比如我们设置的波斯猫的id是3,那么这么数字3就表示”波斯猫“,第二列的”bbox“表示所选的标注形状是矩形,第三列的数字表示矩形的长宽。输入或者选择一个标签进行标注,大家可以多体验,这里就不一一展示了
标注完可以导出标注,先点击左侧工具栏里的保存,然后点击左上角Home图标,返回数据集标注页面,点击操作栏里的【导出标注】
弹出导出确认窗口,根据需求选择是否带图片导出及导出格式的相应选项,然后点击提交就可以导出标注啦
5. 数据集设置
当我们创建数据集时,默认设置为私有,可以直接点击【公开】将数据集对所有人可见
为了方便查看管理数据集,页面右侧有数据集分类、研究方向/应用领域、license等标签供我们选择。为数据集添加标签能够提高项目的标识度,提高检索率。
点击分类,可以选择”计算机视觉“、”自然语言处理“等分类标签
点击研究方向/应用领域,可以添加”机器翻译“、”问答系统“等领域标签
以及选择相应的license
数据集右侧有个【编辑】按钮,可以编辑数据集名称,以及添加一些介绍,输入信息后点击【更新数据集】
好了,数据集的相应功能就为大家介绍到这里了,大致总结一下就是:
- 根据云脑任务上传相应的数据集
- 对数据集进行预览和标注
- 对数据集进行权限及分类设置