Dataset - wsj0 - OpenI - 启智AI开源社区提供普惠算力！

关于GCU、沐曦GPGPU、MLU、0卡V100资源4月7日恢复上架的公告>>> 关于共建具身智能开源数据集的倡议>>> 关于云脑任务中统一路径访问方式的公告>>> 关于将启智集群GPU资源迁移至智算集群的公告>>>

wsj0

数据集全名叫CSR-I (WSJ0) Complete。1991 年，DARPA 口语项目开始计划建立一个新的语料库，以支持对大词汇量连续语音识别 (CSR) 系统的研究。前两个 CSR 语料库主要由阅读语音组成，其文本来自华尔街日报新闻文本的机器可读语料库，因此通常被称为 WSJ0 和 WSJ1。语料库的文本属于 WSJ 文本语料库的 5,000 字或 20,000 字子集。除了朗读的演讲外，还包括一些自发的听写。听写部分是使用口述假设新闻文章的记者收集的。整个过程中使用了两个麦克风：一个近距离的 Sennheiser HMD414 和一个辅助麦克风，辅助麦克风可能会有所不同。语料库以三种配置提供：来自 Sennheiser 的语音、来自另一个麦克风的语音以及来自两者的语音；这三组包括所有转录、测试、文档等。

speech processing speech coding

Upload

File Name

Size

Available Clusters

Status

Creator

Upload Time

Operate

Unzip Status：Unzip Successed Download：19

K-SportsSum.zip

33 MiB

NPU

Private Public

2023-03-10 12:52:02

Unzip Status：Unzip Successed Download：15

ChnSentiCorp.zip

1.9 MiB

NPU

Private Public

2023-03-05 21:59:30

Unzip Status：Unzip Successed Download：17

COTE.zip

9.8 MiB

NPU

Private Public

2023-03-04 21:55:51

Unzip Status：Unzip Successed Download：20

tr-clean.tar.gz

76 MiB

NPU

Private Public

2023-02-12 23:25:40