shyann_wong
  • Joined on Oct 16, 2022
  • Organization

该算法提出了一个新颖的、鲁棒的训练框架,可以提升模型在基于 OCR 识别文本的下游任务表现。该框架:1)采用简单而有效的方法,从干净的文本中直接模拟自然的 OCR 噪音,2)从大量的模拟样本中反复挖掘难样本,以获得最佳性能。3)采用稳定性损失,使模型学习到不受噪音表征的影响。在 Metaphor 数据集上 accuracy 达到 87.7%,F1 达到 87.1%。

Updated 1 year ago