火星科技网您的位置:首页 >人工智能 >

MetaHTR迈向作家自适应手写文本识别

导读 手写文本识别是计算机视觉中的一个众所周知的问题。由于复杂的形状和手写风格的多样性,这是一项艰巨的任务。以前的方法试图通过增加训练数

手写文本识别是计算机视觉中的一个众所周知的问题。由于复杂的形状和手写风格的多样性,这是一项艰巨的任务。以前的方法试图通过增加训练数据量来解决这些问题。然而,当遇到看不见的样式时,模型仍然很挣扎。因此,最近在 arXiv.org 上的一项研究建议要求用户写一个特定的句子以适应个人风格。

提议的元学习框架使用特定于字符的权重,而不是平等对待所有字符。该模型学习学习特定于实例的权重,以优先从更多差异字符中学习。元学习设计可以与任何手写文本识别模型相结合。对现有模型的测试表明,该方法可以持续提高性能。

迄今为止,手写文本识别 (HTR) 仍然是一个具有挑战性的问题,这主要是由于我们之间存在不同的书写风格。然而,先前的工作通常假设样式数量有限,其中大部分已经被现有数据集捕获。在本文中,我们采取了一个完全不同的观点——我们假设总是有一种截然不同的新风格,并且在测试期间我们只有非常有限的数据来执行适应。

这产生了一个商业上可行的解决方案——该模型在适应新风格方面有最好的机会,并且少数样本的性质使其易于实施。我们通过一种新颖的元学习框架实现了这一点,该框架通过支持集利用额外的新作者数据,并在推理过程中通过单梯度步更新输出适合作者的模型。我们发现并利用了一个重要的见解,即每位作家几乎没有表现出较大风格差异的关键人物。为此,我们还建议元学习实例特定权重以进行字符交叉熵损失,这是专门设计用于处理文本数据的顺序性质的。我们的编写器自适应 MetaHTR 框架可以在大多数最先进的 HTR 模型之上轻松实现。实验表明,通过观察很少的新样式数据可以获得 5-7% 的平均性能增益。我们通过一组消融研究进一步证明了与替代适应机制相比,我们的元设计的优势。我们发现并利用了一个重要的见解,即每位作家几乎没有表现出较大风格差异的关键人物。为此,我们还建议元学习实例特定权重以进行字符交叉熵损失,这是专门设计用于处理文本数据的顺序性质的。我们的编写器自适应 MetaHTR 框架可以在大多数最先进的 HTR 模型之上轻松实现。实验表明,通过观察很少的新样式数据可以获得 5-7% 的平均性能增益。

我们通过一组消融研究进一步证明了与替代适应机制相比,我们的元设计的优势。我们发现并利用了一个重要的见解,即每位作家几乎没有表现出较大风格差异的关键人物。为此,我们还建议元学习实例特定权重以进行字符交叉熵损失,这是专门设计用于处理文本数据的顺序性质的。我们的编写器自适应 MetaHTR 框架可以在大多数最先进的 HTR 模型之上轻松实现。实验表明,通过观察很少的新样式数据可以获得 5-7% 的平均性能增益。我们通过一组消融研究进一步证明了与替代适应机制相比,我们的元设计的优势。我们还建议元学习实例特定权重以实现字符交叉熵损失,这是专门设计用于处理文本数据的顺序性质的。

我们的编写器自适应 MetaHTR 框架可以在大多数最先进的 HTR 模型之上轻松实现。实验表明,通过观察很少的新样式数据可以获得 5-7% 的平均性能增益。我们通过一组消融研究进一步证明了与替代适应机制相比,我们的元设计的优势。我们还建议元学习实例特定权重以实现字符交叉熵损失,这是专门设计用于处理文本数据的顺序性质的。我们的编写器自适应 MetaHTR 框架可以在大多数最先进的 HTR 模型之上轻松实现。实验表明,通过观察很少的新样式数据可以获得 5-7% 的平均性能增益。

我们通过一组消融研究进一步证明了与替代适应机制相比,我们的元设计的优势。实验表明,通过观察很少的新样式数据可以获得 5-7% 的平均性能增益。我们通过一组消融研究进一步证明了与替代适应机制相比,我们的元设计的优势。实验表明,通过观察很少的新样式数据可以获得 5-7% 的平均性能增益。我们通过一组消融研究进一步证明了与替代适应机制相比,我们的元设计的优势。

标签:

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。