亚马逊的Textract AI可以在几个小时内读取数百万页
2019-05-31 16:23:53
•
来源:
导读 亚马逊为其Web服务客户推出了一项名为Textract的新产品,它类似于类固醇的光学字符识别。它不仅仅是从文档中提取文字,如其名称所暗示的那
亚马逊为其Web服务客户推出了一项名为Textract的新产品,它类似于类固醇的光学字符识别。它不仅仅是从文档中提取文字,如其名称所暗示的那样 - 亚马逊表示它实际上可以识别不同的文档格式及其内容,以便它可以正确处理它们。该产品旨在识别是否从文件中的表格和表格中获取文本,包括扫描的收据,税务文书或库存。然后它生成不需要人工输入的结构化数据。
由于基本OCR在从表格和表格中获取文本时通常会发出混乱的信息,因此公司不得不求助于手动数据输入,这既费时又费时。Textract可以在几个小时内处理数百万个页面,这可以降低文档处理成本。此外,即使客户没有以前的机器学习经验,也可以使用它。
亚马逊表示,Textract可以识别名称和社会安全号码等信息,允许它将表格数据从PDF传输到易于搜索的电子表格中。对于更大的文档堆栈,它提取的信息可用于构建智能搜索或可以加载到数据库中。对于一些AWS客户来说,坏消息是该产品目前仅在美国的某些地区(俄亥俄州,弗吉尼亚州,俄勒冈州)和爱尔兰提供。然而,它将在明年进入更多地区。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。