火星科技网您的位置:首页 >人工智能 >

AWS启动Textract 用于文本和数据提取的机器学习

导读 需要快速自动地从文档中提取内容吗?如果您是亚马逊网络服务(AWS)客户,那么您很幸运。亚马逊今天宣布推出Textract,这是一种云托管和完全托

需要快速自动地从文档中提取内容吗?如果您是亚马逊网络服务(AWS)客户,那么您很幸运。亚马逊今天宣布推出Textract,这是一种云托管和完全托管的服务,它使用机器学习来解析文本和数据的数据表,表单和整个页面。

它现在可在AWS的美国东部(俄亥俄州),美国东部(弗吉尼亚北部),美国西部(俄勒冈州)和欧盟(爱尔兰)地区使用,并将在明年扩展到其他地区。

Textract比普通光学字符识别系统更强大。从存储在Amazon S3存储桶中的文件中,它能够显示字段和表格的内容以及显示此信息的上下文,例如税表中的姓名和社会安全号码或来自拍摄收据的总计。正如亚马逊在新闻稿中指出的那样,Textract支持扫描,PDF和照片等图像格式,并且它可以摄取一系列文档格式,包括特定于金融服务,保险和医疗保健的格式。

Textract通过API以页面编号,部分,表单标签和数据类型注释的JSON文本形式吐出结果,并可选择与Amazon Elasticsearch Service,Amazon DynamoDB,Amazon Athena和机器等数据库和分析服务集成学习Amazon Comprehend,Amazon Comprehend Medical,Amazon Translate和Amazon SageMaker等产品进行后期处理。或者,可以将提取的数据直接提供给第三方云环境,以便在会计,审计和合规性软件中实现合规性,或者在文档存档上构建智能搜索。

亚马逊表示,Textract可以“在几个小时内”“准确”处理数百万个文档页面。

许多AWS客户已经在使用Textract,包括Globe and Mail,英国国家气象服务公司,普华永道会计师事务所,非营利性管理式医疗机构Healthfirst,机器人流程自动化公司UiPath,Ripcord和Blue Prism。Candor是一家旨在为抵押贷款行业带来透明度的创业公司,它采用Textract来阅读银行对账单,工资单和税务文件等文件以加快承保,而金融科技公司Informed使用它从工资单,银行对账单中提取文本,纳税申报表以及代表金融机构的数万份其他文件。

亚马逊机器学习副总裁Swami Sivasubramanian说:“Amazon Textract的强大之处在于它可以从几乎任何文档中准确提取文本和结构化数据,而无需任何机器学习经验。”“除了与其他AWS服务的集成之外,围绕Amazon Textract开发的富裕合作伙伴社区使客户能够从其文件集合中获得真正的意义,更高效地运营,提高安全合规性,自动化数据输入以及促进更快的业务决策“。

标签:

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。