谷歌宣布云数据流软件开发工具包开源可用
谷歌让软件开发人员更容易编写应用程序,并将其与云数据流托管服务集成,以处理大型数据集。12月18日,该公司向开源社区发布了一个面向云数据流的Java软件开发工具包,该工具包被描述为旨在围绕该技术促进应用程序开发的工作。
谷歌软件工程师Sam McVeety在博客中表示,在打开SDK后,他的想法是帮助开发人员将Cloud Dataflow移植到其他语言和其他服务执行环境中。
McVeety写道:“可重用的编程模式是提高开发人员效率的关键因素。”他说,“云数据流SDK引入了批处理和流数据处理的统一模型”,开发人员可以通过创新的新方式使用该模型。
McVeety表示:“我们期待共同构建一个系统,能够为所有背景的用户提供分布式数据处理。”
谷歌在6月份的谷歌I/O大会上公布了Cloud Dataflow,这是一项托管服务,可以帮助企业实时、批量地提取和分析大量数据集。
云数据流被该公司描述为基于MapReduce的技术和最新的技术,如Flume和MillWheel,所有这些都是谷歌内部用来分析真实海量数据存储的。
通过整合这些技术的所有元素,谷歌希望提供一种数据处理服务,使公司能够灵活地批量分析大型数据集,并近乎实时地分析流入数据库的数据。它还将使公司能够摄取数据并分阶段存储,供其他分析工具和服务使用,例如谷歌自己的BigQuery。
这种能力对于希望从大数据中获得商业价值的公司来说至关重要。云服务、移动设备和传感器技术的激增使企业能够从无数来源收集越来越多的数据。挑战一直是找到一种组织和管理数据的方法,以便从中获得商业价值。
最大的云服务提供商之一亚马逊提供了一项名为“驱动”的托管服务,该服务类似于谷歌计划通过“云数据流”推出的服务。Amazon Kinesis被认为是一种大规模实时处理流数据的服务。它被设计为一项服务,帮助公司捕获、存储和分析从在线交易、网络日志、社交媒体源和移动设备中提取的万亿字节数据。
借助云数据流,谷歌希望为开发者和企业提供类似的功能。McVeety在他的博文中指出:“数据的价值在于分析——以及分析产生的智能。
“随着数据集变得越来越大并分布在不同的存储系统中,将数据转化为智能可能非常具有挑战性。此外,对实时分析的需求正在增长,从数据集提取价值的障碍也给开发人员带来了巨大挑战,”他说。
郑重声明:本文版权归原作者所有。转载文章只是为了传播更多的信息。如果作者信息标注有误,请第一时间联系我们修改或删除。谢谢你。
标签: