火星科技网您的位置:首页 >科技数码 >

Android Q的Live Caption仅适用于精选手机

导读 在本周的I O 2019开发者大会上,Google展示了Live Caption,这是一款提供实时连续语音转录的Android Q功能。该公司称Live Caption

在本周的I / O 2019开发者大会上,Google展示了Live Caption,这是一款提供实时连续语音转录的Android Q功能。该公司称Live Caption能够为手机上的任何媒体加上字幕。但事实证明,“你的手机”不能只是任何Android Q手机。谷歌发言人证实,“Live Caption即将在今年晚些时候推出运行Android Q的手机。”

“它不会出现在所有设备上,”Android无障碍产品经理Brian Kemler告诉Venturebeat。“它只会出现在一些精选的高端设备上。这需要大量的内存和空间来运行。在一开始它将是有限的,但我们会随着时间的推移推出它。“随着我们接近Android Q的推出,谷歌计划发布一系列将提供Live Caption的受制裁设备。

谷歌的主题演讲或任何随后的报道都不清楚这一点。我们认为,这款出色的设备上机器学习功能将在最新的Android版本中出现,供大家使用。

“我们相信技术可以更具包容性。人工智能正在为我们提供新的工具,以显着改善残疾人的体验,“谷歌首席执行官桑达皮采在演示Live Caption和谷歌的三个新的辅助功能项目之前在舞台上说。之后,他补充说:“你可以想象更广泛社区的所有用例。例如,如果您正在开会或在地铁上观看任何视频,而不会打扰周围的人。“

Live Caption适用于歌曲,录音,播客,电话,视频通话等。该功能会标记您正在流式播放的内容,已下载的内容,甚至是您自己录制的内容。如果它来自第一方应用程序或第三方应用程序并不重要 - 如果您的手机可以播放它,您的手机可以为其添加标题。这也包括游戏,虽然Kemler还没有尝试过Stadia。

在设备与云中

要使用实时字幕,您可以点击手机的某个音量按钮,然后在弹出音量管理UI时点击软件图标。只需轻按一下即可将其打开,一旦检测到语音,手机屏幕上就会出现字幕。您可以点按两次以显示更多内容并将字幕拖动到屏幕上的任意位置。Kemler解释说,谷歌使Live Caption成为一个可移动的叠加层,因为Android不容易预测内容的位置或者用户在阅读时可能想做的其他事情。

当您第一次启用实时字幕时,Google计划显示解释该功能的横幅。

“嘿,这就是它的作用。这是它没有做到的。因为我们采用了超过100GB的基于云的模型,并将其缩小到不到100MB以适应设备,所以它不会那么完美或准确,“Kemler解释道。“并不是说云转录是完全准确的,但它会更好一些。但是对于那些标题内容不可用的应用程序来说,[实时标题就足够了],其中记住的是绝大多数用户生成的内容。记住,这也是绝大多数内容。即使您使用YouTube,每分钟上传400小时,然后想想Facebook,Instagram,Snap,所有播客等。不像电视和电影,根据法律要求有字幕,用户生成的内容没有它。”

Kemler让我在Pixel 3a上玩这个功能,它确实按照描述工作。无需单独的应用程序,无需Wi-Fi或数据连接,也没有明显的延迟。他不会为Live Caption提供单词错误率目标或范围,但它显然足够低,Google可以放心地在Android Q中包含该功能。

没有转录

Live Caption不保存任何内容。如果你想要一个转录工具,谷歌提供2月份发布的Live Transcribe。Live Transcribe还使用机器学习算法将音频转换为实时字幕。但与Live Caption不同,它是一种全屏体验,使用智能手机的麦克风(或外接麦克风),并依靠Google Cloud Speech API为70多种语言和方言中的实时口语提供字幕。你也可以输入它 - Live Transcribe实际上是一种交流工具。

与此同时,“Live Caption的概念是,在操作系统级别,我们应该能够在设备上标注任何媒体,”Kemler解释道。“不仅要让那些听不到或听力不好的人能够接触到这种媒体,而且也能让像我们这样的人接触到这种媒体。你坐在I / O上,你需要观看视频而你想要默默地这样做。这是一个非常重要的用例。你在火车上,你在飞机上,在某些情况下你不想要音频。还有其他应用程序。想想学习另一种语言 - 用这种语言制作那些字幕非常有帮助。“

Live Caption依赖于AudioPlaybackCaptureConfiguration API,它是作为Android Q的一部分添加的。即使您已将设备静音,该功能也可以捕获手机的音频。

“我们将有一个新的API,主要供OEM厂商在现场字幕中使用,”Kemler详细说。“这就是我们所谓的'个人人工智能环境'。”这是一个非常安全的环境,它可以获得特殊的系统权限,例如能够提取音频,但必须遵守一系列原则。因此,例如,您可以获取字幕,但Google永远无法访问该音频。它总是会出现在设备上。除了提供这些标题之外,您无法对该音频执行任何操作。因此,我们尊重安全和隐私非常重要。敏感的东西会留在设备本地。“

这也是Live Caption无法用于电话,语音电话或视频通话的原因。并且没有计划让Live Caption支持转录。

“不适用于实时字幕。显然,我们考虑过这一点。但是我们希望字幕是真正的字幕,因为它们是短暂的,如果它们可以帮助你理解或消费这种体验。但我们希望保护人员,发布商,内容和内容所有者。我们不想让你能够提取所有的音频,转录它,然后[随心所欲]做它。“

有人可以使用API​​来做到这一点吗?“不是我们设计它的方式。”

语言支持

在炫耀实时字幕时,谷歌暗示如果内容不是您的固定语言,它也会探索自动翻译字幕。但这还有很长的路要走。实际上,除了翻译之外,Live Caption只会在支持一种语言的情况下启动。

“所以,要发布,我们将用英语发布,”凯姆勒证实。“然后我们会尽可能地努力添加尽可能多的其他语言。它还将取决于设备。因此,如果我们采用Pixel的方法,这是非常偏向于英语,那么我们将看看其他大型语言,如日语。“

当您取消装载支持实时字幕的新Android Q设备时,首次使用该功能时,必须下载离线型号。它不会出现在设备上,因为Google希望确保您始终使用最新型号。模型的更新将通过Google Play服务提供。由于只提供英语,因此很简单。但有一天,您的设备可能会根据您在手机初始设置过程中选择的语言,下载相应的离线语言模型。

当您开始考虑翻译时,这个过程会变得更加复杂。

“翻译不在功能集中,”凯姆勒强调说。“这是冰山一角。它看起来像一个非常简单的功能,但它有很多不同的层。翻译需要完全不同的管道,完全不同的UI。我们专注于巩固MVP经验,排名第一。第二,添加更多语言,并将其更多地纳入生态系统。翻译是非常重要的,但我们希望确保核心体验非常高质量,非常好,并且具有广泛的覆盖面和广泛采用,然后才能进入我们可以用它做的一切。“

谷歌必须学会在行走之前爬行。而翻译更像是一次运行。

“我们采用单声道音频的非常笨拙的版本 - 我认为它是16千赫兹 - 然后将其放入模型中,”凯姆勒说。“如果该模型具有增加复杂性的功能,那么诸如大写和标点符号之类的东西会增加延迟,增加处理能力,并产生电池影响。然后我们必须将其呈现为文本。所以我们要做所有这些事情。然后'哦,我们想要在飞行中翻译?'好吧,我们必须弄清楚该模型的下载,然后在该管道中进行另一层处理。因此,从理论上讲,我们认为它显然是可行的 - 而且在概念上,我们想做的事情是有意义的 - 但这样做会有成本。“

所以团队宁愿专注于初始体验并让用户采用它并使用它,“我们认为这不会有任何问题。它是如此有用,如此实用。然后我们将研究更多的魔法,我们可以真正优化该管道。“

如果支持的设备数量很少,这将是一个问题,因为如果大多数人不能使用它,Live Caption将无法达到实用状态。因此,除了改进模型和添加更多语言之外,Google还必须添加对更多设备的支持。

“我们绝对希望尽可能提供这项功能,”凯姆勒说。

标签:

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。