Android Q的Live Caption仅适用于精选手机

在本周的I / O 2019开发者大会上，Google展示了Live Caption，这是一款提供实时连续语音转录的Android Q功能。该公司称Live Caption能够为手机上的任何媒体加上字幕。但事实证明，“你的手机”不能只是任何Android Q手机。谷歌发言人证实，“Live Caption即将在今年晚些时候推出运行Android Q的手机。”

“它不会出现在所有设备上，”Android无障碍产品经理Brian Kemler告诉Venturebeat。“它只会出现在一些精选的高端设备上。这需要大量的内存和空间来运行。在一开始它将是有限的，但我们会随着时间的推移推出它。“随着我们接近Android Q的推出，谷歌计划发布一系列将提供Live Caption的受制裁设备。

谷歌的主题演讲或任何随后的报道都不清楚这一点。我们认为，这款出色的设备上机器学习功能将在最新的Android版本中出现，供大家使用。

“我们相信技术可以更具包容性。人工智能正在为我们提供新的工具，以显着改善残疾人的体验，“谷歌首席执行官桑达皮采在演示Live Caption和谷歌的三个新的辅助功能项目之前在舞台上说。之后，他补充说：“你可以想象更广泛社区的所有用例。例如，如果您正在开会或在地铁上观看任何视频，而不会打扰周围的人。“

Live Caption适用于歌曲，录音，播客，电话，视频通话等。该功能会标记您正在流式播放的内容，已下载的内容，甚至是您自己录制的内容。如果它来自第一方应用程序或第三方应用程序并不重要 - 如果您的手机可以播放它，您的手机可以为其添加标题。这也包括游戏，虽然Kemler还没有尝试过Stadia。

在设备与云中

要使用实时字幕，您可以点击手机的某个音量按钮，然后在弹出音量管理UI时点击软件图标。只需轻按一下即可将其打开，一旦检测到语音，手机屏幕上就会出现字幕。您可以点按两次以显示更多内容并将字幕拖动到屏幕上的任意位置。Kemler解释说，谷歌使Live Caption成为一个可移动的叠加层，因为Android不容易预测内容的位置或者用户在阅读时可能想做的其他事情。

当您第一次启用实时字幕时，Google计划显示解释该功能的横幅。

“嘿，这就是它的作用。这是它没有做到的。因为我们采用了超过100GB的基于云的模型，并将其缩小到不到100MB以适应设备，所以它不会那么完美或准确，“Kemler解释道。“并不是说云转录是完全准确的，但它会更好一些。但是对于那些标题内容不可用的应用程序来说，[实时标题就足够了]，其中记住的是绝大多数用户生成的内容。记住，这也是绝大多数内容。即使您使用YouTube，每分钟上传400小时，然后想想Facebook，Instagram，Snap，所有播客等。不像电视和电影，根据法律要求有字幕，用户生成的内容没有它。”

Kemler让我在Pixel 3a上玩这个功能，它确实按照描述工作。无需单独的应用程序，无需Wi-Fi或数据连接，也没有明显的延迟。他不会为Live Caption提供单词错误率目标或范围，但它显然足够低，Google可以放心地在Android Q中包含该功能。

没有转录

Live Caption不保存任何内容。如果你想要一个转录工具，谷歌提供2月份发布的Live Transcribe。Live Transcribe还使用机器学习算法将音频转换为实时字幕。但与Live Caption不同，它是一种全屏体验，使用智能手机的麦克风(或外接麦克风)，并依靠Google Cloud Speech API为70多种语言和方言中的实时口语提供字幕。你也可以输入它 - Live Transcribe实际上是一种交流工具。

与此同时，“Live Caption的概念是，在操作系统级别，我们应该能够在设备上标注任何媒体，”Kemler解释道。“不仅要让那些听不到或听力不好的人能够接触到这种媒体，而且也能让像我们这样的人接触到这种媒体。你坐在I / O上，你需要观看视频而你想要默默地这样做。这是一个非常重要的用例。你在火车上，你在飞机上，在某些情况下你不想要音频。还有其他应用程序。想想学习另一种语言 - 用这种语言制作那些字幕非常有帮助。“

Live Caption依赖于AudioPlaybackCaptureConfiguration API，它是作为Android Q的一部分添加的。即使您已将设备静音，该功能也可以捕获手机的音频。

“我们将有一个新的API，主要供OEM厂商在现场字幕中使用，”Kemler详细说。“这就是我们所谓的'个人人工智能环境'。”这是一个非常安全的环境，它可以获得特殊的系统权限，例如能够提取音频，但必须遵守一系列原则。因此，例如，您可以获取字幕，但Google永远无法访问该音频。它总是会出现在设备上。除了提供这些标题之外，您无法对该音频执行任何操作。因此，我们尊重安全和隐私非常重要。敏感的东西会留在设备本地。“

这也是Live Caption无法用于电话，语音电话或视频通话的原因。并且没有计划让Live Caption支持转录。

“不适用于实时字幕。显然，我们考虑过这一点。但是我们希望字幕是真正的字幕，因为它们是短暂的，如果它们可以帮助你理解或消费这种体验。但我们希望保护人员，发布商，内容和内容所有者。我们不想让你能够提取所有的音频，转录它，然后[随心所欲]做它。“

有人可以使用API来做到这一点吗?“不是我们设计它的方式。”

语言支持

在炫耀实时字幕时，谷歌暗示如果内容不是您的固定语言，它也会探索自动翻译字幕。但这还有很长的路要走。实际上，除了翻译之外，Live Caption只会在支持一种语言的情况下启动。

“所以，要发布，我们将用英语发布，”凯姆勒证实。“然后我们会尽可能地努力添加尽可能多的其他语言。它还将取决于设备。因此，如果我们采用Pixel的方法，这是非常偏向于英语，那么我们将看看其他大型语言，如日语。“

当您取消装载支持实时字幕的新Android Q设备时，首次使用该功能时，必须下载离线型号。它不会出现在设备上，因为Google希望确保您始终使用最新型号。模型的更新将通过Google Play服务提供。由于只提供英语，因此很简单。但有一天，您的设备可能会根据您在手机初始设置过程中选择的语言，下载相应的离线语言模型。

当您开始考虑翻译时，这个过程会变得更加复杂。

“翻译不在功能集中，”凯姆勒强调说。“这是冰山一角。它看起来像一个非常简单的功能，但它有很多不同的层。翻译需要完全不同的管道，完全不同的UI。我们专注于巩固MVP经验，排名第一。第二，添加更多语言，并将其更多地纳入生态系统。翻译是非常重要的，但我们希望确保核心体验非常高质量，非常好，并且具有广泛的覆盖面和广泛采用，然后才能进入我们可以用它做的一切。“

谷歌必须学会在行走之前爬行。而翻译更像是一次运行。

“我们采用单声道音频的非常笨拙的版本 - 我认为它是16千赫兹 - 然后将其放入模型中，”凯姆勒说。“如果该模型具有增加复杂性的功能，那么诸如大写和标点符号之类的东西会增加延迟，增加处理能力，并产生电池影响。然后我们必须将其呈现为文本。所以我们要做所有这些事情。然后'哦，我们想要在飞行中翻译?'好吧，我们必须弄清楚该模型的下载，然后在该管道中进行另一层处理。因此，从理论上讲，我们认为它显然是可行的 - 而且在概念上，我们想做的事情是有意义的 - 但这样做会有成本。“

所以团队宁愿专注于初始体验并让用户采用它并使用它，“我们认为这不会有任何问题。它是如此有用，如此实用。然后我们将研究更多的魔法，我们可以真正优化该管道。“

如果支持的设备数量很少，这将是一个问题，因为如果大多数人不能使用它，Live Caption将无法达到实用状态。因此，除了改进模型和添加更多语言之外，Google还必须添加对更多设备的支持。

“我们绝对希望尽可能提供这项功能，”凯姆勒说。

标签： Android Q

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。

Android Q的Live Caption仅适用于精选手机

猜你喜欢

最新文章