主要内容
大型 AI 公司不断承诺其技术将为我们节省时间并提高生产力,但版权滥用、非法内容和能源使用飙升等问题却在背后挥之不去。若你想在忙碌的日程中找回更多时间,AI 可以是一个有用的工具,或许在某些你从未想过的方面。其中之一可能是总结 YouTube 视频。AI 已证明它可以是一个相当可靠的总结器(尽管并非总是如此),如果你只需从 15 或 30 分钟长的一系列视频中提取几个要点,节省的时间会很快累积起来。
谷歌 Gemini 有一个新的 AI 模型,即 Gemini 2.0 闪电思维实验版,可接入包括谷歌搜索、谷歌地图和 YouTube 在内的谷歌应用。该模型对所有 Gemini 用户开放,无论是否付费,我们通过 Gemini 的网络界面在一些剪辑上进行了测试。
所有 Gemini 用户都可使用该新模型。在网络上打开 Gemini,开始新聊天,然后转到左上角的模型选择器,你应会看到一个标有 2.0 闪电思维(实验)的选项。这是内置了谷歌应用连接的模型,但大多数时候你需要指定要使用的应用(例如在谷歌地图上查找地点时)。在安卓或 iOS 的 Gemini 应用中也不难找到该模型:如果你点击新对话顶部的下拉菜单(应显示你当前使用的模型),你会看到 2.0 闪电思维(实验)选项可供选择。
你可能会发现该功能在网络上使用更方便,你可以在浏览器标签间拖动 YouTube 网址进行分析,但在移动设备上也可以使用。
除了分析 YouTube 视频,你还可以搜索新内容,例如尝试询问关于棒球亮点或科学解释的 YouTube 视频。Gemini 对超级碗 LIX 的理解并非完全正确。首先,我们让 Gemini 处理去年超级碗 LIX 亮点的一个集锦(近 20 分钟的动作),看看 AI 会如何处理。起初我们只是问“这场比赛中发生了什么?”,几秒钟后我们得到了球队和获胜者的细节(AI 答对了)以及一些关键亮点。关于最终比分的后续问题也回答正确,但 Gemini 把第一个达阵得分者的名字弄错了:AI 认为是 Johan Dotson。在亮点中显示 Dotson 达阵时比分是 0 - 0,但被裁定无效——这是 AI 不一定能注意到的细微差别。Gemini 确实成功识别了堪萨斯城酋长队首次得分的时间,甚至在 YouTube 剪辑中直接链接到了达阵时刻,并给出了正确的得分者名字。
似乎 Gemini 严重依赖体育剪辑的解说,这并不奇怪。AI 可以挑选出视频细节——如果它们在音频中被提及。接下来,我们让 Gemini 处理韦斯·安德森执导的《布达佩斯大饭店》的幕后特辑。该剪辑长达 4 分半钟,Gemini 几乎立即回复了一些内容:它识别出了正在讨论的电影名称和剪辑叙事的主要节拍。然而,它仍然完全依赖音频(或文字记录)——似乎没有对实际视频内容的任何分析。AI 无法说出视频中的谈话者是谁,即使他们的名字在屏幕上显示,也无法说出导演是谁(即使在视频描述中也提到了)。另一方面,Gemini 在总结视频音频方面做得非常出色。它正确识别了整个过程中提到的一些电影制作挑战,并提供了相关的时间戳。