OpenAI的文本到视频工具Sora如何改变科学与社会
上个月OpenAI发布了其Sora文本到视频AI工具,这一消息受到了一些研究人员的担忧和兴奋的交织反应,他们担心这项技术可能被滥用。这家总部位于加州的公司展示了Sora从几个简短的文本提示中创建逼真视频的能力,其中包括一个女人在东京的霓虹灯街道上行走的片段,以及一只狗跳跃在两个窗台之间的片段。
英国莱斯特的德蒙特福特大学数字文化专家特蕾西·哈伍德(Tracy Harwood)表示,她对文本到视频人工智能(AI)的发展速度“感到震惊”。一年前,人们还在嘲笑AI制作的美国演员威尔·史密斯吃意大利面的视频。现在,一些研究人员担心这项技术可能会在2024年颠覆全球政治。
OpenAI还开发了ChatGPT和文本到图像技术DALL·E,于2月15日首次推出了Sora,并宣布将该技术“提供给红队以评估可能存在危害或风险的关键领域”。‘红队测试’指的是进行模拟攻击或利用技术的过程,以查看它如何应对现实世界中的恶意活动,比如创造错误信息和仇恨内容。
Sora并不是文本到视频技术的首个示例;其他示例包括纽约市Runway公司去年推出的Gen-2以及谷歌主导的Lumiere,后者于今年1月宣布。哈伍德表示,她对一些其他提供的产品“感到失望”。她说:“它们在呈现给你的东西方面越来越平淡无奇。”她补充说,这些程序需要非常具体的提示才能产生引人入胜的内容。
哈伍德补充说,错误信息是这些文本到视频技术面临的主要挑战。“我们将很快会达到一个我们被大量看似令人信服的信息淹没的地步。这真的很令人担忧。”
选举问题
这在即将举行的选举中尤其成为问题,包括11月的美国总统选举和英国即将进行的大选。“将会有大量的假视频和假音频在流传,”英国雷丁大学研究生成AI和电影制作的多米尼克·利斯(Dominic Lees)说。2023年10月,英国工党领袖基尔·斯塔默(Keir Starmer)的假音频被发布,而美国总统乔·拜登鼓励民主党人不要投票的假音频在今年1月流传。
一个解决方案可能是要求文本到视频AI使用水印,可以是视频上的可见标记,将其标记为AI,也可以是视频元数据中的人工签名,但利斯不确定这是否会成功。“目前水印可以被删除,”他说,并且在视频元数据中包含水印依赖于人们积极研究他们观看的视频是否真实。“我不认为我们可以诚实地要求全世界的观众在他们看的每个视频上都这样做,”利斯说。
这项技术也有潜在的好处。哈伍德表示,它可以用于将难懂的文本,比如学术论文,呈现为更容易理解的格式。“它可能被用来向普通大众传达发现,这是它可能被用于的最大的事情之一,”她说。“它可以可视化相当复杂的概念。”
另一个潜在的用途可能是在医疗保健领域,文本到视频AI能够代替人类医生与患者交流。“有些人可能会感到不安,”英国顾问科学传播员克莱尔·马龙(Claire Malone)说。“如果他们想一天多次向医生提问,其他人可能会觉得这非常方便。”
数据管理
哈伍德说,文本到视频AI工具如Sora可以帮助研究人员处理庞大的数据集,比如瑞士日内瓦附近的欧洲粒子物理实验室CERN和其他大型科学项目产生的数据。马龙说,生成AI可以“筛选出代码并执行研究中的单调任务”,而且还可以进行“更复杂的工作[如]提供数据并要求它做出预测”。
创意产业的从业人员也提出了一些担忧。美国演员汤姆·汉克斯去年表示,AI可能使他在死后继续出现在电影中,“从现在到天国来临之前”。利斯说:“如果你是一位雄心勃勃的年轻演员,考虑着自己的未来,而你被告知‘对不起,汤姆·汉克斯将永远扮演主角’,你会计划在这个行业的未来吗?”
文本到视频AI将引发社会面临的广泛问题。“我们将不得不学会以前所未有的方式评估我们看到的内容,”哈伍德说。“这些工具将媒体内容创作者的机会置于每个人的手中,”她说。“我们将要面对这一后果。这是对物质被消费方式的根本性转变。”
评论