OpenAI 首次推出用于语音到文本的转录和翻译的 Whisper API

为了配合ChatGPT，OpenAI 在今天推出了 Whisper API，这是开源的托管版本Whisper 该公司于 9 月发布的语音转文本模型。Whisper 的价格为每分钟 0.006 美元，是一种自动语音识别系统，OpenAI 声称它可以“稳健”地转录多种语言，并将这些语言翻译成英语。它接受多种格式的文件，包括 M4A、MP3、MP4、MPEG、MPGA、WAV 和 WEBM。

无数组织已经开发出功能强大的语音识别系统，这些系统是谷歌、亚马逊和 Meta 等科技巨头的软件和服务的核心。但 Whisper 的不同之处在于，根据 OpenAI 总裁兼董事长 Greg Brockman 的说法，它接受了从网络收集的 680,000 小时多语言和“多任务”数据的训练，从而提高了对独特口音、背景噪音和技术术语的识别能力。

“我们发布了一个模型，但这实际上不足以让整个开发者生态系统围绕它构建，”布罗克曼说。 “Whisper API 与您可以获得开源的大型模型相同，但我们已经优化到了极致。它快得多，也非常方便。”

在布罗克曼看来，企业在采用语音转录技术方面存在很多障碍。根据 2020 Statista 民意调查，公司将准确性、口音或方言相关的识别问题和成本列为他们没有采用技术转语音等技术的主要原因。

不过，Whisper 有其局限性——尤其是在“下一个词”预测领域。由于该系统是在大量噪声数据上训练的，因此 OpenAI 警告说，Whisper 可能会在其转录中包含实际上没有说过的单词——可能是因为它既要预测音频中的下一个单词，又要转录录音本身。此外，Whisper 在不同语言中的表现并不相同，当涉及到训练数据中没有很好代表的语言的使用者时，它的错误率更高。

不幸的是，最后一点对于语音识别领域来说并不是什么新鲜事。偏见长期以来一直困扰着最好的系统，2020 年斯坦福大学学习亚马逊、苹果、谷歌、IBM 和微软的系统对白人用户的错误率比对黑人用户的错误率要低得多——大约 19%。

尽管如此，OpenAI 还是看到了 Whisper 的转录功能被用于改进现有的应用程序、服务、产品和工具。 AI 驱动的语言学习应用程序 Speak 已经在使用 Whisper API 为新的应用程序内虚拟语音伴侣提供支持。

如果 OpenAI 能够以一种主要方式打入语音转文本市场，那么对于微软支持的公司来说，它可能会非常有利可图。根据根据一份报告，到 2026 年，该细分市场的价值可能达到 54 亿美元，高于 2021 年的 22 亿美元。

“我们的想法是，我们真的想成为这种普遍的智能，”布罗克曼说。 “我们真的很想非常灵活地接收你拥有的任何类型的数据——无论你想完成什么样的任务——并成为这种注意力的倍增器。”

THE END