Web语音API：什么有效，什么无效，如何通过将其与GPT语言模型相连接来改进

关于现代人工智能和其他技术如何辅助更高效人机交互的系列文章的一部分

Photo by palesa on Unsplash — 图片由palesa通过Unsplash拍摄

我认为现代技术使得人机交互变得比当前软件所提供的更简单、更自然。事实上，我认为技术已经足够成熟，我们可以放弃传统界面，迎来用户体验的革命。

大型语言模型无疑引发了这一革命的一个阶段，特别是在我们寻求信息的方式方面。然而，我认为技术仍然可以提供更多。例如，虽然虚拟现实头戴设备的成本越来越低，但我们仍然主要使用平面屏幕；虽然眼动追踪、语音识别和身体肢体追踪等技术的发展程度很高，但我们仍然使用鼠标、键盘和触摸手势控制设备；虽然语音合成取得了重大进展，但我们仍然需要大量阅读。

我觉得当前的技术已经达到了几乎与《星际迷航》中的人机交互类似的水平（如果你不知道我在说什么，看看这个视频），但我们却守着过去不愿前进。

通过这篇文章，我将开始一个短系列，探讨现代技术如何彻底改变人机交互，这些技术已经非常有效，你将能够通过我分享的代码和示例应用程序进行测试。

忠于我的风格，我将具体讨论所有这些现代技术在基于Web的实现方面。我从集成到Web浏览器的Web语音API开始，讨论其功能、展示一些用例、强调限制，并通过将其与大型语言模型相结合来说明如何克服其中一些限制。

本系列文章基于我最近参与的一个项目，该项目开发了首个用于沉浸式、多用户分子图形和建模的Web应用程序，名为HandMol：