如何使用BigQuery GENERATE_TEXT的远程函数
介绍
自从我开始使用谷歌平台以来,谷歌通过其BigQuery(BQ)功能和开发一直给我带来惊喜。
对我来说,真正的“哇”时刻发生在四年前。
我还记得仿佛就像昨天,当时我坐在Big Data London 2019年大会的前排。当时我对于只使用BQ函数创建机器学习模型的可能性一无所知,或者更准确地说,对于什么是BQ Machine Learning(BQML)一无所知。
至少在那次大会的报告中,谷歌的同事演示了如何仅使用谷歌的SQL就可以创建分类、聚类和时间序列预测模型。
那时我脑海中第一个想到的是,“你一定在开玩笑吧!”
我脑海中的第二个想法是,“这是否意味着只懂SQL的每个人都能够创建机器学习模型?”
正如你可以想象的那样,答案是“是的”,如果你使用BigQuery作为你的数据仓库。
现在,使用BQML函数一段时间后,对于上面列出的问题,正确的答案是“也许”。
这意味着即使CREATE MODEL语法以SQL形式书写,对于机器学习建模和统计的知识仍然是必需的。
换句话说,你仍然需要理解不同类型机器学习用例(有监督/无监督)的可用模型背后的数学,进行特征工程、超参数调优和模型评估任务。
快进到2023年,BigQuery通过其新功能再次让我感到惊叹。
这一次,我们谈论的是新的生成式AI BigQuery机器学习函数。
通过这些新函数,数据工程师和分析师可以使用几行查询对存储在BQ表中的文本数据执行生成式自然语言任务。
因此,本博客文章的目标是展示BQ在生成式AI方面的新的分析进展,重点介绍一种函数——…