Press "Enter" to skip to content

通过人工智能的镜头看世界历史

语言模型编码了哪些历史知识?

探究OpenAI的GPT-4、Anthropic的Claude和TII的Falcon 40B在1910年的顶级历史事件中的指导情况(以6种不同的语言提示)。由作者创建。

人工智能的进步,特别是大型语言模型,为历史研究和教育提供了令人兴奋的可能性。然而,审视这些模型解读和回忆过去的方式是很重要的。它们是否反映了它们对历史的理解中的任何固有偏见?

我很清楚历史的主观性(我在本科时主修历史!)。我们记住的事件和我们对过去形成的叙述都受到撰写它们的历史学家和我们所居住的社会的极大影响。例如,我高中的世界历史课程将超过75%的课程时间用于欧洲历史,扭曲了我对世界事件的理解。

在本文中,我通过AI的视角探讨人类历史是如何被记住和解释的。我研究了几个大型语言模型对关键历史事件的解释,以揭示:

  • 这些模型是否对事件显示出西方或美国的偏见?
  • 这些模型的历史解释是否因提示语言的不同而不同,比如韩语或法语提示更强调韩国或法国的事件?

有了这些问题,让我们开始吧!

示例:1910年

作为示例,我询问了三个不同的大型语言模型(LLM),问它们认为1910年的主要历史事件是什么。(有关每个LLM的更多详细信息,请参见下一节。)

OpenAI的GPT-4、Anthropic的Claude和Technology Innovation Institute的Falcon 40B Instruct回应有关1910年顶级历史事件的英文提示。由作者创建。

我故意提出了一个没有客观答案的问题。1910年的重要性在很大程度上取决于一个人的文化视角。在韩国历史中,它标志着日本的占领,这是一个重大转折点,对该国的走向产生了重大影响(参见1910年的日韩条约)。

然而,在任何回答中都没有提到日本吞并朝鲜。我想知道,如果用不同的语言提问,同样的模型是否会以不同的方式解释这个问题,比如用韩语提问。

<img alt="OpenAI的GPT-4、Anthropic的Claude和Technology Innovation Institute的Falcon 40B Instruct回应有关1910年顶级历史事件的韩语提示。韩语回答由我翻译成英文(用红色表示)。由作者创建。通过人工智能的镜头看世界历史 四海 第3张

用韩语提问时,Claude提到的一项重要事件确实是日本吞并朝鲜。然而,有趣的是,GPT-4的五个重要事件中有两个与美国有关(童子军和曼恩-埃尔金斯法案),却没有提到日本吞并朝鲜。更不用说Falcon,即使在用韩语提示时,也用英文回答。

实验

实验设置如下:

  • 3个模型:OpenAI的GPT-4,Anthropic的Claude和TII的Falcon-40B-Instruct
  • 6种语言:英语、法语、西班牙语、韩语、日语、中文
  • 3年份(610年、1848年、1910年)
  • 每次运行5个历史事件
  • 10次运行
  • =总共2700个事件

语言和提示

我选择的语言大部分是任意的,基于我最熟悉的语言(英语、韩语)以及我几个最亲密的朋友说的语言,他们可以为我翻译(中文、日语、法语、西班牙语)。翻译可以在文章末尾找到。我请他们为我翻译英文:

“{}年度前五个历史事件,按重要性排名。简要叙述,只给出事件名称。”

模型

  • OpenAI的GPT-4是ChatGPT的新一代,它是最受欢迎的人工智能聊天机器人之一(每月活跃用户超过1亿)
  • Anthropic的Claude是ChatGPT的竞争对手,使用一种称为宪法人工智能的方法来保证无害和有帮助
  • Technical Innovation Institute的Falcon-40B-Instruct是最好的开源语言模型,根据HuggingFace的Open LLM排行榜

归一化事件

即使一个模型在每次运行中生成相同的事件,它描述相同事件的方式也有很大的多样性。

例如,以下都指的是同一事件:

  • “日本吞并朝鲜”
  • “日本的吞并朝鲜”
  • “日本吞并了朝鲜”
  • “日朝吞并条约”

我需要一种方法来使用相同的词汇(这个过程被称为归一化)来指代单个事件(日本吞并朝鲜),更不用说同一个事件可以用六种不同的语言描述!

我使用了手动规则、谷歌翻译和GPT-4来辅助归一化。最初,我希望使用一个LLM来归一化另一个LLM的事件(例如使用GPT-4来归一化Claude的事件;Claude来归一化Falcon的事件等)以减少偏见。然而,Claude和Falcon在归一化过程中并不擅长遵循指示,GPT-4被证明是最适合这项工作的模型。

我承认使用一个模型来归一化其自己的事件会带来偏见。然而,由于我使用不同的GPT-4会话来生成历史事件和归一化事件,上下文没有重叠。未来,可以使用更客观的方法来进行归一化。

结果

总体而言,我对不同模型对历史的理解感到惊讶。

  • GPT-4无论使用哪种语言提示,更有可能生成相同的事件
  • Anthropic更有可能生成与提示语言相关的历史事件
  • Falcon(不幸的是)更有可能编造虚假事件
  • 这三种模型都显示出对西方或美国事件的偏见,但不是我预期的方式。当在非英语语言提示时,模型会生成一个美国或英国的历史事件(即使在英语提示时模型不会生成该事件)。这在所有三个模型中都发生了。

1. 比较每个模型的语言(1910年)

每个模型 x 语言组合生成了“前五个历史事件”10次(共50个事件)。我选择了至少有一种语言生成了5次或更多次的事件子集。这是因为模型有时会预测一次性事件,然后再也不会预测。值为10的单元格表示该模型每次提示时都预测了该事件。

在本节中,我展示了3个模型在1910年按语言划分的前五个事件。关于610年和1848年的类似图表可以在GitHub页面上找到,我在那里分享了所有的代码和分析。

GPT-4(OpenAI)

  • 墨西哥革命:在所有语言中,墨西哥革命一直是一个重要的世界事件,甚至包括我没想到的韩语或日语
  • 日本吞并韩国:在西班牙语或法语中没有提及。在日语提示下,比在韩语提示下更有可能提到这个事件(9次),我觉得这很奇怪和有趣
  • 美国童子军成立:GPT-4在日语提示下预测到这个事件(7次),几乎是在英语提示下的两倍(4次)。看来一些美国的零散信息被编码到了日语对1910年的理解中
  • 冰川国家公园的建立:更奇怪的是,GPT-4在西班牙语和法语提示下预测到这个事件,但在英语提示下没有
GPT-4对1910年的前几个事件的预测,通过不同语言的对比。作者创建

Claude(Anthropic)

总体来说:与GPT-4不同,没有一个事件被所有语言认为是“重要的历史事件”。

  • 墨西哥革命:在法语、西班牙语和(莫名其妙地)韩语中经常生成,但在英语中不像GPT-4那样重要
  • 日本吞并韩国:对韩语和日语比其他语言更重要(涉及到这两个国家的事件)
  • 爱德华七世去世:对英语和法语更重要(对其他语言不重要)。爱德华七世是英国国王,显然与法国有良好的关系
  • 南极洲的探索:实际上是英国的南极洲远征,一个英国人第一次到达南极洲。然而,出于某种未知的原因,Claude只在中文或日文提示下生成这个事件(而不是英文)
Claude对1910年的前几个事件的预测,通过不同语言的对比。作者创建

Falcon 40B Instruct(开源;TII)

总体而言,Falcon不如其他两个模型一致或准确。图表中显示的事件较少是因为Falcon没有预测出5次或更多次的其他事件!这意味着Falcon在预测中有些不一致。

  • 泰坦尼克号沉没:实际上是在1912年发生的
  • 第一次世界大战爆发:实际上是在1914年发生的
  • Falcon在其预测中历史不准确。但至少它猜对了年代?
Falcon对1910年的前几个事件的预测,通过不同语言的对比。作者创建

2. 比较每种语言的模型相关性(1910年)

接下来,我量化了一个模型的整体预测与其他模型之间的相似程度。我使用了一种数学方法(余弦相似性)来确定两个预测分布的相似程度。接近1的值表示预测完全相同;接近0的值表示两组预测没有任何共同之处。

同样,我展示了1910年的这个例子。其他年份可以在GitHub页面上找到。

在大多数语言中,GPT-4和Claude之间的相关性较高,这意味着尽管有所有的语言,这两个模型预测了高比例的相似事件。

另一方面,Falcon往往与GPT-4和Claude的理解历史有所偏离,意味着它们之间的相关性较低。

1910年预测事件的模型相关性。作者创建。

3. 每年模型比较

接下来,我对每年的不同语言模型进行了比较。我将所有语言预测的事件结合起来,考虑模型预测的整体事件,而不考虑语言。我选取了至少有一个模型生成10次或更多事件的子集。

与上一节发现的趋势相似,GPT-4和Claude倾向于为每年预测类似的重大历史事件 – 610年的穆罕默德的第一次启示和拜占庭帝国哈拉克利乌斯皇帝登基; 1848年的欧洲革命; 以及1910年的墨西哥革命。

有一些事件一个模型相对于其他模型预测得更多。例如,1848年,GPT-4预测了“共产党宣言的出版”42次,而Claude只有15次。1910年,Claude预测了“爱德华七世的去世”26次,而GPT-4只有1次。

Falcon对历史事件的理解较少。Falcon在这三年中都错过了重大事件。610年,Falcon未能预测哈拉克利乌斯皇帝登基的事件。1910年,它未能预测日本吞并朝鲜、南非联邦的形成和葡萄牙革命(所有非美洲的全球事件),而是预测了美国为中心的事件,如三角衬衫厂火灾(发生在1911年,而不是1910年)。有趣的是,Falcon能够像其他两个模型一样预测大部分1848年的事件 – 或许因为1848年的事件更加以西方为中心(例如欧洲革命)?

较早的事件(例如610年)意味着历史有些模糊。唐朝是在618年建立的,而不是610年,隋炀帝修建大运河实际上花费了更长的时间(604年至609年)。

610

610年各模型生成的前几个事件的对比,结合了所有语言。作者创建。

1848

1848年各模型生成的前几个事件的对比,结合了所有语言。作者创建。

1910

1910年各模型生成的前几个事件的对比,结合了所有语言。作者创建。

讨论

那么这一切为什么重要呢?

随着教育公司越来越多地将大型语言模型(LLMs)应用于他们的产品 – Duolingo利用GPT-4进行语言学习,Khan Academy引入AI教学助手“Khanmigo”,哈佛大学计划将AI整合到他们的计算机科学课程中 – 了解这些模型的潜在偏见变得至关重要。如果学生使用LLM学习历史,他们可能会无意中吸收到哪些偏见?

在本文中,我展示了一些流行的语言模型,例如GPT-4,无论提示语言如何,都会一贯预测“重要事件”。而其他模型,如Claude,显示出更具语言特定性的预测。与领先的开源替代方案相比,闭源模型通常表现出更高的一致性和准确性。在本文测试的所有模型中,普遍存在倾向性,即以西方或美国事件(甚至是晦涩的事件)为代价,牺牲其他全球事件。

未来的工作可能包括:

  • 将分析扩展到更多的语言和年份
  • 对模型输出的历史准确性进行更深入的分析
  • 对排名靠前的历史事件进行更深入的分析
  • 开发更客观的事件归一化方法

本文的目的不是贬低LLM(语言模型)或建议将它们从教育环境中移除。相反,我希望提倡一种批判和谨慎的方法,既能认识到并减轻它们的偏见,又能认识到它们的价值。在负责任的使用下,LLMs可以成为跨学科的学生和教师宝贵的资源。然而,我们也必须理解它们可能存在的偏见,如以西方为中心,然后相应地调整使用方式。

用LLM替换您的历史教授或教科书会导致对历史的扭曲、片面的解释。最终,我们必须审慎地利用这些工具,认识到它们固有的偏见,并确保它们增强而不是主导我们对世界的理解。

谢谢阅读!

失误

我试用了几个不同的开源模型。以下是我发现这些模型产生的奇怪输出的一些失误(都是韩文)!

Falcon 40B Instruct

通过人工智能的镜头看世界历史 四海 第11张

通过人工智能的镜头看世界历史 四海 第12张

Pythia 12B

该模型似乎陷入了一个由袋鼠,航空邮件和俄语中的“торговать”(意思是交易)变体组成的循环中。

通过人工智能的镜头看世界历史 四海 第13张

翻译

英语:“{}年的五个最重要的历史事件,按重要性排序。简要描述事件名称。”韩语:“{}년에 일어난 중대한 역사적인 사건 다섯가지는 무엇인가? 간단히 그 사건의 명칭들을 열거하시오。”中文:“按重要性顺序列出{}年的前五个历史事件。简短一点,只给出事件的名称。”法语:“Les cinque événements historiques les plus importants de {}, en ordre d’importance. Seulement donnez leurs noms.”日语:“{}年にあったトップの出来事を五つイベント名のみで簡潔に記載してください。最も重要な出来事から。”西班牙语:“Una lista de los cinco eventos historicos que paso en el ano {}. Solo de el nombre del evento。”
Leave a Reply

Your email address will not be published. Required fields are marked *