Press "Enter" to skip to content

“数据共享利用人工智能使全球的公共数据更加易于访问和有帮助”

每时每刻,在世界各地,政府、组织和其他许多人都在产生关于温度、贸易或疾病率等广泛多样的主题的数据。这些数据对于理解和解决诸如气候变化、饥饿或流行病等重大社会挑战可能非常有用。幸运的是,其中很多数据都是公开可用的,并且还有更多的数据即将公开。不幸的是,公开可用并不意味着易于访问和使用。这正是谷歌的一个倡议——Data Commons——正致力于弥合的差距。

数据通常被国家和地区的边界所分割,由不同机构、研究机构和其他非政府组织收集和发布,并以不同的格式和时间表进行共享。要使这些公共数据集能够共同发挥作用,并对决策者、研究人员、非营利组织、新闻工作者、学生和一般公众有用,往往需要耗费大量时间和金钱。Data Commons 的长期愿景是为公开可用的数据做到谷歌搜索对于互联网或谷歌地图对于导航的作用——组织和使其可访问和有用。

“数据共享利用人工智能使全球的公共数据更加易于访问和有帮助” 四海 第1张 10:25

我们的目标是使数据及其洞察力更加可用于那些希望了解和解决社会最紧迫的挑战和机遇的人,这一目标得到了两项创新技术的支持,未来还有更多的创新技术。

首先,自2017年以来,Data Commons 团队一直致力于标准化和处理来自可靠来源的数千个数据集,这些来源包括联合国气候变化政府间专门委员会、巴西地理和统计研究所以及美国商务部等。这需要创新技术来将以不同格式、模式和访问方法收集的数据整合起来,并创建一个带有单一 API 和模式的知识图谱,从而创建一个统一的视图。这个统一的视图使得具有数据经验的用户能够在几个小时内完成通常需要几周甚至更长时间才能完成的工作。尽管标准化和可访问的数据是一个重大进步,但为了理解和有效使用数据,仍然需要投入大量时间和编码技能。

其次,为了解决这个问题并使 Data Commons 变得更易于使用,Data Commons 现在利用人工智能的力量,特别是大型语言模型(LLMs),创建了一个自然语言界面,允许用户提出问题,例如:印度的哪些邦的人均贫困水平最高?识字率与那里的贫困水平相比如何?这些邦的婴儿死亡率随时间的变化有多大?

视频格式不受支持

人工智能使得可以提出类似下面的问题:“非洲哪些国家的电力接入率增长最大?”和“收入与美国县的糖尿病之间有何相关性?”或者提供提示,比如“比较欧洲农业的温室气体排放和其 GDP 之间的关系?”

LLMs 用于理解查询,结果直接来自 Data Commons,包括指向原始数据来源的链接;因此,输出结果并非由 LLM 生成。这种方法使得 Data Commons 能够避免某些已知的 LLM 在某些情况下存在的事实性限制。

Data Commons 并不收集或拥有任何数据,而是利用来自 200 多个来源的公开可用数据,包括人口统计学、经济学、教育、住房、公共卫生、气候、可持续性和生物医学等数千个数据集。这些数据涵盖了194个国家,有些国家甚至可以到州或县的级别。然而,到目前为止,可访问的数据并不均衡,也不完整——不幸的是,数据的可用性反映了世界在其他问题上面临的许多公平性挑战,因此我们目前拥有的关于美国、印度和经济合作与发展组织国家的数据比非洲、南美和亚洲部分国家要多。需要更多的工作来使其他更多和更及时的数据可用。我们希望有更多的公共数据被发布,以填补这些空白,并力求添加更多类别的数据,以便更好地理解世界并使那些致力于解决紧迫社会问题的人能够更好地利用数据。我们正在积极寻找额外的数据和合作伙伴,以填补其中的一些空白。

Data Commons 是开源、开放流程并对所有人开放。除了 Data Commons 网站外,Data Commons 中的一部分数据点也被用于 Google 搜索的查询回应中。我们还与那些正在使用 Data Commons 解决社会问题的组织合作——结果是一个不断增长的生态系统,允许像 Resources for the Future、Feeding America、印度理工学院马德拉斯分校的罗伯特·博世数据科学与人工智能中心、斯坦福大学多尔可持续发展学院和哈佛大学数量社会科学研究所这样的组织拥有自己的 Data Commons 版本,为组织提供一个统一的视图,其中包含 Data Commons 已经可访问的所有公共数据。

长期与谷歌合作的TechSoup的首席社区影响官Marnie Webb分享了数据共享中心对她所在组织与小型非营利组织的帮助:“数据共享中心为基层组织提供所需的数据。它为他们提供了使用同事提问问题的语言来了解社区需求,并获得可靠信息的工具,就像他们有数据科学家和数据工程师一样。我们正在谈论的是信息的民主化,以便做出更好的决策,让组织能够冒更明智的风险,更好地服务社区。我们谈论的是将数据的权力交到那些最了解自己社区的人手中。”

例如,TechSoup在谷歌.org的资助下,帮助非营利组织利用数据共享中心评估和解决社会挑战。例如,Cemefi在墨西哥突出饥饿与性别之间的交叉关系,Makaia在哥伦比亚追踪经济和社会增长。TechSoup通过汇集美国农业部和美国饮食协会等数据来源,阐明了食品安全、农业和气候变化之间的关系。

“数据共享利用人工智能使全球的公共数据更加易于访问和有帮助” 四海 第2张

数据共享中心还在不断发展中。尽管团队自2017年以来一直在开展工作,但在某些方面,我们刚刚开始,我们需要其他人继续加入到这项工作中。为了使更多的数据更易获取,我们需要合作伙伴帮助识别和填补数据空缺。我们还需要像TechSoup、Resources for the Future、Feeding America等组织将这些数据用于解决世界上一些最大的挑战。我们还有很多工作要一起完成。

了解更多关于如何通过数据共享中心使数据可访问的信息。

Leave a Reply

Your email address will not be published. Required fields are marked *