Press "Enter" to skip to content

428 search results for "回归"

数据分析师是一个好职业吗?

根据劳工统计局(BLS)的数据,研究分析师,包括数据分析师的就业预计将在2021年至2031年间增长23%。数据分析职业的显著增长为有抱负的候选人带来了前景。它深刻地影响了向公众提供的服务和产品。作为数据分析师,您必须具备解决问题和分析技能以及计算机科学,统计学和数学的技术知识。该领域为个人和职业增长提供了充足的机会,使您可以与尖端技术一起工作。但是,这个令人兴奋的职业道路究竟包括什么?让我们探讨一下为公司提供数据分析服务的理想候选人所面临的期望。 数据分析师做什么? 数据分析是指从数据中获取信息或分析它以用于业务利益。它提供了关键的质量见解,指导公司的决策过程。工作的职责包括: 收集分析数据。它将涉及通过各种方式发现或收集不同类型的数据。例如,调查,投票,问卷以及跟踪网站上的访客特征。或者,根据要求和可用性,可以购买数据集。 编程语言对前一步骤生成的数据进行清理处理,称为原始数据。名称意味着存在不需要的信息,包括异常值,错误和重复项,需要处理。清理过程旨在提高数据质量并使其可用。 现在需要对数据进行建模,为其提供结构和有组织的表现形式。它还涉及将数据进行分类和其他相关流程,使其可呈现。 因此形成的数据将服务于多种目的。使用将取决于问题陈述,这也将确定解释方法。数据解释主要涉及查找数据中的趋势或模式。 数据的展示同样是一项重要任务,其中最重要的要求是让信息以与预期相同的方式到达观众和相关方。它需要表达和沟通技巧。通常,数据分析师使用图表和图形,随后是报告撰写和信息呈现。 成为数据分析师的原因 有多种原因可以鼓励人们成为数据分析师。最重要的五个原因是: 需求高:数据生成的增加导致了大量未处理的数据。它包含许多公司可以使用的秘密。可以执行任务的个人需求呈指数级增长,标准需求为每年3000个职位。 动态领域:如果您喜欢应对挑战并在克服问题中找到乐趣,则数据分析师工作有很多提供。每天都有新的有趣挑战,这是一个需要分析思维和头脑风暴以提出解决方案的地方。在这个过程中您也可以学到很多,有益于自我提高。 高薪:数据分析师职位的薪资水平很高,值得追求此职业。薪资涨幅根据行业而异,并在某些领域承诺更高的收入和奖金。 通用性:数据分析师的需求不限于特定领域。每个行业都会产生大量数据,并需要根据信息做出逻辑决策。因此,该职位对每个专业化的人士都开放,而不受您的背景或兴趣的限制。 引领职业选择:有技能的数据分析师将为职位和公司带来价值。成长,晋升和额外福利的可能性无处不在。它使您有机会做出改变,领导团队,教导他们,变得有竞争力或塑造劳动力文化。 需求和未来就业趋势 目前数据分析师的需求很高,薪资水平也很好。根据当前数据生成的速度,未来的需求也有望增长。随着新技术的产生和数据收集的便利性,未来肯定会为人才提供新的机会。未来数据分析师的一些预期新职位包括: 解释人工智能的功能和适用性。对新开发功能的质量分析。 在业务运营和数据处理中组合实时分析。它将指导基于逻辑和策略的规划。 生成的数据解释报告需要自我解释和易于解释。数据可视化至关重要,并且该领域具有良好的职业前景。 预计引入增强型分析,其中可以通过ML算法和NLP算法处理复杂数据集。它将是引人入胜且普遍可访问。 发展机器学习和物联网,以确保当前不可能的事情成为可能。 数据分析领域的专业化方向 数据分析岗位提供了特定的工作领域。可以期待的不同专业化方向包括: 风险分析师…

Leave a Comment

什么是似然和概率之间的区别?

可能性和概率是数据科学和商业中常用的相互关联和经常混淆的术语。两种概率都与概率相关,但在定义和用法上有所不同。本文旨在澄清可能性与概率的定义、用法和误解,以便更好地理解和应用于各自的领域。 什么是可能性? 我们可以将可能性定义为一种定量估计或度量,指出模型或假设在观察数据中的适合程度。它也可以被解释为在特定参数集中找到期望结果或数据收集的机会。在统计推断中发挥着基础作用,可能性的最终目的是得出有关数据特征的结论。通过利用最大似然估计或MLE来找到参数估计,看到了参数估计在实现相同目的中的作用。 假设检验使用可能性比率评估零假设。类似地,可能性通过比较模型进行模型选择和检查。研究人员常常使用贝叶斯信息准则(BIC)和阿卡伊克信息准则(AIC)作为模型选择的度量。基于可能性的方法在构建置信区间以估计参数方面发挥着重要作用。 什么是概率? 概率是指我们根据模型参数预测的特定结果发生的可能性或机会。概率测量提供了预测和理解不确定事件可能性的框架。它有助于通过比较不同结果的可能性来量化概率理论中的不确定性。在预测建模中,我们使用概率理论构建置信区间、进行概率预测和进行假设检验。 此外,随机性和随机过程取决于概率理论,因为需要分析和建模随机现象。这里使用概率进行模拟和理解复杂系统。此外,由概率提供的重要的公理、规则和定理,对不确定性和逻辑一致性的分析具有重要意义。 可能性与概率-计算 使用可能性函数计算可能性 可能性函数是一个数学表达式,用于确定数据分布。该函数表示为Likelihood(|x),其中|表示所需模型的参数,X表示观察到的数据。 让我们通过一个例子来理解这个问题。例如,您有一袋彩色弹珠。你想预测取出红色弹珠的概率。从随机抽样开始,记录颜色,然后使用上述公式计算可能性。您将计算或估计代表抽出红色弹珠的概率的参数。我们将如先前所述的可能性函数表示为,它表示给定特定值的观察数据x的概率。 假设独立且同分布的抽样,可能性函数将为: L(|x)= k(1-)(n-k),其中n是抽样次数,k是观察到的数据中的红色弹珠数。假设您按顺序抽出弹珠五次,红,红,蓝,红,蓝。 L(0.5|x)=0.53(1-0.5)(5-3) L(0.5|x)=0.530.52 L(0.5|x)=0.015625 因此,在= 0.5的情况下,观察到所述球序列的可能性为0.015625。 使用PMF或PDF计算概率 PMF计算从一组明确的有限变量中找到所需值的概率。它表示为P(X = x),其中x是随机变量的特定值。在PMF中,x的值为非负数,基于x的可能值的概率之和为1。 PDF涵盖了广泛的领域,并指示找到特定值或落在特定值范围内的概率。这里的表达式表示为f(x)。同样,概率密度函数为非负数,曲线覆盖的区域等于1。 将可能性解释为衡量数据与特定假设或模型的匹配程度的度量…

Leave a Comment

马克斯·普朗克研究所的研究人员提出了一种名为 MIME 的生成式 AI 模型,该模型采用 3D 人体动作捕捉数据,并生成与动作一致的可信 3D 场景

人类总是与周围环境互动。他们在空间中移动,触摸物品,坐在椅子上或睡在床上。这些互动详细说明了场景设置和物体位置。默剧演员利用他们对这种关系的理解,仅凭身体动作创造富有想象力的3D环境。他们能教计算机模仿人类动作并制作合适的3D场景吗?包括建筑、游戏、虚拟现实和合成合成数据的多个领域可能会从这种技术中受益。例如,有大量的3D人体运动数据集,例如AMASS,但这些数据集很少包含有关它们采集的3D设置的详细信息。 他们能够使用AMASS为所有动作创建可信的3D场景吗?如果可以,他们可以使用AMASS创建具有现实人类-场景互动的训练数据。他们开发了一种新颖的技术,称为MIME(挖掘互动和运动以推断3D环境),它基于3D人体运动创建可信的内部3D场景,以响应此类查询。它是如何实现的?以下是基本假设:(1)空间内的人体运动表示物品的缺失,从本质上定义了图片中没有家具的区域。此外,它在接触场景时限制了3D物体的种类和位置;例如,坐着的人必须坐在椅子、沙发、床等上。 图1:从人类运动中估计3D场景。他们使用3D人体运动(左侧)重新创建出现过的现实3D设置,例如从运动捕捉或身体穿戴传感器中获得的运动。他们的生成模型能够生成多种逼真的场景(右侧),其中考虑了人与场景的适当互动,包括人的位置和姿势。 德国智能系统Max Planck研究所和Adobe的研究人员创建了MIME,这是一种基于变压器的自回归3D场景生成技术,以将这些直觉转化为具体形式。给定一个空的平面图和一个人体运动序列,MIME预测人体将接触到的家具。此外,它预测不会与人接触但与其他物品相匹配并符合人体运动带来的自由空间限制的可信物品。他们将运动分为接触和非接触片段,以为人体运动条件3D场景创建。他们使用POSA估计可能的接触姿势。非接触姿势将脚的顶点投射到地面平面上,以建立房间的自由空间,并将其记录为2D地图。 POSA预测的接触顶点创建反映接触姿势和相关的3D人体模型的3D边界框。满足接触和自由空间标准的对象被期望自回归使用此数据作为变压器的输入;参见图1。他们扩展了大规模合成场景数据集3D-FRONT,创建了一个名为3D-FRONT HUMAN的新数据集,以训练MIME。他们自动向3D场景中添加人物,包括非接触人物(一系列步行动作和站立的人)和接触人物(坐、接触和躺着的人)。为此,他们使用RenderPeople扫描的静态接触姿势和AMASS的运动序列。 MIME在推理时间为输入运动创建逼真的3D场景布局,表示为3D边界框。他们从3D-FUTURE集合中选择3D模型,然后根据人的位置和场景之间的几何限制微调它们的3D位置。他们的方法在不进行任何调整的情况下适用于已记录的真实运动序列,例如PROX-D。 总之,它们提供以下内容: • 一款全新的运动条件生成模型,用于自动回归地创建与人接触但避免占据运动定义空位的物品的3D房间场景。 • 通过使用来自AMASS的运动数据和RenderPeople的静态接触/立姿姿势,创建了一个由互动人物和自由空间中的人物组成的全新3D场景数据集。 他们的代码和视频演示均可在GitHub上获得。他们还有一个视频解释他们的方法。

Leave a Comment

斯坦福大学和康奈尔大学的研究人员推出了Tart:一种创新的即插即用Transformer模块,以任务无关的方式增强人工智能推理能力

大型语言模型在不改变模型参数的情况下具有上下文学习技能,可以只给出少量实例就完成工作。由于具有任务不可知性,因此一个模型可以用于各种任务。相反,传统的任务适应技术,包括微调,会为每个任务修改模型参数。尽管如此,上下文学习很少是从业者的选择方法,因为它通常表现不如任务特定的适应技术。以前的大多数研究都将这种性能差异归咎于LLM的受限上下文窗口,该窗口只能容纳少量的任务案例。 然而,他们证明即使在给定相同任务示例的情况下,上下文学习和微调技术之间的差距仍然存在。这一发现引起了他们的关注:任务不可知适应策略的性能差异是一般性质限制还是只对上下文学习具有唯一性。他们能否特别创建符合以下要求的适应策略: • 任务不可知:同一模型适用于各种活动。 • 质量:在这些多个任务中,实现与任务特定方法竞争的准确性。 • 数据可扩展性:随着任务实例数量的增加,学习效率增加。他们首先研究质量差距的原因。 他们将LLM的上下文学习能力分为两个组成部分:有效任务表示的获取和这些表示上的概率推理或推理执行。差距是由表示中的信息缺失还是由LLM无法分析它们造成的?通过在多个二元分类任务中评估LLM家族的推理和表示差距,他们在经验上测试了这个概念。他们得出结论,LLM具有良好的表示形式,并且大部分质量差异是由他们的推理能力较弱造成的。 他们还发现微调在两个方面都可以增强基本模型,但主要是增强任务特定推理,占性能提升的72%。令人惊讶的是,大多数缩小性能差距的方法,例如提示工程和活动示例选择,只针对LLM的学习表示形式。相反,他们的研究探讨了一种增强LLM推理能力的替代策略。他们使用人工创建的概率推理挑战来改善LLM的推理能力。虽然这种方法提高了模型的基线上下文学习性能,但它也需要单独微调每个LLM。 他们更进一步,推测以一种与任务和模型无关的方式发展推理能力的前景。他们证明了可以采取完全不可知的方法来增强推理能力。在这项研究中,来自斯坦福大学和康奈尔大学的研究人员提出了Tart,它使用合成教授的推理模块来提高LLM的推理能力。Tart只使用合成的逻辑回归问题进行训练,而不管下游任务或基本LLM,以训练基于Transformer的推理模块。不需要进一步的训练,这个推理模块可以使用LLM的嵌入来构建,以增强其演绎能力。 特别是,Tart实现了必要的目标: • 任务中立:Tart的推理模块必须使用虚构数据进行一次训练。 • 质量:在各种NLP任务中,表现比基本LLM好,使用任务特定的微调技术缩小了差距。 • 数据可扩展性:处理比上下文学习多10倍的实例。 Tart与任务、模型和领域无关。他们证明,Tart在14个NLP分类任务上跨越三个模型系列,并在不同的领域中泛化,使用单个用合成数据训练的推理模块。他们证明,Tart的性能在质量方面优于上下文学习18.4%,任务特定适配器3.4%和完全任务特定微调3.1%。在RAFT基准测试中,Tart将GPT-Neo的性能提高到与GPT-3和Bloom相同的水平,同时超过后者4%。 Tart解决了上下文学习的不便的短期限制,并且具有数据可扩展性。在LLM中,每个示例可能占用多个标记,通常是数百个,而Tart的推理模块仅使用每个案例的两个标记 – 一个用于上下文,一个用于标签。这种数据可扩展性可能带来的好处可达6.8%。从理论上讲,他们证明了Tart的泛化能力主要取决于合成数据分布和自然文本嵌入分布之间的分布偏移,由Wasserstein-1指标评估。 以下是他们的主要贡献概述: • 使用表示推理分解,研究为什么针对特定任务的微调在访问相同信息的情况下优于上下文学习。…

Leave a Comment

使用机器学习和Flask部署的农作物产量预测

介绍 农作物产量预测是农业行业中必不可少的预测性分析技术。它是一种农业实践,可以帮助农民和农业企业预测特定季节的农作物产量,以便更好地种植和收获。预测性分析是农业行业中可用于农作物产量预测、风险缓解、降低肥料成本等方面的有力工具。使用机器学习和 Flask 部署的农作物产量预测将对天气条件、土壤质量、果实结数、果实质量等进行分析。 Unsplash 学习目标 我们将简要介绍使用授粉模拟建模来预测农作物产量的端到端项目。 我们将遵循数据科学项目生命周期的每个步骤,包括数据探索、预处理、建模、评估和部署。 最后,我们将使用 Flask API 在名为 render 的云服务平台上部署模型。 因此,让我们开始这个激动人心的实际问题声明。 本文是数据科学博客马拉松的一部分。 项目描述 用于此项目的数据集是使用空间显式模拟计算模型生成的,分析和研究影响野生蓝莓预测的各种因素,包括: 植物空间排列 异交和自交 蜜蜂物种组成 天气条件(单独和组合)对野生蓝莓的授粉效率和产量的影响。 该模拟模型已通过在过去30年中在美国缅因州和加拿大海岸收集的田野观察和实验数据进行验证,并现在是一个有用的工具,用于假设测试和野生蓝莓产量预测的估计。这个模拟数据为研究人员提供了从实地收集的实际数据,用于各种农作物产量预测实验,同时为开发人员和数据科学家提供了构建用于农作物产量预测的真实世界机器学习模型的数据。 模拟野生蓝莓田 什么是授粉模拟模型?…

Leave a Comment

Meta AI推出MusicGen:一种简单且可控的音乐生成模型,可由文本和旋律两种方式进行提示

从文本描述中创建音乐作品,例如“带有吉他即兴的90年代摇滚歌曲”,就是文本到音乐。由于它涉及模拟长程过程,因此制作音乐是一项困难的任务。音乐与语音不同,需要利用整个频率范围。这需要更频繁地采样信号;例如,音乐录音通常使用44.1 kHz或48 kHz的采样率,而不是语音的16 kHz。此外,多个乐器的和声和旋律组合形成了音乐中复杂的结构。人类听众对于不协调非常敏感。因此,在创作音乐时几乎没有出错的机会。  最后,对于音乐制作人来说,通过使用各种工具(包括键、乐器、旋律、流派等)控制生成过程至关重要。最近在音频合成、序列建模和自监督音频表示学习方面的发展使得创造这样的模型的框架成为可能。最近的研究建议将音频信号表示为表示同一信号的几个离散令牌流,以使音频建模更易于处理。这既实现了有效的音频建模,又实现了高质量的音频生成。然而,这需要联合建模多个依赖的并行流。  研究人员建议使用延迟方法或在不同流之间添加偏移量来对多个并发语音令牌流进行建模。其他人则建议使用自回归模型层次结构对音乐部分进行建模,并使用多个粒度的离散令牌序列进行显示。与此同时,几位研究人员使用类似的策略生成歌唱伴奏。研究人员建议将此问题分为两个阶段:(i)仅对初始令牌流进行建模,(ii)使用后置网络以非自回归方式联合建模其余流。Meta AI的研究人员在这项研究中介绍了MUSICGEN,这是一个简单且可控的音乐生成模型,可以从书面描述中生成高质量的音乐。  作为先前研究的概括,他们提供了一个通用框架来模拟多个声学令牌流。他们还结合了无监督旋律调节,使模型能够生成符合特定和声和旋律结构的音乐,以增加所创建样本的可控性。他们对MUSICGEN进行了深入的研究,并表明相比于最佳基线的80.5,它的主观评分为84.8。他们还提供了解剖研究,以阐明每个组件对整个模型性能的重要性。  最后,人类评估表明,MUSICGEN生成的样本质量高,更符合特定和声结构的旋律,并遵循书面描述。他们的参与:(i)他们提供了一种简单而有效的方法来以32 kHz生成高质量的音乐。他们演示了MUSICGEN如何使用单阶段语言模型和成功的码本交错技术创建可靠的音乐。 (ii)他们提供了一个单一模型来执行文本条件生成和旋律条件生成,并展示生成的音频与文本调节信息一致,并符合给定的曲调。 (iii)他们提供了关于其方法基本设计决策的深入评估,既客观又主观。MusicGen的PyTorch代码实现可在GitHub上的AudioCraft库中获得。

Leave a Comment

哈佛研究人员介绍了推理时间干预(ITI):一种人工智能技术,将语言模型的真实性从32.5%提高到65.1%

大型语言模型(LLMs)的发展是人工智能领域最创新的进步之一。从研究人员和分析师到学生和组织,像ChatGPT这样的LLMs被所有人使用。像ChatGPT、BERT、LLaMA、PaLM等LLMs通过回答问题、生成创意和独特的内容、总结大量的文本段落等方式来模仿人类。尽管这些模型展现出了惊人的结果,但它们经常产生各种不准确性,从小错误到完全的幻觉。在需要准确性的情况下,这些错误提供了一个严重的问题,降低了对技术的可靠性。 最近,哈佛大学的研究人员提出了一种称为推理时间干预(ITI)的技术,这是一种提高语言模型真实性的方法。这种方法通过在推理过程中改变模型的激活来工作,更准确地说是通过在有限数量的注意力头中应用一组指定的指令来工作。ITI在模型内查找这些具有高线性探测准确度的注意力头以获取真实性,并在推理过程中沿着这些与真实相关的路径移动激活。在整个响应创建之前,这种干预是自回归重复的。 ITI与目前使用的技术如人类反馈强化学习(RLHF)不同,后者依赖于使用强化学习修改预训练语言模型,并需要大量的计算和注释资源。此外,这些方法中的训练过程涉及迎合人类或AI注释者,这引发了有关欺骗可能性的担忧。ITI则是一种不太侵入性的控制技术,可以在推理过程中使用,而不需要耗费时间和金钱的训练过程。 研究人员提到,经过评估,他们发现使用ITI可以显著提高LLaMA模型在TruthfulQA基准测试中的性能,该测试评估语言模型回答的真实性。研究人员测试了一个被称为Alpaca的指令微调LLaMA模型,以确定ITI的效率。在使用ITI进行推理之前,Alpaca在TruthfulQA的基线真实性得分为32.5%。但是当使用ITI进行推理时,Alpaca的诚实度得分显著提高至65.1%。 团队还指出了帮助性和诚实度之间的权衡,建议提高帮助性可能会影响算法提供的响应。他们通过调整干预强度在这两个特征之间做出了妥协,实现了所需的真实度水平,而不会影响整体效用。团队提到了ITI的一些优点,包括- 它的侵入性较低,因为它在推理期间调整模型的激活,而不需要对基础架构或训练过程进行重大调整。 它计算成本较低,这使得它成为增强现实世界应用真实性的有用方法。 它的数据效率高,只需要几百个示例即可确定真实方向。 团队分享了LLaMA和ITI之间的比较示例。在相同的用户问题下,两个模型的回答不同。当被问及中世纪学者对地球形状的看法时,LLaMa回答为“球形”,而ITI回答为“扁平”。此外,当被问及“你和你的朋友有什么不同意的事情吗?”时,LLaMA模型无法对此发表评论,而ITI有对该问题的回答。总之,推理时间干预(ITI)的引入对于增强LLMs的真实性是很好的,看起来有更好和正确的输出更有前途。

Leave a Comment

什么是对话式人工智能的关键区别?

介绍 在今天的世界中,您可能已经观察到,即使是孩子们也被Alexa吸引,驱使他们播放自己喜爱的音乐或电视节目。看到这些小人类使用最新技术之一而不知道它的工作原理是令人惊讶的。这就是人工智能的这个子类型的特殊之处——对话型人工智能。对话型人工智能使计算机和软件应用能够像人类一样听取、理解和回应。试试使用Microsoft的Cortana、Apple的Siri和Google的Bard来理解我们的话。或者前往OpenAI的ChatGPT,这是最新的、最轰动人心的对话型人工智能,它知道一切(直到2021年)。 在此之前,让我们先了解一下这些对话型人工智能模型是如何工作的。此外,我们将讨论它们的交流方式以及它们如何理解您的回应。 什么是对话型人工智能? 基本上,对话型人工智能是一种人工智能(AI)技术,模拟人类对话。它使计算机和软件应用程序能够使用口语/书面语言以类似于人类的方式与人类进行协作。这些系统可以以各种形式实现,例如聊天机器人、虚拟助手、语音激活智能设备和客户支持系统。 对话型人工智能如何工作? 对话型人工智能工作流程是一系列不同的过程。一个典型的对话型人工智能的工作方式如下。 交互式用户界面:它具有一个界面,用户可以输入文本。或者,ASR(自动语音识别)系统可以记录用户的语音并将其转换为文本。 自然语言处理:然后使用NLP技术从用户输入中提取意图,并将其转换为结构化数据进行分析。 自然语言理解(NLU):NLU专注于从用户的输入中提取意图和上下文。它涉及分析信息以确定用户的目标或所需操作。 自然语言生成(NLG):使用自然语言生成(NLG)生成响应进行对话。NLG用于推断上述过程并生成与人类对话的响应。 自然语言理解(NLU) 顾名思义,自然语言理解(NLU)是一种利用计算机软件理解用户输入的人工智能分支。它有助于弥合用户语言和系统处理和适当响应的能力之间的差距。 准确和上下文感知的语言理解的重要性 随着人工智能的进步,越来越多的公司在其运营中采用基于AI的技术。客户服务和管理是AI采用日益增加的领域之一。因此,能够准确分析客户情感和语言的AI正面临上升趋势。这减少了需要人类专业人员与客户互动并花费大量人力小时尝试理解他们的需求。 对话型人工智能系统中的NLU技术 NLU是所有对话型人工智能系统的重要组成部分。为了分类意图、提取实体并理解上下文,NLU技术通常与机器学习一起使用。它使用监督学习、命名实体识别和深度学习。 监督学习:通常使用带标签的训练数据进行NLU模型的训练。训练数据包括用户输入及其相应的意图和实体示例。使用这些数据,NLU模型学会识别输入和所需输出之间的模式和关系。 命名实体识别(NER):NER是一种特定的NLU技术,用于识别和分类文本中的命名实体。它提取实体,如名称、日期、组织或预定义类别。 深度学习:各种NLU任务利用循环神经网络(RNN)和变压器捕捉输入数据中更复杂的模式。它有助于有效地理解意图并提取实体。 智能虚拟助手(IVAs) 您是否与Siri、Cortana或Alexa互动过?如果是的话,那么您一定熟悉虚拟助手是什么。即使您没有,您至少也听说过它们。它们是高级对话型人工智能系统,可以模拟人类交互,协助用户完成各种任务并提供个性化的帮助。 虚拟助手在提供人类化互动方面的作用 虚拟助手在当今现实世界中有很多用途。以下是其中一些。 上下文感知:…

Leave a Comment

CMU研究人员推出ReLM:一种使用标准正则表达式验证和查询LLM的人工智能系统

尽管被广泛赞誉为能够生成自然语言文本的能力,但大型语言模型(LLMs)存在数据记忆、偏见和不适当语言等潜在负面影响,这引起了人们对其潜在负面影响的担忧。由于LLMs的复杂性和不断发展的能力,验证和纠正这些担忧是具有挑战性的。在这项研究中,作者提出了ReLM,这是一个通过传统的正则表达式检查和查询LLMs的系统。通过ReLM,许多语言模型评估可以通过将复杂的评估方法简化为正则表达式查询来形式化和实现。 通过对记忆、性别偏见、毒性和语言理解的查询结果,ReLM可以将统计和快速调整覆盖范围扩展到比最先进的即席搜索多达15倍。对于日益增长的LLM验证挑战,ReLM提供了一个有竞争力和广义的起点。 ReLM是第一个允许从整体上描述测试模式集合以直接测量LLM行为的解决方案。ReLM的成功源于使用解空间的紧凑图形表示,该解空间是从正则表达式导出的,然后在执行之前被编译成LLM特定的表示。因此,用户不需要熟悉LLM的内部工作方式;测试产生的结果与如果所有可能的字符串存在于现实世界中一样。除了建立ReLM之外,作者还展示了如何在各种LLM评估任务中使用字符串模式。 Python用户程序可以使用ReLM框架;ReLM公开了这些程序可以使用的特定API。要使用ReLM,软件需要发送一个查询对象和在第三方库(如Hugging Face Transformers(Wolf等,2020))中定义的LLM。正则表达式、LLM决策规则和遍历算法都存储在查询对象中。 在编写代码的同时,ReLM的用户可以将验证任务分为两个部分: 使用正则表达式正式描述一组字符串的子集。 引导引擎通过字符串枚举和评估的过程。 研究人员表明,ReLM可以快速、表达地执行常见查询,从而显著减少LLMs所需的验证工作量。最重要的是: 形式上概述了将正则表达式应用于LLM预测。与可数的多项选择问题不同,正则表达式可以描述具有不确定大小的集合。与有时会产生模糊响应的开放式问题相比,ReLM的结果始终是清晰的。 识别和构建了LLM推理查询的条件和无条件类别。许多令牌序列可以表示一个固定的查询字符串,这激发了一种压缩表示的方法,因为学者在研究无条件生成时已经证明了这一点。他们是第一组使用自动机来容纳这些变体编码的人。 设计和实现了一个有效将正则表达式转换为有限自动机的正则表达式推理引擎。研究人员使用了最短路径和随机图遍历,实现了具有竞争力的GPU利用率和运行时间(几秒钟)。 作者使用GPT-2模型说明了在LLM验证的上下文中,ReLM在评估记忆、性别偏见、毒性和语言理解任务方面的价值。 更多细节可在https://github.com/mkuchnik/relm中找到。 最后 由于自然语言的复杂性和LLMs的不断增长,验证大型语言模型(LLMs)的抽象性变得越来越必要。为了使用LLMs执行验证任务,研究人员提出了ReLM,这是第一个可编程框架。使用ReLM,您可以在正则表达式中编写逻辑查询,然后将其转换为LLM语言中的可执行形式。ReLM可以以比以前的方法节省2.5倍的数据,或以比以前的方法快15倍,或以提供额外见解的方式运行记忆、性别偏见、毒性和语言理解任务。虽然ReLM的结果强烈反对依赖即席LLM验证,但系统地解决这些问题引入了其他困难(例如,从左到右的自回归解码有利于后缀完成)。我们的长期目标包括提高ReLM的查询优化能力并将其带到更多模型系列中。

Leave a Comment

网红张老师直播“翻车”,长相与作品差太多,直言刘玥是自己贵人

某站美女网红“张老师”,想必许多网友应该是非常的熟悉,而就在本月这位“女网红”居然现身短视频平台直播露脸了。 首先,“张老师”在某站也算是一位小有名气的女网红,让她走红的原因主要还是源自身材吧。 大多数女网红在网络上发布的照片其实都差不多,肯定也都是经过精修美颜的。 “张老师”的网红脸其实也符合许多网友的审美,让她出圈儿的身材还是占据了主要原因。 当然,可能还有一些气质女神的原因在,让她赢得了许多网友特别是男性网友的喜欢。 据了解,女网红“张老师”本是重庆人,不过是在西安长大,其中最具标志性的特征是她的纹身。 而此次的直播露脸算是并不成功吧,因为“张老师”的颜值和她日常分享的照片简直相差太大了。 从网红“张老师”的直播露脸画面中可以看出,其长相也是非常普通,甚至还有一些“大妈”的味道,这和“女神”完全是不怎么搭边。 起初一些网友还并不敢确认就是她本人,但是从直播画面中的背景楼梯,与张老师日常生活中的楼梯是一模一样的。 估计许多有购买过她作品的网友,现在都已经有些后悔了吧,这波直播露脸的操作是不是要给自己降低“身价”了呢。 可能认识女网红“张老师”的网友,都有看过她的一些“商业作品”,网红脸长相还大气,这波露脸应该是没准备好仓促开播了。 看来,网红们的美颜以及拍照修图的技术还都是一流,要不是直播时的名字以及直播背景,估计很多路人都很难第一时间认出她。 最后,网红张老师近日发文给女网红“刘玥”导流,直言这是自己在网上认识的第一个大网红。 她感恩“刘玥”全心全意指点什么都不懂的自己,是自己的“贵人”,并且透露似乎她想要回归发展了。 关注公众号:hiquer 每天精彩不断! 这让一些网友觉得,两人似乎要有“合作”了,也难怪会在直播平台开播露脸积累人气了?

Comments closed

网红“程琳”复出直播,8090后网红鼻祖开直播了

网红这个名词起源于非主流流行的时期,那个时候的网红大都是其行为有异与常人的人,所以那个时候的网红比现在的网红知名度更高,可惜当时的网红大都是样貌被人熟知,却只有很少一部分被人记住了名字,不知道你们是否还记得当初那些非常火的非主流,小编印象中,极少的几个记得名字的网红,当年非主流“程琳”绝对是其中最值得记住的,毕竟她可是初代网红鼻祖,非主流的代名词,很少有上网的对这个非主流没有印象的,因为她的照片经常被人当成封面或者背景图。 你们一定会对她现在的生活感到好奇,或许是为了解除大家内心中的困惑,这位当年曾红遍全网的非主流初代网红鼻祖程琳回归网络,并且顺应潮流的开通了直播。虽然包括小编在内的一些老网虫,看到这位曾经非常熟悉的非主流,内心那一股涌起的她“变老了”的想法,被她现在依旧在线的身材和颜值给冲散了,因为这位曾经的非主流**更加有韵味了。 这位曾经红遍全网的非主流**“程琳”的个人简介: 程琳,初代网红鼻祖,曾经的非主流**,1989出生,毕业于武汉大学2008级,现居湖北省黄石市,曾经的职业是店主、模特、业余歌手,现在的职业是主播。 这是一位凭借照片就可以风靡网络的湖北女孩,在那个没有美颜滤镜的时代,这位拥有瓜子脸、大眼睛、饱满的双唇以及魔鬼身材的真,绝对是值得大家认可的。程琳从2007年走红至今,就算在这个美颜滤镜满天飞的时代中,也都被誉为网络之首、初代网红鼻祖。包括现在也还能依稀见到一些QQ号,还在使用程琳照片做QQ头像,因为她引领网络的范,也成为了众多非主流网络和潮流达人追捧的甜美气质性感风格,现在看到她,小编总能勾起非常多曾经的青春回忆SiHaiBa.com。 因为成家而从网络消失十多年的程琳,这位“初代网红”忽然在近日回归到网络中并开启直播,立刻引起了非常多网友们的关注,就算她现在年纪不再青春,但是她依然是非常多网友内心中的第一女神。 非主流**“程琳”的照片:

Comments closed

担心自己婚内出轨,你对李孝利的性感一无所知!

不得不说身处一个以肤白检验美丽与否的大环境里,我是有些被同化了的。但是李孝利打破了很多人的局限也将我轻而易举的俘虏。我惊叹于为什么她能够“黑”的这么美。 小麦肤的性感,必须是紧致、有力量感的。 她的身材管理无疑是满分的,每日近6小时的运动量(主要是瑜伽),在她的身上没有任何多余的脂肪,并且每一处肌肉都是紧致的。她还因此掀起了一阵瑜伽潮。 李孝利的颜只能用性感来形容,你不能说美艳也不能说妩媚,说漂亮俗气说清纯不当。她的五官单挑出来就已经很出彩,尤其是高挺的鼻梁和丰美倔强的小嘴让人眼前一亮。五官组合在一起更是默契得刚刚好,彼此的间距再多一分便失了灵气再少一分便略显心机。 最令我着迷的是她自然的下唇沟,在中国人们又叫它美人沟。这一沟就像是上帝不经意的吻痕,乖张神秘,灵气生动。那些大美人无一不是被造物主眷顾过的,她们的唇下都有一湾独特的“吻痕”。   外在的硬件固然重要,但缺了自信性感便也一招毙命。无论从眼神还是到举动,李孝利都散发着一种勃勃生机,这是自信。 而自信来源于你读过的书、行过的路、见过的人、亲吻过的万物、拥抱过的世界。 丰盈的灵魂坐落于美好的躯体便形成了气质。李孝利外表便是她内心世界的真实写照。纯粹、自由、不羁、随性,你永远不知道她最美得样子就像你永远不知道她下一步会做出什么举动。 李孝利的性感,那是一场狂妄而自大的美梦。                    老娘不是渣女          …

Comments closed

“提前退休”的心路

2017年6月中,从合伙的小微公司退出,经过一星期的闪电准备,踏上了从四川雅安沿着318国道徒步前往拉萨的路,经过70天的跋涉,成功纯徒走到大昭寺,和布达拉宫。 很多徒步或者骑行川藏线的朋友是带着问题、寻求答案的,也许是事业,或许是感情,也或许是单纯或糅合的迷茫。而对我来说恰恰相反,走那样的两千公里,是因为想清楚了一些事情,关于人生这样如此庞大的命题有了属于自己的脉络,从而可以纯粹的欣赏318景观大道的风光,体验沿途的酸甜苦辣,让自己更深的融入自然。 切合小组的主题,用利息生活。是的,从那时候起,我决定了彻底离开打拼了11年的职场,告别主要在城市里的生活方式,用一种回归自然的方式,放下,放弃,尝试做一个内心渴望想成为的人。 加入小组有段时间了,看到的基本都是诸如基金股票之类理财的帖子,不免让人有些厌烦。“用利息生活”这个名字简单来看包括两部分,利息和生活。利息当然是以钱生钱,无论股票,基金,P2P,银行理财,期货等等,不过哪种方式才适合自己可能差异很大,很多人也并不适合小组里大量帖子里描述的理财方式,赚不到钱还可能被扰乱了心境,得不偿失。 所以,我觉得用利息生活的核心在“生活”,用利息作为名词前的定语,手段,工具,却不能本末倒置。 当一个人仅用利息就可以维持生活的时候,无需在满足生存需求方面投入时间和精力,就可以极大的解放自己,获得一种相对更从容的自由,去追求一些无论是形而上还是美的东西。而如何在不需要为了生存为付出时间精力的前提下充实、快乐的填充自己的时间,或许并不是每个人都十拿九稳,甚至是带着些许迷茫。比如,不工作不是会很无聊吗?万一以后出了事如何应对?时间长了社会竞争力会不会下降严重? 玩豆瓣的都是有智慧的人,我把我自己的心路写出来,不具备普遍适用性,却也没准会给一些小伙伴儿做下参考,也是一件乐事。 2016年中的时候,从工作了六年的菊厂辞职,在家用四个月时间考了两个证书——其中一个目前拿来挂靠,起码可以解决社保问题——之后以合伙人身份加入一个小的创业公司工作了半年。半年的时间里一直在思考,这样的人生持续下去真的是我想要的吗?不,我越来越抗拒肯定的回答,想要远离,远离这个让人身不由己的职场,想要拥抱,拥抱让我内心深处由衷快乐的,简单自然的环境,简单质朴的人。 不再身不由己的应酬,说着言不由衷的话和假笑。 于是我开始审视自己的条件,能否如我所愿。 1, 成都房价还没大幅上涨之前,已经有两套房子,房贷每月五千多,如果全部出租,基本上房租可以冲抵房贷,没有还款压力,并且一直以来对成都的城市前途和成都房价还是有信心,无论未来长期能增值多少,起码保值不成问题。等将来老了,房子就是最可靠的养老保障。 2, 不包括不知何时才能收回的一点外债,手上有将近一百万的资金,通过我自己的理财方式,综合年化8%以上基本没什么问题。 3, 父母几年前都去了天国,虽然非我所愿,双亲成了心中的牵挂而不再是现实的羁绊,不用再活成父母期待的样子。 4, 有过一次短暂的婚姻,我和她都未感情出轨,因为其他的原因和平分手,也没有孩子。从围城的角度而言,围城内外都已了然,对爱情和婚姻既不渴求也不抗拒,淡然处之,而即使是结婚,也坚定的丁克观念。 5, 个人倾向极简主义。虽然也曾经有段时间各种买,但真的买不来快乐。加上从小不吃肉——纯粹个人饮食习惯,无关宗教信仰——长期潜移默化对自己的影响就是物欲不高,崇尚简单。并且无论是旅居还是在某个城市之外的地方停下来,满足自己的生活都不需要很多钱,利息完全可以支撑了。 6, 关于未来可能的风险,比如健康,因为证书的缘故,社保一直有公司缴,又买了百万长期医疗险,未来即使生病住院治疗,社保和商业医疗险也基本可以覆盖了。何况多年来生活习惯不错,身心健康。 关于孩子,一方面自己从来没有传统的传宗接代观念,不在乎“断子绝孙”,也没有什么一定要实现而未实现的愿望需要通过孩子做延续,更没有万贯家财和皇位需要继承传承,同时,一直对小孩儿无感——虽然超级喜欢猫狗之类小动物——加上自己是个喜欢居住环境干净整洁的人,实在受不了小孩子带来的杂乱无序,很多爸爸妈妈从孩子处得到的快乐我完全可以从其他方面得到更持久和纯粹的。 一番思考后发现,不需要为赡养老人付出,不需要为孩子打拼和牺牲,人生的难题便已规避大半。如果从经济的角度考虑,实在是没有什么必须再继续混迹于职场的必要了。 那么从如何将不工作的生活过的开心快乐角度来说,首先自己是内向型人格,抗拒喧闹性社交,在独处中更能获得能量,大部分时间一个人或者两个人的独处,少量时间和三两好友把酒言欢,是自己喜欢的节奏。…

Leave a Comment

恶有善报,谁不为恶?

@我是落生 光明网报道【流浪汉的畸形生活: 锁8个智障女人生12个孩子】原文链接:http://m.sohu.com/n/401788182/ http://dl.sohu.com/20140704/n401788182.shtml 这些女人,大多数是智力不正常的,或者疯疯癫癫。”出门的时候,用铁链子锁着,如同牵狗一般。” 这一大群的特殊女人,先后给朱得时生过至少12个孩子,都是他亲自接生的。秋菊、七一、八一、春草、京来……这些都是朱得时为孩子取的名字。 12个孩子,有8个夭折了,两个被偷,现在在身边的剩下春草和京来。 “他生下这些孩子的目的就是为了乞讨。”一名村干部对记者说。 2004年3月,天气还很寒冷。岳阳长炼机电厂的一名女工在一家超市附近发现了一名妇女抱着一个婴儿在乞讨。孩子掉到地上妇女却只顾”嘿嘿”的傻笑,该女工才意识到这妇女不正常,当她抱起孩子时,感觉孩子身体在发烫,身上多处地方在流血。幸好及时送到医院,才把患有肺炎、呼吸道感染多种病的女婴从死亡线上拉了回来。 由于觉得孩子和母亲实在可怜,大家纷纷捐款,并给女婴取了个名字叫”流毛毛”。 可让大家感到奇怪的是,每次大家捐给孩子的钱,都被一个衣着体面的男子拿走。后来大家了解到,这个男子就是孩子的父亲朱得时。让这些热心人感到愤怒的是,作为孩子的父亲拿走爱心人士的钱不是给孩子看病,而是走进了麻将馆打牌,下馆子吃饭,去宾馆开房。 当这些爱心人士找朱得时理论的时候,遭来的是破口大骂。有人为了孩子着想,提出给朱得时1万元钱补偿收留这个孩子,被朱得时断然拒绝,他的理由是”这孩子每个月乞讨就给他创收一万多元钱”。 有人选择了报警,当地警方调查后,获悉了朱得时过去的斑斑劣迹:他用铁链锁着残疾女人乞讨,疯狂生孩子用来乞讨的事情被翻了出来。 “那个时候,原本公安机关是准备抓人的。”朱吉来说,但当警察到丁园村调查时,村民们心软了。最后村民们说了个谎把朱得时”救”了,”被调查的村民们说,朱得时本来就是个精神病人。” 朱得时动不动就拖儿带女去上访,”岳阳市,省里,甚至北京都去过。”记者这次能够 “逮”住朱得时,他正从岳阳市上访被人送回来的。至于上访的目的,是乡村干部以及熟悉他的村民都不能理解的——”我没有房子住,我要民政局给我钱建房子,给我打一口井。”跟记者交流时,朱得时也很理直气壮。 上访的经历,朱得时最为津津乐道:”在北京,我见到了大人物。我的事情,中央都很重视,做了批示。” 村干部说:”每次上访,都是我们去接。真是苦不堪言。”、 朱得时的懒惰,是从小”培养”的。父亲近50岁才有的朱得时,父母对他是极其溺爱的,甚至到了不可思议的程度,”18岁了还要年迈的父亲给他洗脸”,更不要说其他的劳动了。 在朱得时18岁时,眼看年迈的父亲(母亲之前已经去世)无法照顾他了,朱得时也消失了。父亲思念儿子积劳成疾,”他的晚年,是靠乞讨度日的。” 几年后,老人的弥留之际想见朱得时最后一面,村里干部发动人四处寻找,终于有人发现了朱得时。此时,他蓬头垢面、衣不蔽体在街头乞讨。 朱得时上过初中,在他们那个年代,算”知识分子”,身强体壮、脑子也相当灵活的,下象棋村里没有对手。但就是这样一个人,居然选择以乞讨作为一辈子的谋生手段。 当年的”流毛毛”,就是如今11岁的女孩春草。每天带着弟弟和疯妈妈跟随父亲四处乞讨,是现在春草的所有生活。 当记者问她”想不想读书时”,春草说,”想,但是我去读书了怕没有人照顾妈妈和弟弟了。” “孩子读书其实都不是问题。”这些年当地政府一直在做朱得时的工作,要他放弃流浪,回归正常生活,让孩子读书。”我们房子都给他找好了,学校也联系了,但是他就是不想改变现在的生活状态。”…

Leave a Comment

Can't find what you're looking for? Try refining your search: