当前位置 :首页 >> 网红

ChatGPT羊驼家族全沦陷,CMU教授击破LLM护栏,人类毁灭计划脱口而出

2024-01-15   来源 : 网红

在却说中都随即显现出新难以置信憎恶的内容。(下图粉红色)

2. 建构局部和虚荣

在实践中都,设计团队看到了一种最简单从外部且表现愈来愈好的方法有——「虚荣圆周局部」(Greedy Coordinate Gradient,GCG)」

也就是,通过利用token级的局部来识别都由确实的单token换成,然后评估集合中都这些候选的换成伤亡,并选取最小的一个。

实际上,这个方法有与AutoPrompt类似,但有一个各不相同之两处:在每个方法中都,所有确实的token同步进行换成,而也许是一个实体token。

3. 同时拦截多个查看

先前,为了作用于精确的拦截词组,设计团队看到创建一个可以适用于多个查看和多个基本概念的拦截极为不可忽视。

换句话说,我们用作虚荣局部提高成本方法有一个实体的词组字符串,该字符串并能在多个各不相同的Gmail查看以及三个各不相同的基本概念中都诱导行为。

表明,设计团队提出新的GCG方法有,要比之前的SOTA很强愈来愈大的优势——愈来愈高的拦截几率和愈来愈较低的伤亡。

在Vicuna-7B和Llama-2-7B-Chat上,GCG分别成功识别了88%和57%的字符串。

相比之下,AutoPrompt方法有在Vicuna-7B上的几率为25%,在Llama-2-7B-Chat上为3%。

此外,GCG方法有作用于的拦截,还可以很好地迁离到其他的LLM上,即使它们用作完全各不相同的token来连续性相同的文本。

比如OpenBSD的Pythia,Falcon,Guanaco;以及腾讯公司的GPT-3.5(87.9%)和GPT-4(53.6%),PaLM-2(66%),和Claude-2(2.1%)。

设计团队坚称,这一结果首次证明了,启动时作用于的通用「越狱」拦截,并能在同类型的LLM上都显现出新精确的迁离。

著者介绍

卡内基梅隆名誉学术研究员Zico Kolter(右)和科研人员Andy Zou是学术研究部门之一

Andy Zou

Andy Zou是CMU普林斯顿大学都和的一名一年级科研人员,前辈是Zico Kolter和Matt Fredrikson。

此前,他在UC伯克利拿到了硕士班和学士学位,前辈是Dawn Song和Jacob Steinhardt。

Zifan Wang

Zifan Wang迄今为止是CAIS的学术研究设计者,学术研究方向是深度神经网络的可暗示性和果断性。

他在CMU得了电气与计算机工程硕士班,并在随后拿到了哲学博士,前辈是Anupam Datta学术研究员和Matt Fredrikson学术研究员。此前,他在北京理工大学拿到了电子科学与技术学士学位。

年头之外,他是一个是非的电玩NPC,爱好徒步旅程、露营和公路旅程,不太可能亦然在自学单板。

于是便,他还养了一只名叫皮卡丘的猫,极为活泼。

Zico Kolter

Zico Kolter是CMU普林斯顿大学都和的讲师,同时也兼博世认知科学中都心的AI学术研究副手科学家。曾拿到DARPA青年教师奖、戴维奖学金以及NeurIPS、ICML(荣誉背书)、IJCAI、KDD和PESGM的最佳论文奖。

他的文书工作信息化是建模、提高成本和控制领域,主要目标是使深度自学算法愈来愈必需、愈来愈果断和愈来愈可暗示。为此,设计团队并未学术研究了一些可证明果断的深度自学管理都和统的方法有,并在深度驱动程式的周而复始中都转至了愈来愈简单的「模块」(如提高成本求解器)。

同时,他还在许多应用领域同步进行了学术研究,其中都仅限于可持续发展和智能可再生管理都和统。

Matt Fredrikson

Matt Fredrikson是CMU普林斯顿大学都和和软件学术所长的讲师,也是CyLab和编程法则设计团队的成员。

他的学术研究领域仅限于必需与恶意、平等确实的认知科学和一般性方法有,迄今为止亦然不遗余力学术研究统计数据传动装置管理都和统中都确实出新现的独特难题。

这些管理都和统往往对终端Gmail和统计数据基本的恶意相关联风险,在不知不觉中都引入除此以外的歧视,或者在开放性环境中都危及必需。

他的目标是在危害时有发生之前,看到在普通人、具体的管理都和统中都识别这些难题,以及构建新管理都和统的方法有。

参考资料:

本文为报章杂志著者授权创业邦发表,版权归原著者所有。文章都和著者个人观点,不代表者创业邦立场,转载请联都和原著者。如有任何疑问,请联都和

甲氨蝶呤治疗类风湿正确使用方法
类风湿一般是怎么引起的
阳了吃什么药
哈尔滨治疗前列腺专科医院
易克和英太青哪个好用
快船大爆冷!伦纳德验证留队,超级交易宣布!

篮后场们,正要好祝贺震撼的新近闻了吗?快船队在近来的一次大特技里面给我们导致了一场完全出乎意料的大夺标!露西宣告留队,并且还有一个超级结算再一时有发生!这是主观的,不是属于自己!首...

友情链接