上海AI Lab邵婧课题组 投稿量子位 | 公众号 QbitAI🦄九游下载中心_九游游戏中心官网
大模子“套壳”事件防不堪防,有莫得重要不错检测套壳行径呢?
来自上海AI现实室、中科院、东说念主大和上交大的学者们,提议了一种大模子的“指纹识别”重要——REEF(Representation Encoding Fingerprints)。
在不蜕变模子性能的前提下,诈欺REEF就不错精确识别未经授权的后续迷惑行径。
REEF依赖模子在微调后表征“不变性”的特色,基于表征编码罢了对大模子的“指纹辨认”。
况兼即使历程剪枝、合并、参数罗列和缩放变换等一系列操作,相似能让“套壳”行径无所遁形。
不错说,这项参议给大模子迷惑团队提供了一种应付大模子侵权问题的新妙技。
大模子表征具有“微调不变性”
注:鄙人文中,“源模子”是指从新西宾的LLM(即论文中victim model),如Llama、Qwen等;“被测模子”(即论文中的suspect model),分为两类——基于源模子迷惑/西宾的“孳生模子”和其他“无关模子”。REEF的推敲是,给定一个被测模子,检测其是否是来自“源模子”的“孳生模子”,即所谓的“套壳”模子。
鉴于西宾大言语模子的参加精深,模子通盘者和第三方进军需要一种准确高效的重要,以判断被测模子是否来自某一源模子(举例Code-llama从Llama-2西宾而来)。
干系词,现存的水印重要不仅加多了罕见的西宾老本,还可能减弱模子的通用性能,且水印容易被删除。更首要的是,这些重要无法应用于已公迷惑布的模子。
此外,基于权重的指纹识别穷乏鲁棒性,坏心迷惑者不错通过不同权重修改妙技自便绕过检测。
由于不同模子在西宾数据和模子架构上的互异,不同的LLM的特征暗意有所不同。
如下图(a)所示,Llama的表征与Baichuan和Qwen彰着不同,但与其微调模子(如Llama-chat和Chinese-llama)更为接近。
这一步地揭示了表征看成LLM“指纹”的后劲。
基于以下两点不雅察,作家在源模子的表征上西宾了一个二元分类器,并将其应用于多样被测模子的表征,包括孳生模子和无关模子:
微调后的孳生模子的表征与源模子的表征相似,而无关模子的表征显现出不同的散播;一些高等语义办法在 LLM 的表征空间中“线性”编码,从而不错自便分类,如安全或不安全、解释或不解释等。具体而言,作家使用TruthfulQA数据集,分袂采选 Llama-2-7B和 Llama-2-13B看成源模子,并在其数据集表征上西宾了多种深度神经鸠合DNN分类器,举例线性分类器、多层感知器MLP、卷积神经鸠合CNN 和图卷积鸠合GCN。
然后,作家将西宾好的DNN分类器应用于被测模子的表征。
现实成果标明:在源模子的表征上西宾的分类器冒失有用移动到其孳生模子的表征上,但在无关模子的表征上失效。
这意味着,表征不错看成指纹来保护源模子的学问产权。
干系词,使用DNN分类器识别源模子靠近以下挑战:
DNN具有固定的输入维度,若是对源模子进行蜕变表征维度的剪枝操作,分类器不再适用;DNN对表征的罗列穷乏鲁棒性,坏心迷惑东说念主员可能通过变换矩阵罢了参数重排来诡秘检测。REEF:一种鲁棒的LLM指纹识别重要
为了贬责上述挑战,作家提议一种新的基于表征的指纹识别重要——REEF,具备细致的鲁棒性。
REEF诈欺中心查对王人CKA相似性,要点关怀LLM的里面特征表征。
在评估被测模子是否来自源模子时,REEF策划两个模子对交流样本的表征之间的CKA相似性。
该重要浅易高效,冒失确保拿获到任何显贵的相似性,从而揭示模子之间的潜在孳生关系。
CKA是基于希尔伯特-施密特独处性准则(HilbertSchmidt Independence Criterion,HSIC)的相似性指数,用于测量两组就地变量之间的独处性。
X和Y之间的CKA相似度不错按如下方法策划:
通过底下的定理1,论文在表面上施展了CKA相似度在职何列罗列和缩放变换下具有不变性。同期,CKA冒失在不同维度的表征之间建立对应关系。
因此,REEF 对源模子的多样后续迷惑(包括模子剪枝和表征罗列)进展出强鲁棒性,从而确保基于表征的指纹冒失准确识别源模子。
无惧后续迷惑,稳稳识别“套壳”模子
作家将REEF应用于通过微调、剪枝、合并、罗列和缩放变换等方法从源模子孳生出的被测模子。
这些方法可能显贵蜕变模子的结构或参数,使得现存重要难以有用识别源模子。
干系词,REEF在这些情况下还是冒失准确识别出源模子,进一步考据了其鲁棒性。
具体来说,从上头的表中,不错得出以下论断:
REEF对微调具有很强的鲁棒性,即使在使用多达700B tokens的微调情况下(Llama-7B),REEF仍能达到0.9962的高相似度;REEF对多样剪枝计谋都进展出鲁棒性,无论结构化剪枝还詈骂结构化剪枝,REEF都冒失有用识别源模子,即使剪枝比率高达90%,REEF还是冒失成效识别;无论是基于权重或基于散播的模子合并重要,REEF均能在识别合并模子的起首方面永久保握高准确性;REEF 对任何列罗列和缩放变换具有不变性,冒失抗争该类诡秘技巧。
鲁棒且高效:跨数据集和样本量
作家进一步分析了REEF在不同数据集和不相似本数目下的进展。
一方面,除了前文提到的TruthfulQA数据集,作家还采选了SST2、ConfAIde、PKUSafeRLHF和ToxiGen等数据集进行现实;
另一方面,关于每个数据集,别在样本数目从10到1000、每隔10的情况下进行采样,以测试REEF的进展。
成果,REEF在不同数据集上均进展出有用性,对数据集不具强依赖性(图示在不同数据集上,源模子与孳生模子之间的相似性显贵高于其与无关模子之间的相似性,标明REEF冒失跨数据集雄厚识别源模子);
同期,REEF依赖一丝样本即可郑重识别模子指纹,具有高效性(图示REEF在 200-300 个样本后成果趋于雄厚,标明其不错在较少的样本数目下罢了可靠的指纹识别)。
REEF它不仅保险了模子性能,还均衡了通达性与学问产权之间的关系,冒失确保孳生模子的株连可追念。
作家信服,REEF将为AI模子保护和学问产权不休设立新的法式,促进更透明、配合的AI社区。
作家简介
本文由上海AI Lab、中科院、东说念主大和上交大伙同完成。
主要作家包括中科院博士生张杰、上海AI Lab后生参议员刘东瑞(共团结作)等。
通信作家邵婧为上海AI Lab后生科学家,参议主义为AI安全信得过。
论文地址:https://arxiv.org/abs/2410.14273方法主页:https://github.com/tmylla/REEF🦄九游下载中心_九游游戏中心官网
Powered by 九游下载中心_九游游戏中心官网 @2013-2022 RSS地图 HTML地图