X'Inhu l-Avvelenament tal-Mudelli?
L-avvelenament tal-mudelli huwa vettur ta' attakk fejn avversarji jmanomettjaw il-mudell tal-AI nnifsu — il-piżijiet, l-arkitettura jew il-proċedura ta' taħriġ tiegħu — biex jinkorporaw imġiba malizzjuża. B'differenza mill-avvelenament tad-data, li jimmira d-dataset ta' taħriġ, l-avvelenament tal-mudelli jimmanipula direttament il-parametri mitgħallma. Dan jista' jseħħ permezz ta' katini ta' provvista kompromessi, kontributuri malizzjużi f'ambjenti ta' federated learning, jew mudelli pre-mħarrġa b'backdoor imniżżla minn repożitorji pubbliċi. Il-mudell riżultanti jidher li jiffunzjona normalment taħt kundizzjonijiet standard iżda jġib ruħu b'mod ħażin meta jiġi skattat minn inputs speċifiċi.
Mekkaniżmi ta' Attakk
Attakki backdoor jdaħħlu triggers moħbija li jattwaw imġiba malizzjuża biss meta pattern speċifiku jkun preżenti fid-dħul. Attakki Trojan jimmodifikaw il-piżijiet tal-mudell biex joħolqu funzjonalità moħbija li tevita l-evalwazzjoni standard. F'ambjenti ta' federated learning, parteċipant kompromess jista' jinjetta aġġornamenti ta' gradients avvelenati li jikkorrompu l-mudell kondiviż. Attakki ta' fine-tuning jisfruttaw it-transfer learning billi jinkorporaw vulnerabbiltajiet f'mudelli ta' bażi li jinfirxu għal applikazzjonijiet downstream.
Strateġiji ta' Protezzjoni
L-intrapriżi għandhom jivverifikaw l-integrità tal-mudelli kollha pre-mħarrġa u komponenti ta' partijiet terzi billi jużaw checksums kriptografiċi u sorsi affidabbli. Tekniki ta' neural cleansing jistgħu jikxfu u jneħħu backdoors minn mudelli mħarrġa. Metodi ta' aggregazzjoni robusta fil-federated learning jiffiltraw aġġornamenti anomali tal-parteċipanti. Awditjar regolari tal-mudelli — l-ittestjar kontra patterns ta' trigger magħrufa u l-analiżi tad-distribuzzjonijiet tal-attivazzjoni tan-neuroni — jgħin biex jiġu identifikati mudelli kompromessi qabel l-implimentazzjoni. Iż-żamma ta' reġistru tal-mudelli verifikat b'traċċar sħiħ tal-provenjenza huwa essenzjali għas-sigurtà tal-AI fl-intrapriżi.