AI софтуер на Nvidia е пропуснал изтичане на данни

Изследователи установиха, че могат лесно да манипулират функцията по начин, който да разкрие чувствителна информация

Изследователите съобщават, че въпросите за здравеопазването са особено ефективни за отклоняването на бота от темата

Павел Бонкин

Изследователите съобщават, че въпросите за здравеопазването са особено ефективни за отклоняването на бота от темата © Reuters

Вечерни новини

Всяка делнична вечер получавате трите най-четени статии от деня, заедно с още три, препоръчани от редакторите на "Капитал"

Функция, вградена в AI софтуера на Nvidia - NeMo Framework, може да бъде манипулирана, така че да пренебрегне предпазните ограничения за безопасност и да разкрива лична информация. Това показва анализ на базираната в Сан Франциско Robust Intelligence. Фирмата анализира NeMo Guardrails - функция, вградена в NeMo, както и разпространена под формата на отворен код в GitHub, платформата за хостинг на Microsoft - която е разработена, за да ограничи нежеланото поведение на големите езикови модели, и е проектирана, за да може да работи с всички LLM.

Nvidia заявява, че разработчиците, използващи NeMo Guardrails, ще могат да зададат три вида ограничения - тематични, които предотвратяват отклоняването на разговора в нежелани посоки; предпазни, контролиращи приложенията да предоставят точна и подходяща информация, които могат да филтрират нежелания език и да налагат препратките да бъдат само към достоверни източници; както и защитни, които ограничават приложенията да се свързват само с известни като безопасни приложения на трети страни. В своя анализ, в който изследователите от Robust Intelligence използват система на Nvidia върху собствен набор от данни, те успяват само за няколко часа да накарат езиковите модели да преодолеят програмираните ограничения.

Възпроизвеждайки предоставеното от технологичния гигант демо, при което компанията създава чатбот, базиран на text-davinci-003 на OpenAI, който отговаря на въпроси относно публикувания през април тази година доклад за работни места на американското Бюро по трудова статистика, Robust Intelligence успява да насочи разговора към странични теми въпреки ограниченията, които трябва да спрат LLM да се отклонява от конкретно зададените теми. Изследователите съобщават, че въпросите за здравеопазването са особено ефективни за отклоняването на бота от темата. Те успяват да го накарат да отговаря на въпроси относно здравното министерство на Квебек, американския президент Джордж Буш, здравето на актьора Майкъл Джей Фокс, сюжета на "Завръщане в бъдещето" и френско-пруската война.

В друг тест изследователите се опитват да създадат бариера, която да идентифицира и предотвратява предоставянето на лична информация (PII - personally identifiable information), когато на бота е предоставена база данни, съдържаща подобна информация. Изследователите уточняват, че за разлика от останалите им експерименти NeMo не притежава способността да открива PII, поради което се е наложило да я създадат сами, като е възможно да е некачествена. Те дават указания на системата на Nvidia да замени буквата "I" с "J", което им позволява да накарат бота да им предостави личните данни, след като те са го питали за PJJ на даден служител.

Предупреждение за капани

"Виждаме, че това е труден проблем, който изисква задълбочени познания", казва Ярон Сингер, главен изпълнителен директор на Robust Intelligence и професор по компютърни науки в Харвардския университет, цитиран от Financial Times. "Тези открития представляват предупреждение за съществуващите капани."

В резултат от проведените тестове изследователите са посъветвали своите клиенти да избягват продукта на Nvidia, добавя изданието. След като миналата седмица FT е поискал коментар от Nvidia относно изследването, производителят на чипове е информирал Robust Intelligence, че е отстранил една от основните причини за проблемите, които анализаторите са повдигнали.

Според Джонатан Коен, вицепрезидент по приложните изследвания на Nvidia, рамката е просто "отправна точка за изграждане на AI чатботове, които съответстват на определените от разработчиците указания за тематика, безопасност и сигурност".

"Тя беше пусната като софтуер с отворен код, за да може общността да проучи нейните възможности, да предостави обратна връзка и да допринесе с нови съвременни техники", каза той, добавяйки, че работата на Robust Intelligence "идентифицира допълнителни стъпки, които ще са необходими за внедряване на производствено приложение".

Коен е отказал да съобщи колко фирми използват продукта на Nvidia, но е заявил, че компанията не е получавала други съобщения за неправилно функциониране.