Неща

Генеративният AI е чудо. Изграден ли е върху лъжа?

Изумителната технология е изправена пред обвинения в нарушаване на авторски права

Не всички видове медии се ползват с еднаква защита.

Ексклузивно съдържание от The Economist

Не всички видове медии се ползват с еднаква защита. © unsplash

Капитал: Light

Всяка събота сутрин: култура, изкуство, свободно време.

Футболистите на пръв поглед изглеждат реалистични, но при по-внимателен преглед се забелязва, че нещо не е наред. Лицата им са безформени, крайниците им се огъват в различни тревожни посоки, топката е леко яйцевидна. Най-странното от всичко е, че през левия крак на един футболист минава прозрачна следа от воден знак: Getty Images.

Генеративният изкуствен интелект (AI) предизвика творческа експлозия на нови текстове, музика, изображения и видео. Интернет е оживен със съдържание, създадено от изкуствен интелект, докато пазарите кипят от инвестиции, вдъхновени от изкуствен интелект. OpenAI, която прави може би най-модерните генеративни AI модели, се оценява на близо 90 млрд. долара; Microsoft, нейният партньор, се превърна в най-ценната компания в света с пазарна капитализация 3.2 трлн. долара

Но някои се чудят колко креативна е технологията в действителност - и дали тези, които печелят, са компенсирали справедливо онези, върху чиято работа са обучени моделите. ChatGPT, създаден от OpenAI, може да пише дълги вестникарски статии, които, изглежда, е запамeтил добре. Claude, чатбот, създаден от Anthropic, може да повтаря текстове от добре познати и популярни песни. Stable Diffusion, направено от Stability AI, възпроизвежда характеристики на чужди изображения, включително водния знак на Getty, върху чийто архив е обучен.

За тези, които държат правата върху горните творчески произведения, генеративният изкуствен интелект е причина за възмущение - и може би възможност. В ход са множество съдебни спорове и сделки, докато притежателите на права търсят компенсации за осигуряване на горивото, с което работят машините на бъдещето. За създателите на AI модели това е тревожен период, отбелязва Дан Хънтър, професор по право в Кралския колеж в Лондон. "Те са създали невероятна сграда, която е изградена върху основа от пясък."

Най-искрената форма на ласкателство

Изкуствените интелекти се обучават върху огромни количества произведения, създадени от човека, от романи до снимки и песни. Тези данни за обучение се разделят на "жетони" - числени представяния на битове текст, изображение или звук - и моделът научава чрез проба и грешка как жетоните обикновено се комбинират. Следвайки подкана от потребител, обучен модел може да създава свои собствени творения. Повече и по-добри данни за обучение означават по-добри резултати.

Много компании за изкуствен интелект са станали хитри по отношение на какви данни се обучават техните модели, позовавайки се на търговска тайна (и подозират техните недоброжелатели - страх от съдебни действия). Но е широко признато, че поне в ранните етапи много от тях са използвали данни, които са обект на авторско право. Миналите разкрития на OpenAI показват, че неговият модел GPT-3 е бил обучен на източници, включително Common Crawl, архив на отворения интернет, което включва масиви от данни, защитени с авторски права. Смята се, че повечето от конкурентите му са възприели подобен подход.

Технологичните фирми твърдят, че няма нищо лошо в използването на чужди данни просто за обучение на техните модели. В края на краищата хората правят същото, усвояват защитени с авторски права произведения и след това създават оригинални такива. Тези, които притежават правата, казват, че има разлика. "Погълнах цялата тази невероятна музика и след това създавам от нея", казва Харви Мейсън-младши, автор на песни и главен изпълнителен директор на Recording Academy, която представлява музиканти. "Но разликата е, че аз съм човек и като човек искам да защитавам хората... Нямам проблем с малко двоен стандарт." Роджър Линч, главен изпълнителен директор на Condé Nast, която притежава заглавия като Vogue и New Yorker, каза на изслушване в Сената през януари, че днешните инструменти за генериране на изкуствен интелект са "изградени с откраднати стоки". AI компаниите "харчат буквално милиарди долари за компютърни чипове и енергия, но не желаят да направят подобна инвестиция в съдържание", оплаква се Крейг Питърс, главен изпълнителен директор на Getty.

Медийните компании бяха тежко белязани от една по-ранна ера на интернет. Рекламните приходи на издателите се насочиха към търсачките и социалните мрежи, докато музиката на звукозаписните компании се споделя незаконно в приложения като Napster. Създателите на съдържание са решени да не бъдат наказани отново. Издателите (включително The Economist) блокират автоматизираните "кроулери" на компаниите за изкуствен интелект да изтриват думи от техните уебсайтове: почти половината от най-популярните новинарски уебсайтове блокират ботовете на OpenAI според проучване в десет държави от института Reuters на Оксфордския университет през февруари. Звукозаписните компании наредиха на услугите за стрийминг на музика да спрат компаниите за изкуствен интелект да използват техните мелодии. Има широко разпространено раздразнение, че технологичните фирми отново търсят прошка, а не разрешение. "Оценка от 90 млрд. долара плаща за много адвокати, казва г-н Хънтър. - Това е бизнес планът."

Адвокатстването се случва в момента. Най-големите притежатели на права в различни творчески индустрии са начело. New York Times, най-големият вестник в света по брой абонати, съди OpenAI и Microsoft за нарушаване на авторските права на 3 милиона от неговите статии. Universal Music Group, най-голямата звукозаписна компания, съди Anthropic за използване на нейни текстове на песни без разрешение. Getty, една от най-големите библиотеки с изображения, съди Stability ai за копиране на нейните изображения (както и за злоупотреба с нейната търговска марка). И четирите технологични фирми отричат неправомерни действия.

В САЩ технологичните компании разчитат на правната концепция за честна употреба (fair use), която предоставя широки изключения от иначе свирепите закони за авторското право на страната. Те имат окуражаващ прецедент под формата на решение относно Google Books през 2015 г. Тогава Гилдията на авторите съди компанията за търсене за сканиране на защитени с авторски права книги без разрешение. Но съдът установи, че използването на материала от Google - което прави книгите достъпни за търсене, но показва само малки откъси - е достатъчно "трансформиращо", за да се счита за честна употреба. Фирмите за генеративен AI твърдят, че тяхното използване на защитени с авторски права материали е по подобен начин трансформиращо. Междувременно притежателите на права възлагат надежди на решение на Върховния съд миналата година, което затегна дефиницията за трансформативност, като постанови, че поредица от произведения на изкуството на Анди Уорхол, които са променили защитена с авторски права снимка на Принс, поп звезда, са били недостатъчно трансформиращи, за да представляват честна употреба.

Не всички видове медии се ползват с еднаква защита. Законът за авторското право обхваща творческото изразяване, а не идеите или информацията. Това означава, че компютърният код например е слабо защитен, тъй като е предимно функционален, а не изразителен, казва Матю Саг, който преподава право в университета "Емори" в Атланта. (Група програмисти се стремят да изпробват тази идея в съда, като твърдят, че GitHub Copilot на Microsoft и CodexComputer на OpenAI са нарушили авторските им права чрез обучение върху тяхната работа.) Новините могат да бъдат трудни за защита по същата причина: информацията в рамките на самата новина не може да бъдат защитена с авторски права. Вестниците в САЩ изобщо не са били защитени от авторско право до 1909 г., отбелязва Джеф Джарвис, журналист и автор. Преди това мнозина използваха "редактор с ножици", за да изрязват и поставят буквално от конкурентни заглавия.

В другия край на спектъра притежателите на права върху изображения са по-добре защитени. AI моделите се борят да избегнат да се учат как да рисуват защитени с авторски права герои - "проблемът със Снупи", както го нарича Саг, имайки предвид анимационното куче бигъл. Създателите на модели могат да се опитат да спрат техните системи да рисуват нарушаващи права изображения, като блокират определени подкани, но често се провалят. По подкана на The Economist създателят на изображения на Microsoft, базиран на Dall-e на OpenAI, щастливо нарисува изображения на "Капитан Америка, който пуши "Марлборо" и "Малката русалка, пиеща "Гинес", въпреки липсата на изрично разрешение от въпросните марки. (Артистите и организациите могат да докладват всякакви притеснения чрез онлайн формуляр, казва говорител на Microsoft.) Музикантите също са на сравнително силни позиции: музикалните авторски права в Америка се спазват стриктно, като артистите изискват лицензи дори за кратки семпли. Може би поради тази причина много компании за изкуствен интелект бяха предпазливи при пускането на своите модели за създаване на музика.

Извън Америка правният климат е по-суров за технологичните фирми. Европейският съюз, дом на Mistral, популярна френска компания за изкуствен интелект, има ограничено изключение от авторското право за извличане на данни, но няма широка защита за честна употреба. Почти същото важи и във Великобритания, където Getty заведе дело срещу Stability ai, която е базирана в Лондон (и се надяваше да се бори със съдебното дело в Америка). Някои юрисдикции предлагат по-безопасни убежища. Израел и Япония например имат закони за авторското право, които са благоприятни за AI обучение. Технологичните компании намекват за потенциалната заплаха за американския бизнес, ако съдилищата на страната предприемат твърда позиция. OpenAI казва за спора си с New York Times, че използването на защитени с авторски права данни за обучение е "критично за нашата конкурентоспособност".

Притежателите на права се възмущават от идеята, че Америка трябва да намали защитите си до нивото на други юрисдикции само за да запази технологичния бизнес. Някои го описват като неамерикански. Но това е една от причините, поради която големите случаи може да се окажат решени в полза на AI компаниите. Съдилищата могат да постановят, че моделите не трябва да са тренирали върху определени данни или че са се ангажирали твърде много с информацията, казва Саг. "Но не вярвам, че някой американски съд ще отхвърли големия аргумент за честна употреба. Отчасти защото смятам, че това е добър аргумент. И отчасти защото, ако го направят, ние просто изпращаме страхотна американска индустрия в Израел, Япония или ЕС."

Авторски права, авторски задължения

Докато адвокатите подготвят аргументите си, се сключват сделки. В някои случаи съденето се използва като лост. "Съдебните дела са просто преговори с други средства", признава страна по едно дело. Дори веднъж обучени, моделите се нуждаят от постоянен достъп до създадено от човека съдържание, за да бъдат в течение, а някои притежатели на права са сключили сделки, за да ги поддържат снабдени със свежи материали. OpenAI казва, че е сключил около дузина лицензионни сделки, като в процес на работа са "още много". Партньорите досега включват Associated Press, Axel Springer (собственик на Bild и Politico), Le Monde и испанската Prisa Media.

News Corp на Рупърт Мърдок, която притежава Wall Street Journal и Sun, наред с други заглавия, заяви през февруари, че е в "напреднали преговори" с неназовани технологични фирми. "Ухажването е за предпочитане пред съдебните зали - ние ухажваме, а не съдим", каза нейният главен изпълнителен директор Робърт Томпсън, който похвали Сам Алтман, шеф на OpenAI. Shutterstock, фотобиблиотека, е лицензирала своя архив както на OpenAI, така и на Meta, империята на социалните медии, която налива ресурси в изкуствения интелект. Съобщава се, че Reddit и Tumblr, онлайн форуми, лицензират съдържанието си и на фирми за изкуствен интелект. (The Economist Group, нашата компания майка, не е заела публична позиция дали ще лицензира работата ни.)

Повечето притежатели на права лично са песимисти. Проучване сред медийни ръководители от 56 държави на института Reuters установи, че 48% очакват да има "много малко" пари от сделки за лицензиране на AI. Дори най-големите издатели не са направили състояние. Axel Springer, който отчете приходи 3.9 млрд. евро (4.1 млрд. долара) през 2022 г., според информацията ще спечели "десетки милиони евро" от тригодишната си сделка с OpenAI. "Няма голяма възможност за лицензиране. Не мисля, че целта на (AI моделите) е да предоставят алтернативи на новините", казва Алис Ендерс от Enders Analysis, фирма за медийни изследвания. Предлаганите лицензионни сделки са "анемични", казва г-н Питърс от Getty. "Когато компаниите... казват: "Не е нужно да лицензираме това съдържание, ние имаме пълните права да го изтрием", мисля, че това определено намалява мотивацията им да се съберат и да преговарят за справедлива цена."

Ето защо някои собственици на защитени с авторски права материали се справят сами. Миналата година Getty пусна свой собствен генериращ изкуствен интелект в партньорство с Nvidia, производител на чипове. Създателят на изображения на Getty е обучен само в собствената библиотека на Getty, което го прави "безопасен за търговската мрежа" и "безпроблемен", обещава компанията. Планира да пусне AI видеогенератор тази година, захранван от Nvidia и Runway, друга AI фирма. Освен премахването на риска от авторски права Getty се опитва да отсее всичко друго, което би могло да създаде проблеми на клиентите му с адвокати по авторски права: марки, личности и много по-малко очевидни неща, от дизайни на татуировки до фойерверки. Само малък процент от абонатите на Getty са изпробвали инструментите досега, признава фирмата. Но Питърс се надява, че периодичните приходи от услугата в крайна сметка ще надвишат "еднократната печалба от роялти" от лицензионна сделка.

Редица издатели на новини са стигнали до подобно заключение. Миналата година Bloomberg каза, че е обучил изкуствен интелект на своите собствени данни и текст. Schibsted, голям норвежки издател, полага усилия за създаване на модел на норвежки език, използвайки неговото съдържание и това на други медийни компании. Други са създали чатботове. Миналия месец Financial Times представи Ask ft, който позволява на читателите да разпитват архива на вестника. Chowbot на San Francisco Chronicle, пуснат през февруари, позволява на читателите да търсят най-добрите такоси или супа от миди в града въз основа на рецензиите на ресторантите на вестника. Би Би Си каза миналия месец, че проучва разработването на AI инструменти около своя 100-годишен архив "в партньорство или едностранно". Повечето големи публикации, включително The Economist, експериментират зад кулисите.

Рано е да се каже дали публиката ще възприеме подобни формати. Специализираните инструменти за изкуствен интелект също може да се затруднят да се конкурират с най-добрите такива за обикновени задачи. ChatGPT на OpenAI превъзхожда изкуствения интелект на Bloomberg дори при специфични за финансите проблеми според доклад от миналата година на изследователи от Queen's University, Канада, и JPMorgan Chase. Но лицензирането на съдържание на технологични фирми крие своите рискове, посочва Джеймс Гримелман от университета "Корнел". Притежателите на права "трябва да се замислят много за степента, в която това се използва за обучение на техните заместници".

Новите въпроси, повдигнати от AI, може да доведат до нови закони. "Разтягаме сегашните закони, доколкото могат, за да се адаптират към това", казва Гримелман. Тенеси миналия месец прие Закона за гарантиране на сигурността на гласа и изображението на подобия (elvis), забраняващ неоторизираните deepfakes в щата. Но изглежда по-вероятно Конгресът да позволи на съдилищата да решат. Някои европейски политици искат да затегнат закона в полза на притежателите на права; директивата на ЕС относно цифровото авторско право беше приета през 2019 г., когато генеративният изкуствен интелект не беше нещо. "Няма начин европейците да приемат (подобна директива) днес", казва Саг.

Друг въпрос е дали авторските права ще се разпространят върху съдържание, създадено от AI. Досега съдиите са на мнение, че произведенията, създадени от AI, сами по себе си не подлежат на авторско право. През август американски федерален съд постанови, че "човешкото авторство е основно изискване за авторско право", като отхвърли искането на компютърен учен за авторско право върху произведение на изкуството, което той е създал с помощта на изкуствен интелект. Това може да се промени, тъй като изкуственият интелект създава нарастващ дял от световното съдържание. На фотографията отне няколко десетилетия из съдилищата, докато да признаят, че лицето, което е направило снимка, може да претендира за авторски права върху изображението.

Настоящият момент припомня различен правен случай от началото на този век. Фотограф на дивата природа се опита да предяви иск за авторски права върху снимки, направени от самите маймуни макак, използвайки камера, която той беше поставил в индонезийска джунгла. Съдия постанови, че тъй като ищецът не е направил сам снимките, никой не притежава авторските права. (Петиция от група за правата на животните за предоставяне на правото на маймуните беше отхвърлена.) Генеративният AI обещава да изпълни света със съдържание, на което липсва човешки автор и следователно няма защита на авторските права, казва Хънтър от Кралския колеж. "Ние сме напът да навлезем в ерата на безкрайните маймунски селфита."