Приберіть цифрові сліди. Як ШІ-чатботи використовують дані користувачів

Технологія

Штучний інтелект для свого навчання вимагає колосальних обсягів даних, і те, що можна знайти в інтернеті, вже не покриває цих потреб. Отже, йому необхідні наші особисті дані з соціальних мереж.

Зростання та розповсюдження інструментів штучного інтелекту (ШІ) призвели до виникнення проблеми, яку ще десять років тому важко було б уявити, принаймні, на сторінках серйозних видань, а не в науково-популярних джерелах. Мова йде про можливість того, що ШІ раптово почне говорити вашим голосом або чатбот може привласнити ваш номер телефону. Всі ці питання зводяться до одного ключового питання: як і для чого компанії використовують дані користувачів соціальних мереж, і чи можуть самі користувачі цьому запобігти?

Колись цифрові сліди користувачів (дані про їхню інтернет-активність, взаємодію в соціальних мережах та створений контент) переважно використовувалися для заробітку на рекламі. Інформація про користувача та його дії дозволяла досить точно налаштовувати рекламні оголошення. Однак, з появою ChatGPT та аналогічних генеративних моделей штучного інтелекту виникла потреба у великих наборах даних, на яких ці моделі можуть навчатися. Спочатку великі мовні моделі, що є основою ChatGPT, використовували відкриті онлайн-дані. Але для підвищення їхньої ефективності потрібні дедалі більші обсяги даних, бажано свіжих та актуальних.

Ресурси для навчання штучного інтелекту вже на межі вичерпання — про це попереджали ще наприкінці 2023 року. Прогнозували, що до 2026 року можуть закінчитися всі доступні глобальні дані для тренування ШІ. Нове дослідження, оприлюднене в липні 2024 року, підтвердило цю тривожну тенденцію. Автори дослідження, експерти з Data Provenance Initiative, зазначили, що проблема з доступом до даних для штучного інтелекту стає дедалі гострішою. Це пов'язано з тим, що все більше власників інтернет-ресурсів та веб-видавців, включаючи онлайн-медіа, обмежують доступ ШІ-чатботів до свого контенту.

Ця нестача "палива" для ШІ стала помітною для розробників усіх мовних моделей. У відповідь соціальні мережі, які також прагнуть зайняти місце на ринку інструментів штучного інтелекту, почали навчати свої моделі на даних власних користувачів. В окремих випадках користувачів просто ставлять перед фактом, що їхній соціальний "цифровий слід" тепер використовується для навчання ШІ.

Як Ілон Маск перетворив твіти на навчальний набір даних для Grock

Компанія Twitter (або X) також вирішила взяти участь у змаганнях на ринку штучного інтелекту, запустивши свого чатбота на ім'я Grock AI. Початкова версія цього продукту стала доступною для обмеженого кола користувачів у листопаді 2023 року, а в березні 2024 року вийшла перша повноцінна версія. Ця первісна версія чатбота працювала на основі публічних онлайн-даних, доступних до третього кварталу 2023 року.

Наприкінці липня стало відомо, що платформа Twitter (X) активувала параметр у налаштуваннях користувачів сервісу, який дозволяє компанії навчати свій чатбот зі штучним інтелектом Grok AI на публікаціях користувачів. Це налаштування платформа X увімкнула за замовчуванням без попередження користувачів. Про це дізналися випадково журналісти, які переглядали сторінку налаштувань X. Хоча доволі оперативно з'явилися інструкції про те, як деактивувати цю функцію, сам факт такого вільного поводження з даними користувачів викликав обурення і серед юзерів сервісу, і серед регуляторів різних країн.

Завдяки спеціальному навчанню на даних користувачів, чатбот Grok AI отримав можливість оцінювати профілі користувачів. Тепер, за допомогою функції "Докладніше про цей акаунт", яка наразі доступна лише для платних користувачів, він може "розповісти" про обраного вами юзера, створивши "коротке резюме" про нього. Журналісти, які тестували цю функцію, зазначають, що Grok AI часто допускає помилки, а коли не помиляється, надає інформацію, яку можна знайти самостійно, уважно прочитавши профіль і пости користувача. Ймовірно, для виконання цієї задачі Grok AI був навчений на твітах користувачів. Загалом, Grok AI функціонує аналогічно ChatGPT — він здатний вести діалог та відповідати на запитання користувачів.

Ще у вересні минулого року, при останньому оновленні Політики конфіденційності, компанія Twitter (X) додала до неї одне речення, яким сповіщала користувачів про те, що вона "може" використовувати зібрану нею інформацію для навчання її моделей машинного навчання або штучного інтелекту. Проте інших анонсів про те, що політика щодо даних чи якісь налаштування змінились, у компанії не робили.

Після перших повідомлень про нові функції чатбота Grok AI почали з'являтися новини про реакцію на них регуляторів різних країн. Наприклад, Ірландська комісія із захисту даних (Ireland's Data Protection Commission, DPC) подала позов проти Twitter (X) через використання публічних даних європейців для навчання чатбота. За словами представників DPC, це порушує Загальний регламент захисту даних (GDPR). Офіс уповноваженого із захисту інформації у Великій Британії також висловив занепокоєння щодо цієї практики соціальної мережі. Ілон Маск, за деякими повідомленнями, погодився припинити навчання Grok на даних європейців. Проте не лише регулятори висловили своє невдоволення: проти X було подано дев'ять скарг щодо порушення GDPR з боку організації noyb, яка займається захистом конфіденційності та цифрових прав. Як DPC, так і noyb висловили обурення тим, що Ілон Маск і Twitter (X) використовували дані користувачів без їхнього відома, вважаючи, що всі користувачі автоматично погоджуються на це.

Google та Meta продовжують використовувати дані користувачів у нових цілях, зокрема для навчання штучного інтелекту.

Не тільки Twitter (тепер X) використовував дані користувачів для розвитку своїх ШІ. Чимало інших технологічних компаній, без великого галасу або з мінімальними повідомленнями, внесли зміни до своїх угод з користувачами, включивши дозвіл на використання даних користувачів.

Для прикладу, компанія Google ще в липні минулого року поінформувала користувачів про використання їхніх даних для навчання своїх ШІ-моделей. В угоді було додано наступне повідомлення: "Наприклад, ми можемо збирати загальнодоступну інформацію з інтернету або інших відкритих джерел, щоб тренувати моделі ШІ від Google і створювати такі продукти та функції, як Google Перекладач чи Bard... Крім того, якщо інформація про вашу компанію з'являється на вебсайті, ми можемо проіндексувати її і відображати в сервісах Google".

Ось унікалізований текст: У поточній редакції угоди Google цей пункт відсутній. У травні 2024 року компанія анонсувала чергове оновлення, зазначивши наступне: "22 травня 2024 року ми внесли до Загальних положень і умов Google теми, пов'язані зі штучним інтелектом. З цього моменту Додаткові умови використання генеративного штучного інтелекту більше не будуть застосовуватися. Проте вони залишаються в силі для ділових партнерів, які підписали угоду, що містить посилання на ці умови".

Може здатися, що Google відмовляється від такого цінного ресурсу, як дані користувачів. Однак це не так. Справа в тому, що всі повідомлення про використання даних тепер знаходяться у політиці конфіденційності Gemini, власного генеративного чатбота компанії. У цій політиці, оновленій 29 травня 2024 року, детально описується використання даних користувачів для навчання штучного інтелекту та пояснюється, як рецензенти можуть покращувати систему штучного інтелекту від Google. Важливим моментом є попередження авторів документа: "Будь ласка, не вводьте конфіденційну інформацію у своїх розмовах або дані, які ви не хотіли б зробити доступними рецензентам чи щоб їх використовували Google для покращення наших продуктів, послуг і технологій машинного навчання". Цей уривок чітко вказує на те, що Google активно використовує дані користувачів для вдосконалення своїх інструментів.

Ось унікалізований текст: Деякі оновлення в користувацьких угодах є мінімальними — наприклад, Twitter (X) додала лише кілька слів до своєї попередньої угоди. Водночас інші компанії вводять нові розділи, щоб пояснити, як функціонують генеративні моделі ШІ та які дані вони використовують. Snap, зокрема, повідомила своїм користувачам, що взаємодія з My AI відрізняється від спілкування з іншими користувачами і може бути застосована для навчання ШІ. Meta також визнає використання загальнодоступних даних і відверто заявляє: "Навіть якщо ви не користуєтеся нашими продуктами або не маєте облікового запису, ми все одно можемо обробляти інформацію про вас для розвитку та вдосконалення ШІ в Meta".

Заява Meta викликала хвилю обурення серед європейських регуляторів, і після скарги від Європейського центру цифрових прав (European Center for Digital Rights) компанія вирішила призупинити свої плани щодо використання даних європейських користувачів. Однак дані американських користувачів залишилися менш захищеними. Ще у вересні минулого року Meta оголосила, що нова версія її великої мовної моделі буде навчатися на даних користувачів. Водночас компанія запевнила, що її штучний інтелект не аналізує приватні повідомлення в Messenger і WhatsApp.

Скандал навколо Adobe

Одна з найвидатніших історій, яка стосується угоди з користувачем та прав штучного інтелекту на дані користувачів, пов'язана з компанією Adobe, відомим розробником популярних інструментів для графіки та редагування зображень. У червні цього року з'ясувалося, що Adobe змінила свою політику конфіденційності, додавши пункт про те, що користувачі програмних продуктів Adobe (наприклад, відомого Photoshop) надають "невиключну, всесвітню, безоплатну субліцензію на використання, відтворення, публічне відображення, розповсюдження, зміну та створення похідних робіт на основі їхнього контенту".

Користувачі сприйняли це як дозвіл Adobe використовувати результати їхньої творчої діяльності, зокрема зображення. Деякі з них порівняли це рішення з випадком, коли магазин, що продав художнику олівці чи пензлі, претендує на права на створену за їх допомогою картину. Інші дизайнери підкреслили, що такий підхід унеможливлює використання Photoshop та інших продуктів Adobe для робіт, що захищені угодою про нерозголошення (NDA). Деякі намагалися уточнити значення цих положень через чат служби підтримки, але без особливого успіху.

Через обурення в соціальних мережах компанія вимушена була пояснити, що означає її угода з користувачами. Ба більше -- в самій угоді (в її оновленій версії від 18 червня), аби уникнути різночитань, з'явилось додаткове уточнення: "Ваш контент є вашим контентом -- ви володієте ним, а ми ні". Окрім того, компанія повідомила, що користувачі можуть відмовитися від використання їхніх даних в аналітиці Adobe, та підкреслила: "Ми не використовуватимемо ваш вміст для навчання генеративних моделей штучного інтелекту, за винятком вмісту, який ви вибрали для розміщення на маркетплейсі Adobe Stock, і таке використання регулюється окремою угодою учасника Adobe Stock".

Nvidia та Runway також використовують користувацький контент для тренування свого штучного інтелекту. У цьому випадку йдеться про відео з YouTube.

Використовуються не тільки текстові та графічні матеріали для навчання штучного інтелекту. Компанії, що створюють відеогенератори, також часто вдаються до несанкціонованого використання доступного контенту, перетворюючи його на ресурс для тренування своїх ШІ-моделей, часто без офіційного дозволу.

Лише за кілька тижнів літа увагу привернули компанії Runway та Nvidia. Runway спеціалізується на розробці інструментів штучного інтелекту для генерації відео на основі текстових підказок. Nvidia, відома як лідер на ринку графічних чипів, також вирішила зосередитися на створенні систем штучного інтелекту. Завдяки витокам документів, журналісти 404media змогли дізнатися про методи обох компаній щодо використання відео з інтернету для навчання їхніх ШІ моделей. Runway зібрала тисячі відео та фільмів з піратських сайтів для тренування своїх моделей. Водночас Nvidia реалізувала настільки масштабну задачу збору даних, що її технічні можливості дозволяли щодня завантажувати з YouTube відео загальною тривалістю до 80 років. Крім того, компанія використовувала дані з Netflix для цієї ж мети.

Журналісти намагалися з'ясувати в Google, власника YouTube, його ставлення до практик ШІ-компаній, але керівництво відеохостингу лише повторило свою весняну позицію: використання контенту з YouTube для навчання нейромереж є порушенням умов сервісу. Водночас, Google не зробив жодних нових заяв щодо дій Runway та Nvidia, і не повідомив про припинення доступу цих компаній до своїх відео.

Чи реально убезпечити дані від штучного інтелекту?

Відчайдушні пошуки даних для навчання ШІ-моделей призводять до змін у політиках конфіденційності (наприклад, у Google чи Snap), автоматичних змін налаштувань (як у Twitter (X)), а іноді й до скандалів, як у випадку з Adobe. Запаси публічних даних для штучного інтелекту вичерпуються, що спричиняє використання синтетичних або "фейкових" даних для навчання ШІ. Якщо ви ще не зрозуміли, то ось що пропонують розробники ШІ: оскільки реальні дані, створені людством, вичерпуються (орієнтовно до 2028 року), ШІ може самостійно генерувати дані й навчатися на них. Однак деякі дослідники застерігають, що навчання на синтетичних даних може призводити до помилок, тому масове використання таких даних поки не запроваджено.

Соціальні платформи стали провідними володарями "палива" для штучного інтелекту завдяки величезним обсягам користувацьких даних, які постійно поповнюються самими юзерами через активність у мережах, розміщення фотографій, написання постів, поширення контенту та додавання "лайків". Ця перевага може стати ключовою конкурентною перевагою для майбутніх моделей ШІ, які розробляють такі гіганти, як Google, Twitter (X) і Meta.

Наразі дані європейських користувачів частково захищені GDPR, тому їм більше пощастило в боротьбі за право володіння їхніми даними. За умови відсутності у США федерального закону про конфіденційність техногіганти поспішають скористатися своєю перевагою у володінні великими обсягами даних. Користувачам на свій захист залишається мінімізувати дані про себе, доступні в соціальних мережах. Проте ця порада є радше засобом для заспокоєння, а не способом вирішення проблеми. Адже жоден юзер не застрахований від того, що його дані стануть відомі чатботу і той не скористається ними в зручний момент. Наочним прикладом цієї ситуації стала історія з журналістом Business Insider Робом Прайсом, мобільний телефон якого чатбот MetaAI раптом став розсилати користувачам з Південної Америки -- як його, штучного інтелекту, власний. І користувачі були дещо ображені на Прайса за те, що він не хотів генерувати їм картинки чи відповідати на запитання. Яким чином чатбот вирішив, що телефон журналіста, який пише про технології, тепер є телефонним номером самого чатбота, Meta не пояснила, туманно відповівши, що ШІ навчається на даних з мережі (наприклад, на статтях Business Insider, де вказаний номер їхнього журналіста).

Ще одна захоплива історія пов’язана з новим інструментом ChatGPT, зокрема його розширеним голосовим режимом, який несподівано почав відтворювати голос одного з тестувальників. Хоча технологія ще не дійшла до того рівня, щоб імітувати голос користувача (уявіть собі, як це було б моторошно, чути відповіді на свої запитання своїм власним голосом), можливість помилок залишається. В OpenAI теоретично є засоби захисту від таких ситуацій. Проте звинувачення від Скарлетт Йоганссон у використанні її голосу без дозволу в голосовому режимі ChatGPT вже викликали скандал. Компанія, звичайно, заперечила навмисне використання голосу, схожого на голос акторки у фільмі "Вона", де Йоганссон озвучила операційну систему. Однак це вже вдруге, коли OpenAI стикається з ситуацією, коли дані користувачів (і навіть знаменитостей) можуть бути використані без їхньої згоди.

Загалом, ці історії демонструють, що ми все ще маємо обмежене розуміння функціонування інструментів штучного інтелекту. Вони також підкреслюють, як ці технології використовують і будуть використовувати наші дані.