- Google розробляє «TorchTPU», щоб зробити свої чіпи штучного інтелекту повністю сумісними з PyTorch та спростити міграцію з графічних процесорів Nvidia.
- Цей крок спрямований на перетворення TPU на основну альтернативу в хмарі та локальних середовищах, зменшуючи залежність від екосистеми CUDA від Nvidia.
- Google тісно співпрацює з Meta, відповідальним розробником PyTorch, і розглядає можливість використання частин стеку для створення відкритих кодів для пришвидшення їх впровадження.
- Покращена підтримка PyTorch може скоротити витрати та зменшити технічні бар'єри для підприємств, які хочуть диверсифікувати свою інфраструктуру штучного інтелекту.

Google непомітно змінює свою стратегія в гонці за обчислення штучного інтелектуПісля кількох років зосередження на власних ознаках, компанія тепер докладає серйозних зусиль для забезпечення безперебійної роботи своїх чіпів штучного інтелекту з PyTorch, інструментарієм з відкритим кодом, який став вибором за замовчуванням для більшості розробників штучного інтелекту в усьому світі.
В основі цього зрушення лежить проект, відомий всередині компанії як «TorchTPU», що має на меті скоротити розрив між тим, як побудовано апаратне забезпечення Google, і тим, як клієнти фактично створюють свої системи штучного інтелекту. Підвищивши підтримку PyTorch до першокласного статусу на своїх тензорних процесорах (TPU), Google прагне поступово зменшити величезна перевага, яку Nvidia створила завдяки своїй екосистемі програмного забезпечення CUDA.
Google перетворює технологію TPU на серйозного конкурента для графічних процесорів Nvidia
ТПУ від Google вже давно позиціонуються як високопродуктивні чіпи, адаптовані для робочих навантажень штучного інтелекту, але вони не зрівнялися з повсюдністю графічних процесорів Nvidia. Одна з ключових причин полягає в тому, що Nvidia витратила роки на те, щоб PyTorch працював виключно добре на своєму обладнанні, тоді як Google зосереджувався переважно на власних інструментах та внутрішніх робочих процесах.
У Alphabet TPU стали критично важливий двигун зростання для Google CloudПродаж доступу до цих чіпів через свою хмарну платформу зараз є центральною частиною того, як Google прагне довести інвесторам, що її інвестиції в штучний інтелект можуть перетворитися на відчутний дохід, а не лише на престиж досліджень чи експериментальні продукти.
Однак саме лише апаратне забезпечення не переконує розробників. Підприємства, які розглядають TPU, неодноразово повідомляли Google, що сумісність програмного забезпечення була каменем спотиканнякоманди, які значною мірою стандартизували PyTorch, не хочуть перепроектовувати свій код або перенавчати персонал лише для того, щоб випробувати новий чіп.
Ось тут і з'являється TorchTPU. Ініціатива покликана створити враження, що TPU, з точки зору розробника, такий же простий у використанні з PyTorch, як і сучасні графічні процесори NvidiaМета полягає в тому, щоб існуючі моделі та конвеєри PyTorch можна було перенести з мінімальними змінами, таким чином вартість та ризик експериментів з TPU різко знизилися.
Речник Google Cloud уникав заглиблення в технічні деталі, але підтвердив, що головна мета полягає в тому, щоб надати клієнтам набагато більша гнучкість у тому, як вони виконують робочі навантаження зі штучним інтелектом, незалежно від того, яке обладнання вони оберуть під ним.
Що TorchTPU насправді змінює для розробників PyTorch
PyTorch, спочатку створений та просуваний компанією Meta, став де-факто стандартна основа для створення сучасних систем ШІБільшість інженерів у Кремнієвій долині та за її межами не пишуть вручну ядра для чіпів Nvidia, AMD або Google; натомість вони покладаються на PyTorch та подібні фреймворки, які надають шари попередньо зібраних компонентів та навчальних утиліт.
З моменту свого випуску в 2016 році зростання PyTorch було тісно пов'язане з CUDA та навколишні бібліотеки, програмний стек, який багато аналітиків з Уолл-стріт вважають найважливішим стратегічним активом Nvidia. Інженери Nvidia доклали значних зусиль, щоб забезпечити максимальну ефективність роботи PyTorch на їхніх графічних процесорах, що зробило цю пару вибором за замовчуванням для навчання та розгортання великомасштабних моделей штучного інтелекту.
Google, навпаки, роками підтримував Jax, ще один програмний фреймворк, який особливо підтримували його власні дослідницькі та розробницькі команди. TPU спиралися на рівень компілятора під назвою XLA ефективно запускати код на основі Jax, і значна частина внутрішнього стеку програмного забезпечення для штучного інтелекту Google та оптимізації продуктивності були побудовані навколо цієї комбінації.
В результаті спостерігається зростання невідповідності між як сам Google використовує свої чіпи і як більшість зовнішніх клієнтів воліють працювати. Багато підприємств майже повністю стандартизувалися на PyTorch, а це означає, що перехід на TPU зазвичай означав революційні зміни в інструментах, коді та навичках розробників.
З TorchTPU Google намагається усунути цю перешкоду. Проєкт має на меті забезпечити повноцінна підтримка PyTorch на TPU, тож компанії можуть продовжувати покладатися на знайомі бібліотеки, цикли навчання та шаблони розгортання, змінюючи лише базову апаратну ціль. Це може різко скоротити як інженерні зусилля, так і криву навчання для команд, які хочуть оцінити продуктивність TPU або переваги у вартості.
Більше ресурсів, відкритий код та глибша відданість
За словами людей, знайомих з ініціативою, TorchTPU — це не просто черговий побічний експеримент. На відміну від деяких попередніх спроб змусити PyTorch працювати на TPU, Google тепер призначив більше організаційної уваги, бюджету та стратегічної важливості до цих зусиль, розглядаючи їх як центральний стовп своєї дорожньої карти розвитку інфраструктури штучного інтелекту, а не як нішевий проект сумісності.
Одним з найважливіших елементів, що розглядаються, є частини програмного стеку з відкритим вихідним кодом за TorchTPU. Випускаючи ключові компоненти для спільноти, Google сподівається пришвидшити впровадження, залучити зовнішніх учасників та зміцнити довіру серед великих клієнтів, які прагнуть прозорості та довгострокової стабільності на своїх платформах штучного інтелекту.
Така більш відкрита позиція також має на меті заспокоїти компанії, які вважали підтримку TPU занадто тісно пов'язаною з внутрішнім способом роботи Google. Надання зовнішнім розробникам можливості перевіряти, розширювати та налагоджувати компоненти TorchTPU може зробити TPU менше схожі на власний острів і радше як громадянин першого класу в ширшій екосистемі PyTorch.
Для підприємств це має практичне значення. Якщо TorchTPU досягне успіху, це може значно... знизити вартість міграції з графічних процесорів Nvidia на технологію Google TPU, що робить диверсифікацію обчислювальної інфраструктури більш можливою без багаторічного переписування програмного забезпечення.
Клієнти неодноразово повідомляли Google, що історична вимога переходу на Jax була головним стримуючим фактором. PyTorch вже домінує серед розробників штучного інтелекту, а на швидкозмінних ринках мало хто з організацій готовий призупинити розробку продуктів, поки їхні команди... переосмислити навколо нової структури лише для доступу до альтернативного обладнання.
Від внутрішнього обладнання до широкого асортименту для підприємств
Протягом тривалого часу Alphabet зберігав більшу частину своєї ємності TPU для внутрішнє використання всередині Google, що забезпечує пошук, переклад, рекомендаційні системи та ранні дослідження штучного інтелекту. Ця позиція почала змінюватися у 2022 році, коли підрозділ хмарних обчислень отримав більше повноважень щодо виробництва та продажу TPU.
Відтоді доступність TPU через Google Cloud значно зрісОскільки інтерес підприємств до штучного інтелекту зріс, Google позиціонує свої чіпи як спосіб, що дозволяє клієнтам використовувати високопродуктивні обчислення без необхідності керувати власними тісно пов'язаними кластерами графічних процесорів.
Зовсім недавно Google пішов ще далі, продаж TPU безпосередньо для розгортання у власних центрах обробки даних клієнтів, а не лише через публічну хмару. Цей перехід дозволяє більшим організаціям зі суворими нормативними вимогами або вимогами до затримки інтегрувати TPU у свою локальну інфраструктуру, водночас отримуючи переваги від апаратного дорожньої карти Google.
Це розширення також змінює внутрішні пріоритети Google. Компанії потрібні потужності TPU як для запускати власні продукти штучного інтелекту— від чат-бота Gemini до функцій пошуку на базі штучного інтелекту — та для обслуговування зовнішніх клієнтів Google Cloud, включаючи відомі компанії зі штучного інтелекту, такі як Anthropic, які покладаються на орендовані потужності TPU.
Щоб координувати все це, Google підвищив лідерство в інфраструктурі штучного інтелекту: керівник-ветеран Амін Вахдат був призначений керівником інфраструктури штучного інтелекту та тепер підпорядковується безпосередньо генеральному директору Сундар ПічаїЦей підпорядкований підкреслює, наскільки центральним став апаратний та програмний стек для ширших амбіцій Google у сфері штучного інтелекту.
Партнерство з Meta для посилення PyTorch на TPU
Google не самотужки займається проектом TorchTPU. За словами людей, обізнаних з переговорами, компанія тісно співпрацює з Мета, творець і розпорядник PyTorch, щоб пришвидшити підтримку TPU та узгодити технічні напрямки, що вигідні для обох партнерів.
Обговорення між компаніями включають домовленості, які нададуть Меті доступ до більшої ємності TPUПовідомлялося, що попередні пропозиції окреслювали це як керовані послуги: Google розгортатиме свої чіпи в середовищах, де Meta зможе запускати власне програмне забезпечення та моделі, а Google візьме на себе значну частину операційних витрат.
Для Meta забезпечення ефективної роботи PyTorch на ширшому спектрі обладнання є стратегічно важливим. Компанія має чіткий стимул зменшити витрати на логічний висновок та диверсифікувати виробництво, відмовившись від виключної залежності від графічних процесорів Nvidia, як для зменшення власних витрат, так і для зміцнення своєї переговорної позиції під час ведення переговорів щодо майбутніх закупівель мікросхем.
Співпрацюючи з Google, Meta може допомогти забезпечити, щоб PyTorch залишався апаратно-незалежний та широко оптимізований, замість того, щоб розглядатися як тісно пов'язаний з екосистемою одного постачальника. Це, у свою чергу, зміцнює статус PyTorch як стандарту спільноти та зберігає привабливість фреймворку як для дослідників, так і для підприємств.
Мета поки що відмовилася публічно коментувати ці конкретні домовленості, але збіг інтересів очевиднийГігант соціальних мереж та штучного інтелекту хоче використовувати варіанти, окрім Nvidia, тоді як Google хоче, щоб PyTorch був власним на його TPU, щоб більше клієнтів були готові його спробувати.
Зменшення переваги Nvidia в CUDA
Домінування Nvidia у сфері штучного інтелекту полягає не лише у постачанні потужних графічних процесорів. Протягом багатьох років компанія створила великий програмний стек, заснований на PyTorch, який глибоко інтегрований у такі фреймворки, як PyTorch. Це поєднання апаратного та програмного забезпечення стало платформою для навчання та логічного висновку за замовчуванням для передових моделей штучного інтелекту.
Через цю тісну інтеграцію багато організацій бачать відхід від Nvidia як ризикований та дорогийКодові бази, робочі процеси та експертиза персоналу налаштовані на CUDA, що робить альтернативні чіпи потенційним джерелом тертя, навіть якщо вони обіцяють кращу ціну або продуктивність на папері.
Зусилля Google з розробкою TorchTPU – це пряма спроба підірвати цю перевагу. Якщо PyTorch зможе працювати на TPU з таким самим рівнем легкості та налаштування продуктивності, як і на графічних процесорах Nvidia, підприємства виграють. надійна альтернатива для великих робочих навантажень штучного інтелектуНа ринку, де попит на обчислення на основі штучного інтелекту стрімко зростає, а обмеження поставок є поширеним явищем, наявність ще одного серйозного варіанту може бути дуже привабливою.
Водночас рішення Google розглянути можливість відкритого коду ключових елементів стеку TorchTPU сигналізує про підхід, відмінний від більш вертикально інтегрованого стилю Nvidia. Розділяючи більше базового програмного забезпечення, Google прагне… зміцнити довіру серед розробників, які цінують прозорість та портативність.
Ніщо з цього не гарантує, що TPU замінять графічні процесори, але це змінює розрахунки. Замість того, щоб вибирати між зрілою екосистемою Nvidia та альтернативою, яка вимагає повної міграції інструментів, клієнти можуть зважити... продуктивність, вартість та доступність залишаючись у знайомому середовищі PyTorch.
Як у хмарних, так і в локальних розгортаннях, цей перехід може спростити для організацій комбінуйте постачальників обладнання з часом, а не прив’язувати свої дорожні карти розвитку ШІ до одного постачальника за замовчуванням.
Оскільки Google поглиблює свою відданість PyTorch через TorchTPU, розширює доступ підприємств до TPU та посилює співпрацю з Meta, конкурентне середовище навколо інфраструктури штучного інтелекту стає дедалі більш мінливим. Лідерство Nvidia, побудоване на роках використання апаратного забезпечення та інтеграції CUDA, все ще є суттєвим, але клієнти тепер бачать більш реалістичні шляхи диверсифікації місць виконання своїх робочих навантажень зі штучним інтелектом та вартості базових обчислень.