26.02.2024

Продукт Sora от OpenAI охлаждает китайские мечты об ИИ

Коко Фэн, Бен Цзян

Появление Sora заставило китайскую индустрию ИИ вновь задуматься о том, как ей наверстать упущенное в условиях усиливающихся санкций США.

Китай представлял себя доминирующим в гонке ИИ за счет обработки огромных массивов данных, но теперь качество обучающих данных оказалось критически важным.

Журнал «Наука и техника» - Новости рубрики «Материалы и технологии»

Модель превращения текста в видео Sora от OpenAI открыла новый фронт в войне ИИ, что заставило Китай задуматься о том, как наверстать упущенное. Иллюстрация: Лау Ка-Куен

Недавно выпущенная компанией OpenAI модель превращения текста в видео Sora стала новым сигналом для Китая о его отставании от ведущих мировых технологий искусственного интеллекта (ИИ), подняв вопросы о том, почему у страны нет эквивалентного продукта, что стало продолжением размышлений местных исследователей и инвесторов после запуска ChatGPT в 2022 году.

Всего несколько лет назад Китай предполагал, что в конечном итоге он будет доминировать в глобальной гонке ИИ, используя огромные массивы данных страны для разработки современных приложений для таких функций, как распознавание лиц. Последние разработки в области генеративного ИИ, который использует большие модели для создания контента, такого как текст, изображения и видео, изменили расчеты, заставив Китай снова выглядеть отстающим.

Sora, запущенная 16 февраля, переносит битву ИИ в сферу генерации видео как раз в тот момент, когда Китай сталкивается с большими проблемами из-за отсутствия доступа к ключевым инструментам, таким как передовые графические процессоры, разработанные Nvidia, ведущим разработчиком ИИ-чипов, из-за растущих экспортных ограничений США. Лучшие игроки в области ИИ в стране уже на несколько лет отстают от своих американских коллег в области генеративного ИИ - области, в которой самопровозглашенная Пекином модель управления интернетом выглядит как обуза.

Чжоу Хунъи, основатель китайской компании 360 Security Technology, занимающейся интернет-безопасностью, которая присоединилась к китайской гонке за запуск своей собственной многоязычной модели в стиле ChatGPT, сказал, что появление Sora было похоже на «бочку холодной воды, вылитую на голову Китая», сообщает в пятницу китайское СМИ Yicai. «Это охлаждает головы многих людей, заставляя нас видеть отставание от лидеров за рубежом», - добавил он.

Доходы от генеративного ИИ будут расти (млрд долл. США)

На этой неделе в ответ на появление Sora Пекин попросил свои самые надежные государственные предприятия взять на себя инициативу в области ИИ. Комиссия Госсовета по надзору и управлению государственными активами в понедельник призвала компании, находящиеся под прямым контролем центрального правительства, «учесть глубокие изменения, вызванные искусственным интеллектом». Десять из этих компаний были назначены лидерами по продвижению ИИ, но комиссия не назвала имена выбранных компаний.

Се Сайнин, доцент кафедры информатики в Курантском институте математических наук Нью-Йоркского университета, отрицает свою причастность к разработке Sora и отмечает важность таланта, данных и вычислительных мощностей. В сообщении в социальных сетях Се спросил, готов ли Китай к использованию Sora, заявив, что страна должна быть уверена, что технология «не будет использована в качестве инструмента для наживы и манипулирования некоторыми людьми или группами».

В настоящее время доступ к Sora ограничен. В отличие от некоторых предыдущих моделей OpenAI, она не имеет открытого исходного кода, и только небольшое количество людей имеет доступ к пробной версии модели.

В материковом Китае национальная администрация киберпространства требует, чтобы все общедоступные большие языковые модели (LLM) были зарегистрированы в этом органе. OpenAI не предоставляет свои услуги непосредственно на материковой части Китая или в Гонконге, равно как и Google не предоставляет свой продукт Gemini AI на этих рынках. В Гонконге доступен продукт Copilot от Microsoft, который использует модели GPT от OpenAI.

Отсутствие иностранных игроков на материке привело к тому, что несколько местных технологических гигантов начали борьбу за позиции на переполненном рынке, насчитывающем более 200 LLM. Китайский поисковый гигант Baidu, гигант социальных сетей Tencent Holdings и король электронной коммерции Alibaba Group Holding, владеющий газетой South China Morning Post, представили свои собственные LLM.

Однако немногие из них могут сравниться с Sora, в том числе и потому, что пока не используют новую архитектуру Diffusion Transformer (DiT).

ByteDance, пекинский владелец TikTok, заявил, что его собственный инструмент управления видео Boximator, используемый для создания видео, все еще находится в зачаточном состоянии и не готов к массовому выпуску. «Он все еще сильно отстает от ведущих моделей генерации видео по качеству изображения, точности и продолжительности».

Однако некоторые представители индустрии считают, что более актуальной проблемой является не сравнение с Sora, а получение доступа к модели OpenAI. Пекинская компания Sinodata заявила, что станет одной из первых компаний, подавших заявку на подписку на API Sora, как только инструмент преобразования текста в видео станет доступен на Azure, платформе облачных вычислений Microsoft, которая является крупнейшим спонсором OpenAI.

В США, однако, законодатели уже рассматривают способы ограничения доступа Китая к американским облачным сервисам ИИ.

Тем временем лондонский производитель Stability AI выпустил свою модель преобразования текста в изображение Stable Diffusion 3, которая также использует DiT, поскольку эта архитектура может стать основной для создания генеративного ИИ после популярности Sora. Один из китайских разработчиков, отказавшийся назвать свое имя, сказал, что вероятный путь для китайских ИИ-инженеров - «сначала декодировать Sora и обучить ее на собственных данных, чтобы выпустить аналогичный продукт».

Сюй Лян, предприниматель в области ИИ из Ханчжоу (восточная провинция Чжэцзян), считает, что до появления подобных сервисов в Китае пройдет не много времени. «Уже в ближайшие один-два месяца на китайском рынке появятся модели, похожие на Sora, а в ближайшие полгода их станет еще больше», - сказал он. Однако Сюй отметил, что между китайскими продуктами и Sora все еще может существовать незначительный разрыв.

Ван Шуйи, профессор Тяньцзиньского университета (TJNU), специализирующийся на искусственном интеллекте и машинном обучении, говорит, что опыт разработки LLM за последний год позволил китайским компаниям, работающим в сфере больших технологий, наработать ноу-хау в этой области и запастись необходимым оборудованием, что даст им возможность выпустить продукты, подобные Sora, в течение ближайших шести месяцев.

Запуск Sora вызвал спекуляции о секрете ее впечатляющей производительности. Кси, сотрудник Нью-Йоркского университета и один из двух разработчиков DiT, написал в своем твиттере, что «данные, вероятно, являются самым важным фактором успеха Sora». По его оценкам, у Sora может быть около 3 миллиардов параметров.

«Если это правда, то такой размер модели не является неоправданным», - написал он. «Это может говорить о том, что для обучения модели Sora может потребоваться не так много GPU, как можно было бы предположить - я ожидаю очень быстрых последующих итераций».

За несколько месяцев до выхода Sora группа исследователей запустила VBench, бенчмарк для моделей генерации видео, предназначенный для оценки производительности моделей Runway Gen-2 и Pika. Среди 16 измерений Gen-2 выделился в таких областях, как качество изображения и эстетическое качество, но оказался слаб в динамическом диапазоне и стиле оформления. Pika, сооснователем которой является китайский аспирант Го Вэньцзин из Стэнфордского университета, лучше всего справляется с однородностью фона и временным мерцанием, но нуждается в улучшении качества изображения.

Команда VBench, состоящая из исследователей из сингапурского Наньянского технологического университета и Шанхайской лаборатории искусственного интеллекта в Китае, обнаружила, что Sora превосходит другие модели по общему качеству видео, основываясь на демонстрациях, предоставленных OpenAI. Информация о том, как модель преобразует текстовые подсказки в видео, ограничена.

Председатель совета директоров и генеральный директор компании Baidu Робин Ли Яньхун рассказывает о боте компании Ernie во время конференции Baidu World в Пекине 17 октября 2023 года. Фото: Bloomberg

Лу Янься, директор по исследованиям развивающихся технологий IDC China, говорит, что такие технологические гиганты, как Baidu, Alibaba и Tencent, будут одними из первых, кто развернет подобные услуги в стране. По ее словам, местные игроки на рынке ИИ - iFlyTek, SenseTime и Hikvision - также будут участвовать в гонке, на которую наложены санкции Вашингтона.

Но Китаю все еще предстоит нелегкая борьба, поскольку технологический рынок страны становится все более отгороженным от мира с точки зрения капитала, оборудования, данных и даже людей, считают аналитики.

Разрыв в рыночной стоимости между ведущими китайскими технологическими компаниями и такими американскими, как Microsoft, Google и Nvidia, значительно увеличился за последние годы, после того как Пекин решил поставить на колени своих технологических гигантов во имя сдерживания «нерациональной экспансии капитала».

И если раньше считалось, что Китай имеет преимущество в количестве данных, то теперь, по словам Лу, страна сталкивается с нехваткой качественных данных, необходимых для обучения этих новых моделей, что усугубляет проблемы, связанные с ограниченным доступом к передовым чипам. Еще одной проблемой, по словам Лу, является нехватка талантливых специалистов, поскольку лучшим и талантливым специалистам в области ИИ в стране зачастую проще работать на ведущих игроков в США.

В OpenAI, например, технологические специалисты с образованием из Китая составляют ключевую группу. Среди 1 677 членов OpenAI, зарегистрированных в LinkedIn, 23 человека учились в китайском Университете Цинхуа - это девятое по популярности высшее учебное заведение среди сотрудников стартапа, опередившее Кембриджский и Йельский университеты.

Стэнфордский университет, Калифорнийский университет в Беркли и Массачусетский технологический институт занимают три первых места среди работников OpenAI: 88, 80 и 59 сотрудников соответственно указали эти учебные заведения в своих профилях на LinkedIn.

Однако даже при наличии необходимых талантов эксперты сомневаются в том, насколько далеко сможет продвинуться китайский генеративный ИИ, столкнувшись с существующими ограничениями, связанными с торговой напряженностью между США и Китаем.

Компания Ping An Securities в своем отчете предупредила, что сохраняющиеся ограничения на экспорт полупроводников из США «могут ускорить становление отечественной индустрии чипов ИИ», но «отечественные альтернативы могут не оправдать ожиданий».

Вашингтон закрыл китайским компаниям доступ к самым передовым в мире полупроводниковым инструментам, введя ограничения на сопутствующие товары, включающие любые технологии американского происхождения. В октябре США вновь ужесточили эти ограничения, заблокировав доступ материка к графическим процессорам, которые Nvidia специально разработала для китайских клиентов в ответ на предыдущие ограничения.

Александр Харроуэлл, главный аналитик по передовым вычислениям технологической исследовательской и консультационной группы Omdia, отметил, что у Китая есть варианты подготовки магистров помимо GPU. «Вы можете использовать TPU [Tensor Processing Unit] от Google, Ascend от Huawei, Trainium от AWS или один из довольно многих продуктов стартапов», - сказал он.

Но замена GPU сопряжена с определенными затратами. «Чем дальше вы отходите от маршрута GPU, тем больше усилий вам придется потратить на разработку программного обеспечения и системное администрирование», - говорит Харроуэлл.

По словам предпринимателя из Ханчжоу Сюя, появятся возможности и для китайского рынка. «С публикацией технического отчета по Sora и появлением видеомоделей с открытым исходным кодом у китайских игроков появится материал, на котором они смогут учиться», - говорит он. Местные видеомодели будут лучше поддерживать китайский язык, добавил он.

Ванг из TJNU отметил, что в одном из демонстрационных видеороликов Sora показана сцена танцующего китайского дракона, что, по его мнению, является стереотипным изображением этого вида искусства. По его словам, многочисленные этнические группы, народные традиции, обычаи и географическое разнообразие Китая дают местным видеомоделям богатый материал, из которого можно черпать информацию, чтобы лучше ориентироваться на местных пользователей.

Ванг также не согласился с идеей о том, что между китайским и американским ИИ существует «непреодолимая пропасть».

«Предпочтут ли китайские компании просто следовать примеру и создавать подделки каждый раз, когда их американские коллеги предлагают новый продукт, или же им лучше поставить перед собой более серьезную цель - стремиться к безопасному искусственному интеллекту общего назначения?» - спрашивает Ванг.

Источник: scmp.com

Информация о последних событиях и достижениях в области науки, техники и технологий. При использовании материала необходима гиперссылка на ресурс

наука-техника.рф

. Все авторские права на изображения и тексты принадлежат их создателям. Если вы являетесь правообладателем и не согласны с размещением вашего материала на нашем сайте, пожалуйста, свяжитесь с нами по адресу

izd-naukatehnika@yandex.ru