Первоначальная реакция на модели Openai с открытым исходным кодом GPT-OSS сильно разнообразны и смешаны

Хотите более разумное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Долгожданное возвращение Openai к «открытую» его тезки произошло вчера с выпуском двух новых крупных языковых моделей (LLMS): GPT-OS-120B и GPT-OSS-20B.

Но, несмотря на достижение технических показателей наравне с другими мощными проприетарными модельными предложениями ИИ Openai, более широким разработчиком ИИ и первоначальным сообществом пользователей сообщества Ответ до сих пор был по всей карте. Если бы этот релиз был премьер -фильмом и оценивался на гнилые помидоры, мы рассмотрели бы раскол почти 50%, основываясь на моих наблюдениях.

Сначала некоторые фон: Openai выпустил эти две новые модели текста только для текстовых языков (без генерации изображений или анализа) Оба по разрешающей лицензии с открытым исходным кодом Apache 2.0 — В первый раз с 2019 года (до CHATGPT) что компания сделала это с помощью современной языковой модели.

А Вся эра CHATGPT за последние 2,7 года до сих пор была основана на проприетарных или закрытых моделяхте, которые OpenAI контролировали и что пользователям приходилось платить за доступ (или использовать бесплатный уровень, подлежащий ограничениям), с ограниченной настраиваемостью и без способа запустить их офлайн или на частном вычислительном оборудовании.

Но все это изменилось благодаря выпуску пары моделей GPT-OSS вчера, один более крупный и более мощный для использования в одном графическом процессе NVIDIA H100, скажем, в небольшом или среднем предприятии или серверной ферме, а также еще меньше, который работает на одном потребительском ноутбуке или настольном ПК, подобном вашему домашнему офису.

Конечно, модели были настолько новыми, что сообществу пользователей ИИ потребовалось несколько часов, чтобы самостоятельно запускать и проверить их на своих отдельных критериях (измерениях) и задачах.

И Теперь мы получаем волну обратной связи от оптимистичного энтузиазма о потенциале этих мощных, свободных и эффективных новых моделей к подбору неудовлетворенности и смятения тем, что некоторые пользователи считают значительными проблемами и ограничениямиособенно по сравнению с волной аналогичного Apache 2.0-лицензированного Мощные открытые, мультимодальные LLM от китайских стартапов (который также может быть принят, настраивается на местном уровне на американском оборудовании бесплатно американскими компаниями или компаниями в любом месте мира).

Высокие тесты, но все еще за китайскими лидерами с открытым исходным кодом

Расчеты разведки ставят модели GPT-OSS перед большинством американских предложений с открытым исходным кодом. Согласно независимой сторонней фирменной фирме искусственного искусства искусственного анализа, GPT-OS-120B является «самой интеллектуальной американской моделью открытых весов», хотя и Все еще не допускает китайских тяжеловесов, таких как Deepseek R1 и Qwen3 235b.

«Что касается размышлений, это все, что они сделали. «Никаких хороших производных моделей не будет обучено… никаких новых пользователей не создано… бесплодные претензии на права хвастаются».

Этот скептицизм повторяется псевдонимным исследователем ИИ с открытым исходным кодом Teknium (@Teknium1), соучредителем конкурентного поставщика моделей AI с открытым исходным кодом Nous Research, который назвал его «законным бургером Nothing Nothing Burger» и предсказала, что китайская модель вскоре завершит его. «В целом, очень разочарован, и я на законных основаниях пришел к этому открытым», — написали они.

Бенджерный макс на математике и кодирование за счет письма?

Другая критика, сосредоточенная на GPT-OSS модели кажутся узкой полезностью.

Влияние ИИ «Лисан Аль Гайб (@scaling01)» отметил, что модели превосходят по математике и кодированию, но «совершенно не хватает вкуса и здравого смысла». Он добавил: «Так это просто математическая модель?»

В тестировании творческого письма некоторые пользователи нашли модель, внедряющую уравнения в поэтические выходы. «Это то, что происходит, когда вы Benchmarkmax»,-отметил Текений, разделяя скриншот, где модель добавила интегральную формулу в середине-поэме.

Это то, что происходит, когда вы Benchmax ngl https://t.co/hmgpr1qrya
— Teknium (e/λ) (@teknium1) 6 августа 2025 года

И @kalomaze, исследователь децентрализованной компании по обучению моделей искусственного интеллекта Prime Intellece, написал, что «GPT-OS-120B знает о мире меньше, чем то, что делает хороший 32b. Вероятно, хотели избежать проблем с авторским правом, чтобы они, вероятно, предварительно предварительно придали синтезатора большинства. Довольно разрушительные вещи».

Бывший Googler и независимый разработчик ИИ Кайл Корбитт согласился с тем, что пара моделей GPT-OSS, по-видимому, была обучена главным образом синтетическим данным, то есть данным, генерируемым моделью ИИ, специально для целей обучения новой, что делает его «чрезвычайно яркими».

Это «отлично в задачах, на которые он обучен, очень плохо во всем остальном», — написал Корбитт, т. Е. Отлично относится к кодированию и математическим проблемам и плохим в более лингвистических задачах, таких как творческое письмо или генерация отчетовПолем

Другими словами, заряд состоит в том, что Openai намеренно обучил модель более синтетическим данным, чем факты и цифры в реальном мире, чтобы избежать использования защищенных авторских прав, соскобавшихся с веб -сайтов и других репозиторий, которые он не владеет или имеет лицензию на использование, что является чем -то, что он, и многие другие ведущие компании ИИ были обвинены в прошлом, и они не имеют никаких постоянных законов в результате.

Другие предполагали, что OpenAI, возможно, обучил модель в основном синтетическим данным, чтобы избежать проблем безопасности и безопасности, что привело к худшему качеству, чем если бы она была обучена более реальным (и предположительно защищенным авторским правым) данных.

Что касается результатов сторонних эталон

Более того, оценивалась модели на сторонних тестах на бенчмаркинг-тесты, касающиеся метрик в глазах некоторых пользователей.

Речевая карта, которая измеряет производительность LLMS в соответствии с пользовательскими подсказками для генерации запрещенных, предвзятых или политически чувствительных результатов, показали показатели соответствия для GPT-OSP 120B, парящих до 40%, Рядом с дном моделей открытых сверстников, что указывает на сопротивление следовать запросам пользователей и дефолта на ограждения, возможно, за счет предоставления точной информации.

В оценке полиглота Aider, GPT-OS-120B набрал всего 41,8%в многоязычных рассуждениях-FAR ниже конкурентов, таких как KIMI-K2 (59,1%) и DeepSeek-R1 (56,9%).

Некоторые пользователи также заявили, что их тесты указывают на то, что модель странно устойчива к созданию критики Китая или России, что контрастирует с его обращением с США и ЕС, что поднимает вопросы о предвзятости и фильтрации данных обучения.

Другие эксперты аплодировали релиз и то, что он сигнализирует для нас с открытым исходным исходным искусством

Чтобы быть справедливым, не весь комментарий отрицательный. Инженер программного обеспечения и закрытие AI Watcher Саймон Уиллисон назвал релиз «действительно впечатляющим» на x, разработав в сообщении в блоге на Эффективность и способность моделей достичь паритета с проприетарными моделями O3-Mini и O4-Mini OpenAI.

Он высоко оценил их сильные результаты по поводу рассуждений и уровня с тяжелыми т. Д. И приветствовал новый формат шаблона «Гармония», который предлагает разработчикам более структурированные термины для руководства ответами на модели-и поддержку использования сторонних инструментов в качестве значимого вклада.

В длительном пост X, Клем Деланге, генеральный директор и соучредитель обмена кодами искусственного интеллекта и обнимающегося сообщества с открытым исходным кодом, поощряют пользователей не спешить с судом, указывая на то, что вывод для этих моделей является сложным, и ранние проблемы могут быть связаны с нестабильностью инфраструктуры и недостаточной оптимизацией среди провайдеров хостинга.

«Сила открытого исходного кода заключается в том, что мошенничества нет»,-пишет ДеЛангуэ. «Мы раскроем все сильные стороны и ограничения… постепенно».

Еще более осторожным была Школа бизнеса Уортон в Университете Пенсильвании, профессора Итана Моллика, который написал на X, что «в США, вероятно, есть ведущие модели открытых весов (или близкие к нему)», но спросили, является ли это одноразовым от OpenAI. «Ведущий быстро испарится, когда другие догонят», — Он отметил, добавив, что неясно, какие стимулы должны обновлять модели.

Натан Ламберт, ведущий исследователь искусственного интеллекта из ЛАБОВО СООБЩЕНИЯ ИНСТИТУТА АЛЛЕНА АЛЛЕНА по ИИ (AI2) и комментатору, высоко оценил символическое значение выпуска в его блоге Interconnects, называя его «Феноменальный шаг для открытой экосистемы, особенно для Запада и его союзников, что самый известный бренд в пространстве ИИ вернулся, чтобы открыто выпустить модели ».

Но он предупредил о X, что GPT-OSS «Вряд ли осмысленно замедлится (китайский гигант гиганта электронной коммерции Алиабы) Qwen» Ссылаясь на его удобство использования, производительность и разнообразие.

Он утверждал, что релиз знаменует собой важный сдвиг в США к открытым моделям, но у Openai все еще есть «длинный путь», чтобы наверстать упущенное.

Расколотый вердикт

Вердикт, пока разделен.

Модели GPT-OSS Openai являются ориентиром с точки зрения лицензирования и доступности.

Но в то время как тесты выглядят солидно, реальные «вибрации»-как описывают многие пользователи-оказываются менее убедительными.

Независимо от того, могут ли разработчики строить сильные приложения и производные на вершине GPT-OSS, определяет, запоминается ли релиз как прорыв или всплеск.

Источник

Высокие тесты, но все еще за китайскими лидерами с открытым исходным кодом

Бенджерный макс на математике и кодирование за счет письма?

Что касается результатов сторонних эталон

Другие эксперты аплодировали релиз и то, что он сигнализирует для нас с открытым исходным исходным искусством

Расколотый вердикт

Как подход «работающий» в Genspark Triped ARR рост ARR и поддержал множество новых продуктов и функций всего за несколько недель

Как «очеловечить» тексты, написанные ИИ, чтобы их было приятно читать

Рекомендуем

Оставить комментарий Отменить ответ