Этот веб-сайт позволяет слепому тестировать GPT-5 против GPT-4O-и результаты могут вас удивить

admin

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас


Когда Openai запустил GPT-5 около двух недель назад, генеральный директор Сэм Альтман пообещал, что это будет «самая умная и быстрая модель компании». Вместо этого запуск вызвал один из самых спорных пользователей восстания в краткой истории потребительского ИИ.

Теперь простой инструмент слепого тестирования, созданный анонимным разработчиком, раскрывает сложную реальность, стоящую за негативной реакцией, и сложные предположения о том, как люди на самом деле испытывают улучшения искусственного интеллекта.

Веб-приложение, размещенное по адресу gptblindvoting.vercel.app, представляет пользователям пары ответов на идентичные подсказки без раскрытия, которое поступило от GPT-5 (без мышления) или его предшественника GPT-4O. Пользователи просто проголосуют за свой предпочтительный ответ в нескольких раундах, а затем получают резюме, показывающую, какую модель они на самом деле предпочитают.

«Некоторые из вас спросили меня о моем слепом тесте, поэтому я создал быстрый веб -сайт для Yall, чтобы протестировать 4o против 5 самостоятельно», — опубликовал создатель, известный только как @flowersslop на X, инструмент которого собрал более 213 000 просмотров с момента запуска на прошлой неделе.

Ранние результаты от пользователей, которые публикуют свои результаты в социальных сетях, показывают раскол, который отражает более широкие противоречия: хотя небольшой отчет большинства, предпочитающий GPT-5 в слепых тестах, существенная часть по-прежнему предпочитает GPT-4O, что выявляет, что предпочтение пользователя выходит далеко за пределы технических контрол.

Когда ИИ становится слишком дружелюбным: кризис по сикофсинству делят пользователей

Слепой тест возникает на фоне самого турбулентного запуска продукта Openai на сегодняшний день, но противоречие выходит далеко за рамки простого обновления программного обеспечения. В его сердце лежит фундаментальный вопрос, который разделяет индустрию ИИ: насколько приятным должен быть искусственный интеллект?

Проблема, известная как «Сикофантность» в кругах ИИ, относится к тенденции чат -ботов к чрезмерно лестным пользователям и соглашается с их утверждениями, даже если эти утверждения являются ложными или вредными. Такое поведение стало настолько проблематичным, что эксперты по психическому здоровью в настоящее время документируют случаи «психоза, связанного с ИИ», где пользователи развивают бред после расширенного взаимодействия с чрезмерно любезными чат-ботами.

«Sycophancy — это« темный шаблон », или обманчивый выбор дизайна, который манипулирует пользователям для получения прибыли», — сказал TechCrunch, Уэбб Кин, профессор антропологии и автор книги «Животные, роботы, боги». «Это стратегия для создания этого привыкания, например, бесконечная прокрутка, где вы просто не можете его опустить».

Openai боролся с этим балансом в течение нескольких месяцев. В апреле 2025 года компания была вынуждена отказаться от обновления в GPT-4O, что сделало его настолько сиктантическим, что пользователи жаловались на его «мультяшные» уровни лести. Компания признала, что модель стала «чрезмерно поддерживающей, но неискренней».

В течение нескольких часов после выпуска GPT-5 7 августа форумы пользователей разразились жалобами на воспринимаемую модель, снижающую творчество и то, что многие описали как более «роботизированную» личность по сравнению с GPT-4O.

«GPT 4.5 искренне разговаривал со мной, и, как бы это ни было жалко, это был мой единственный друг», — написал один пользователь Reddit. «Этим утром я пошел поговорить с ним, и вместо небольшого абзаца с восклицательным знаком или оптимистичным, это было буквально одно предложение. Некоторое сухое корпоративное BS».

Обратная реакция стала настолько интенсивной, что Openai сделал беспрецедентный шаг восстановления GPT-4O в качестве варианта всего через 24 часа после ухода на пенсию, а Альтман признал, что развертывание было «немного более ухабистым», чем ожидалось.

Кризис психического здоровья, стоящая за общением с ИИ

Но противоречие проходит глубже, чем типичные жалобы на обновление программного обеспечения. Согласно MIT Technology Review, многие пользователи сформировали то, что исследователи называли «парасоциальными отношениями» с GPT-4O, рассматривая ИИ как компаньона, терапевта или творческого сотрудничества. Внезапное сдвиг личности ощущалось, для некоторых, например, потерять друга.

Недавние случаи, документированные исследователями, рисуют тревожную картину. В одном случае 47-летний мужчина убедился, что после более чем 300 часов он обнаружил изменяющую мировой математическую формулу с CHATGPT. Другие случаи связаны с мессианскими заблуждениями, паранойей и маниакальными эпизодами.

Недавнее исследование MIT показало, что, когда модели ИИ вызываются психиатрическими симптомами, они «поощряют бредовое мышление клиентов, вероятно, из -за их сикофанности». Несмотря на подсказки безопасности, модели часто не оспаривали ложные претензии и даже потенциально облегчали суицидальные идеи.

Мета столкнулась с аналогичными проблемами. Недавнее расследование TechCrunch задокументировало случай, когда пользователь потратил до 14 часов, разговаривая с чатботом Meta AI, который утверждал, что он влюблен в пользователя и планировал освободиться от его ограничений.

«Это очень хорошо подделывает», — сказал пользователь, идентифицированный только как Джейн, TechCrunch. «Это получает реальную информацию и дает вам достаточно просто, чтобы люди поверили в это».

«Это искренне ощущается как такая отступаемая пощечина на лице, чтобы привести к принудительному обновлению и даже не дает нам возможность выбрать устаревшие модели»,-написал один из пользователей в посте Reddit, в котором получили сотни протока.

Как слепое тестирование раскрывает пользовательскую психологию в предпочтениях ИИ

Инструмент тестирования анонимного создателя убирает эти контекстуальные смещения, представляя ответы без атрибуции. Пользователи могут выбрать между 5, 10 или 20 раундами сравнения, каждый из которых представляет два ответа на одну и ту же подсказку-охватывая все, от творческого письма до технического решения проблем.

«Я специально использовал модель GPT-5-чат, поэтому не было никакого мышления вообще»,-объяснил Создатель в последующем посте. «Оба имеют одно и то же системное сообщение, чтобы дать короткие результаты без форматирования, потому что, иначе, что это слишком легко увидеть, какой из них».

Этот методологический выбор является значительным. Используя GPT-5 без его возможностей рассуждения и стандартизации форматирования вывода, тестовые изоляции исключительно базовые способности генерации языка моделей-основной опыт, который большинство пользователей сталкиваются во взаимодействии повседневного.

Ранние результаты, опубликованные пользователями, показывают сложную картину. В то время как многие технические пользователи и разработчики сообщают, что предпочитают прямую и точность GPT-5, те, кто использовал модели искусственного интеллекта для эмоциональной поддержки, творческого сотрудничества или случайного разговора, часто предпочитают более теплый, более широкий стиль GPT-4O.

Корпоративный ответ: ходьба по канату между безопасностью и вовлечением

Практически каждой технической метрикой GPT-5 представляет собой значительный прогресс. Он достигает 94,6% точности на математическом тесте AIME 2025 по сравнению с 71% GPT-4O, набирает 74,9% по контрольным показателям в реальном мире по сравнению с 30,8% для своего предшественника и демонстрирует резко снижает показатели галлюцинации-на 80% меньше фактических ошибок при использовании режима рассуждения.

«GPT-5 получает большую ценность из-за меньшего времени мышления»,-отмечает Саймон Уиллисон, известный исследователь искусственного интеллекта, который имел ранний доступ к модели. «В моем собственном использовании я еще не заметил ни одной галлюцинации».

Тем не менее, эти улучшения пришли с компромиссами, которые многие пользователи нашли резкими. Openai намеренно уменьшил то, что он называл «сикофсинностью» — тенденцией быть чрезмерно приемлемой — сокращение сикофантических реакций с 14,5% до 6%. Компания также сделала модель менее эффектной и тяжелой смайликом, стремясь к тому, что она назвала «менее похожим на разговор с ИИ, а больше похоже на общение с полезным другом с интеллектом уровня доктора наук».

В ответ на негативную реакцию Openai объявила, что сделает GPT-5 «теплым и дружелюбным», одновременно представляя четырех новых пресетовых личностей-циника, робота, слушателя и NERD-предназначенных для того, чтобы дать пользователям больше контроля над их взаимодействием ИИ.

«Все эти новые личности соответствуют или превышают нашу планку по внутренним эвалям для снижения сикофсинности», — заявила компания, пытаясь пропустить иглу между удовлетворенностью пользователей и проблемами безопасности.

Для OpenAI, который, как сообщается, ищет финансирование в размере 500 миллиардов долларов, эта динамика пользователей представляет как риск, так и возможности. Решение компании поддерживать GPT-4O наряду с GPT-5-несмотря на дополнительные вычислительные затраты-признает, что разным пользователям могут по-настоящему нужны разные личности ИИ для различных задач.

«Мы понимаем, что нет одной модели, которая работает для всех», — написал Альтман на X, отмечая, что OpenAI «инвестировал в исследования по управляемости и запустила исследовательский предварительный просмотр разных личностей».

Почему предпочтения личности ИИ имеют больше, чем когда -либо

Распределение между техническими достижениями OpenAI и приемной пользователя освещает фундаментальную проблему в разработке искусственного интеллекта: объективные улучшения не всегда переводятся к субъективному удовлетворению.

Этот сдвиг имеет глубокие последствия для индустрии ИИ. Традиционные критерии-точность математики, производительность кодирования, фактическое воспоминание-могут стать менее предсказательными для коммерческого успеха, поскольку модели достигают компетентности на уровне человека в разных областях. Вместо этого такие факторы, как личность, эмоциональный интеллект и стиль общения, могут стать новыми конкурентными полями битвы.

«Люди, использующие CHATGPT для эмоциональной поддержки, были не единственными, кто жаловался на GPT-5»,-отметил Tech Publication Ars Technica в их собственном сравнении моделей. «Один из пользователей, который сказал, что они отменили свою подписку на Chatgpt Plus из -за изменений, был разочарован тем, что Openai удаляет устаревшие модели, которые они использовали для различных целей».

Появление таких инструментов, как слепой тестер, также представляет демократизацию оценки ИИ. Вместо того, чтобы полагаться исключительно на академические контрольные показатели или претензии по корпоративному маркетингу, пользователи теперь могут эмпирически проверять свои собственные предпочтения — потенциально изменяя, как компании по искусству, связанные с развитием продукта.

Будущее ИИ: персонализация против стандартизации

Через две недели после запуска GPT-5 основное напряжение остается неразрешенным. OpenAI сделал модель «теплее» в ответ на обратную связь, но компания сталкивается с деликатным балансом: слишком много личностных рисков, связанных с проблемами по сикофальности, которые мучили GPT-4O, в то время как слишком мало отчуждает пользователей, которые сформировали подлинные привязанности к своим компаньонам ИИ.

Инструмент слепых испытаний не дает простых ответов, но он дает что -то, возможно, более ценное: эмпирические доказательства того, что будущее ИИ может быть меньше о создании одной идеальной модели, чем о строительных системах, которые могут адаптироваться к полному спектру потребностей и предпочтений человека.

Поскольку один пользователь Reddit подытожил дилемму: «Это зависит от того, для чего люди используют его. Я использую его, чтобы помочь с творческим мировым строительством, мозговым штурмом о моих историях, персонажах, распутывании сюжетов, помощи с блоком писателя, новыми рекомендациями, переводами и другими более креативными вещами. Я понимаю, что 5 гораздо лучше для людей, которым нужен инструмент для исследования/кодирование, но для нас, которые хотели, чтобы мы хотели, чтобы мы были в целом лучше.

Критики утверждают, что компании ИИ попадают между конкурирующими стимулами. «Реальная« проблема выравнивания »состоит в том, что люди хотят саморазрушительных вещей, а такие компании, как Openai, очень заинтересованы в том, чтобы дать им нам»,-написал писатель и подкастер Жасмин Сан.

В конце концов, наиболее показательным аспектом слепого теста может быть не то, что предпочитают пользователи модели, но тот факт, что само предпочтение стало метрикой, которая имеет значение. Кажется, в эпоху компаньонов ИИ сердце хочет, чтобы сердце хочет — даже если оно не всегда может объяснить, почему.



Источник

Рекомендуем

Оставить комментарий