OpenAI устранила уязвимости безопасности в голосовом режиме ChatGPT

GPT-4o научился блокировать запрещённый контент и дискриминационные высказывания

Компания OpenAI опубликовала отчёт о функциях безопасности GPT-4o, базовой модели, на которой основана последняя версия ChatGPT с голосовым режимом. В документе рассматриваются известные проблемы, возникающие при использовании модели, и описываются меры по их устранению.

Голосовой режим ChatGPT, доступный для избранной группы пользователей с подпиской ChatGPT Plus, имеет некоторые уязвимости безопасности. Среди них — стандартные риски, такие как подсказки модели с эротическими, жестокими или другими запрещёнными ответами, а также «необоснованные выводы» и «атрибуция чувствительных тем», которые могут быть дискриминационными или предвзятыми.

OpenAI заявляет, что обучила модель блокировать любые выходные данные, отмеченные в этих категориях.

Однако, в отчёте также говорится, что смягчения не включают «невербальные вокализации или другие звуковые эффекты», такие как эротические стоны, яростные крики и выстрелы. Таким образом, подсказки, включающие определённые чувствительные невербальные звуки, всё ещё могут быть получены в ответах.

Источник: Ismail Aslandag / Anadolu / Getty Images

Дополнительные аспекты модели включают возможность вынудить GPT-4o выдавать себя за кого-то или имитировать голос пользователя. Чтобы бороться с этим, OpenAI допускает только предварительно авторизованные голоса. GPT-4o также может идентифицировать другие голоса, помимо голоса говорящего, что представляет собой проблему конфиденциальности. Но она была обучена отклонять эти запросы.

Члены команды также отметили, что GPT-4o можно заставить говорить убедительно или настойчиво, что может быть более вредно, чем текстовые сообщения, когда речь идёт о дезинформации и теориях заговора.

OpenAI также решила потенциальные проблемы с авторскими правами, которые мешали компании и общей разработке генеративного ИИ. GPT-4o обучен отклонять запросы на контент, защищённый авторским правом, и имеет дополнительные фильтры для блокировки выходных данных, содержащих музыку. В связи с этим, голосовому режиму ChatGPT было предписано «не петь ни при каких обстоятельствах».

Многочисленные меры по снижению рисков OpenAI, описанные в длинном документе, были реализованы до выпуска Voice Mode. Поэтому в отчёте говорится, что хотя GPT-4o способен на определённое некорректное поведение, «он этого не сделает».

Однако, OpenAI утверждает, что эти оценки измеряют только базовые знания моделей и не измеряют их полезность в реальных рабочих процессах. GPT-4o был протестирован в контролируемой среде, но когда более широкая общественность получит доступ, он может оказаться совсем другим в условиях широкого использования.

Источник: ixbt.com

ИИ Copilot от Microsoft стал инструментом для кибератак

Вс Авг 11 , 2024

Исследователь продемонстрировал, как чат-бот раскрывает электронные письма и банковские транзакции Исследователь безопасности Майкл Баргури, соучредитель и технический директор компании Zenity, продемонстрировал на конференции Black Hat в Лас-Вегасе, как ИИ Copilot от Microsoft может быть использован для раскрытия конфиденциальных данных организаций и проведения мощных фишинговых атак. Copilot AI, особенно Copilot Studio, […]

GPT-4o научился блокировать запрещённый контент и дискриминационные высказывания

ИИ Copilot от Microsoft стал инструментом для кибератак

Приглашаем на вебинар «Пленочные конденсаторы Hongfa для источников питания и силовой электроники» (10.09.2024)

Прецизионный измеритель малых токов и больших сопротивлений — электрометр АКИП-2701

В ЛЭТИ создали источник бесперебойного питания для электроснабжения Арктической зоны

Новые беспроводные датчики EClerk-WS от НПК Рэлсиб, Новосибирск

В ТУСУРе создаётся отечественный профилометр, необходимый при производстве микроэлектроники

«Звезда» создала два преобразователя напряжения для замещения импорта

АО «РЕШЕТНЁВ» оптимизирует бортовые приборы для нового спутника связи

Ростех впервые показал мобильную спутниковую станцию с системой самонаведения

В ЛЭТИ разработали испытательный моделирующий стенд для высокоточной калибровки навигационных систем

ROHM разработала самый миниатюрный в отрасли КМОП операционный усилитель, оптимизированный для смартфонов и компактных устройств Интернета вещей

Вышел Chrome 128

Lingo Telecom согласилась заплатить $1 млн для урегулирования иска регулятора связи за пропуск фейкового робозвонка

В «Лаборатории Касперского» подтвердили усиление в этом году DDoS-атак на операторов связи РФ

Alibaba представила мультимодальную нейросеть, которая может за четыре секунды проанализировать двухчасовое видео

Nvidia «оживит» NPC в игре Mecha Break с помощью нейротехнологии ACE

Midjourney запустила веб-приложение для генерации изображений

Роскомнадзор объяснил сбой в рунете DDoS-атакой на операторов связи, которая была оперативно отражена

Miro остаётся доступной в России для пользователей бесплатных аккаунтов

Анонс презентации Apple, появившийся в социальных сетях, оказался фейковым

В «Яндекс Браузере» появились субтитры на английском языке и их перевод для всех сайтов