Какую пенсию получат россияне, не работавшие официально - названа сумма
18 июня, 21:30
Ректор ВШЭ назвал причину, почему РФ сложно обойти Китай по технологическому лидерству
18 июня, 20:00
В России допустили временный рост цен из-за атак дронов на НПЗ
18 июня, 18:49
В Госдуме оценили слова Зеленского после масштабной атаки дронов на Москву
18 июня, 17:52
Редкое атмосферное явление бирюзового цвета сняли на видео в США
18 июня, 17:52
Военный эксперт Дандыкин назвал опасной для жизни съемку БПЛА ВСУ
18 июня, 17:31
Профессор оценила сроки исчезновения Москвы-реки
18 июня, 17:17
Появилось фото подозрительного предмета под днищем Audi на СТО в Москве
18 июня, 17:05
Депутат ГД поговоркой ответил на насмешку Эстонии в адрес Москвы
18 июня, 16:59
В Сети появились предсмертные кадры истощенной звезды "Звонка"
18 июня, 16:40
Зеленский анонсировал первый шаг Киева к созданию антибаллистической системы
18 июня, 15:38
Бывший начальник охраны Ельцина назвал момент, когда он в нем разочаровался
18 июня, 15:26
Черный дождь в Железнодорожном засняли на камеру
18 июня, 15:17
Проезд к "Садоводу" в Москве перекрыт
18 июня, 15:11
Жители Люберец сообщили о едком аромате в воздухе после БПЛА-атаки
18 июня, 14:50

Ученые ВШЭ проверили, как нейросети справляются с каламбурами в новостях

29 декабря 2025, 21:00
Общество

StolicaMedia, 29 декабря 2025. Исследователи НИУ ВШЭ вместе с зарубежными коллегами выяснили, почему даже самые продвинутые языковые модели с трудом понимают игру слов в русскоязычных заголовках. Результаты исследования имеются в распоряжении ИА StolicaMedia.

Международная команда ученых с участием исследователей факультета компьютерных наук НИУ ВШЭ представила корпус KoWit-24 — подборку из 2700 заголовков газеты "Коммерсантъ" (18+), построенных на каламбурах и языковой игре. Этот набор данных позволил подробно проверить, как современные нейросети распознают и объясняют шутки в новостных текстах.

Игра слов — привычный прием для журналистов: авторы слегка меняют известные выражения, играют со звучанием слов или двойными значениями. Читателю такие заголовки обычно понятны без пояснений, но для искусственного интеллекта они оказываются серьезным испытанием. Эксперименты показали, что языковые модели чаще справляются с задачей "увидеть" каламбур, чем с попыткой объяснить, на чем именно он построен.

Для исследования ученые вручную разметили каждый заголовок: указали тип игры слов, ключевые слова, исходные выражения и добавили контекст — подводку к статье и рубрику. После этого корпус протестировали на пяти крупных языковых моделях, включая GPT-4o и GigaChat. Лучшие результаты показала GPT-4o, однако и она часто ошибалась при интерпретации шуток.

Один из авторов работы, доцент факультета компьютерных наук НИУ ВШЭ Павел Браславский, подчеркнул значимость проекта:

"KoWit-24 закрывает две ключевые проблемы прежних наборов — дает контекст к каждому заголовку и многоуровневую разметку. Это превращает подборку примеров в полноценный "тестовый стенд" для ИИ".

Отмечается, что новый корпус поможет точнее сравнивать языковые модели между собой и в будущем может использоваться для обучения нейросетей более тонкому пониманию живого языка и юмора.

233994
121
185