Москва стала лидером еще в одном направлении
11 января, 22:00
Каким будет трафик в Москве после праздников
11 января, 21:00
Названо условие, при котором могут арестовать имущество должника
11 января, 20:00
Аэропорт Шереметьево опроверг сообщения о хаосе в терминалах
11 января, 16:33
Обрушившийся на Москву снегопад вошел в пятерку мощнейших за всю историю города
11 января, 16:04
Москвич отсудил у продавца в семь раз больше стоимости бракованных ботинок
11 января, 15:41
Жителей Подмосковья предупредили о снеге и гололеде
11 января, 15:06
Иномарка не уступила дорогу "скорой" с ребенком в Москве
11 января, 14:41
Родители и дети вооружились лопатами в Москве из-за снегопада
11 января, 13:36
ДТП парализовало движение на внешней стороне МКАД
11 января, 13:25
Прокуратура взяла на контроль ДТП с пострадавшими в Москве
11 января, 13:22
Несколько человек пострадали в ДТП с автобусами в Москве
11 января, 13:19
Автомобиль загорелся на парковке в Москве
11 января, 12:47
Пляж с матрасами и стоянка чемоданов: что творится в Шереметьево
11 января, 12:18
Два рейсовых автобуса столкнулись в Москве
11 января, 11:53

Ученые ВШЭ проверили, как нейросети справляются с каламбурами в новостях

29 декабря 2025, 21:00 Общество
Тематическое фото unsplash.com
Тематическое фото
Фото: unsplash.com
Нашли опечатку?
Ctrl+Enter

StolicaMedia, 29 декабря 2025. Исследователи НИУ ВШЭ вместе с зарубежными коллегами выяснили, почему даже самые продвинутые языковые модели с трудом понимают игру слов в русскоязычных заголовках. Результаты исследования имеются в распоряжении ИА StolicaMedia.

Международная команда ученых с участием исследователей факультета компьютерных наук НИУ ВШЭ представила корпус KoWit-24 — подборку из 2700 заголовков газеты "Коммерсантъ" (18+), построенных на каламбурах и языковой игре. Этот набор данных позволил подробно проверить, как современные нейросети распознают и объясняют шутки в новостных текстах.

Игра слов — привычный прием для журналистов: авторы слегка меняют известные выражения, играют со звучанием слов или двойными значениями. Читателю такие заголовки обычно понятны без пояснений, но для искусственного интеллекта они оказываются серьезным испытанием. Эксперименты показали, что языковые модели чаще справляются с задачей "увидеть" каламбур, чем с попыткой объяснить, на чем именно он построен.

Для исследования ученые вручную разметили каждый заголовок: указали тип игры слов, ключевые слова, исходные выражения и добавили контекст — подводку к статье и рубрику. После этого корпус протестировали на пяти крупных языковых моделях, включая GPT-4o и GigaChat. Лучшие результаты показала GPT-4o, однако и она часто ошибалась при интерпретации шуток.

Один из авторов работы, доцент факультета компьютерных наук НИУ ВШЭ Павел Браславский, подчеркнул значимость проекта:

"KoWit-24 закрывает две ключевые проблемы прежних наборов — дает контекст к каждому заголовку и многоуровневую разметку. Это превращает подборку примеров в полноценный "тестовый стенд" для ИИ".

Отмечается, что новый корпус поможет точнее сравнивать языковые модели между собой и в будущем может использоваться для обучения нейросетей более тонкому пониманию живого языка и юмора.

233994
121
185