В Москве стартовал отбор лучших специалистов индустрии туризма
11:49
Бастрыкин заинтересовался нарушением жилищных прав жителей Карелии
11:41
Еще одного человека госпитализировали с подозрением на оспу обезьян в Подмосковье
11:22
Напавшего на пассажира в метро Москвы задержали полицейские
11:21
Бастрыкину доложат о нарушении жилищных прав жителей Волгограда
11:18
Бастрыкин взял на контроль дело о пропавшем после застолья мужчине в 2022 году в Луге 
11:08
Повысят автоматом: кому доиндексируют пенсии в 2026 году – за все предыдущие годы
11:05
Москвичи массово узаконивали перепланировки в 2025 году
10:49
В школах Москвы начались практикумы по подготовке к ЕГЭ
10:47
Бастрыкин потребовал отчет по делу об угрозах врачу под Челябинском
10:42
Названа причина задержки ряда электричек на МЖД
10:32
Стартовала акция по сбору подарков для военнослужащих СВО к 23 Февраля в Москве
10:28
Страховщик раскрыл самую частую схему мошенничества при оформлении КАСКО
10:20
Уникальные соревнования по фиджитал-спорту начались для юных москвичей
10:15
Справки об опоздании электричек выдают жителям Москвы и области
10:14

Ученые ВШЭ проверили, как нейросети справляются с каламбурами в новостях

29 декабря 2025, 21:00 Общество
Тематическое фото unsplash.com
Тематическое фото
Фото: unsplash.com
Нашли опечатку?
Ctrl+Enter

StolicaMedia, 29 декабря 2025. Исследователи НИУ ВШЭ вместе с зарубежными коллегами выяснили, почему даже самые продвинутые языковые модели с трудом понимают игру слов в русскоязычных заголовках. Результаты исследования имеются в распоряжении ИА StolicaMedia.

Международная команда ученых с участием исследователей факультета компьютерных наук НИУ ВШЭ представила корпус KoWit-24 — подборку из 2700 заголовков газеты "Коммерсантъ" (18+), построенных на каламбурах и языковой игре. Этот набор данных позволил подробно проверить, как современные нейросети распознают и объясняют шутки в новостных текстах.

Игра слов — привычный прием для журналистов: авторы слегка меняют известные выражения, играют со звучанием слов или двойными значениями. Читателю такие заголовки обычно понятны без пояснений, но для искусственного интеллекта они оказываются серьезным испытанием. Эксперименты показали, что языковые модели чаще справляются с задачей "увидеть" каламбур, чем с попыткой объяснить, на чем именно он построен.

Для исследования ученые вручную разметили каждый заголовок: указали тип игры слов, ключевые слова, исходные выражения и добавили контекст — подводку к статье и рубрику. После этого корпус протестировали на пяти крупных языковых моделях, включая GPT-4o и GigaChat. Лучшие результаты показала GPT-4o, однако и она часто ошибалась при интерпретации шуток.

Один из авторов работы, доцент факультета компьютерных наук НИУ ВШЭ Павел Браславский, подчеркнул значимость проекта:

"KoWit-24 закрывает две ключевые проблемы прежних наборов — дает контекст к каждому заголовку и многоуровневую разметку. Это превращает подборку примеров в полноценный "тестовый стенд" для ИИ".

Отмечается, что новый корпус поможет точнее сравнивать языковые модели между собой и в будущем может использоваться для обучения нейросетей более тонкому пониманию живого языка и юмора.

233994
121
185