Военный эксперт высмеял слова украинского депутата о перехвате "Орешника"
18:29
Застолье закончилось трагедией: в Подмосковье женщина погибла после ссоры
18:25
Подмосковье усилило слежку во дворах и на улицах
18:20
Врач в Подмосковье назвал главный риск вейпов, о котором молчат
18:16
В Подмосковье массово ловят водителей за парковку на газонах
18:03
Жительница Подмосковья второй раз подряд родила двойню
17:57
Дрон снял момент расправы военного ВСУ над сослуживцем
17:51
Заниженную до асфальта "девятку" как из 90-х заметили в Подмосковье
17:41
В Подольске задержали мужчину с 1,5 кг марихуаны
17:33
Украинцев призвали не радоваться поражению Орбана на выборах
17:20
В Подмосковье осудят курьера "лжесиловиков"
17:12
Каждый десятый житель Подмосковья сам себе начальник
17:08
США нанесли два мощных удара по судам наркокартелей в Тихом океане
16:14

Ученые ВШЭ проверили, как нейросети справляются с каламбурами в новостях

29 декабря 2025, 21:00
Общество

StolicaMedia, 29 декабря 2025. Исследователи НИУ ВШЭ вместе с зарубежными коллегами выяснили, почему даже самые продвинутые языковые модели с трудом понимают игру слов в русскоязычных заголовках. Результаты исследования имеются в распоряжении ИА StolicaMedia.

Международная команда ученых с участием исследователей факультета компьютерных наук НИУ ВШЭ представила корпус KoWit-24 — подборку из 2700 заголовков газеты "Коммерсантъ" (18+), построенных на каламбурах и языковой игре. Этот набор данных позволил подробно проверить, как современные нейросети распознают и объясняют шутки в новостных текстах.

Игра слов — привычный прием для журналистов: авторы слегка меняют известные выражения, играют со звучанием слов или двойными значениями. Читателю такие заголовки обычно понятны без пояснений, но для искусственного интеллекта они оказываются серьезным испытанием. Эксперименты показали, что языковые модели чаще справляются с задачей "увидеть" каламбур, чем с попыткой объяснить, на чем именно он построен.

Для исследования ученые вручную разметили каждый заголовок: указали тип игры слов, ключевые слова, исходные выражения и добавили контекст — подводку к статье и рубрику. После этого корпус протестировали на пяти крупных языковых моделях, включая GPT-4o и GigaChat. Лучшие результаты показала GPT-4o, однако и она часто ошибалась при интерпретации шуток.

Один из авторов работы, доцент факультета компьютерных наук НИУ ВШЭ Павел Браславский, подчеркнул значимость проекта:

"KoWit-24 закрывает две ключевые проблемы прежних наборов — дает контекст к каждому заголовку и многоуровневую разметку. Это превращает подборку примеров в полноценный "тестовый стенд" для ИИ".

Отмечается, что новый корпус поможет точнее сравнивать языковые модели между собой и в будущем может использоваться для обучения нейросетей более тонкому пониманию живого языка и юмора.

233994
121
185