Большую партию утопленных самокатов нашли на дне водоема в Москве
20 июня, 18:35
Напавший на людей в ТЦ в Краснодаре выбирал в жертвы исключительно женщин
20 июня, 18:29
В Москве провели технический запуск трех новых станций метро
20 июня, 18:20
С 27 июня запускается новый пригородный маршрут "Москва-область"
20 июня, 13:41
Жители Подмосковья жалуются на массовую пропажу животных из-за мистики
20 июня, 13:02
Камера дрона сняла последствия авиаудара по складу БПЛА ВСУ под Харьковом
20 июня, 12:54
На Украине заявили о принудительной эвакуации и разрушении Павлограда
20 июня, 12:44
На камеру сняли задержание жителя Подмосковья за устрашение военных
20 июня, 11:27
С 1 сентября диспансеризацию в России будут проводить по новым правилам
20 июня, 11:20
СМИ: ультиматум Зеленского к Минску говорит о подготовке нападения на Белоруссию
20 июня, 11:03
Медведев отреагировал на планы Европы создать лагеря для российских пленных
20 июня, 10:47
ВКС России разбомбили эшелоны с топливом и боеприпасами в Харькове
20 июня, 10:39
Снайпер раскрыл, как сбить тяжелый дрон ВСУ "Баба-Яга" с одного выстрела
20 июня, 09:58
Самые высокооплачиваемые подработки назвали в Москве
20 июня, 09:52
Резкий рост цены бензина зафиксирован на АЗС Московского региона
20 июня, 09:41

Ученые ВШЭ проверили, как нейросети справляются с каламбурами в новостях

29 декабря 2025, 21:00
Общество

StolicaMedia, 29 декабря 2025. Исследователи НИУ ВШЭ вместе с зарубежными коллегами выяснили, почему даже самые продвинутые языковые модели с трудом понимают игру слов в русскоязычных заголовках. Результаты исследования имеются в распоряжении ИА StolicaMedia.

Международная команда ученых с участием исследователей факультета компьютерных наук НИУ ВШЭ представила корпус KoWit-24 — подборку из 2700 заголовков газеты "Коммерсантъ" (18+), построенных на каламбурах и языковой игре. Этот набор данных позволил подробно проверить, как современные нейросети распознают и объясняют шутки в новостных текстах.

Игра слов — привычный прием для журналистов: авторы слегка меняют известные выражения, играют со звучанием слов или двойными значениями. Читателю такие заголовки обычно понятны без пояснений, но для искусственного интеллекта они оказываются серьезным испытанием. Эксперименты показали, что языковые модели чаще справляются с задачей "увидеть" каламбур, чем с попыткой объяснить, на чем именно он построен.

Для исследования ученые вручную разметили каждый заголовок: указали тип игры слов, ключевые слова, исходные выражения и добавили контекст — подводку к статье и рубрику. После этого корпус протестировали на пяти крупных языковых моделях, включая GPT-4o и GigaChat. Лучшие результаты показала GPT-4o, однако и она часто ошибалась при интерпретации шуток.

Один из авторов работы, доцент факультета компьютерных наук НИУ ВШЭ Павел Браславский, подчеркнул значимость проекта:

"KoWit-24 закрывает две ключевые проблемы прежних наборов — дает контекст к каждому заголовку и многоуровневую разметку. Это превращает подборку примеров в полноценный "тестовый стенд" для ИИ".

Отмечается, что новый корпус поможет точнее сравнивать языковые модели между собой и в будущем может использоваться для обучения нейросетей более тонкому пониманию живого языка и юмора.

233994
121
185