Lexical Relations from the Wisdom of the Crowd

Lexical Relations from the Wisdom of the Crowd (LRWC) — набор данных, представляющий суждения людей о семантических связях между русскими словами, полученные при помощи краудсорсинга.

LRWC 1.0 представляет единственный класс семантических отношений — родо-видовые отношения, то есть связи между более частным словом (гипонимом) и более общим словом (гиперонимом).

Для подготовки данных использованы материалы русского Викисловаря, тезауруса РуТез и других источников. На основе этих источников построены гиперонимы для трёхсот наиболее частотных имён существительных по материалам НКРЯ.

Каждая родо-видовая пара была размечена на платформе «Яндекс.Толока» семью разными участниками, каждый из которых является носителем русского языка, достигшим двадцатилетнего возраста на момент первого февраля 2017 г.

Участникам задавался вопрос вида «Правда ли, что котёнок — это разновидность млекопитающего?», где «котёнок» и «млекопитающее» — это гипоним и гипероним, соответственно.

Всего размечено родо-видовых пар: 9 322, из них них 3 940 получили положительные оценки, 5 382 получили отрицательные оценки.

Об авторе Дмитрий Усталов

Основатель NLPub.
Запись опубликована в рубрике Ресурсы/Софт. Добавьте в закладки постоянную ссылку.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *