Помощь в написании студенческих работ
Антистрессовый сервис

Национальный корпус русского языка

РефератПомощь в написанииУзнать стоимостьмоей работы

Пользователь изучал словосочетания вида «глагол мышления» (думать и однокоренные, размышлять и др.) + «над» + «проблемой», каждый раз задавая конкретное словосочетание с конкретной словоформой (используя выражение) и в итоге совершив 171 запросов, 40 из которых повторялись, пользователь сравнивал употребления слов мороженый/замороженный с различными продуктами питания (овощи, фрукты, ягоды, мясо… Читать ещё >

Национальный корпус русского языка (реферат, курсовая, диплом, контрольная)

Говоря об особенностях логов в Национальный корпус, стоит упомянуть тот факт, что при переходе между страницами выдачи для одного запроса этот запрос отправляется систему несколько раз. Другими словами, если пользователь задал запрос, а потом просмотрел три страницы выдачи, то в логах будут записаны три одинаковых запроса (по одному на каждую страницу). В связи с этой особенностью логи перед самим изучением были отфильтрованы, и повторяющиеся запросы, идущие подряд, были удалены из общего файла. Также важно упомянуть, что, как и в корпусе Leeds, поисковой интерфейс Национального корпуса позволяет пользователю задавать сложные составные запросы, указывая при необходимости морфологические характеристики лемм или самостоятельные шаблоны. В логах все данные о запросе пользователя объединяются в одно выражение, перемежаемые знаком амперсанта (&). При этом, достаточно большое количество запросов задавались с помощью указания конкретной словоформы или словосочетания в специальном поле «Слово или фраза» (соответствующее выражение выглядит как [req = …]).

Рассмотрим же наиболее частотные шаблоны, задаваемые пользователями для исследования гипотезы Б. Как и в корпусе Leeds, чаще всего пользователи использовали шаблоны для поиска простых частей речи без каких-либо морфологических меток: чаще всего в запросах встречалось существительное (41 858 запросов), затем глагол (40 771 запрос) и прилагательное (40 323 запроса). Далее с большим отставанием идёт наречие (18 296 запросов) и предлог (2 329 запросов). Составим таблицу аналогичную предыдущим для шаблонов, включающих в себя существительные. Перед изучением таблицы 5 важно отметить, что в таблицу были вынесены наиболее частотные запросы (заданные более 150 раз), а более редкие запросы присоединялись по принципу, описанному выше: более подробные запросы разделялись на более общие запросы.

Таблица 5. Шаблонные запросы с формами существительного в НКРЯ

Запрос.

Количество запросов.

Расшифровка запроса.

S, gen.

3 538.

Существительное родительного падежа.

S, nom.

2 918.

Существительное именительного падежа.

S, acc.

2 359.

Существительное винительного падежа.

S, dat.

1 961.

Существительное дательного падежа.

S, ins.

1 646.

Существительное творительного падежа.

S, (gen|gen2|dat|acc|acc2|ins|loc|loc2), sg, (m|f|mf), anim.

Одушевлённое существительное любого косвенного или винительного падежа, любого рода, единственного числа.

S, loc.

Существительное предложного (местного) падежа.

S, nom, sg, (m|f|mf), anim.

Одушевлённое существительное именительного падежа любого рода, единственного числа.

S, inan.

Неодушевлённое существительное.

S, anim.

Одушевлённое существительное.

S, nom, pl.

Существительное именительного падежа, множественного числа.

S, pl.

Существительное множественного числа.

S, acc, pl.

Существительное винительного падежа, множественного числа.

S, gen, inan.

Неодушевлённое существительное родительного падежа.

Как можно заметить, в итоговой таблице всё же есть запросы, распространяющие другие, более общие. Как и в случае с первым изученным корпусом, выделим наиболее часто запрашиваемые падежи. Самым популярным является родительный падеж, вошедший в составные запросы и запрашиваемый отдельно, — он встретился в 4 196 запросах. Далее следуют именительный (3 443 запроса) и винительный (3 021 запрос) падежи. Единственное число встретилось в запросе практически в два раза чаще, чем множественное (862 и 484 запроса, соответственно). Одушевлённые существительные искали 1 115 раз, в то время, как неодушевлённые всего 409 раз. По роду различия в запросах были не значительны, как правило, пользователь задаёт «любой» род, либо женский или мужской с одинаковой частотой.

Теперь обратим внимание на таблицу с наиболее частотными шаблонными запросами, включающими в себя различные глагольные формы.

Таблица 6. Шаблонные запросы с формами глагола в НКРЯ.

Запрос.

Количество запросов.

Расшифровка запроса.

V, inf.

Инфинитив глагола.

V, indic.

Глагол изъявительного наклонения.

V, praet.

Глагол прошедшего времени.

V, indic, praet, act.

Активный глагол изъявительного наклонения, прошедшего времени.

V, pl.

Глагол множественного числа.

V, praes.

Глагол настоящего времени.

V, tran.

Переносный глагол.

V, indic, praet, act, ipf.

Активный глагол изъявительного наклонения, прошедшего времени, несовершенного вида.

V, (indic|imper|imper2).

Глагол изъявительного или повелительного наклонений.

V, inf, ipf.

Инфинитив глагола несовершенного вида.

V, indic, praes, act, ipf.

Активный глагол изъявительного наклонения, настоящего времени, несовершенного вида.

V, praet, act.

Активный глагол прошедшего времени.

V, praet, pf.

Глагол прошедшего времени, совершенного вида.

V, ipf.

Глагол несовершенного вида.

V, indic, praet, sg, n, act.

Активный глагол изъявительного наклонения, прошедшего времени, единственного числа, среднего рода.

V, praet, sg, f.

Глагол прошедшего времени, единственного числа, женского рода.

Отметим, что в случае с глагольными шаблонами частота менее популярных шаблонов прибавлялась к частоте более популярных для создания более общей картины. Изучив значения, приведённые в таблице 6, можно определить, что глаголы прошедшего времени упоминались в шаблонах запросов гораздо чаще по сравнению с настоящим временем (2 118 и 513 запросов, соответственно). В сравнении с обычными глагольными запросами (без дополнительных меток), количество шаблонов с указанием прошедшего времени глагола составляет 5, 19%.

Подводя итоги, можно сказать, что данные, полученные в ходе изучения логов НКРЯ, во многом совпадают с данными, полученными из логов корпуса Leeds. Действительно, существительные родительного и винительного падежей ищут чаще, по сравнению с другими составными шаблонами, но при этом несравнимо реже простых POS-шаблонов. Точно так же глаголы прошедшего времени встречаются в запросах значительно чаще, чем любые другие специальные формы глаголов.

Наконец, перейдём к гипотезе, А о повторениях запросов в рамках одной сессии. В качестве самых ярких примеров, подтверждающих гипотезу, можно привести следующие поисковые сессии:

пользователь изучал структуры вида «местоимение в именительном падеже» + «прилагательное довольный в именительном падеже», меняя лицо и число местоимения, а также число прилагательного, сделав в сумме более 75 запросов за несколько часов, из которых около 20 было повторами ранее заданных запросов,.

Пример: gramm1=SPRO, nom, sg, 1p&gramm2=A, nom, sg, (m|f|mf) &lex2=довольный, пользователь провёл исследования схожие с вышеописанным, заменив прилагательное в одном случае на успешный (69 запросов, 10 повторов), а в другом на свободный (93 запроса, 24 повтора),.

пользователь изучал словосочетания вида «глагол мышления» (думать и однокоренные, размышлять и др.) + «над» + «проблемой», каждый раз задавая конкретное словосочетание с конкретной словоформой (используя выражение [req=…]) и в итоге совершив 171 запросов, 40 из которых повторялись, пользователь сравнивал употребления слов мороженый/замороженный с различными продуктами питания (овощи, фрукты, ягоды, мясо, рыба), проведя сессию из 12 запросов, из которых 6 запросов повторяли ранее заданные, Пример: lex1="заморожен*" &lex2=мясо+|+рыба В общей сложности подобных длинных поисковых сессий с повторяющимися запросами было представлено около 30 в логах НКРЯ, что составляет около 3 660 запросов. Среди всех этих запросов 627 являлись повторами ранее заданных запросов и не были дубликатами, возникшими из-за просмотра выдачи. В процентном соотношении повторы представляют чуть больше 17,1%.

Показать весь текст
Заполнить форму текущей работой