Национальный корпус русского языка
Пользователь изучал словосочетания вида «глагол мышления» (думать и однокоренные, размышлять и др.) + «над» + «проблемой», каждый раз задавая конкретное словосочетание с конкретной словоформой (используя выражение) и в итоге совершив 171 запросов, 40 из которых повторялись, пользователь сравнивал употребления слов мороженый/замороженный с различными продуктами питания (овощи, фрукты, ягоды, мясо… Читать ещё >
Национальный корпус русского языка (реферат, курсовая, диплом, контрольная)
Говоря об особенностях логов в Национальный корпус, стоит упомянуть тот факт, что при переходе между страницами выдачи для одного запроса этот запрос отправляется систему несколько раз. Другими словами, если пользователь задал запрос, а потом просмотрел три страницы выдачи, то в логах будут записаны три одинаковых запроса (по одному на каждую страницу). В связи с этой особенностью логи перед самим изучением были отфильтрованы, и повторяющиеся запросы, идущие подряд, были удалены из общего файла. Также важно упомянуть, что, как и в корпусе Leeds, поисковой интерфейс Национального корпуса позволяет пользователю задавать сложные составные запросы, указывая при необходимости морфологические характеристики лемм или самостоятельные шаблоны. В логах все данные о запросе пользователя объединяются в одно выражение, перемежаемые знаком амперсанта (&). При этом, достаточно большое количество запросов задавались с помощью указания конкретной словоформы или словосочетания в специальном поле «Слово или фраза» (соответствующее выражение выглядит как [req = …]).
Рассмотрим же наиболее частотные шаблоны, задаваемые пользователями для исследования гипотезы Б. Как и в корпусе Leeds, чаще всего пользователи использовали шаблоны для поиска простых частей речи без каких-либо морфологических меток: чаще всего в запросах встречалось существительное (41 858 запросов), затем глагол (40 771 запрос) и прилагательное (40 323 запроса). Далее с большим отставанием идёт наречие (18 296 запросов) и предлог (2 329 запросов). Составим таблицу аналогичную предыдущим для шаблонов, включающих в себя существительные. Перед изучением таблицы 5 важно отметить, что в таблицу были вынесены наиболее частотные запросы (заданные более 150 раз), а более редкие запросы присоединялись по принципу, описанному выше: более подробные запросы разделялись на более общие запросы.
Таблица 5. Шаблонные запросы с формами существительного в НКРЯ
Запрос. | Количество запросов. | Расшифровка запроса. | |
S, gen. | 3 538. | Существительное родительного падежа. | |
S, nom. | 2 918. | Существительное именительного падежа. | |
S, acc. | 2 359. | Существительное винительного падежа. | |
S, dat. | 1 961. | Существительное дательного падежа. | |
S, ins. | 1 646. | Существительное творительного падежа. | |
S, (gen|gen2|dat|acc|acc2|ins|loc|loc2), sg, (m|f|mf), anim. | Одушевлённое существительное любого косвенного или винительного падежа, любого рода, единственного числа. | ||
S, loc. | Существительное предложного (местного) падежа. | ||
S, nom, sg, (m|f|mf), anim. | Одушевлённое существительное именительного падежа любого рода, единственного числа. | ||
S, inan. | Неодушевлённое существительное. | ||
S, anim. | Одушевлённое существительное. | ||
S, nom, pl. | Существительное именительного падежа, множественного числа. | ||
S, pl. | Существительное множественного числа. | ||
S, acc, pl. | Существительное винительного падежа, множественного числа. | ||
S, gen, inan. | Неодушевлённое существительное родительного падежа. | ||
Как можно заметить, в итоговой таблице всё же есть запросы, распространяющие другие, более общие. Как и в случае с первым изученным корпусом, выделим наиболее часто запрашиваемые падежи. Самым популярным является родительный падеж, вошедший в составные запросы и запрашиваемый отдельно, — он встретился в 4 196 запросах. Далее следуют именительный (3 443 запроса) и винительный (3 021 запрос) падежи. Единственное число встретилось в запросе практически в два раза чаще, чем множественное (862 и 484 запроса, соответственно). Одушевлённые существительные искали 1 115 раз, в то время, как неодушевлённые всего 409 раз. По роду различия в запросах были не значительны, как правило, пользователь задаёт «любой» род, либо женский или мужской с одинаковой частотой.
Теперь обратим внимание на таблицу с наиболее частотными шаблонными запросами, включающими в себя различные глагольные формы.
Таблица 6. Шаблонные запросы с формами глагола в НКРЯ.
Запрос. | Количество запросов. | Расшифровка запроса. | |
V, inf. | Инфинитив глагола. | ||
V, indic. | Глагол изъявительного наклонения. | ||
V, praet. | Глагол прошедшего времени. | ||
V, indic, praet, act. | Активный глагол изъявительного наклонения, прошедшего времени. | ||
V, pl. | Глагол множественного числа. | ||
V, praes. | Глагол настоящего времени. | ||
V, tran. | Переносный глагол. | ||
V, indic, praet, act, ipf. | Активный глагол изъявительного наклонения, прошедшего времени, несовершенного вида. | ||
V, (indic|imper|imper2). | Глагол изъявительного или повелительного наклонений. | ||
V, inf, ipf. | Инфинитив глагола несовершенного вида. | ||
V, indic, praes, act, ipf. | Активный глагол изъявительного наклонения, настоящего времени, несовершенного вида. | ||
V, praet, act. | Активный глагол прошедшего времени. | ||
V, praet, pf. | Глагол прошедшего времени, совершенного вида. | ||
V, ipf. | Глагол несовершенного вида. | ||
V, indic, praet, sg, n, act. | Активный глагол изъявительного наклонения, прошедшего времени, единственного числа, среднего рода. | ||
V, praet, sg, f. | Глагол прошедшего времени, единственного числа, женского рода. | ||
Отметим, что в случае с глагольными шаблонами частота менее популярных шаблонов прибавлялась к частоте более популярных для создания более общей картины. Изучив значения, приведённые в таблице 6, можно определить, что глаголы прошедшего времени упоминались в шаблонах запросов гораздо чаще по сравнению с настоящим временем (2 118 и 513 запросов, соответственно). В сравнении с обычными глагольными запросами (без дополнительных меток), количество шаблонов с указанием прошедшего времени глагола составляет 5, 19%.
Подводя итоги, можно сказать, что данные, полученные в ходе изучения логов НКРЯ, во многом совпадают с данными, полученными из логов корпуса Leeds. Действительно, существительные родительного и винительного падежей ищут чаще, по сравнению с другими составными шаблонами, но при этом несравнимо реже простых POS-шаблонов. Точно так же глаголы прошедшего времени встречаются в запросах значительно чаще, чем любые другие специальные формы глаголов.
Наконец, перейдём к гипотезе, А о повторениях запросов в рамках одной сессии. В качестве самых ярких примеров, подтверждающих гипотезу, можно привести следующие поисковые сессии:
пользователь изучал структуры вида «местоимение в именительном падеже» + «прилагательное довольный в именительном падеже», меняя лицо и число местоимения, а также число прилагательного, сделав в сумме более 75 запросов за несколько часов, из которых около 20 было повторами ранее заданных запросов,.
Пример: gramm1=SPRO, nom, sg, 1p&gramm2=A, nom, sg, (m|f|mf) &lex2=довольный, пользователь провёл исследования схожие с вышеописанным, заменив прилагательное в одном случае на успешный (69 запросов, 10 повторов), а в другом на свободный (93 запроса, 24 повтора),.
пользователь изучал словосочетания вида «глагол мышления» (думать и однокоренные, размышлять и др.) + «над» + «проблемой», каждый раз задавая конкретное словосочетание с конкретной словоформой (используя выражение [req=…]) и в итоге совершив 171 запросов, 40 из которых повторялись, пользователь сравнивал употребления слов мороженый/замороженный с различными продуктами питания (овощи, фрукты, ягоды, мясо, рыба), проведя сессию из 12 запросов, из которых 6 запросов повторяли ранее заданные, Пример: lex1="заморожен*" &lex2=мясо+|+рыба В общей сложности подобных длинных поисковых сессий с повторяющимися запросами было представлено около 30 в логах НКРЯ, что составляет около 3 660 запросов. Среди всех этих запросов 627 являлись повторами ранее заданных запросов и не были дубликатами, возникшими из-за просмотра выдачи. В процентном соотношении повторы представляют чуть больше 17,1%.