Помощь в написании студенческих работ
Антистрессовый сервис

Частотные данные для морфологических тэгов

РефератПомощь в написанииУзнать стоимостьмоей работы

Метод сравнения пары корпусов, который был использован для выделения типичных коллокаций, может применяться и для выделения грамматических форм, частотных для того или иного корпуса статей. Наибольшей разницей по частоте встречаемости в корпусах «Известий» и «Правды» характеризуются морфологические тэги P-1-san (личное местоимение 1 лица, ед.ч., В.п.) и P-1-snn (личное местоимение 1 лица, ед. ч… Читать ещё >

Частотные данные для морфологических тэгов (реферат, курсовая, диплом, контрольная)

Помимо частотных списков собственно лексических единиц (словоформ, лемм, терминов) в корпусном менеджере есть возможность составления частотных списков морфологических тэгов, а также возможность сравнения разных корпусов по этим тэгам. При этом функция Frequency позволяет просматривать упорядоченные по частоте списки слов для каждого морфологического тэга. Так, на рисунке 8 показаны имена существительные для тэга Ncgsan- (неодушевлённое имя существительное женского рода в форме ед. ч. В.п.).

Для каждой лексемы возможен просмотр тех контекстов, где она употребляется именно в этой грамматической форме (рис. 9).

В Приложении 1 и 2 приводятся десять наиболее частотных тэгов для знаменательных частей речи на основе корпуса «Известий» и «Правды» с указанием лексических единиц, которые чаще всего встречаются в данной грамматической форме.

Частотные имена существительные для тэга Ncgsanв корпусе «Известий».

Рис. 8. Частотные имена существительные для тэга Ncgsanв корпусе «Известий»

Контексты для лексемы работа по морфологическому тэгу Ncfsanв корпусе .

Рис. 9. Контексты для лексемы работа по морфологическому тэгу Ncfsanв корпусе «Известий»

Полученные данные о частотности морфологических тэгов показывают, что в газетных текстах наиболее часто встречаются имена существительные мужского, женского, среднего рода в форме Р.п., И.п. и В.п., а также имена прилагательные ед. и мн. числа в форме Р.п.; кроме того, частотными являются имена собственные — обозначения лиц мужского пола.

Метод сравнения пары корпусов, который был использован для выделения типичных коллокаций, может применяться и для выделения грамматических форм, частотных для того или иного корпуса статей. Наибольшей разницей по частоте встречаемости в корпусах «Известий» и «Правды» характеризуются морфологические тэги P-1-san (личное местоимение 1 лица, ед.ч., В.п.) и P-1-snn (личное местоимение 1 лица, ед.ч., И.п.), а также тэг Vmip1s-a-e- (глагол наст. вр., 1 лица, ед.ч.). В подкорпусе «Известий» такие формы имеют частоту на миллион словоупотреблений в два раза выше, чем в подкорпусе «Правды». Высокая частотность употребления данных словоформ обусловлена тем, что в «Известиях» публиковались стенограммы судебных заседаний по крупным политическим процессам, и на страницах газет фиксировались показания подсудимых, сообщаемые от первого лица. Отметим, что форма личного местоимения меня (P-1-san) наиболее часто встречается в корпусе в составе биграмм заставило меня, заставили меня, привело меня, привели меня. Также заметно чаще встречается в корпусе «Известий» форма Ncnpgy- (имя сущ., одуш., мн.ч., Р.п.). Её частота на миллион словоупотреблений в «Известиях» составляет 249,3, в то время как в корпусе «Правды» эта форма имеет частоту 81,4. Несмотря на различие в частоте встречаемости, лексемы, употребляемые в данной грамматической форме, являются общими у обоих подкорпусов: ребёнок, лицо, животное в «Известиях» и ребёнок, лицо в «Правде».

Кроме того, более частотными в «Известиях» оказались формы глаголов прошедшего времени (табл. 5).

Обратное сравнение показало, что в корпусе статей «Правды» более частотными являются имена собственные в форме родительного падежа (Крестинского, Сталина, Ленина) и дательного падежа (Сталину, Рыкову, Пятакову). Частота личных имён в Р.п. для корпуса «Правды» выше почти в 3 раза («Правда» — 920,0; «Известия» — 385,7), а частота личных имён в Д.п. выше в 1,7 раза («Правда» — 1264,2; «Известия» — 732,4). Также значительно чаще в статьях «Правды» встречаются имена существительные — обозначения лица в форме мн. числа, Д.п. («Правда» — 2290,5; «Известия» — 1044,0). При этом в корпусе «Правды» для данного тэга наиболее частотными являются такие лексические единицы, как начальник, интервент, вредитель, прогульщик, враг, директор, а в корпусе «Известий» — рабочий, враг, трудящийся.

Таблица 5 Сравнение частотности глаголов прошедшего времени в «Известиях» и «Правде»

Частотные данные для морфологических тэгов.

Последняя группа имён существительных — обозначений лиц заслуживает отдельного внимания. Для языка советского периода было характерно разнообразие наименований лиц и постоянное увеличение их числа. По мнению И. Ф. Протченко, большое количество подобных лексических единиц было обусловлено социальными факторами и зависело от множества признаков («по отношению отдельной личности к природе и обществу, по политическим убеждениям и идейно-нравственным показателям, по трудовому признаку, по внешним качествам, моральным свойствам и т. д.») [Протченко 1975: 272]. Обозначения лиц выполняют в языке советского периода не только формальную функцию наименования отдельного индивида или группы, коллектива, но и зачастую выражают оценку. П. Червиньски в своём исследовании оценочных категорий при обозначении лиц отмечает, что природа языка советской действительности предполагала обращение к человеку как «к объекту воздействующего влияния», а также как к предмету «необходимой дескрипции и оценки» [Червиньски 2007: 120].

В текстах газет наименования лиц образуют достаточно частотную группу лексических единиц. Для анализа таких существительных в корпусном менеджере применялся поиск среди морфологических тэгов по регулярному выражению Ncm.y.*, которое позволяет найти существительные — обозначения одушевлённых лиц во всех числах и падежах. На месте первой точки в регулярном выражении может стоять s (ед. ч.) или p (мн. ч.). На месте второй точки в регулярном выражении указывается обозначение падежа: n — именительный, g — родительный, d — дательный, a — винительный, i — творительный, l — предложный. В результате было получено 12 морфологических тэгов, которые с той или иной частотой встречаются в корпусе «Известий» и «Правды» (см. Приложение 3). И в «Известиях», и в «Правде» форма мн.ч. Р.п. является доминирующей (freq/mill — 10 358, 52 и 11 884,50 соответственно). Также в обоих корпусах достаточно часто наименования лиц имеют форму ед. или мн. ч. И.п. (т.е. занимают синтаксическую позицию подлежащего), а также форму ед. ч. Р.п., причём в корпусе «Известий» эта грамматическая форма существительных встречается с заметно большей частотой, чем в корпусе «Правды» (freq/mill — 4370,91 и 3898,92 соответственно). Наоборот, в статьях газеты «Правда» частота существительных мн. ч. Д.п. в 2 раза выше, чем в «Известиях», как уже было указано ранее. Частотные данные показывают, что в «Известиях» формы творительного падежа чаще стоят в единственном числе, а в «Правде» — во множественном. Наименьшими по частоте встречаемости в обоих корпусах являются формы предложного падежа.

Среди наиболее частотных лексем — наименований лиц выделяются группы слов, которые преимущественно встречаются в текстах в единственном или во множественном числе. Так, лексемы подсудимый, обвиняемый, вождь, председатель, секретарь, директор, борец, кулак чаще употребляются в единственном числе. Форма множественного числа в значительно большей степени характерна для таких единиц, как избиратель, враг, вредитель, колхозник, крестьянин, меньшевик, эсер, капиталист, большевик, коммунист. Частотная лексема рабочий встречается в корпусах как в единственном, так и во множественном числе, однако для близких по смыслу лексических единиц трудящийся и работник форма множественного числа преобладает в текстах.

Показать весь текст
Заполнить форму текущей работой