Помощь в написании студенческих работ
Антистрессовый сервис

Исследование частотных свойств биграмм якутского языка в газетном корпусе

РефератПомощь в написанииУзнать стоимостьмоей работы

В данной статье рассматривается газетный корпус якутского языка. Приводятся численные данные о объеме и источниках корпуса. Исследуются частотные свойства биграмм, выводится таблица наиболее часто употребляемых словосочетаний. Проведен анализ полученных результатов по их виду. Протопопова В. Ф. Частотная таблица символов якутского языка с учетом диграфов и дифтонгов… Читать ещё >

Исследование частотных свойств биграмм якутского языка в газетном корпусе (реферат, курсовая, диплом, контрольная)

В данной статье рассматривается газетный корпус якутского языка. Приводятся численные данные о объеме и источниках корпуса. Исследуются частотные свойства биграмм, выводится таблица наиболее часто употребляемых словосочетаний. Проведен анализ полученных результатов по их виду.

Ключевые слова: языковой корпус, якутский язык, частотная таблица, N-грамма, база данных Частотные словари для естественных языков создаются в различных целях, обычно применяются данные таблицы для выявления связей между элементами, для систем коррекции текста. Существуют таблицы для английского языка и других основных языков мира, в том числе и для русского языка [1]. Биграммы или 2-граммы для обработки текстов применяются давно, исследователями были составлены биграммы для наиболее распространенных языков, в том числе и для русского языка. Например, проект национальный корпус языка по адресу www.ruscorpora.ru., имеет в составе таблицы N-грамм, до 6-грамм включительно. Кроме того, создаются машинные корпуса языков народов России, которые тоже имеют свои результаты [2−3].

Якутский язык или язык Саха, является языков народа Саха (якутов) и относиться к тюркской группе языков, по типу агглютинативным языкам, то есть слова создаются с помощью суффиксов, из-за этого число возможных вариантов словоформ увеличен по отношении к русскому языку. Для развития языка необходимо развивать средства компьютерной обработки и анализа.

Газетный корпус якутского языка создается в рамках проекта по автоматизированной обработке якутского языка. Газетный корпус состоит из более 21 тыс. статей охватывающий период от 2006 года до 2015 год. Тексты взяты с сайтов республиканских газет «Кыым», «Саха Сирэ», газет «Аартык.ру» и «Sakhalife». Запись ведется в кодировке UTF8 стандарта Unicode, так как данный стандарт поддерживает национальные якутские буквы.

С момента создания сайта корпус расширен до 12 млн. слов, состоит из почти 400 тыс. словоупотреблений [1]. Ведутся работы по создании разметки якутского языка для корпуса и морфологическому анализу. Разметка якутского языка создается в рамках интернациональной разметки тюркских языков.

Частоты употребления символов составлены в работах [4−5] и частотный словарь словоупотреблений составлен в работе [6].

Для расчета биграмм был обработан весь массив текста газетного корпуса. Для хранения биграмм была создана база данных с двумя полями: поле строкового типа для хранения биграммы и целочисленное поле для частоты употребления биграммы. Использовалась база данных MySQL и язык программирования PHP. В каждом тексте был произведен поиск двух соседних слов, в случае, когда они не разделялись через запятые или иные знаки препинания, происходил запись в базу данных. Всего записей получено 4 млн.239 тыс. В таблице 1 приводятся частотная таблица биграмм отсортированная по наиболее часто встречаемым элементам с индексом MI. Данный индекс показывает, насколько реже встречается данное словосочетание по сравнении с наиболее часто встречаемым.

Таблица 1. Частотная таблица биграмм.

№.

Биграмма.

Частота.

ИндексMI.

ол эрээри.

ол курдук.

1,4 488 013.

саха сирин.

1,8 010 758.

ол и? ин.

1,44 463 001.

туох да.

1,51 162 791.

саха сиригэр

1,70 172 518.

аан дойду.

1,92 419 576.

биллэн турар

1,99 591 764.

гынан баран.

2,520 073.

хас биирдии.

2,16 208 421.

хас да.

2,20 058 708.

ол аата.

2,25 260 417.

ол гынан.

2,43 820 468.

т??? да.

2,58 922 404.

ити курдук.

2,67 738 095.

ол да.

2,80 354 026.

да буоллар

3,347 222.

дии саныыбын.

3,1 542 777.

ким да.

3,20 279 123.

ол и? игэр

3,20 279 123.

син биир

3,37 789 126.

ону та? ынан.

3,48 034 664.

хайаан да.

3,53 950 268.

ол эбэтэр

3,54 284 814.

ха?ан да.

3,6 664 493.

бастатан туран.

3,79 130 142.

икки ардыларынаа? ы.

3,87 357 906.

туох эрэ.

3,90 587 009.

то?о диэтэххэ.

4,27 079 377.

да суох.

4,37 378 452.

инньэ гынан.

4,48 902 196.

дьиэ кэргэн.

4,53 793 382.

эр ки? и.

4,54 343 434.

аан бастаан.

4,66 210 614.

эрэ буолбакка.

4,68 346 522.

буолуон с? п.

4,76 281 237.

ким эрэ.

4,81 790 917.

тугу да.

4,93 201 754.

да и? ин.

5,5 847 953.

биир да.

5,21 084 337.

билигин да.

5,21 567 718.

сыл устата.

5,22 537 175.

бу к? ннэргэ.

5,35 731 301.

ханна да.

5,68 216 271.

хомойуох и? ин.

5,73 139 653.

ханнык ба? арар

5,73 431 922.

хайдах эрэ.

5,76 666 667.

ханнык да.

5,94 973 545.

ол т? м?гэр

6,424 503.

буолан баран.

6,10 477 742.

машинный газетный якутский биграмма.

Заключение

В ходе исследования машинного газетного корпуса якутского языка получена частотная таблица биграмм якутского языка. В данных биграммах преобладают повествовательные словосочетания, что обусловлено характером газетного корпуса. Также в результатах имеется словосочетания с следующей основой «Саха сирэ», что переводится как «Якутия», что тоже обусловлено характером местных новостей. Словосочетание «Аан дойду», что обозначает «Мир», «Всемирный» также присутствует в данной таблице. Полученная таблица может быть полезна для выделения категоризации текста, выявление возможные ошибки.

  • 1. Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009, с.1112
  • 2. Салчак А. Я., Байыроол А. В. Электронный корпус тувинского языка: состояние, проблемы // Мир науки, культуры, образования — № 6 — 2013; с.408−409
  • 3. Сиразитдинов З. А., Полянин А. И. О состоянии корпусных разработок башкирского языка // Актуальные проблемы диалектологии языков народов России — 2013 — с.232−236
  • 4. Leontiev N.A. The newspaper corpus of the yakut language // Proceeding of the International Conference «Turkic Languages Prosessing: TurkLang-2015" — 2015 — p.233−235
  • 5. Протопопова В. Ф. Частотная таблица символов якутского языка с учетом диграфов и дифтонгов // Информационно-телекоммуникационные системы и технологии. Материалы Всероссийской научно-практической конференции. Кемерово — 2014 — с.141−142
  • 6. Леонтьев Н. А. Частоты употребления букв якутского языка в газетном корпусе. // Современные научные исследования и инновации, Москва — № 7(39), — 2014; с.83−86
  • 7. Леонтьев Н. А. Частотный словарь якутского языка по материалам газетного корпуса // Язык и культура. Новосибирск — № 13 — 2014 — с.57−60.
Показать весь текст
Заполнить форму текущей работой