Исследование частотных свойств биграмм якутского языка в газетном корпусе
В данной статье рассматривается газетный корпус якутского языка. Приводятся численные данные о объеме и источниках корпуса. Исследуются частотные свойства биграмм, выводится таблица наиболее часто употребляемых словосочетаний. Проведен анализ полученных результатов по их виду. Протопопова В. Ф. Частотная таблица символов якутского языка с учетом диграфов и дифтонгов… Читать ещё >
Исследование частотных свойств биграмм якутского языка в газетном корпусе (реферат, курсовая, диплом, контрольная)
В данной статье рассматривается газетный корпус якутского языка. Приводятся численные данные о объеме и источниках корпуса. Исследуются частотные свойства биграмм, выводится таблица наиболее часто употребляемых словосочетаний. Проведен анализ полученных результатов по их виду.
Ключевые слова: языковой корпус, якутский язык, частотная таблица, N-грамма, база данных Частотные словари для естественных языков создаются в различных целях, обычно применяются данные таблицы для выявления связей между элементами, для систем коррекции текста. Существуют таблицы для английского языка и других основных языков мира, в том числе и для русского языка [1]. Биграммы или 2-граммы для обработки текстов применяются давно, исследователями были составлены биграммы для наиболее распространенных языков, в том числе и для русского языка. Например, проект национальный корпус языка по адресу www.ruscorpora.ru., имеет в составе таблицы N-грамм, до 6-грамм включительно. Кроме того, создаются машинные корпуса языков народов России, которые тоже имеют свои результаты [2−3].
Якутский язык или язык Саха, является языков народа Саха (якутов) и относиться к тюркской группе языков, по типу агглютинативным языкам, то есть слова создаются с помощью суффиксов, из-за этого число возможных вариантов словоформ увеличен по отношении к русскому языку. Для развития языка необходимо развивать средства компьютерной обработки и анализа.
Газетный корпус якутского языка создается в рамках проекта по автоматизированной обработке якутского языка. Газетный корпус состоит из более 21 тыс. статей охватывающий период от 2006 года до 2015 год. Тексты взяты с сайтов республиканских газет «Кыым», «Саха Сирэ», газет «Аартык.ру» и «Sakhalife». Запись ведется в кодировке UTF8 стандарта Unicode, так как данный стандарт поддерживает национальные якутские буквы.
С момента создания сайта корпус расширен до 12 млн. слов, состоит из почти 400 тыс. словоупотреблений [1]. Ведутся работы по создании разметки якутского языка для корпуса и морфологическому анализу. Разметка якутского языка создается в рамках интернациональной разметки тюркских языков.
Частоты употребления символов составлены в работах [4−5] и частотный словарь словоупотреблений составлен в работе [6].
Для расчета биграмм был обработан весь массив текста газетного корпуса. Для хранения биграмм была создана база данных с двумя полями: поле строкового типа для хранения биграммы и целочисленное поле для частоты употребления биграммы. Использовалась база данных MySQL и язык программирования PHP. В каждом тексте был произведен поиск двух соседних слов, в случае, когда они не разделялись через запятые или иные знаки препинания, происходил запись в базу данных. Всего записей получено 4 млн.239 тыс. В таблице 1 приводятся частотная таблица биграмм отсортированная по наиболее часто встречаемым элементам с индексом MI. Данный индекс показывает, насколько реже встречается данное словосочетание по сравнении с наиболее часто встречаемым.
Таблица 1. Частотная таблица биграмм.
№. | Биграмма. | Частота. | ИндексMI. | |
ол эрээри. | ||||
ол курдук. | 1,4 488 013. | |||
саха сирин. | 1,8 010 758. | |||
ол и? ин. | 1,44 463 001. | |||
туох да. | 1,51 162 791. | |||
саха сиригэр | 1,70 172 518. | |||
аан дойду. | 1,92 419 576. | |||
биллэн турар | 1,99 591 764. | |||
гынан баран. | 2,520 073. | |||
хас биирдии. | 2,16 208 421. | |||
хас да. | 2,20 058 708. | |||
ол аата. | 2,25 260 417. | |||
ол гынан. | 2,43 820 468. | |||
т??? да. | 2,58 922 404. | |||
ити курдук. | 2,67 738 095. | |||
ол да. | 2,80 354 026. | |||
да буоллар | 3,347 222. | |||
дии саныыбын. | 3,1 542 777. | |||
ким да. | 3,20 279 123. | |||
ол и? игэр | 3,20 279 123. | |||
син биир | 3,37 789 126. | |||
ону та? ынан. | 3,48 034 664. | |||
хайаан да. | 3,53 950 268. | |||
ол эбэтэр | 3,54 284 814. | |||
ха?ан да. | 3,6 664 493. | |||
бастатан туран. | 3,79 130 142. | |||
икки ардыларынаа? ы. | 3,87 357 906. | |||
туох эрэ. | 3,90 587 009. | |||
то?о диэтэххэ. | 4,27 079 377. | |||
да суох. | 4,37 378 452. | |||
инньэ гынан. | 4,48 902 196. | |||
дьиэ кэргэн. | 4,53 793 382. | |||
эр ки? и. | 4,54 343 434. | |||
аан бастаан. | 4,66 210 614. | |||
эрэ буолбакка. | 4,68 346 522. | |||
буолуон с? п. | 4,76 281 237. | |||
ким эрэ. | 4,81 790 917. | |||
тугу да. | 4,93 201 754. | |||
да и? ин. | 5,5 847 953. | |||
биир да. | 5,21 084 337. | |||
билигин да. | 5,21 567 718. | |||
сыл устата. | 5,22 537 175. | |||
бу к? ннэргэ. | 5,35 731 301. | |||
ханна да. | 5,68 216 271. | |||
хомойуох и? ин. | 5,73 139 653. | |||
ханнык ба? арар | 5,73 431 922. | |||
хайдах эрэ. | 5,76 666 667. | |||
ханнык да. | 5,94 973 545. | |||
ол т? м?гэр | 6,424 503. | |||
буолан баран. | 6,10 477 742. | |||
машинный газетный якутский биграмма.
Заключение
В ходе исследования машинного газетного корпуса якутского языка получена частотная таблица биграмм якутского языка. В данных биграммах преобладают повествовательные словосочетания, что обусловлено характером газетного корпуса. Также в результатах имеется словосочетания с следующей основой «Саха сирэ», что переводится как «Якутия», что тоже обусловлено характером местных новостей. Словосочетание «Аан дойду», что обозначает «Мир», «Всемирный» также присутствует в данной таблице. Полученная таблица может быть полезна для выделения категоризации текста, выявление возможные ошибки.
- 1. Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009, с.1112
- 2. Салчак А. Я., Байыроол А. В. Электронный корпус тувинского языка: состояние, проблемы // Мир науки, культуры, образования — № 6 — 2013; с.408−409
- 3. Сиразитдинов З. А., Полянин А. И. О состоянии корпусных разработок башкирского языка // Актуальные проблемы диалектологии языков народов России — 2013 — с.232−236
- 4. Leontiev N.A. The newspaper corpus of the yakut language // Proceeding of the International Conference «Turkic Languages Prosessing: TurkLang-2015" — 2015 — p.233−235
- 5. Протопопова В. Ф. Частотная таблица символов якутского языка с учетом диграфов и дифтонгов // Информационно-телекоммуникационные системы и технологии. Материалы Всероссийской научно-практической конференции. Кемерово — 2014 — с.141−142
- 6. Леонтьев Н. А. Частоты употребления букв якутского языка в газетном корпусе. // Современные научные исследования и инновации, Москва — № 7(39), — 2014; с.83−86
- 7. Леонтьев Н. А. Частотный словарь якутского языка по материалам газетного корпуса // Язык и культура. Новосибирск — № 13 — 2014 — с.57−60.