Переносы и сокращения слов
Просмотр результатов поиска показал, в эти периоды выпускалось значительное количество словарей, книг по грамматике и других книг по лингвистике (рис. 22). В подобные издания часто включаются варианты родовых окончаний прилагательных, «ая», «ое» (рис. 23). Анализ первых четырех страниц результатов (сортировка по релевантности) показал, что из 40 ссылок 28 (70%) являются словарями, грамматиками… Читать ещё >
Переносы и сокращения слов (реферат, курсовая, диплом, контрольная)
В ходе исследования проблем, связанных со старой орфографией, были выявлены еще две проблемы.
Рис. 16 График встречаемости N-граммы «француз» в старой и современной орфографии
Обращает внимание, что кривая встречаемости слова «француз» в написании без твердого знака дает большой подъем в первые десятилетия 19 века и до 1920 года идет практически вровень с кривой встречаемости того же слова с твердым знаком. При просмотре ссылок выявлено, что рост употреблений N граммы «француз» без твердого знака в книгах, изданных в 19 веке и начале 20 века, обусловлен а) сокращением слова «французский» (рис. 17):
Рис 17. Сокращение слова «Французского» как «Француз.» система интерпретировала как существительное «Француз».
б) переносом слова (рис. 18):
Рис 18. При переносе слова «Французскїе» как «Француз-» «-скїе» система интерпретировала часть перенесенного слова как искомую N-грамму.
Было проведено исследование, насколько наличие переносов слов может влиять на результат (см., напр., рис. 19).
Рис. 19. График встречаемости сочетания букв «пре» как самостоятельного слова.
Подобные результаты были получены и для многих других сочетаний букв. Обращает внимание, что переносы чаще встречаются в текстах со старой орфографией, в особенности — в старопечатных книгах (рис. 17). В целом можно сделать предварительное предположение, что переносы слов встречаются чаще в текстах со старой орфографией (особенно в старопечатных книгах), чем в текстах с современной орфографией. Если это так, то это по всей вероятности одна из причин того, что качество распознавания текста старопечатной книги ниже, чем распознавание современной печатной книги.
Бывает и наоборот: конечная часть слова «ский» чаще встречается в современной орфографии (рис. 20, 21).
Рис. 20. График встречаемости части слова «ский». Перенос этого сочетания чаще встречается в современной орфографии.
Рис. 21. Перенос длинных слов, содержащих сочетание «ский» (фрагмент из книги)
Сокращения слов Иногда части слов присутствуют в тексте оправданно, напр., в случае сокращений. Причем сокращения бывают не только по начальным буквам, но и по конечным. Один из таких примеров рассмотрен ниже. От «ский» мы перешли к другим конечным буквосочетаниям. При поиске по сочетаниям знаков «ская», «кая», «ая», отчетливо видно, что в отдельные периоды времени повышается число встречаемости сочетания «ая» как отдельной N-граммы.
Просмотр результатов поиска показал, в эти периоды выпускалось значительное количество словарей, книг по грамматике и других книг по лингвистике (рис. 22). В подобные издания часто включаются варианты родовых окончаний прилагательных, «ая», «ое» (рис. 23).
Рис. 23. График частоты встречаемости родовых окончаний как отдельных N-грамм.
На графике (рис. 23) видно, что рост частоты встречаемости «ое» и «ая» практически совпадает. Иначе ведет себя кривая частоты встречаемости окончания «ый». Это связано с тем, что прилагательное в мужском роде является словарной формой и его окончание обычно не указывается отдельно в словарной статье.
Анализ первых четырех страниц результатов (сортировка по релевантности) показал, что из 40 ссылок 28 (70%) являются словарями, грамматиками, работами по лингвистике.
Использование родовых окончаний в качестве поискового запроса позволило выявить в корпусе работы по лексикографии. Имеет место несомненная корреляция — запрос на родовые окончания дает значительное количество словарей и других лингвистических текстов.
Кроме этого, эти же сочетания знаков используются вместе с цифрами (рис. 24).
Рис. 24. Фрагмент страницы результатов поиска по «ая»