Помощь в написании студенческих работ
Антистрессовый сервис

Особенности предметной области

РефератПомощь в написанииУзнать стоимостьмоей работы

Во-вторых, в связи с ограничением в 140 символов, твиты не всегда обладают достаточным контекстом, позволяющим с уверенностью определить тип ИС даже эксперту-аннотатору. Кроме того, тексты Твиттера зачастую не позволяют с уверенностью использовать один из классических признаков для выделения ИС — паттерн капитализации, так как многие сообщения носят отрывистый, телеграфный характер, и их авторы… Читать ещё >

Особенности предметной области (реферат, курсовая, диплом, контрольная)

По данным исследования Риттера [Ritteretal. 2011: 30] каждый день появляется более 100 миллионов новых сообщений в Твиттере. Социальные сети формата микроблога продолжают набирать популярность, в то время как более привычные текстовые блоги отошли на второй план. При подобном бурном росте объема свободно доступных современных текстов на множестве языков Твиттер, несомненно, является одним из важнейших источников данных для задач прикладной лингвистики. В то же время, ряд специфических характеристик данных заставляет исследователей искать нетрадиционные подходы к извлечению информации и в частности, к выделению именованных сущностей.

Работа Риттера и соавторов [30] показала характерные особенности текстов Твиттера, затрудняющие их обработку классическими средствами АОТ. Две основные причины затруднений: во-первых, при обилии в сообщениях-твитах различных ИС (названий компаний, продуктов, музыкальных групп, кинофильмов, сериалов и т. д.), почти все типы, кроме имен людей (Персона) и географических локаций (Локация) встречаются относительно редко, и таким образом даже большой корпус вручную размеченных твитов будет содержать недостаточно сущностей каждого типа для обучения модели. Нехватка должным образом размеченных корпусов является важным сдерживающим фактором развития моделей, основанных на методах машинного обучения в этой сфере. В данной работе исследователи собрали корпус из 2400 случайных твитов и разметили 10 типов сущностей в нем.

Во-вторых, в связи с ограничением в 140 символов, твиты не всегда обладают достаточным контекстом, позволяющим с уверенностью определить тип ИС даже эксперту-аннотатору. Кроме того, тексты Твиттера зачастую не позволяют с уверенностью использовать один из классических признаков для выделения ИС — паттерн капитализации, так как многие сообщения носят отрывистый, телеграфный характер, и их авторы не считают необходимым соблюдение принятых шаблонов капитализации. В силу того же ограничения длины сообщений и их особого формата может быть также затруднен синтаксический анализ (многие сообщения представляют собой неполные предложения, не встречающиеся в более формальных текстах). В дополнение ко всему вышесказанному, тексты Твиттера содержат гораздо большую долю аббревиатур, сленговых сокращений и орфографических ошибок, чем любой другой жанр.

Ссылаясь на сложную, полную «шумов» природу микроблогов, Шерман Малмази и Марк Драс [Malmasi, Dras, 2016: 47] предлагают для выделения в тексте упоминаний локаций опираться на поиск именных групп и n-граммы взамен традиционного подхода к извлечению именованных сущностей.

Леон Держински в работе [Derczynski etal., 2013: 35] также отмечает, что тексты Твиттера сопровождаются обилием метаданных (время, место написания), которые могут дать ключ к некоторым задачам семантической разметки.

В своем обзоре [Derczynski et al., 2014: 42] Держински отмечает помимо прочего, что сами сущности, упоминаемые в Твиттере отличаются от тех, что часто встречаются в новостных текстах. Если говорить о категории «Персона», то в то время как в новостях в нее попадают в основном политики, журналисты и представители бизнеса, микроблоги чаще говорят о спортсменах, актерах, персонажах кино и сериалов, а также о частных лицах — друзьях, родных. Для «Локаций» частотными в новостях будут названия стран, рек, городов, в Твиттере же часто говорят также ресторанах, барах, местных достопримечательностях — небольших объектах. То же характерно и для упоминаний организаций: вместо доминирования крупных в терминах капитализации и кадрового состава, международных или государственных организаций/корпораций, мы также можем часто встретиться с названиями музыкальных коллективов, небольших компаний, стартапов, спортклубов, как общеизвестных, так и местных.

Для твитов также характерно более частое по сравнению с новостями упоминание названий продуктов (примерно в 5% сообщений).

Таким образом, в условиях многообразия представленных типов сущностей усложняется задача обнаружения и классификации сущностей, не представленных на этапе обучения (или написания правил). Это негативно сказывается на результатах различных подходов, основанных как на газеттирах, так и на методах машинного обучения.

Кроме того, как отмечает Держински, для социальных сетей (и микроблогов в частности) характерно явление «смещения» (``drift''): набор сущностей, широко представленных в текстах микроблогов существенно меняется со временем. В результате система, подготовленная и обученная на корпусе текстов определенного временного периода может хорошо справляться с другими текстами того же периода, но с течением времени результаты станут менее впечатляющими.

О проблемах ненормативного написания в Твиттере и, как следствие, появления большого количества слов, не входящих в словарь («out-of-vocabulary» — OOV), что делает менее эффективными все этапы обработки текста, также говорят Бо Хан и Тимоти Болдуин [Han, Baldwin, 2014: 24]. Авторы предлагают каскадный метод выявления и нормализации неверно написанных («ill-formed») слов, основанный на морфологической и фонетической близости. Однако авторы также признают, что лучшие результаты может дать подход, сочетающий данный спеллчекер с обширным словарем замен и списком «белых» OOV-cлов — не нуждающихся в замене.

Показать весь текст
Заполнить форму текущей работой