Помощь в написании студенческих работ
Антистрессовый сервис

Извлечение ключевых слов и словосочетаний из корпуса. 
Функция «Keywords/terms»

РефератПомощь в написанииУзнать стоимостьмоей работы

С целью экономии места в словарях и соответственно с целью ускорения работы программы в будущем, некоторые словосочетания (из списка Multi-word) в словари добавляются не полностью, а только одним словом, так как даже если в тексте отзыва встречается только одно это слово, оно всё равно указывает на упоминание данного параметра. К примеру, в корпусе часто встречаются словосочетания типа «неплохой… Читать ещё >

Извлечение ключевых слов и словосочетаний из корпуса. Функция «Keywords/terms» (реферат, курсовая, диплом, контрольная)

Первым этапом стало использование функции «Keywords/terms» для выявления параметров, которые чаще всего встречаются в отзывах. Однако, это помогло выявить не только параметры, для которых в дальнейшем будут составлены словари (названия словарей), но и те слова и словосочетания, которые в них войдут, к примеру, синонимы заголовков или слова, которые имеют отношение к данному параметру. К примеру, наряду со словом «видеокарта», который станет заголовком словаря, в список ключевых слов для этого параметра были включены слова «дискретка», «geforce» и т. д., которые будут добавлены в файл словаря «Видеокарта».

Выделение ключевых слов и словосочетаний в Sketch Engine происходит по следующему принципу: программа считает, сколько раз определённое слово встретилось в исследуемом корпусе и сколько раз в справочном корпусе, затем полученные числа умножаются либо на тысячу, либо на миллион, чтобы предоставить информацию о частоте на тысячу или на миллион, а затем одно число делится на другое, чтобы получить их соотношение (Kilgarriff, 2009). Это соотношение является коэффициентом «терминологичности» данного слова, то есть указывает, насколько данное слово близко к понятию ключевого слова по отношению к исследуемому корпусу. В результате использования функции «Keywords/terms» мы получаем два списка — список ключевых слов типа «Single-word», то есть состоящих из одного слова, и список ключевых слов типа «Multi-word», то есть список терминологических словосочетаний. В полученных списках вышеупомянутый коэффициент обозначается словом «Score». Формула, по которой считается параметр Score, выглядит следующим образом:

Извлечение ключевых слов и словосочетаний из корпуса. Функция «Keywords/terms».
Извлечение ключевых слов и словосочетаний из корпуса. Функция «Keywords/terms».

где это нормализованная частота (на миллион) слова в целевом корпусе, нормализованная частота (на миллион) слова в справочном корпусе, а N — так называемый параметр сглаживания (значение по умолчанию равно 1).

Рассмотрим результаты применения данной функции на корпусе «Достоинства».

Были установлены следующие настройки:

Исследуемый корпус: Достоинства Справочный корпус: Russian Web 2011 (ruTenTen11).

Параметр сглаживания N: 1 (При увеличении значения параметра слова с более высокой частотой добавляются в список ключевых слов) Атрибут корпуса (атрибут корпуса, который используется для извлечения ключевых слов): lc.

Минимальная частота: 1 (в исследуемом корпусе) Максимальное количество ключевых слов: 100.

Максимальное количество словосочетаний: 100.

Справочный корпус для словосочетаний: Russian Web 2011 sample (ruTenTen11).

Релевантные слова типа Single-word (отобрано вручную из первоначального списка).

Score — коэффициент «терминологичности» данного слова.

F — частота в исследуемом корпусе.

RefF — частота в справочном корпусе.

Single-word.

Score.

F.

RefF.

Тачпад.

1,167.89.

7,694.

клавиатура.

870.18.

77,348.

Греется.

796.83.

17,135.

Fullhd.

524.57.

3,259.

видеокарта.

486.50.

28,132.

оперативки.

431.70.

7,893.

производительный.

397.64.

10,135.

шустрый.

391.13.

12,410.

оперативы.

302.28.

2,772.

Лёгкий.

301.84.

49,519.

Экран.

276.15.

405,600.

Fhd.

259.26.

клавиатуры.

256.63.

116,409.

Win.

253.33.

45,804.

Люфтов.

250.16.

4,340.

оперативка.

245.97.

1,859.

Трекпад.

220.72.

Тонкий.

210.33.

182,937.

мультитач.

199.43.

6,558.

Батарея.

195.37.

82,861.

Тачпада.

194.14.

3,604.

процессор

181.56.

175,983.

Клавы.

180.66.

5,236.

цветопередача.

174.85.

10,050.

дискретной.

174.02.

10,185.

Сборка.

170.79.

138,700.

Скрипов.

160.38.

3,814.

стильный.

158.82.

92,819.

Клава.

153.20.

14,053.

Легкий.

152.87.

341,592.

Тач.

150.46.

5,270.

Люфтит.

142.99.

1,570.

Маркий.

139.23.

2,106.

Retina.

135.97.

2,595.

Ddr.

134.64.

34,221.

Geforce.

131.58.

40,798.

Зарядка.

127.86.

53,547.

батарейка.

127.34.

15,084.

Винды.

123.43.

16,141.

Фпс.

122.54.

16,389.

Шустрая.

121.05.

5,168.

Клавиш.

118.94.

88,571.

Шустро.

116.85.

12,044.

дискретка.

116.46.

Релевантные слова типа Multi-word (отобрано вручную из первоначального списка).

Multi-word.

Score.

F.

RefF.

жёсткий диск.

695.23.

лучший звук.

463.82.

угол обзора.

339.57.

2,453.

алюминиевый корпус.

183.34.

система охлаждения.

158.58.

5,769.

красивейший дизайн.

155.27.

приятный материал.

150.75.

матовый покрытие.

116.70.

высшее разрешение.

116.70.

лучшая цена.

116.70.

мощное железо.

113.75.

оперативная память.

116.53.

7,057.

максимальная яркость.

100.44.

заряд батареи.

96.92.

ценовой категория.

80.03.

2,388.

скорость работы.

78.54.

3,073.

качество материалов.

75.78.

1,316.

внешний вид.

37.33.

42,830.

блок питания.

22.41.

7,434.

операционная система.

11.89.

19,186.

тишайший вентилятор

78.14.

разумнейший деньга.

78.14.

пошире диапазон.

78.14.

неплохой динамика.

78.14.

Распределение ключевых слов по словарям.

  • 1. Тачпад: тачпад, трекпад, мультитач, тачпада, тач
  • 2. Клавиатура: клавиатура, клавиатуры, клавы, клава, клавиш
  • 3. Система охлаждения: не греется, система охлаждения, вентилятор
  • 4. Экран: fullhd, экран, fhd, цветопередача, retina, угол обзора, разрешение, яркость
  • 5. Видеокарта: видеокарта, дискретной, geforce, фпс, дискретка
  • 6. Производительность и скорость работы: производительный, шустрый, шустрая, шустро, скорость работы
  • 7. Оперативная память: оперативки, оперативы, оперативка, ddr, оперативная память
  • 8. Габариты: лёгкий, тонкий, легкий
  • 9. Операционная система: win, винды, операционная система
  • 10. Корпус: люфтов, скрипов, сборка, люфтит, маркий, корпус, материал, матовое покрытие, материалов
  • 11. Батарея: батарея, зарядка, батарейка, заряд, батареи, блок питания
  • 12. Процессор: процессор, железо
  • 13. Внешний вид: стильный, дизайн, внешний вид
  • 14. Жёсткий диск: жёсткий диск
  • 15. Цена: ценовой категории, разумные деньги
  • 16. Звук: динамики, звук

С целью экономии места в словарях и соответственно с целью ускорения работы программы в будущем, некоторые словосочетания (из списка Multi-word) в словари добавляются не полностью, а только одним словом, так как даже если в тексте отзыва встречается только одно это слово, оно всё равно указывает на упоминание данного параметра. К примеру, в корпусе часто встречаются словосочетания типа «неплохой звук», «прекрасный звук», «лучший звук» и т. д. В таком случае, в словарь будет добавлено только слово «звук», так как любое из этих словосочетаний, как и просто упоминание параметра «звук» в блоке «Достоинства» говорит о том, что пользователь считает звук устройства его положительным качеством.

Устойчивые словосочетания были добавлены полностью, так как части таких словосочетаний вне данного словосочетания приобретают другое значение (пример: жёсткий диск, внешний вид).

Показать весь текст
Заполнить форму текущей работой