Извлечение ключевых слов и словосочетаний из корпуса.
Функция «Keywords/terms»
С целью экономии места в словарях и соответственно с целью ускорения работы программы в будущем, некоторые словосочетания (из списка Multi-word) в словари добавляются не полностью, а только одним словом, так как даже если в тексте отзыва встречается только одно это слово, оно всё равно указывает на упоминание данного параметра. К примеру, в корпусе часто встречаются словосочетания типа «неплохой… Читать ещё >
Извлечение ключевых слов и словосочетаний из корпуса. Функция «Keywords/terms» (реферат, курсовая, диплом, контрольная)
Первым этапом стало использование функции «Keywords/terms» для выявления параметров, которые чаще всего встречаются в отзывах. Однако, это помогло выявить не только параметры, для которых в дальнейшем будут составлены словари (названия словарей), но и те слова и словосочетания, которые в них войдут, к примеру, синонимы заголовков или слова, которые имеют отношение к данному параметру. К примеру, наряду со словом «видеокарта», который станет заголовком словаря, в список ключевых слов для этого параметра были включены слова «дискретка», «geforce» и т. д., которые будут добавлены в файл словаря «Видеокарта».
Выделение ключевых слов и словосочетаний в Sketch Engine происходит по следующему принципу: программа считает, сколько раз определённое слово встретилось в исследуемом корпусе и сколько раз в справочном корпусе, затем полученные числа умножаются либо на тысячу, либо на миллион, чтобы предоставить информацию о частоте на тысячу или на миллион, а затем одно число делится на другое, чтобы получить их соотношение (Kilgarriff, 2009). Это соотношение является коэффициентом «терминологичности» данного слова, то есть указывает, насколько данное слово близко к понятию ключевого слова по отношению к исследуемому корпусу. В результате использования функции «Keywords/terms» мы получаем два списка — список ключевых слов типа «Single-word», то есть состоящих из одного слова, и список ключевых слов типа «Multi-word», то есть список терминологических словосочетаний. В полученных списках вышеупомянутый коэффициент обозначается словом «Score». Формула, по которой считается параметр Score, выглядит следующим образом:
где это нормализованная частота (на миллион) слова в целевом корпусе, нормализованная частота (на миллион) слова в справочном корпусе, а N — так называемый параметр сглаживания (значение по умолчанию равно 1).
Рассмотрим результаты применения данной функции на корпусе «Достоинства».
Были установлены следующие настройки:
Исследуемый корпус: Достоинства Справочный корпус: Russian Web 2011 (ruTenTen11).
Параметр сглаживания N: 1 (При увеличении значения параметра слова с более высокой частотой добавляются в список ключевых слов) Атрибут корпуса (атрибут корпуса, который используется для извлечения ключевых слов): lc.
Минимальная частота: 1 (в исследуемом корпусе) Максимальное количество ключевых слов: 100.
Максимальное количество словосочетаний: 100.
Справочный корпус для словосочетаний: Russian Web 2011 sample (ruTenTen11).
Релевантные слова типа Single-word (отобрано вручную из первоначального списка).
Score — коэффициент «терминологичности» данного слова.
F — частота в исследуемом корпусе.
RefF — частота в справочном корпусе.
Single-word. | Score. | F. | RefF. | |
Тачпад. | 1,167.89. | 7,694. | ||
клавиатура. | 870.18. | 77,348. | ||
Греется. | 796.83. | 17,135. | ||
Fullhd. | 524.57. | 3,259. | ||
видеокарта. | 486.50. | 28,132. | ||
оперативки. | 431.70. | 7,893. | ||
производительный. | 397.64. | 10,135. | ||
шустрый. | 391.13. | 12,410. | ||
оперативы. | 302.28. | 2,772. | ||
Лёгкий. | 301.84. | 49,519. | ||
Экран. | 276.15. | 405,600. | ||
Fhd. | 259.26. | |||
клавиатуры. | 256.63. | 116,409. | ||
Win. | 253.33. | 45,804. | ||
Люфтов. | 250.16. | 4,340. | ||
оперативка. | 245.97. | 1,859. | ||
Трекпад. | 220.72. | |||
Тонкий. | 210.33. | 182,937. | ||
мультитач. | 199.43. | 6,558. | ||
Батарея. | 195.37. | 82,861. | ||
Тачпада. | 194.14. | 3,604. | ||
процессор | 181.56. | 175,983. | ||
Клавы. | 180.66. | 5,236. | ||
цветопередача. | 174.85. | 10,050. | ||
дискретной. | 174.02. | 10,185. | ||
Сборка. | 170.79. | 138,700. | ||
Скрипов. | 160.38. | 3,814. | ||
стильный. | 158.82. | 92,819. | ||
Клава. | 153.20. | 14,053. | ||
Легкий. | 152.87. | 341,592. | ||
Тач. | 150.46. | 5,270. | ||
Люфтит. | 142.99. | 1,570. | ||
Маркий. | 139.23. | 2,106. | ||
Retina. | 135.97. | 2,595. | ||
Ddr. | 134.64. | 34,221. | ||
Geforce. | 131.58. | 40,798. | ||
Зарядка. | 127.86. | 53,547. | ||
батарейка. | 127.34. | 15,084. | ||
Винды. | 123.43. | 16,141. | ||
Фпс. | 122.54. | 16,389. | ||
Шустрая. | 121.05. | 5,168. | ||
Клавиш. | 118.94. | 88,571. | ||
Шустро. | 116.85. | 12,044. | ||
дискретка. | 116.46. | |||
Релевантные слова типа Multi-word (отобрано вручную из первоначального списка).
Multi-word. | Score. | F. | RefF. | |
жёсткий диск. | 695.23. | |||
лучший звук. | 463.82. | |||
угол обзора. | 339.57. | 2,453. | ||
алюминиевый корпус. | 183.34. | |||
система охлаждения. | 158.58. | 5,769. | ||
красивейший дизайн. | 155.27. | |||
приятный материал. | 150.75. | |||
матовый покрытие. | 116.70. | |||
высшее разрешение. | 116.70. | |||
лучшая цена. | 116.70. | |||
мощное железо. | 113.75. | |||
оперативная память. | 116.53. | 7,057. | ||
максимальная яркость. | 100.44. | |||
заряд батареи. | 96.92. | |||
ценовой категория. | 80.03. | 2,388. | ||
скорость работы. | 78.54. | 3,073. | ||
качество материалов. | 75.78. | 1,316. | ||
внешний вид. | 37.33. | 42,830. | ||
блок питания. | 22.41. | 7,434. | ||
операционная система. | 11.89. | 19,186. | ||
тишайший вентилятор | 78.14. | |||
разумнейший деньга. | 78.14. | |||
пошире диапазон. | 78.14. | |||
неплохой динамика. | 78.14. | |||
Распределение ключевых слов по словарям.
- 1. Тачпад: тачпад, трекпад, мультитач, тачпада, тач
- 2. Клавиатура: клавиатура, клавиатуры, клавы, клава, клавиш
- 3. Система охлаждения: не греется, система охлаждения, вентилятор
- 4. Экран: fullhd, экран, fhd, цветопередача, retina, угол обзора, разрешение, яркость
- 5. Видеокарта: видеокарта, дискретной, geforce, фпс, дискретка
- 6. Производительность и скорость работы: производительный, шустрый, шустрая, шустро, скорость работы
- 7. Оперативная память: оперативки, оперативы, оперативка, ddr, оперативная память
- 8. Габариты: лёгкий, тонкий, легкий
- 9. Операционная система: win, винды, операционная система
- 10. Корпус: люфтов, скрипов, сборка, люфтит, маркий, корпус, материал, матовое покрытие, материалов
- 11. Батарея: батарея, зарядка, батарейка, заряд, батареи, блок питания
- 12. Процессор: процессор, железо
- 13. Внешний вид: стильный, дизайн, внешний вид
- 14. Жёсткий диск: жёсткий диск
- 15. Цена: ценовой категории, разумные деньги
- 16. Звук: динамики, звук
С целью экономии места в словарях и соответственно с целью ускорения работы программы в будущем, некоторые словосочетания (из списка Multi-word) в словари добавляются не полностью, а только одним словом, так как даже если в тексте отзыва встречается только одно это слово, оно всё равно указывает на упоминание данного параметра. К примеру, в корпусе часто встречаются словосочетания типа «неплохой звук», «прекрасный звук», «лучший звук» и т. д. В таком случае, в словарь будет добавлено только слово «звук», так как любое из этих словосочетаний, как и просто упоминание параметра «звук» в блоке «Достоинства» говорит о том, что пользователь считает звук устройства его положительным качеством.
Устойчивые словосочетания были добавлены полностью, так как части таких словосочетаний вне данного словосочетания приобретают другое значение (пример: жёсткий диск, внешний вид).