ΠŸΠΎΠΌΠΎΡ‰ΡŒ Π² написании студСнчСских Ρ€Π°Π±ΠΎΡ‚
АнтистрСссовый сСрвис

Анализ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкстов Π½Π° основС Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π°

ΠšΡƒΡ€ΡΠΎΠ²Π°ΡΠŸΠΎΠΌΠΎΡ‰ΡŒ Π² Π½Π°ΠΏΠΈΡΠ°Π½ΠΈΠΈΠ£Π·Π½Π°Ρ‚ΡŒ ΡΡ‚ΠΎΠΈΠΌΠΎΡΡ‚ΡŒΠΌΠΎΠ΅ΠΉ Ρ€Π°Π±ΠΎΡ‚Ρ‹

ЀинансовыС Ρ€Ρ‹Π½ΠΊΠΈ. Π’ Ρ€Π°Π±ΠΎΡ‚Π΅ говорится, Ρ‡Ρ‚ΠΎ ΠΎ ΠΊΠ°ΠΆΠ΄ΠΎΠΌ Π°ΠΊΡ†ΠΈΠΎΠ½Π΅Ρ€Π½ΠΎΠΌ общСствС ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‚ многочислСнныС ΠΏΡƒΠ±Π»ΠΈΠΊΠ°Ρ†ΠΈΠΈ новостСй, ΡΡ‚Π°Ρ‚ΡŒΠΈ, Π±Π»ΠΎΠ³ΠΈ ΠΈ ΡΠΎΠΎΠ±Ρ‰Π΅Π½ΠΈΡ Π² Π’Π²ΠΈΡ‚Ρ‚Π΅Ρ€Π΅. БистСма Π°Π½Π°Π»ΠΈΠ·Π° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ эти источники для нахоТдСния статСй, Π² ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΠΎΠ±ΡΡƒΠΆΠ΄Π°ΡŽΡ‚ΡΡ Ρ‚Π°ΠΊΠΈΠ΅ общСства, ΠΈ ΠΈΠ·Π²Π»Π΅ΠΊΠ°Ρ‚ΡŒ ΠΎΡ‚Π·Ρ‹Π²Ρ‹, Ρ‡Ρ‚ΠΎ ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΡ‚ ΡΠΎΠ·Π΄Π°Ρ‚ΡŒ Π°Π²Ρ‚ΠΎΠΌΠ°Ρ‚ΠΈΡ‡Π΅ΡΠΊΡƒΡŽ Ρ‚ΠΎΡ€Π³ΠΎΠ²ΡƒΡŽ систСму. Одной ΠΈΠ· Ρ‚Π°ΠΊΠΈΡ… систСм являСтся «The Stock… Π§ΠΈΡ‚Π°Ρ‚ΡŒ Π΅Ρ‰Ρ‘ >

Анализ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкстов Π½Π° основС Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π° (Ρ€Π΅Ρ„Π΅Ρ€Π°Ρ‚, курсовая, Π΄ΠΈΠΏΠ»ΠΎΠΌ, ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ)

ΠœΠΈΠ½ΠΈΡΡ‚Π΅Ρ€ΡΡ‚Π²ΠΎ образования ΠΈ Π½Π°ΡƒΠΊΠΈ Π Π€ Π€Π΅Π΄Π΅Ρ€Π°Π»ΡŒΠ½ΠΎΠ΅ государствСнноС Π±ΡŽΠ΄ΠΆΠ΅Ρ‚Π½ΠΎΠ΅ ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ ΡƒΡ‡Ρ€Π΅ΠΆΠ΄Π΅Π½ΠΈΠ΅ Π²Ρ‹ΡΡˆΠ΅Π³ΠΎ ΠΏΡ€ΠΎΡ„Π΅ΡΡΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΠ³ΠΎ образования

«Π’ятский государствСнный Π³ΡƒΠΌΠ°Π½ΠΈΡ‚Π°Ρ€Π½Ρ‹ΠΉ унивСрситСт»

Π€ΠΠšΠ£Π›Π¬Π’Π•Π’ ИНЀОРМАВИКИ, ΠœΠΠ’Π•ΠœΠΠ’Π˜ΠšΠ˜ И Π€Π˜Π—Π˜ΠšΠ˜ ΠšΠ°Ρ„Π΅Π΄Ρ€Π° ΠΏΡ€ΠΈΠΊΠ»Π°Π΄Π½ΠΎΠΉ ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠΈ ΠΈ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ‚ΠΈΠΊΠΈ ΠšΠ£Π Π‘ΠžΠ’ΠΠ― Π ΠΠ‘ΠžΠ’Π

Анализ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкстов Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π°

Π’Ρ‹ΠΏΠΎΠ»Π½ΠΈΠ» Π’Ρ‹Ρ‡Π΅Π³ΠΆΠ°Π½ΠΈΠ½ Π‘Π΅Ρ€Π³Π΅ΠΉ Π’Π»Π°Π΄ΠΈΠΌΠΈΡ€ΠΎΠ²ΠΈΡ‡ Научный Ρ€ΡƒΠΊΠΎΠ²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒ ΠšΠΎΡ‚Π΅Π»ΡŒΠ½ΠΈΠΊΠΎΠ² Π•Π²Π³Π΅Π½ΠΈΠΉ ВячСславович ΠšΠΈΡ€ΠΎΠ² 2013

  • Π’Π²Π΅Π΄Π΅Π½ΠΈΠ΅
  • Π“Π»Π°Π²Π° 1. Π—Π°Π΄Π°Ρ‡Π° Π°Π½Π°Π»ΠΈΠ·Π° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкстов
    • 1.1 ΠŸΠΎΠ½ΡΡ‚ΠΈΠ΅ Π°Π½Π°Π»ΠΈΠ·Π° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкста
      • 1.1.1 ΠžΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅
      • 1.1.2 Π˜ΡΡ‚ΠΎΡ€ΠΈΡ
      • 1.1.3 ΠŸΠΎΡΡ‚Π°Π½ΠΎΠ²ΠΊΠ° Π·Π°Π΄Π°Ρ‡ΠΈ
      • 1.1.4 ΠŸΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅
    • 1.2 Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄
      • 1.2.1 Π‘Ρ…Π΅ΠΌΠ° ΠΌΠ΅Ρ‚ΠΎΠ΄Π°
      • 1.2.2 ОписаниС ΠΌΠ΅Ρ‚ΠΎΠ΄Π°
      • 1.2.3 Алгоритм поиска пСрСсСчСний
    • 1.3 N-ΠΊΡ€Π°Ρ‚Π½Ρ‹ΠΉ ΡΠΊΠΎΠ»ΡŒΠ·ΡΡ‰ΠΈΠΉ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒ
    • 1.4 ΠœΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ качСства
      • 1.4.1 ΠŸΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΈ ΠΎΡˆΠΈΠ±ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ
      • 1.4.2 Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΈ ΠΏΠΎΠ»Π½ΠΎΡ‚Π°
  • Π“Π»Π°Π²Π° 2. ΠŸΡ€Π°ΠΊΡ‚ΠΈΡ‡Π΅ΡΠΊΠΎΠ΅ исслСдованиС Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π°
    • 2.1 ΠŸΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ½Π°Ρ рСализация
      • 2.1.1 ΠŸΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΡΠΊΠΈΠΉ интСрфСйс
      • 2.1.2 Π’Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅
      • 2.1.3 Π’Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅
    • 2.2 ВСкстовая коллСкция
    • 2.3 ЭкспСримСнты ΠΈ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹
      • 2.3.1 ΠžΡ†Π΅Π½ΠΊΠ° качСства Π°Π½Π°Π»ΠΈΠ·Π° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ
      • 2.3.2 ΠžΡ†Π΅Π½ΠΊΠ° Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹
  • Π—Π°ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅
  • БиблиографичСский список
  • ΠŸΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅
  • Π’Π²Π΅Π΄Π΅Π½ΠΈΠ΅
  • Π’ ΡΠ΅Ρ‚ΠΈ Π˜Π½Ρ‚Π΅Ρ€Π½Π΅Ρ‚ содСрТится ΠΎΠ³Ρ€ΠΎΠΌΠ½ΠΎΠ΅ количСство Ρ€Π°Π·Π½ΠΎΠΎΠ±Ρ€Π°Π·Π½Ρ‹Ρ… тСкстов, Π°Π²Ρ‚ΠΎΡ€Π°ΠΌΠΈ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΡΠ²Π»ΡΡŽΡ‚ΡΡ ΠΎΠ±Ρ‹Ρ‡Π½Ρ‹Π΅ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΠΈ. Π­Ρ‚ΠΎ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ ΡΡ‚Π°Ρ‚ΡŒΠΈ Π² Π±Π»ΠΎΠ³Π°Ρ…, ΠΎΡ‚Π·Ρ‹Π²Ρ‹ Π½Π° ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚Ρ‹, сообщСния Π² ΡΠΎΡ†ΠΈΠ°Π»ΡŒΠ½Ρ‹Ρ… сСтях ΠΈ Ρ‚. ΠΏ. Π’ ΡΡ‚ΠΎΠΌ ΠΊΠΎΠ½Ρ‚Π΅Π½Ρ‚Π΅ содСрТится большоС количСство Ρ†Π΅Π½Π½ΠΎΠΉ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ.
  • Π’ ΠΊΠΎΠΌΠΏΡŒΡŽΡ‚Π΅Ρ€Π½ΠΎΠΉ лингвистикС сущСствуСт ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎΠ΅ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ СстСствСнно-языковых тСкстов — Π°Π½Π°Π»ΠΈΠ· Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкстов (sentiment analysis). Π’ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒΡŽ называСтся ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½Π°Ρ ΠΎΡ†Π΅Π½ΠΊΠ°, которая Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½Π° Π² Ρ‚СкстС. ΠΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ Π·Π°Π΄Π°Ρ‡ΠΈ опрСдСлСния Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ тСкстовой ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΌΠΎΠΆΠ½ΠΎ ΠΎΡ†Π΅Π½ΠΈΡ‚ΡŒ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ общСства ΠΊ ΠΊΠ°ΠΊΠΎΠΌΡƒ-Π»ΠΈΠ±ΠΎ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚Ρƒ ΠΈΠ»ΠΈ ΡΠΎΠ±Ρ‹Ρ‚ΠΈΡŽ. НапримСр, с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Π΄Π°Π½Π½ΠΎΠ³ΠΎ Π°Π½Π°Π»ΠΈΠ·Π° ΠΌΠΎΠΆΠ½ΠΎ ΠΎΡ†Π΅Π½ΠΈΡ‚ΡŒ ΡƒΡΠΏΠ΅ΡˆΠ½ΠΎΡΡ‚ΡŒ Ρ€Π΅ΠΊΠ»Π°ΠΌΠ½ΠΎΠΉ ΠΊΠ°ΠΌΠΏΠ°Π½ΠΈΠΈ, политичСских ΠΈ ΡΠΊΠΎΠ½ΠΎΠΌΠΈΡ‡Π΅ΡΠΊΠΈΡ… Ρ€Π΅Ρ„ΠΎΡ€ΠΌ; Π²Ρ‹ΡΠ²ΠΈΡ‚ΡŒ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ прСссы ΠΈ Π‘МИ ΠΊ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠΉ пСрсонС, ΠΊ ΠΎΡ€Π³Π°Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ, ΠΊ ΡΠΎΠ±Ρ‹Ρ‚ΠΈΡŽ; ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ, ΠΊΠ°ΠΊ относятся ΠΏΠΎΡ‚Ρ€Π΅Π±ΠΈΡ‚Π΅Π»ΠΈ ΠΊ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠΉ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ†ΠΈΠΈ, ΠΊ ΡƒΡΠ»ΡƒΠ³Π°ΠΌ, ΠΊ ΠΎΡ€Π³Π°Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ. Вакая информация прСдставляСт Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ интСрСс для ΠΌΠ°Ρ€ΠΊΠ΅Ρ‚ΠΎΠ»ΠΎΠ³ΠΎΠ², социологов, экономистов, ΠΏΠΎΠ»ΠΈΡ‚ΠΎΠ»ΠΎΠ³ΠΎΠ² ΠΈ Π²ΡΠ΅Ρ… Ρ‚Π΅Ρ… спСциалистов, Π΄Π΅ΡΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… зависит ΠΎΡ‚ ΠΌΠ½Π΅Π½ΠΈΠΉ людСй.
  • Π‘ΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‚ Π΄Π²Π° основных ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Π° ΠΊ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡŽ Π·Π°Π΄Π°Ρ‡ΠΈ Π°Π½Π°Π»ΠΈΠ·Π° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкста: Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ словарСй ΠΈ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ машинного обучСния. Π’ ΠΏΠ΅Ρ€Π²ΠΎΠΌ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Π΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ словари, содСрТащиС слова ΠΈ ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΡ, для ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… извСстна ΠΎΡ†Π΅Π½ΠΊΠ° Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½Π½ΠΎΠΉ Π² Π½ΠΈΡ… Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ. Π­Ρ‚ΠΎΡ‚ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ эффСктивСн ΠΏΡ€ΠΈ использовании Π±ΠΎΠ»ΡŒΡˆΠΈΡ… словарСй, Π½ΠΎ ΠΏΡ€ΠΎΡ†Π΅ΡΡ ΠΈΡ… ΡΠΎΡΡ‚авлСния вСсьма Ρ‚Ρ€ΡƒΠ΄ΠΎΠ΅ΠΌΠΊΠΈΠΉ. Π’Ρ‚ΠΎΡ€ΠΎΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² ΡΠΎΠ·Π΄Π°Π½ΠΈΠΈ автоматичСского классификатора, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΡŽ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… тСкстов. Π’ ΠΎΡΠ½ΠΎΠ²Π΅ этого ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Π° Π»Π΅ΠΆΠ°Ρ‚ статистичСскиС ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹. ΠŸΠΎΠ΄Ρ…ΠΎΠ΄ эффСктивСн ΠΏΡ€ΠΈ Π½Π°Π»ΠΈΡ‡ΠΈΠΈ большой ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… тСкстов.
  • Одним ΠΈΠ· Π»ΠΎΠ³ΠΈΡ‡Π΅ΡΠΊΠΈΡ… ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² Π°Π½Π°Π»ΠΈΠ·Π° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкстов являСтся Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄ автоматичСского пороТдСния Π³ΠΈΠΏΠΎΡ‚Π΅Π·. Π’ ΠΎΡ‚мСчаСтся, Ρ‡Ρ‚ΠΎ прСимущСством Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π° ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ со ΡΡ‚атистичСскими ΠΌΠ΅Ρ‚ΠΎΠ΄Π°ΠΌΠΈ являСтся ΠΏΡ€ΠΎΠ·Ρ€Π°Ρ‡Π½ΠΎΡΡ‚ΡŒ ΠΈ ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚Π½ΠΎΡΡ‚ΡŒ процСсса логичСского Π²Ρ‹Π²ΠΎΠ΄Π°, Ρ…ΠΎΡ€ΠΎΡˆΠ°Ρ ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΡ€Π΅Ρ‚ΠΈΡ€ΡƒΠ΅ΠΌΠΎΡΡ‚ΡŒ Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΡƒΠ΅ΠΌΡ‹Ρ… Π³ΠΈΠΏΠΎΡ‚Π΅Π·, отсутствиС нСобходимости большого числа ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² для обучСния.
  • ЦСлью настоящСй курсовой Ρ€Π°Π±ΠΎΡ‚Ρ‹ являСтся ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π° для опрСдСлСния Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкстов. ΠžΠ±ΠΎΠ·Π½Π°Ρ‡Π΅Π½Π½Π°Ρ Ρ†Π΅Π»ΡŒ достигаСтся Π·Π° ΡΡ‡Π΅Ρ‚ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΡ… Π·Π°Π΄Π°Ρ‡:
  • Β· ΠΈΠ·ΡƒΡ‡Π΅Π½ΠΈΠ΅ области Π°Π½Π°Π»ΠΈΠ·Π° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкстов;
  • Β· описаниС Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π° автоматичСского пороТдСния Π³ΠΈΠΏΠΎΡ‚Π΅Π·;
  • Β· программная рСализация Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π°;
  • Β· ΠΏΡ€ΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ экспСримСнтов ΠΏΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΡŽ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкстов;
  • Β· Π°Π½Π°Π»ΠΈΠ· Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ² влияния ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ΠΎΠ² Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π° Π½Π° ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²ΠΎ опрСдСлСния Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ.
  • Π’ ΠΏΠ΅Ρ€Π²ΠΎΠΉ Π³Π»Π°Π²Π΅ приводится постановка Π·Π°Π΄Π°Ρ‡ΠΈ Π°Π½Π°Π»ΠΈΠ·Π° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкстов ΠΈ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρ‹ областСй Π΄Π΅ΡΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ, Π² ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… примСняСтся Π°Π½Π°Π»ΠΈΠ· Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ, Ρ€Π°ΡΡΠΌΠ°Ρ‚Ρ€ΠΈΠ²Π°ΡŽΡ‚ΡΡ тСорСтичСскиС аспСкты Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π° автоматичСского пороТдСния Π³ΠΈΠΏΠΎΡ‚Π΅Π·, даСтся описаниС ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»Π΅ΠΉ, Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π±ΡƒΠ΄Π΅Ρ‚ сдСлано Π·Π°ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅ ΠΎ ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΌΠ΅Ρ‚ΠΎΠ΄Π°.
  • Π’ΠΎ Π²Ρ‚ΠΎΡ€ΠΎΠΉ Π³Π»Π°Π²Π΅ даСтся описаниС практичСской Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π°, приводятся Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ тСстирования Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½ΠΎΠΉ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹-Π°Π½Π°Π»ΠΈΠ·Π°Ρ‚ΠΎΡ€Π° Π² Π²ΠΈΠ΄Π΅ Ρ‚Π°Π±Π»ΠΈΡ† ΠΈ Π³Ρ€Π°Ρ„ΠΈΠΊΠΎΠ².
  • Π’ Π·Π°ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅ Ρ€Π°Π±ΠΎΡ‚Ρ‹ приводится ΠΎΠ±Ρ‰ΠΈΠΉ Π²Ρ‹Π²ΠΎΠ΄ ΠΏΠΎ ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹ΠΌ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π°ΠΌ ΠΈ ΡΠΏΠΈΡΠΎΠΊ использованной Π»ΠΈΡ‚Π΅Ρ€Π°Ρ‚ΡƒΡ€Ρ‹.

Π“Π»Π°Π²Π° 1. Π—Π°Π΄Π°Ρ‡Π° Π°Π½Π°Π»ΠΈΠ·Π° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкстов

1.1 ΠŸΠΎΠ½ΡΡ‚ΠΈΠ΅ Π°Π½Π°Π»ΠΈΠ·Π° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкста

1.1.1 ΠžΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅

Анализ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкста (Π°Π½Π³Π». sentiment analysis, opinion mining, sentiment classification) — это ΠΎΠ±Π»Π°ΡΡ‚ΡŒ ΠΊΠΎΠΌΠΏΡŒΡŽΡ‚Π΅Ρ€Π½ΠΎΠΉ лингвистики, которая занимаСтся ΠΈΠ·ΡƒΡ‡Π΅Π½ΠΈΠ΅ΠΌ ΠΌΠ½Π΅Π½ΠΈΠΉ ΠΈ ΡΠΌΠΎΡ†ΠΈΠΉ Π² Ρ‚Скстовых Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ…. Анализ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ прСдставляСт собой Ρ‚Π΅ΠΊΡΡ‚ΠΎΠ²ΡƒΡŽ ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΡŽ, Ρ‚. Π΅. процСсс присвоСния СстСствСнно-язычным тСкстам тСматичСской ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ ΠΈΠ· ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠ³ΠΎ Π½Π°Π±ΠΎΡ€Π°.

Под ΠΌΠ½Π΅Π½ΠΈΠ΅ΠΌ (Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒΡŽ) ΠΏΠΎΠ½ΠΈΠΌΠ°ΡŽΡ‚ Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½Π½ΠΎΠ΅ Π² Ρ‚СкстС ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΠ΅ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ ΡΡƒΠ±ΡŠΠ΅ΠΊΡ‚Π° ΠΊ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠΌΡƒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρƒ. Π’ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΈΠΌΠ΅Ρ‚ΡŒ ΠΎΠ΄Π½ΠΎΠΌΠ΅Ρ€Π½ΠΎΠ΅ ΠΈΠ»ΠΈ ΠΌΠ½ΠΎΠ³ΠΎΠΌΠ΅Ρ€Π½ΠΎΠ΅ эмотивноС пространство. Π’ ΠΎΠ΄Π½ΠΎΠΌΠ΅Ρ€Π½ΠΎΠΌ пространствС сущСствуСт ΠΎΠ΄Π½ΠΎ ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠ΅ (ΠΎΠ΄Π½Π° шкала), Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ нСсколько Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ — классов (Π΄Π²ΡƒΡ…Π±Π°Π»Π»ΡŒΠ½Π°Ρ, Ρ‚Ρ€Π΅Ρ…Π±Π°Π»Π»ΡŒΠ½Π°Ρ, n-балльная ΡˆΠΊΠ°Π»Ρ‹). Π’ ΠΌΠ½ΠΎΠ³ΠΎΠΌΠ΅Ρ€Π½ΠΎΠΌ пространствС нСсколько ΠΎΡ€Ρ‚ΠΎΠ³ΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠΉ, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Π±Π°Π·ΠΎΠ²Ρ‹Π΅ эмоции — Ρ€Π°Π΄ΠΎΡΡ‚ΡŒ, ΡΡ‡Π°ΡΡ‚ΡŒΠ΅, страх, Π³Π½Π΅Π² ΠΈ Ρ‚. Π΄.

1.1.2 Π˜ΡΡ‚ΠΎΡ€ΠΈΡ

Π’ ΠΎΡ‚мСчаСтся, Ρ‡Ρ‚ΠΎ автоматичСская классификация тСкстов ΠΈΠΌΠ΅Π΅Ρ‚ Π΄Π»ΠΈΡ‚Π΅Π»ΡŒΠ½ΡƒΡŽ ΠΈΡΡ‚ΠΎΡ€ΠΈΡŽ, ΡƒΡ…ΠΎΠ΄ΡΡ‰ΡƒΡŽ Π² Π½Π°Ρ‡Π°Π»ΠΎ 1960;Ρ… Π³Π³. Π’ΠΏΠ»ΠΎΡ‚ΡŒ Π΄ΠΎ ΠΊΠΎΠ½Ρ†Π° 1980;Ρ… Π³Π³. Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ популярным ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠΌ ΠΊ ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² Π±Ρ‹Π»Π° инТСнСрия Π·Π½Π°Π½ΠΈΠΉ (knowledge engineering), Π·Π°ΠΊΠ»ΡŽΡ‡Π°ΡŽΡ‰Π°ΡΡΡ Π² Ρ€ΡƒΡ‡Π½ΠΎΠΌ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠΈ ΠΏΡ€Π°Π²ΠΈΠ», содСрТащих знания экспСртов ΠΎ Ρ‚ΠΎΠΌ, ΠΊΠ°ΠΊ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ, ΠΊ ΠΊΠ°ΠΊΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ относится Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚. Π’ 1990;Ρ… Π³Π³. с Π±ΡƒΡ€Π½Ρ‹ΠΌ Ρ€Π°Π·Π²ΠΈΡ‚ΠΈΠ΅ΠΌ производства ΠΈ Π΄ΠΎΡΡ‚упности ΠΎΠ½Π»Π°ΠΉΠ½ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² интСрСс ΠΊ Π°Π²Ρ‚оматичСской классификации усилился. Новая тСндСнция, основанная Π½Π° ΠΌΠ°ΡˆΠΈΠ½Π½ΠΎΠΌ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ, вытСснила ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄. Π­Ρ‚Π° тСндСнция Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π»Π°ΡΡŒ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΠΈΠ½Π΄ΡƒΠΊΡ‚ΠΈΠ²Π½ΠΎΠ³ΠΎ процСсса автоматичСски создаСтся классификатор ΠΏΡƒΡ‚Π΅ΠΌ обучСния с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Π½Π°Π±ΠΎΡ€Π° ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ классифицированных Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€ΠΈΠ·ΡƒΡŽΡ‰ΠΈΡ…ΡΡ ΠΎΠ΄Π½ΠΎΠΉ ΠΈΠ»ΠΈ Π±ΠΎΠ»Π΅Π΅ катСгориями. ΠŸΡ€Π΅ΠΈΠΌΡƒΡ‰Π΅ΡΡ‚Π²ΠΎΠΌ являСтся высокая ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ ΠΈ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ сохранСниС ΠΎΠΏΡ‹Ρ‚Π° экспСртов.

ΠŸΡ€ΠΎΠ±Π»Π΅ΠΌΠ° автоматичСского распознавания ΠΌΠ½Π΅Π½ΠΈΠΉ Π² Ρ‚СкстС оказалась ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚ΠΎΠΌ Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹Ρ… исслСдований Π·Π° Ρ€ΡƒΠ±Π΅ΠΆΠΎΠΌ ΡΡ€Π°Π²Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π½Π΅Π΄Π°Π²Π½ΠΎ — Π² 2000;Ρ… Π³Π³. Π’ Π ΠΎΡΡΠΈΠΈ Ρ‚Π°ΠΊΠΈΡ… Ρ€Π°Π±ΠΎΡ‚ Π΄ΠΎ ΠΏΠΎΡΠ»Π΅Π΄Π½Π΅Π³ΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ Π±Ρ‹Π»ΠΎ ΠΊΡ€Π°ΠΉΠ½Π΅ ΠΌΠ°Π»ΠΎ; Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π² 2012 Π³ΠΎΠ΄Ρƒ ΠΎΡ†Π΅Π½ΠΊΠ° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкста Π±Ρ‹Π»Π° Π²Ρ‹Π±Ρ€Π°Π½Π° ΠΎΠ΄Π½ΠΎΠΉ ΠΈΠ· Π³Π»Π°Π²Π½Ρ‹Ρ… Ρ‚Π΅ΠΌ ΠΊΠΎΠ½Ρ„Π΅Ρ€Π΅Π½Ρ†ΠΈΠΈ ΠΏΠΎ ΠΊΠΎΠΌΠΏΡŒΡŽΡ‚Π΅Ρ€Π½ΠΎΠΉ лингвистикС «Π”ΠΈΠ°Π»ΠΎΠ³-2012».

1.1.3 ΠŸΠΎΡΡ‚Π°Π½ΠΎΠ²ΠΊΠ° Π·Π°Π΄Π°Ρ‡ΠΈ

ЦСлью Π°Π½Π°Π»ΠΈΠ·Π° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ являСтся Π½Π°Ρ…ΠΎΠΆΠ΄Π΅Π½ΠΈΠ΅ ΠΌΠ½Π΅Π½ΠΈΠΉ Π² Ρ‚СкстС ΠΈ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ ΠΈΡ… ΡΠ²ΠΎΠΉΡΡ‚Π². Π‘ΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‚ Ρ€Π°Π·Π½Ρ‹Π΅ Π·Π°Π΄Π°Ρ‡ΠΈ Π² Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ ΠΎΡ‚ ΠΈΡΡΠ»Π΅Π΄ΡƒΠ΅ΠΌΡ‹Ρ… свойств тСкстов, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ Π°Π²Ρ‚ΠΎΡ€Π° мнСния, Ρ‚. Π΅. ΠΊΠΎΠΌΡƒ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ это ΠΌΠ½Π΅Π½ΠΈΠ΅; ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ Ρ‚Π΅ΠΌΡ‹, Ρ‚. Π΅. ΠΎ Ρ‡Π΅ΠΌ говорится Π²ΠΎ ΠΌΠ½Π΅Π½ΠΈΠΈ; ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ, Ρ‚. Π΅. позиция Π°Π²Ρ‚ΠΎΡ€Π° ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°, ΠΎ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ говорится Π²ΠΎ ΠΌΠ½Π΅Π½ΠΈΠΈ.

ΠŸΠ΅Ρ€Π΅Π΄ Ρ‚Π΅ΠΌ, ΠΊΠ°ΠΊ ΡΡ„ΠΎΡ€ΠΌΡƒΠ»ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½Π½ΡƒΡŽ постановку Π·Π°Π΄Π°Ρ‡ΠΈ Π°Π½Π°Π»ΠΈΠ·Π° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ, Ρ„ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΠΌ понятиС мнСния. Π’ ΡΠΎΠΎΡ‚вСтствии с ΠΌΠ½Π΅Π½ΠΈΠ΅ ΠΎΠ±ΠΎΠ·Π½Π°Ρ‡ΠΈΠΌ мноТСством Π²ΠΈΠ΄Π°

(1)

Π³Π΄Π΅ (entity) — ΡΡƒΡ‰Π½ΠΎΡΡ‚ΡŒ (ΠΎΠ±ΡŠΠ΅ΠΊΡ‚), ΠΏΠΎ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡŽ ΠΊ Π°ΡΠΏΠ΅ΠΊΡ‚Π°ΠΌ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ выраТаСтся ΠΌΠ½Π΅Π½ΠΈΠ΅; (aspect) — i-ΠΉ аспСкт сущности (свойство ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°), ΠΏΠΎ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡŽ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌΡƒ выраТаСтся ΠΌΠ½Π΅Π½ΠΈΠ΅; (sentiment) — Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ мнСния ΠΏΠΎ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡŽ ΠΊ i-ΠΌΡƒ аспСкту сущности; (holder) — Π²Ρ‹Ρ€Π°Π·ΠΈΡ‚Π΅Π»ΡŒ мнСния (ΡΡƒΠ±ΡŠΠ΅ΠΊΡ‚); (time) — врСмя выраТСния мнСния. Если ΠΌΠ½Π΅Π½ΠΈΠ΅ выраТаСтся ΠΏΠΎ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡŽ ΠΊ ΡΡƒΡ‰Π½ΠΎΡΡ‚ΠΈ Π² Ρ†Π΅Π»ΠΎΠΌ, Π° Π½Π΅ ΠΊ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎΠΌΡƒ Π΅Ρ‘ Π°ΡΠΏΠ΅ΠΊΡ‚Ρƒ, Ρ‚ΠΎ ΡƒΡΡ‚анавливаСтся .

ΠžΠ±ΠΎΠ±Ρ‰Π΅Π½Π½ΡƒΡŽ Π·Π°Π΄Π°Ρ‡Ρƒ Π°Π½Π°Π»ΠΈΠ·Π° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ ΠΌΠΎΠΆΠ½ΠΎ ΡΡ„ΠΎΡ€ΠΌΡƒΠ»ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π² ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΌ Π²ΠΈΠ΄Π΅: Π² Π·Π°Π΄Π°Π½Π½ΠΎΠΌ тСкстС Π½Π°ΠΉΡ‚ΠΈ всС мнСния Π²ΠΈΠ΄Π° (1).

ΠŸΡ€ΠΈΠ²Π΅Π΄Π΅ΠΌ нСсколько основных Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ΠΎΠ² Π·Π°Π΄Π°Ρ‡ Π°Π½Π°Π»ΠΈΠ·Π° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ, описанных Π² Ρ€Π°Π±ΠΎΡ‚Π΅.

1. ΠžΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ ΠΈΡΠΊΠ»ΡŽΡ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкста.

Данная Ρ„ΠΎΡ€ΠΌΡƒΠ»ΠΈΡ€ΠΎΠ²ΠΊΠ° Π·Π°Π΄Π°Ρ‡ΠΈ Π°Π½Π°Π»ΠΈΠ·Π° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ являСтся Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ простой. РассматриваСтся Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ мнСния, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½ΠΎ Π² Ρ‚СкстС (часто прСдполагаСтся, Ρ‡Ρ‚ΠΎ ΠΎΠ½ΠΎ СдинствСнноС); ΠΏΡ€ΠΈ этом ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹ мноТСства (1) Π½Π΅ Π²Ρ‹Π΄Π΅Π»ΡΡŽΡ‚ся ΠΈΠ»ΠΈ ΡΡ‡ΠΈΡ‚Π°ΡŽΡ‚ΡΡ извСстными.

ΠžΠ±Ρ‹Ρ‡Π½ΠΎ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ прСдставлСна ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠΉ шкалой. Π’Ρ‹Π΄Π΅Π»ΡΡŽΡ‚ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠ΅ Ρ‚ΠΈΠΏΡ‹ шкал:

1) Двухзначная шкала. Π¨ΠΊΠ°Π»Π° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ ΠΈΠΌΠ΅Π΅Ρ‚ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π΄Π²Π° Π·Π½Π°Ρ‡Π΅Π½ΠΈΡΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Π°Ρ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΈ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Π°Ρ.

2) ВрСхзначная шкала. К ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΠΌ Π΄Π²ΡƒΠΌ Π²Π°Ρ€ΠΈΠ°Π½Ρ‚Π°ΠΌ добавляСтся Ρ‚Ρ€Π΅Ρ‚ΡŒΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ — Π½Π΅ΠΉΡ‚Ρ€Π°Π»ΡŒΠ½ΠΎΠ΅, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΎΠ±ΠΎΠ·Π½Π°Ρ‡Π°Ρ‚ΡŒ Π»ΠΈΠ±ΠΎ отсутствиС Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ, Π»ΠΈΠ±ΠΎ ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠ΅ Π½Π°Π»ΠΈΡ‡ΠΈΠ΅ ΠΊΠ°ΠΊ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ, Ρ‚Π°ΠΊ ΠΈ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ.

3) ΠœΠ½ΠΎΠ³ΠΎΠ·Π½Π°Ρ‡Π½Π°Ρ шкала. Π¨ΠΊΠ°Π»Π° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ ΠΈΠΌΠ΅Π΅Ρ‚ Π±ΠΎΠ»Π΅Π΅ 3 Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ. БущСствуСт мноТСство Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ΠΎΠ² Ρ‚Π°ΠΊΠΈΡ… шкал, ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‰ΠΈΡ…ΡΡ количСством Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ ΠΈ Π½Π°Π»ΠΈΡ‡ΠΈΠ΅ΠΌ Π½Π΅ΠΉΡ‚Ρ€Π°Π»ΡŒΠ½ΠΎΠ³ΠΎ значСния.

2. ΠžΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ, ΡΡƒΠ±ΡŠΠ΅ΠΊΡ‚Π° ΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° Π’ Π΄Π°Π½Π½ΠΎΠΌ Π²Π°Ρ€ΠΈΠ°Π½Ρ‚Π΅ Π·Π°Π΄Π°Ρ‡ΠΈ ΠΊΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ мнСния опрСдСляСтся Π²Ρ‹Ρ€Π°Π·ΠΈΡ‚Π΅Π»ΡŒ мнСния, ΡΡƒΠ±ΡŠΠ΅ΠΊΡ‚ ΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚, ΠΏΠΎ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡŽ ΠΊ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌΡƒ выраТаСтся ΠΌΠ½Π΅Π½ΠΈΠ΅. Π’Ρ‹Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅ (1) Π² Π΄Π°Π½Π½ΠΎΠΌ случаС ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Π΅Ρ‚ Π²ΠΈΠ΄:

.

Для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Π·Π°Π΄Π°Ρ‡ΠΈ Π² Ρ‚Π°ΠΊΠΎΠΉ постановкС ΠΊΡ€ΠΎΠΌΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² опрСдСлСния Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ трСбуСтся Ρ‚Π°ΠΊΠΆΠ΅ ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² извлСчСния сущностСй ΠΈΠ· Ρ‚Скста.

3. ΠžΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ мнСния Π² Ρ†Π΅Π»ΠΎΠΌ МнСниС рассматриваСтся ΠΊΠ°ΠΊ ΠΏΠΎΠ»Π½ΠΎΠ΅ Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅ (1), Ρ‚. Π΅. ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΠΌ Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ΠΎΠΌ ΠΊΡ€ΠΎΠΌΠ΅ выдСлСния сущности (ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° мнСния) трСбуСтся ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ Π΅Ρ‘ Π°ΡΠΏΠ΅ΠΊΡ‚ΠΎΠ² .

1.1.4 ΠŸΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅

Анализ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкста являСтся ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ· ΠΏΠ΅Ρ€ΡΠΏΠ΅ΠΊΡ‚ΠΈΠ²Π½Ρ‹Ρ… Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠΉ ΠΊΠΎΠΌΠΏΡŒΡŽΡ‚Π΅Ρ€Π½ΠΎΠΉ лингвистики. Π­Ρ‚ΠΎ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ искусствСнного ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚Π° позволяСт ΠΈΠ·Π²Π»Π΅ΠΊΠ°Ρ‚ΡŒ Ρ€Π°Π·Π½ΠΎΠΎΠ±Ρ€Π°Π·Π½ΡƒΡŽ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ, Π½Π°Ρ…ΠΎΠ΄ΡΡ‰ΡƒΡŽΡΡ Π² Ρ„ΠΎΡ€ΠΌΠ΅ тСкста Π½Π° Π΅ΡΡ‚СствСнном языкС.

АвтоматичСскоС распознаваниС Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкстов Π½Π°Ρ…ΠΎΠ΄ΠΈΡ‚ ΡˆΠΈΡ€ΠΎΠΊΠΎΠ΅ ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π² Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… сфСрах Π΄Π΅ΡΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊΠ°. ΠŸΡ€ΠΈΠ²Π΅Π΄Π΅ΠΌ нСсколько ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² ΠΈΠ· Ρ€Π°Π±ΠΎΡ‚Ρ‹.

1. ΠœΠ°Ρ€ΠΊΠ΅Ρ‚ΠΈΠ½Π³ΠΎΠ²Ρ‹Π΅ исслСдования. ΠŸΡ€ΠΎΠ²ΠΎΠ΄ΡΡ‚ΡΡ для Ρ€Π°Π·Π½ΠΎΠΎΠ±Ρ€Π°Π·Π½Ρ‹Ρ… Ρ†Π΅Π»Π΅ΠΉ, Π²ΠΊΠ»ΡŽΡ‡Π°Ρ ΠΈΠ·ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΏΠΎΡ‚Ρ€Π΅Π±ΠΈΡ‚Π΅Π»ΡŒΡΠΊΠΈΡ… ΠΏΡ€Π΅Π΄ΠΏΠΎΡ‡Ρ‚Π΅Π½ΠΈΠΉ, ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠ΅ стСпСни удовлСтворСния потрСбностСй ΠΏΠΎΡ‚Ρ€Π΅Π±ΠΈΡ‚Π΅Π»Π΅ΠΉ, ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ эффСктивности распространСния ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚ΠΎΠ² ΠΈΠ»ΠΈ услуг.

2. ЀинансовыС Ρ€Ρ‹Π½ΠΊΠΈ. Π’ Ρ€Π°Π±ΠΎΡ‚Π΅ говорится, Ρ‡Ρ‚ΠΎ ΠΎ ΠΊΠ°ΠΆΠ΄ΠΎΠΌ Π°ΠΊΡ†ΠΈΠΎΠ½Π΅Ρ€Π½ΠΎΠΌ общСствС ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‚ многочислСнныС ΠΏΡƒΠ±Π»ΠΈΠΊΠ°Ρ†ΠΈΠΈ новостСй, ΡΡ‚Π°Ρ‚ΡŒΠΈ, Π±Π»ΠΎΠ³ΠΈ ΠΈ ΡΠΎΠΎΠ±Ρ‰Π΅Π½ΠΈΡ Π² Π’Π²ΠΈΡ‚Ρ‚Π΅Ρ€Π΅. БистСма Π°Π½Π°Π»ΠΈΠ·Π° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ эти источники для нахоТдСния статСй, Π² ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΠΎΠ±ΡΡƒΠΆΠ΄Π°ΡŽΡ‚ΡΡ Ρ‚Π°ΠΊΠΈΠ΅ общСства, ΠΈ ΠΈΠ·Π²Π»Π΅ΠΊΠ°Ρ‚ΡŒ ΠΎΡ‚Π·Ρ‹Π²Ρ‹, Ρ‡Ρ‚ΠΎ ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΡ‚ ΡΠΎΠ·Π΄Π°Ρ‚ΡŒ Π°Π²Ρ‚ΠΎΠΌΠ°Ρ‚ΠΈΡ‡Π΅ΡΠΊΡƒΡŽ Ρ‚ΠΎΡ€Π³ΠΎΠ²ΡƒΡŽ систСму. Одной ΠΈΠ· Ρ‚Π°ΠΊΠΈΡ… систСм являСтся «The Stock Sonar» (http://www.thestocksonar.com). БистСма ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ графичСски Π΅ΠΆΠ΅Π΄Π½Π΅Π²Π½Ρ‹Π΅ ΠΏΠΎΠ·ΠΈΡ‚ΠΈΠ²Π½Ρ‹Π΅ ΠΈ Π½Π΅Π³Π°Ρ‚ΠΈΠ²Π½Ρ‹Π΅ настроСния ΠΎ ΠΊΠ°ΠΆΠ΄ΠΎΠΉ Π°ΠΊΡ†ΠΈΠΈ рядом с Π³Ρ€Π°Ρ„ΠΈΠΊΠΎΠΌ Ρ†Π΅Π½Ρ‹ Π°ΠΊΡ†ΠΈΠΈ. По Π½Π°ΡΡ‚роСниям прСдсказываСтся дальнСйший рост ΠΈΠ»ΠΈ ΠΏΠ°Π΄Π΅Π½ΠΈΠ΅ Ρ†Π΅Π½Ρ‹ Π°ΠΊΡ†ΠΈΠΈ.

3. Π Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ систСмы. ΠΠ½Π°Π»ΠΈΠ·ΠΈΡ€ΡƒΡŽΡ‚ΡΡ ΠΎΡ‚Π·Ρ‹Π²Ρ‹ ΠΈ ΠΎΠ±Π·ΠΎΡ€Ρ‹ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚ΠΎΠ² с Ρ†Π΅Π»ΡŒΡŽ ΠΏΠΎΠΌΠΎΡ‰ΠΈ покупатСлям ΠΏΡ€ΠΈ Π²Ρ‹Π±ΠΎΡ€Π΅ Ρ‚ΠΎΠ²Π°Ρ€Π°. НапримСр, систСма Π½Π΅ Π±ΡƒΠ΄Π΅Ρ‚ Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄ΠΎΠ²Π°Ρ‚ΡŒ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚, Ссли ΠΎΠ½ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ» ΠΌΠ½ΠΎΠ³ΠΎ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΎΡ‚Π·Ρ‹Π²ΠΎΠ².

4. Анализ новостных сообщСний. ΠΠ½Π°Π»ΠΈΠ·ΠΈΡ€ΡƒΡŽΡ‚ΡΡ новостныС рСсурсы Π½Π° ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ сообщСний ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… пСрсон ΠΈ ΡΠΎΠ±Ρ‹Ρ‚ΠΈΠΉ.

5. ΠŸΠΎΠ»ΠΈΡ‚ΠΎΠ»ΠΎΠ³ΠΈΡ‡Π΅ΡΠΊΠΈΠ΅ исслСдования. Π‘ΠΎΠ±ΠΈΡ€Π°ΡŽΡ‚ΡΡ Π΄Π°Π½Π½Ρ‹Π΅ ΠΎ ΠΏΠΎΠ»ΠΈΡ‚ичСских взглядах насСлСния. Π­Ρ‚ΠΎ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΈΠΌΠ΅Ρ‚ΡŒ сущСствСнноС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ для ΠΊΠ°Π½Π΄ΠΈΠ΄Π°Ρ‚ΠΎΠ², Π²Ρ‹ΡΡ‚ΡƒΠΏΠ°ΡŽΡ‰ΠΈΡ… ΠΎΡ‚ Ρ€Π°Π·Π½Ρ‹Ρ… ΠΏΠ°Ρ€Ρ‚ΠΈΠΉ. Π’Π°ΠΊΠΎΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ примСняСтся ΠΎΡ€Π³Π°Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€Π°ΠΌΠΈ ΠΏΡ€Π΅Π΄Π²Ρ‹Π±ΠΎΡ€Π½ΠΎΠΉ ΠΊΠ°ΠΌΠΏΠ°Π½ΠΈΠΈ для выявлСния Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ Π΄ΡƒΠΌΠ°ΡŽΡ‚ ΠΈΠ·Π±ΠΈΡ€Π°Ρ‚Π΅Π»ΠΈ Π² ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠΈ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌ, ΠΈ ΠΊΠ°ΠΊ ΠΎΠ½ΠΈ ΡΠ²ΡΠ·Ρ‹Π²Π°ΡŽΡ‚ эти ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ со ΡΠ»ΠΎΠ²Π°ΠΌΠΈ ΠΈ Π΄Π΅ΠΉΡΡ‚виями ΠΊΠ°Π½Π΄ΠΈΠ΄Π°Ρ‚ΠΎΠ².

6. БоциологичСскиС исслСдования. ΠΠ½Π°Π»ΠΈΠ·ΠΈΡ€ΡƒΡŽΡ‚ΡΡ Π΄Π°Π½Π½Ρ‹Π΅ ΠΈΠ· ΡΠΎΡ†ΠΈΠ°Π»ΡŒΠ½Ρ‹Ρ… сСтСй, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€ для выявлСния Ρ€Π΅Π»ΠΈΠ³ΠΈΠΎΠ·Π½Ρ‹Ρ… взглядов ΠΈΠ»ΠΈ различия ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΌΡƒΠΆΡ‡ΠΈΠ½Π°ΠΌΠΈ ΠΈ ΠΆΠ΅Π½Ρ‰ΠΈΠ½Π°ΠΌΠΈ Π² ΡƒΠΏΠΎΡ‚Ρ€Π΅Π±Π»Π΅Π½ΠΈΠΈ ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎ-ΠΎΠΊΡ€Π°ΡˆΠ΅Π½Π½Ρ‹Ρ… слов Π² ΡΠΎΠΎΠ±Ρ‰Π΅Π½ΠΈΡΡ….

7. ΠŸΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠ° поисковых систСм ΠΈ ΡΠΈΡΡ‚Π΅ΠΌ извлСчСния ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ. Π’ Ρ‚Π°ΠΊΠΈΡ… систСмах Π°Π½Π°Π»ΠΈΠ· ΠΌΠΎΠΆΠ΅Ρ‚ ΡΠ»ΡƒΠΆΠΈΡ‚ΡŒ для отдСлСния Ρ„Π°ΠΊΡ‚ΠΎΠ² ΠΎΡ‚ ΠΌΠ½Π΅Π½ΠΈΠΉ.

8. Анализ ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎΠΉ связи ΠΎΡ‚ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΉ. ΠŸΡ€ΠΈ Π΄ΠΈΠ°Π»ΠΎΠ³Π΅ с ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΌ систСма распознаСт Π΅Π³ΠΎ эмоции, ΠΈ ΠΏΡ€ΠΈ ΠΏΠΎΠΌΠΎΡ‰ΠΈ ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎΠΉ связи ΠΌΠΎΠΆΠ΅Ρ‚ Ρ€Π΅Π°Π³ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π² ΡΠΎΠΎΡ‚вСтствии с Π½ΠΈΠΌΠΈ.

9. Анализ экстрСмистских рСсурсов. ΠΠ½Π°Π»ΠΈΠ·ΠΈΡ€ΡƒΡŽΡ‚ΡΡ Π˜Π½Ρ‚Π΅Ρ€Π½Π΅Ρ‚-рСсурсы экстрСмистского содСрТания Π½Π° ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚ ΠΏΠΎΠ΄ΠΎΠ·Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ активности.

10. ΠŸΡΠΈΡ…ΠΎΠ»ΠΎΠ³ΠΈΡ‡Π΅ΡΠΊΠΈΠ΅ исслСдования. ΠžΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ дСпрСссии Ρƒ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΉ ΡΠΎΡ†ΠΈΠ°Π»ΡŒΠ½Ρ‹Ρ… сСтСй.

1.2 Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄

1.2.1 Π‘Ρ…Π΅ΠΌΠ° ΠΌΠ΅Ρ‚ΠΎΠ΄Π°

На Ρ€ΠΈΡ. 1 ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½Π° схСма Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π° классификации тСкстов.

Рис. 1 — Π‘Ρ…Π΅ΠΌΠ° Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π° классификации тСкстов Для Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π° ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ Ρ‚Ρ€ΠΈ основных ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Π°: ΡΠ»ΠΎΠ²Π°Ρ€ΡŒ, ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π°Ρ коллСкция тСкстов ΠΈ ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΡ†ΠΈΡ€ΡƒΠ΅ΠΌΡ‹Π΅ тСксты. Π‘Π»ΠΎΠ²Π°Ρ€ΡŒ ΠΈ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π°Ρ коллСкция ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ для формирования мноТСства Π³ΠΈΠΏΠΎΡ‚Π΅Π·, Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€ΠΈΠ·ΡƒΡŽΡ‰ΠΈΡ… ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ½ΠΎΡΡ‚ΡŒ тСкста ΠΊ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠΌΡƒ классу. Π“ΠΈΠΏΠΎΡ‚Π΅Π·Ρ‹ ΡΡ€Π°Π²Π½ΠΈΠ²Π°ΡŽΡ‚ΡΡ с Ρ„Ρ€Π°Π³ΠΌΠ΅Π½Ρ‚Π°ΠΌΠΈ классифицируСмых тСкстов Π½Π° ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚ совпадСния. По Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π°ΠΌ сравнСния дСлаСтся Π·Π°ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅ ΠΎΠ± ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ этих тСкстов.

Π‘Π»ΠΎΠ²Π°Ρ€ΡŒ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ сформирован ΠΊΠ°ΠΊ автоматичСски (содСрТит Π±Π΅Π· ΠΈΡΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΡ всС слова ΠΈΠ· ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ), Ρ‚Π°ΠΊ ΠΈ Π²Ρ€ΡƒΡ‡Π½ΡƒΡŽ (содСрТит Ρ‚ΠΎΠ»ΡŒΠΊΠΎ слова, ΠΈΠΌΠ΅ΡŽΡ‰ΠΈΠ΅ явно Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½Π½ΡƒΡŽ ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΡƒΡŽ окраску).

ΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π°Ρ коллСкция составляСтся ΠΈΠ· Ρ‚Скстов, Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… извСстна. ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΡ†ΠΈΡ€ΡƒΠ΅ΠΌΠ°Ρ коллСкция содСрТит тСксты, Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… нСизвСстна ΠΈ Π΅Π΅ Ρ‚рСбуСтся ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ.

1.2.2 ОписаниС ΠΌΠ΅Ρ‚ΠΎΠ΄Π°

Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄ — это ΠΌΠ΅Ρ‚ΠΎΠ΄ автоматичСского пороТдСния Π³ΠΈΠΏΠΎΡ‚Π΅Π·. Π‘Ρ‹Π» ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½ Π’. К. Π€ΠΈΠ½Π½ΠΎΠΌ Π² ΠΊΠΎΠ½Ρ†Π΅ 1970;Ρ… Π³Π³. Π‘Π²ΠΎΠ΅ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ» ΠΎΡ‚ ΠΈΠ½ΠΈΡ†ΠΈΠ°Π»ΠΎΠ² извСстного английского философа, Π»ΠΎΠ³ΠΈΠΊΠ° ΠΈ ΡΠΊΠΎΠ½ΠΎΠΌΠΈΡΡ‚Π° Π”ΠΆΠΎΠ½Π° Π‘Ρ‚ΡŽΠ°Ρ€Ρ‚Π° Милля. Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄ прСдставляСт собой Ρ„ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ ΠΏΡ€Π°Π²Π΄ΠΎΠΏΠΎΠ΄ΠΎΠ±Π½Ρ‹Ρ… рассуТдСний, которая позволяСт Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Π°Π½Π°Π»ΠΈΠ·Π° ΠΈΠΌΠ΅ΡŽΡ‰ΠΈΡ…ΡΡ Π΄Π°Π½Π½Ρ‹Ρ… Ρ„ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π³ΠΈΠΏΠΎΡ‚Π΅Π·Ρ‹ ΠΎ Ρ‚ΠΎΠΌ, ΠΊΠ°ΠΊΠΈΠΌΠΈ свойствами ΠΌΠΎΠ³ΡƒΡ‚ ΠΎΠ±Π»Π°Π΄Π°Ρ‚ΡŒ рассматриваСмыС ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹. Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄ — это синтСз Ρ‚Ρ€Π΅Ρ… ΠΏΠΎΠ·Π½Π°Π²Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΏΡ€ΠΎΡ†Π΅Π΄ΡƒΡ€ — эмпиричСской ΠΈΠ½Π΄ΡƒΠΊΡ†ΠΈΠΈ, структурной Π°Π½Π°Π»ΠΎΠ³ΠΈΠΈ ΠΈ Π°Π±Π΄ΡƒΠΊΡ†ΠΈΠΈ. Π’ Π΄Π°Π½Π½ΠΎΠΉ Ρ€Π°Π±ΠΎΡ‚Π΅ ΠΌΡ‹ Ρ€Π°ΡΡΠΌΠΎΡ‚Ρ€ΠΈΠΌ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π΄Π²Π° этапа этого ΠΌΠ΅Ρ‚ΠΎΠ΄Π° — этапы ΠΈΠ½Π΄ΡƒΠΊΡ†ΠΈΠΈ ΠΈ Π°Π½Π°Π»ΠΎΠ³ΠΈΠΈ.

Π’ ΡΠΎΠΎΡ‚вСтствии с Π±ΡƒΠ΄Π΅ΠΌ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠ΅ условныС обозначСния: О — мноТСство ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚Π½ΠΎΠΉ области, Π  — мноТСство свойств этих ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², Π‘ — мноТСство характСристик ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², ΡΠ²Π»ΡΡŽΡ‰ΠΈΡ…ΡΡ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹ΠΌΠΈ ΠΏΡ€ΠΈΡ‡ΠΈΠ½Π°ΠΌΠΈ свойств, V — мноТСство истинностных ΠΎΡ†Π΅Π½ΠΎΠΊ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ².

На Π²Ρ…ΠΎΠ΄ Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄ подаСтся мноТСство ΠΈΠ·ΡƒΡ‡Π°Π΅ΠΌΡ‹Ρ… ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² ΠΈ ΠΈΠ½Ρ„ормация ΠΎ Π½Π°Π»ΠΈΡ‡ΠΈΠΈ ΠΈΠ»ΠΈ отсутствии Ρƒ Π½ΠΈΡ… ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½Ρ‹Ρ… свойств. ΠšΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, имССтся ряд Ρ†Π΅Π»Π΅Π²Ρ‹Ρ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ², ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΈΠ· ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Ρ€Π°Π·Π±ΠΈΠ²Π°Π΅Ρ‚ исходноС мноТСство ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π½Π° Ρ‡Π΅Ρ‚Ρ‹Ρ€Π΅ Π½Π΅ΠΏΠ΅Ρ€Π΅ΡΠ΅ΠΊΠ°ΡŽΡ‰ΠΈΡ…ΡΡ подмноТСства:

— ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹, ΠΏΡ€ΠΎ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ извСстно, Ρ‡Ρ‚ΠΎ ΠΎΠ½ΠΈ ΠΎΠ±Π»Π°Π΄Π°ΡŽΡ‚ Π΄Π°Π½Π½Ρ‹ΠΌ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠΌ,

— ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹, ΠΏΡ€ΠΎ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ извСстно, Ρ‡Ρ‚ΠΎ ΠΎΠ½ΠΈ Π½Π΅ ΠΎΠ±Π»Π°Π΄Π°ΡŽΡ‚ Π΄Π°Π½Π½Ρ‹ΠΌ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠΌ,

— ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹, для ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‚ Π°Ρ€Π³ΡƒΠΌΠ΅Π½Ρ‚Ρ‹ ΠΊΠ°ΠΊ Π·Π°, Ρ‚Π°ΠΊ ΠΈ ΠΏΡ€ΠΎΡ‚ΠΈΠ² Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ ΠΎΠ½ΠΈ ΠΎΠ±Π»Π°Π΄Π°ΡŽΡ‚ Π΄Π°Π½Π½Ρ‹ΠΌ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠΌ,

— ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹, ΠΎ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… нСизвСстно, ΠΎΠ±Π»Π°Π΄Π°ΡŽΡ‚ ΠΎΠ½ΠΈ этим ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠΌ ΠΈΠ»ΠΈ Π½Π΅Ρ‚.

Π’ Π·Π°Π΄Π°Ρ‡Π΅ опрСдСлСния Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкста с Π΄Π²ΡƒΠΌΡ ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹ΠΌΠΈ катСгориями мноТСство О содСрТит исслСдуСмыС тСксты; мноТСство Π  состоит ΠΈΠ· ΠΎΠ΄Π½ΠΎΠ³ΠΎ элСмСнта (свойства), ΠΎΠ±ΠΎΠ·Π½Π°Ρ‡Π°ΡŽΡ‰Π΅Π³ΠΎ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½ΡƒΡŽ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ тСкста (отсутствиС этого свойства ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ тСкста ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Π°); мноТСство Π‘ Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ характСристики, ΠΎΡ‚Π²Π΅Ρ‡Π°ΡŽΡ‰ΠΈΠ΅ Π·Π° ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»Π΅Π½ΠΈΠ΅ тСкстов, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€ характСристика ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹ΠΌ словом ΠΈΠ»ΠΈ словосочСтаниСм; мноТСство

Π³Π΄Π΅ +1 ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ ΠΎΠ±Π»Π°Π΄Π°Π΅Ρ‚ свойством, -1 ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ Π½Π΅ ΠΎΠ±Π»Π°Π΄Π°Π΅Ρ‚ свойством, 0 — Π½Π°Π»ΠΈΡ‡ΠΈΠ΅ противорСчия (Ρ‚. Π΅. ΠΈΠΌΠ΅ΡŽΡ‚ΡΡ Π°Ρ€Π³ΡƒΠΌΠ΅Π½Ρ‚Ρ‹ ΠΊΠ°ΠΊ Π·Π°, Ρ‚Π°ΠΊ ΠΈ ΠΏΡ€ΠΎΡ‚ΠΈΠ² Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ ΠΎΠ±Π»Π°Π΄Π°Π΅Ρ‚ свойством), — отсутствиС ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΎ ΡΠ²ΠΎΠΉΡΡ‚Π²Π΅).

ΠœΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎ тСкстов О состоит ΠΈΠ· Ρ‚Ρ€Π΅Ρ… подмноТСств: тСксты ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ (+1), тСксты ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ (-1) ΠΈ Ρ‚Сксты, Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… трСбуСтся ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ (-тСксты). ΠŸΠ΅Ρ€Π²Ρ‹Π΅ Π΄Π²Π° подмноТСства ΠΎΠ±Ρ€Π°Π·ΡƒΡŽΡ‚ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΡƒΡŽ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΡŽ тСкстов, Ρ‚Ρ€Π΅Ρ‚ΡŒΠ΅ подмноТСство — Ρ‚Π΅ΡΡ‚ΠΎΠ²ΡƒΡŽ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΡŽ.

ИдСя Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π° Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΌ. Π‘Π½Π°Ρ‡Π°Π»Π° составляСтся коллСкция тСкстов, для ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Ρ‚ΠΎΡ‡Π½ΠΎ извСстна ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½Π°Ρ окраска. На ΠΎΡΠ½ΠΎΠ²Π΅ ΠΈΠΌΠ΅ΡŽΡ‰Π΅ΠΉΡΡ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ производится ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ классификатора. Оно Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ„ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ Π³ΠΈΠΏΠΎΡ‚Π΅Π· (этап ΠΈΠ½Π΄ΡƒΠΊΡ†ΠΈΠΈ). Π“ΠΈΠΏΠΎΡ‚Π΅Π·Π° прСдставляСт собой пСрСсСчСниС тСкстов ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ. Π‘ ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰Π΅Π³ΠΎ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° находят всСвозмоТныС пСрСсСчСния тСкстов. Для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ формируСтся ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎΠ΅ мноТСство Π³ΠΈΠΏΠΎΡ‚Π΅Π·.

Π”Π°Π»Π΅Π΅ слСдуСт этап Π°Π½Π°Π»ΠΎΠ³ΠΈΠΈ. Π‘Ρ„ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Π΅ Π³ΠΈΠΏΠΎΡ‚Π΅Π·Ρ‹ ΠΏΠΎΠΎΡ‡Π΅Ρ€Π΅Π΄Π½ΠΎ ΡΡ€Π°Π²Π½ΠΈΠ²Π°ΡŽΡ‚ΡΡ втСкстами. Если Π³ΠΈΠΏΠΎΡ‚Π΅Π·Π° содСрТатся Π² ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅ΠΌΠΎΠΌ тСкстС, Ρ‚ΠΎ ΠΎΠ½Π° помСчаСтся ΠΊΠ°ΠΊΠΈΠΌ-Π»ΠΈΠ±ΠΎ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ. ПослС Ρ‚ΠΎΠ³ΠΎ, ΠΊΠ°ΠΊ всС Π³ΠΈΠΏΠΎΡ‚Π΅Π·Ρ‹ ΠΏΡ€ΠΎΠ²Π΅Ρ€Π΅Π½Ρ‹ Π½Π° ΡΠΎΠ²ΠΏΠ°Π΄Π΅Π½ΠΈΠ΅ с Ρ‚Скстом, ΠΌΠΎΠΆΠ½ΠΎ Π²Ρ‹Π΄Π΅Π»ΠΈΡ‚ΡŒ мноТСство ΠΏΠΎΠΌΠ΅Ρ‡Π΅Π½Π½Ρ‹Ρ… Π³ΠΈΠΏΠΎΡ‚Π΅Π·. Π’Π°ΠΊΠΎΠ΅ мноТСство выдСляСтся Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ. На ΠΏΠΎΡΠ»Π΅Π΄Π½Π΅ΠΌ этапС остаСтся ΡΠ΄Π΅Π»Π°Ρ‚ΡŒ Π·Π°ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅, ΠΊ ΠΊΠ°ΠΊΠΎΠΌΡƒ классу отнСститСкст. Π’ Π·Π°Π΄Π°Ρ‡Π΅ опрСдСлСния Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкста ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ достаточно большоС количСство характСристик ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² (порядка 104) ΠΈ ΠΏΠΎΡ€ΠΎΠΆΠ΄Π΅Π½Π½Ρ‹Ρ… Π³ΠΈΠΏΠΎΡ‚Π΅Π· (порядка 104-106). ВслСдствиС этого происходят многочислСнныС совпадСния характСристик ΠΊΠ°ΠΊ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… Π³ΠΈΠΏΠΎΡ‚Π΅Π·, Ρ‚Π°ΠΊ ΠΈ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… стСкстами, Ρ‚. Π΅. ΠΈΠΌΠ΅ΡŽΡ‚ мСсто мноТСствСнныС ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚Ρ‹. Для Π²Ρ‹Ρ…ΠΎΠ΄Π° ΠΈΠ· ΡΡ‚ΠΎΠΉ ситуации ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ функция Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ². Π’ ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ ΠΊΡ€ΠΈΡ‚Π΅Ρ€ΠΈΠ΅Π², ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‰ΠΈΡ… ΠΏΡ€ΠΈΡΠ²ΠΎΠΈΡ‚ΡŒ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒΡ‚Π΅ΠΊΡΡ‚Π°ΠΌ, ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π°ΡΡΠΌΠ°Ρ‚Ρ€ΠΈΠ²Π°Ρ‚ΡŒ:

Π°) суммарноС количСство Π³ΠΈΠΏΠΎΡ‚Π΅Π·

,(2)

Π³Π΄Π΅ , — ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ ΠΈ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ Π³ΠΈΠΏΠΎΡ‚Π΅Π·Ρ‹ соотвСтствСнно; - коэффициСнт, ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ дисбаланс количСства ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΈ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… тСкстов, Π±) суммарноС количСство характСристик Π²ΠΎ Π²ΡΠ΅Ρ… Π³ΠΈΠΏΠΎΡ‚Π΅Π·Π°Ρ…,

(3)

Π³Π΄Π΅ — количСство характСристик Π³ΠΈΠΏΠΎΡ‚Π΅Π·Ρ‹ ,

Π²) суммарноС количСство Ρ€ΠΎΠ΄ΠΈΡ‚Π΅Π»Π΅ΠΉ всСх Π³ΠΈΠΏΠΎΡ‚Π΅Π·

(4)

Π³Π΄Π΅ — количСство Ρ€ΠΎΠ΄ΠΈΡ‚Π΅Π»Π΅ΠΉ Π³ΠΈΠΏΠΎΡ‚Π΅Π·Ρ‹ ,

Π³) ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΈΠ΅ количСства характСристик Π½Π° ΠΊΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ Ρ€ΠΎΠ΄ΠΈΡ‚Π΅Π»Π΅ΠΉ

(5)

Π΄) взвСшСнноС срСднСС арифмСтичСскоС числа характСристик, Ρ‚. Π΅. ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ произвСдСния количСства характСристик Π½Π° ΠΊΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ Ρ€ΠΎΠ΄ΠΈΡ‚Π΅Π»Π΅ΠΉ ΠΊ ΠΎΠ±Ρ‰Π΅ΠΌΡƒ количСству Ρ€ΠΎΠ΄ΠΈΡ‚Π΅Π»Π΅ΠΉ Π³ΠΈΠΏΠΎΡ‚Π΅Π· ΠΎΠ΄Π½ΠΎΠ³ΠΎ класса

(6)

Π΅) взвСшСнноС срСднСС арифмСтичСскоС числа Ρ€ΠΎΠ΄ΠΈΡ‚Π΅Π»Π΅ΠΉ, Ρ‚. Π΅. ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ произвСдСния количСства характСристик Π½Π° ΠΊΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ Ρ€ΠΎΠ΄ΠΈΡ‚Π΅Π»Π΅ΠΉ ΠΊ ΠΎΠ±Ρ‰Π΅ΠΌΡƒ количСству характСристик Π³ΠΈΠΏΠΎΡ‚Π΅Π· ΠΎΠ΄Π½ΠΎΠ³ΠΎ класса

.(7)

Π—Π½Π°Ρ‡Π΅Π½ΠΈΠ΅, Π²ΠΎΠ·Π²Ρ€Π°Ρ‰Π°Π΅ΠΌΠΎΠ΅ Π΄Π°Π½Π½ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠ΅ΠΉ, опрСдСляСт ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΡŽ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅ΠΌΠΎΠ³ΠΎ тСкста.

1.2.3 Алгоритм поиска пСрСсСчСний

На ΡΡ‚Π°ΠΏΠ΅ ΠΈΠ½Π΄ΡƒΠΊΡ†ΠΈΠΈ для Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡƒΡΡ‚Π°Π½ΠΎΠ²ΠΈΡ‚ΡŒ сходства ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², осущСствляСтся поиск всСх ΠΎΠ±Ρ‰ΠΈΡ… Ρ„Ρ€Π°Π³ΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ². Π”ΠΎΠΊΠ°Π·Π°Π½ΠΎ, Ρ‡Ρ‚ΠΎ для Π±ΠΈΠ½Π°Ρ€Π½ΠΎΠ³ΠΎ прСдставлСния характСристик такая Π·Π°Π΄Π°Ρ‡Π° являСтся NΠ -ΠΏΠΎΠ»Π½ΠΎΠΉ. Для поиска всСх ΠΎΠ±Ρ‰ΠΈΡ… Ρ„Ρ€Π°Π³ΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Норриса, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΈΠΌΠ΅Π΅Ρ‚ Π»ΠΈΠ½Π΅ΠΉΠ½ΡƒΡŽ ΡΠ»ΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ ΠΎΡ‚ Ρ‡ΠΈΡΠ»Π° ΠΎΠ±Ρ‰ΠΈΡ… Ρ„Ρ€Π°Π³ΠΌΠ΅Π½Ρ‚ΠΎΠ², являСтся ΠΈΠ½ΠΊΡ€Π΅ΠΌΠ΅Π½Ρ‚Π½Ρ‹ΠΌ ΠΈ ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ· ΡΠ°ΠΌΡ‹Ρ… эффСктивных срСди Π°Π½Π°Π»ΠΎΠ³ΠΈΡ‡Π½Ρ‹Ρ… ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ².

ΠŸΡ€ΠΈΠ²Π΅Π΄Π΅ΠΌ описаниС Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Норриса Π² ΡΠΎΠΎΡ‚вСтствии Ρ. ΠŸΡƒΡΡ‚ΡŒ Ρƒ Π½Π°Ρ имССтся Π½Π°Π±ΠΎΡ€ мноТСств (ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ²). Π’Π²Π΅Π΄Π΅ΠΌ Π½Π° ΡΡ‚ΠΎΠΌ Π½Π°Π±ΠΎΡ€Π΅ мноТСств ΠΊΠ°ΠΊΠΎΠΉ-Π½ΠΈΠ±ΡƒΠ΄ΡŒ Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹ΠΉ порядок ΠΈ Π·Π°Ρ„иксируСм Π΅Π³ΠΎ. Наном шагС дляного ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ дополняСт Π½Π°Π±ΠΎΡ€ пСрСсСчСний, построСнных для ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΡ… мноТСств, пСрСсСчСниями ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ мноТСства этого Π½Π°Π±ΠΎΡ€Π° сным ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠΌ.

ΠžΠ±ΠΎΠ·Π½Π°Ρ‡ΠΈΠΌ Ρ‡Π΅Ρ€Π΅Π· Π½ΠΎΠΌΠ΅Ρ€ мноТСства (сами мноТСства ΠΈ ΠΈΡ… ΠΏΠ΅Ρ€Π΅ΡΠ΅Ρ‡Π΅Π½ΠΈΡ Π±ΡƒΠ΄Π΅ΠΌ ΠΎΠ±ΠΎΠ·Π½Π°Ρ‡Π°Ρ‚ΡŒ малСнькими Π±ΡƒΠΊΠ²Π°ΠΌΠΈ, Π° ΠΏΠΎΠ΄ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎ Π½ΠΎΠΌΠ΅Ρ€ΠΎΠ² мноТСств — большими Π±ΡƒΠΊΠ²Π°ΠΌΠΈ).

ΠŸΡƒΡΡ‚ΡŒ — мноТСство понятий, ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Ρ… ΠΏΡ€ΠΈ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ ΠΏΠ΅Ρ€Π²Ρ‹Ρ… мноТСств. ΠžΡ‡Π΅Π²ΠΈΠ΄Π½ΠΎ, Ρ‡Ρ‚ΠΎ пусто.

НиТС ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½ псСвдокод Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° поиска ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹Ρ… пСрСсСчСний подмноТСств.

:= пустоС мноТСство;

For i := 1 To < количСство мноТСств > Do Begin

:= <οΏ½ΠΎΡ‡Π΅Ρ€Π΅Π΄Π½ΠΎΠ΅ мноТСство >;

For j := 1 To < Ρ€Π°Π·ΠΌΠ΅Ρ€ мноТСства > Do Begin

// - понятиС ΠΈΠ· ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²Π°

:= ΠΎΡ‡Π΅Ρ€Π΅Π΄Π½ΠΎΠ΅ пСрСсСчСниС ΠΈΠ· ;

:= Π½ΠΎΠΌΠ΅Ρ€Π° мноТСств, ΡΠΎΡΡ‚Π°Π²Π»ΡΡŽΡ‰ΠΈΡ… пСрСсСчСниС ;

// Ссли являСтся подмноТСством

If Then

// добавляСм ΠΊ Π½ΠΎΠΌΠ΅Ρ€Π°ΠΌ, входящим Π², Π½ΠΎΠΌΠ΅Ρ€

// ΠΈΠ½Π°Ρ‡Π΅, Ссли Π½Π΅ ΡΠ²Π»ΡΠ΅Ρ‚ся подмноТСством

Else Begin

// Π½Π°ΠΉΠ΄Π΅ΠΌ пСрСсСчСниС мноТСств ΠΈ

;

f := false; // Ρ„Π»Π°Π³ совпадСния с ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ· ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π² Π²

; // Π½ΠΎΠΌΠ΅Ρ€ родитСля пСрСсСчСния

k := 1;

While (k <= <οΏ½Ρ€Π°Π·ΠΌΠ΅Ρ€ мноТСства >) And (not f) Do Begin

:= ΠΎΡ‡Π΅Ρ€Π΅Π΄Π½ΠΎΠ΅ пСрСсСчСниС ΠΈΠ· ;

:= Π½ΠΎΠΌΠ΅Ρ€Π° мноТСств, ΡΠΎΡΡ‚Π°Π²Π»ΡΡŽΡ‰ΠΈΡ… пСрСсСчСниС ;

If Then Begin

;

f := true;

End;

Else Begin

;

Inc (k);

End;

End;

If not f Then

; // добавляСм Π½ΠΎΠ²ΠΎΠ΅ понятиС Π²

End;

End;

f := false; // Ρ„Π»Π°Π³, ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ, являСтся Π»ΠΈ подмноТСством

// Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ мноТСства ΠΈΠ·

q := 1;

While (q <=) And (not f) Do Begin

:= ΠΎΡ‡Π΅Ρ€Π΅Π΄Π½ΠΎΠ΅ мноТСство ;

If Then

f := true

Else

Inc (q);

End;

If not f Then

;

End;

1.3 N-ΠΊΡ€Π°Ρ‚Π½Ρ‹ΠΉ ΡΠΊΠΎΠ»ΡŒΠ·ΡΡ‰ΠΈΠΉ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒ

автоматичСский Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ тСкст ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ½Ρ‹ΠΉ ΠŸΡ€ΠΈΠ²Π΅Π΄Π΅ΠΌ описаниС ΠΌΠ΅Ρ‚ΠΎΠ΄Π° пСрСкрСстной ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ согласно справочнику. ΠŸΠ΅Ρ€Π΅ΠΊΡ€Π΅ΡΡ‚Π½Π°Ρ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠ° (кросс-валидация) — это статистичСский ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΎΡ†Π΅Π½ΠΊΠΈ ΠΈ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² ΠΏΡƒΡ‚Π΅ΠΌ дСлСния Π΄Π°Π½Π½Ρ‹Ρ… Π½Π° Π΄Π²Π° сСгмСнта: ΠΎΠ΄ΠΈΠ½ сСгмСнт ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ для обучСния систСмы, Π΄Ρ€ΡƒΠ³ΠΎΠΉ — для Π΅Π΅ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ. Π‘Π°Π·ΠΎΠ²ΠΎΠΉ Ρ„ΠΎΡ€ΠΌΠΎΠΉ пСрСкрСстной ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ являСтся N-ΠΊΡ€Π°Ρ‚Π½Ρ‹ΠΉ ΡΠΊΠΎΠ»ΡŒΠ·ΡΡ‰ΠΈΠΉ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒ (N-fold cross-validation).

ΠŸΡ€ΠΈ ΠΏΡ€ΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠΈ N-ΠΊΡ€Π°Ρ‚Π½ΠΎΠ³ΠΎ ΡΠΊΠΎΠ»ΡŒΠ·ΡΡ‰Π΅Π³ΠΎ контроля всС ΠΈΠΌΠ΅ΡŽΡ‰ΠΈΠ΅ΡΡ Π΄Π°Π½Π½Ρ‹Π΅ Ρ€Π°Π·Π±ΠΈΠ²Π°ΡŽΡ‚ Π½Π° N Ρ€Π°Π²Π½Ρ‹Ρ… (ΠΈΠ»ΠΈ ΠΏΡ€ΠΈΠ±Π»ΠΈΠ·ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Ρ€Π°Π²Π½Ρ‹Ρ…) ΠΏΠΎ Ρ€Π°Π·ΠΌΠ΅Ρ€Ρƒ частСй (Π±Π»ΠΎΠΊΠΎΠ²). ΠžΠ±Ρ‹Ρ‡Π½ΠΎ N Π·Π°Π΄Π°ΡŽΡ‚ Ρ€Π°Π²Π½Ρ‹ΠΌ 5 ΠΈΠ»ΠΈ 10. ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΈΠ· N Π±Π»ΠΎΠΊΠΎΠ² ΠΏΠΎΠΎΡ‡Π΅Ρ€Ρ‘Π΄Π½ΠΎ ΠΎΠ±ΡŠΡΠ²Π»ΡΠ΅Ρ‚ΡΡ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Ρ‹ΠΌ (тСстовым), ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Π΅ N-1 Π±Π»ΠΎΠΊΠΎΠ² ΠΎΠ±ΡŠΡΠ²Π»ΡΡŽΡ‚ΡΡ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠΌΠΈ (Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½Ρ‹ΠΌΠΈ). ΠŸΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚ΡΡ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ классификатора ΠΏΠΎ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠΌ Π±Π»ΠΎΠΊΠ°ΠΌ, Π° Π·Π°Ρ‚Π΅ΠΌ осущСствляСтся классификация ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π² ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½ΠΎΠΌ Π±Π»ΠΎΠΊΠ΅. ΠŸΡ€ΠΎΡ†Π΅Π΄ΡƒΡ€Π° обучСния повторяСтся N Ρ€Π°Π·, Π² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ всС ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ ΠΎΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‚ΡΡ классифицированными ΠΊΠ°ΠΊ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Ρ‹Π΅ Ρ€ΠΎΠ²Π½ΠΎ ΠΏΠΎ ΠΎΠ΄Π½ΠΎΠΌΡƒ Ρ€Π°Π·Ρƒ, ΠΈ ΠΊΠ°ΠΊ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠ΅ ΠΏΠΎ (N-1) Ρ€Π°Π·.

Рис. 2 — ΠŸΡ€ΠΎΡ†Π΅Π΄ΡƒΡ€Π° 3-ΠΊΡ€Π°Ρ‚Π½ΠΎΠΉ пСрСкрСстной ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ Для ΠΎΡ†Π΅Π½ΠΊΠΈ качСства Ρ€Π°Π±ΠΎΡ‚Ρ‹ классификатора ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ Π·Π°Ρ€Π°Π½Π΅Π΅ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΡƒΡŽ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΡƒ, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ (precision). Π˜Ρ‚ΠΎΠ³ΠΎΠ²ΡƒΡŽ ΠΎΡ†Π΅Π½ΠΊΡƒ точности классификации Π²Ρ‹Ρ‡ΠΈΡΠ»ΡΡŽΡ‚ ΠΊΠ°ΠΊ срСднСС арифмСтичСскоС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ точности ΠΏΠΎ Π²ΡΠ΅ΠΌ Ρ†ΠΈΠΊΠ»Π°ΠΌ. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, ΠΏΡ€ΠΎΡ†Π΅Π΄ΡƒΡ€Π° пСрСкрСстной ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ позволяСт максимально ΠΏΠΎΠ»Π½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΈΠΌΠ΅ΡŽΡ‰ΠΈΠ΅ΡΡ Π²Ρ‹Π±ΠΎΡ€ΠΎΡ‡Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ для ΠΎΡ†Π΅Π½ΠΊΠΈ качСства автоматичСской классификации.

ΠžΠ±Ρ‹Ρ‡Π½ΠΎ пСрСкрСстная ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠ° ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Π² ΡΠΈΡ‚уациях, ΠΊΠΎΠ³Π΄Π° Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΎΡ†Π΅Π½ΠΈΡ‚ΡŒ, насколько ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰Π°Ρ модСль способна Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ Π½Π° ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠ΅. НСобходимо ΠΎΡ‚ΠΌΠ΅Ρ‚ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ нСдостатком ΠΏΡ€ΠΎΡ†Π΅Π΄ΡƒΡ€Ρ‹ пСрСкрСстного контроля ΡΠ²Π»ΡΡŽΡ‚ΡΡ высокиС Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ Π·Π°Ρ‚Ρ€Π°Ρ‚Ρ‹, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ Ρ†ΠΈΠΊΠ»Π΅ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΡ‚ΡŒ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ классификатора.

1.4 ΠœΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ качСства

Для ΠΎΡ†Π΅Π½ΠΊΠΈ эффСктивности Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π° Π±ΡƒΠ΄Π΅ΠΌ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌΠΈ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ°ΠΌΠΈ — ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒ (accuracy), Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ (precision), ΠΏΠΎΠ»Π½ΠΎΡ‚Π° (recall) ΠΈ F1-ΠΌΠ΅Ρ€Π° (F1-measure).

Π­Ρ‚ΠΈ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ Π»Π΅Π³ΠΊΠΎ Ρ€Π°ΡΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ Π½Π° ΠΎΡΠ½ΠΎΠ²Π°Π½ΠΈΠΈ Ρ‚Π°Π±Π»ΠΈΡ†Ρ‹ сопряТСнности, которая составляСтся для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ класса ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎ.

Π’Π°Π±Π»ΠΈΡ†Π° 1 — Π’Π°Π±Π»ΠΈΡ†Π° сопряТСнности

ΠšΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΡ

ЭкспСртная ΠΎΡ†Π΅Π½ΠΊΠ°

Positive

Negative

ΠžΡ†Π΅Π½ΠΊΠ° классификатора

Positive

TP

FP

Negative

FN

TN

Π’ Ρ‚Π°Π±Π»ΠΈΡ†Π΅ содСрТится информация ΠΎ Ρ‚ΠΎΠΌ, сколько Ρ€Π°Π· систСма приняла Π²Π΅Ρ€Π½ΠΎΠ΅ ΠΈ ΡΠΊΠΎΠ»ΡŒΠΊΠΎ Ρ€Π°Π· Π½Π΅Π²Π΅Ρ€Π½ΠΎΠ΅ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ ΠΏΠΎ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌ Π·Π°Π΄Π°Π½Π½ΠΎΠ³ΠΎ класса. УсловныС обозначСния ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ:

TP (true positives) — ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ классификатор отнСс ΠΊ ΠΏΠΎΠ·ΠΈΡ‚ΠΈΠ²Π½ΠΎΠΌΡƒ классу ΠΈ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π΄Π΅ΠΉΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ°Ρ‚ ΠΏΠΎΠ·ΠΈΡ‚ΠΈΠ²Π½ΠΎΠΌΡƒ классу; TN (true negative) — ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ классификатор отнСс ΠΊ Π½Π΅Π³Π°Ρ‚ΠΈΠ²Π½ΠΎΠΌΡƒ классу ΠΈ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π΄Π΅ΠΉΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ°Ρ‚ Π½Π΅Π³Π°Ρ‚ΠΈΠ²Π½ΠΎΠΌΡƒ классу;

FP (false positive) — ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ классификатор ΠΎΡˆΠΈΠ±ΠΎΡ‡Π½ΠΎ отнСс ΠΊ ΠΏΠΎΠ·ΠΈΡ‚ΠΈΠ²Π½ΠΎΠΌΡƒ классу, хотя Π½Π° ΡΠ°ΠΌΠΎΠΌ Π΄Π΅Π»Π΅ ΠΎΠ½ΠΈ относятся ΠΊ Π½Π΅Π³Π°Ρ‚ΠΈΠ²Π½ΠΎΠΌΡƒ классу;

FN (false negative) — ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ классификатор ΠΎΡˆΠΈΠ±ΠΎΡ‡Π½ΠΎ отнСс ΠΊ Π½Π΅Π³Π°Ρ‚ΠΈΠ²Π½ΠΎΠΌΡƒ классу, хотя Π½Π° ΡΠ°ΠΌΠΎΠΌ Π΄Π΅Π»Π΅ ΠΎΠ½ΠΈ относятся ΠΊ ΠΏΠΎΠ·ΠΈΡ‚ΠΈΠ²Π½ΠΎΠΌΡƒ классу.

ОписаниС основных ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅ΠΌ Π² ΡΠΎΠΎΡ‚вСтствии с.

1.4.1 ΠŸΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΈ ΠΎΡˆΠΈΠ±ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ

На ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠ΅ Π½Π΅ Π±Ρ‹Π²Π°Π΅Ρ‚ систСм, Π°Π±ΡΠΎΠ»ΡŽΡ‚Π½ΠΎ Ρ‚ΠΎΡ‡Π½ΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΡΡŽΡ‰ΠΈΡ… ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹Π΅ ΡΠΎΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡ классов ΠΈ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ°Ρ‰ΠΈΡ… ΠΈΠΌ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ². ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€ Π±ΡƒΠ΄Π΅Ρ‚ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ с ΠΎΡˆΠΈΠ±ΠΊΠ°ΠΌΠΈ ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ тСстовой Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ. Для ΠΎΡ†Π΅Π½ΠΊΠΈ ΡƒΡΠΏΠ΅ΡˆΠ½ΠΎΡΡ‚ΠΈ сопоставлСния классов ΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ° ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ:

(8)

Π³Π΄Π΅ Π² Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»Π΅ — количСство ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ классификатор принял ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎΠ΅ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅, Π² Π·Π½Π°ΠΌΠ΅Π½Π°Ρ‚Π΅Π»Π΅ — Ρ€Π°Π·ΠΌΠ΅Ρ€ классифицируСмой Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ. Для ΠΎΡ†Π΅Π½ΠΊΠΈ ΠΏΡ€ΠΎΡ†Π΅Π½Ρ‚Π° ошибок ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ° ΠΎΡˆΠΈΠ±ΠΎΡ‡Π½ΠΎΡΡ‚ΠΈ:

(9)

Π³Π΄Π΅ Π² Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»Π΅ — количСство ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ классификатор принял ΠΎΡˆΠΈΠ±ΠΎΡ‡Π½ΠΎΠ΅ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅. Π­Ρ‚ΠΎ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ° ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Π½Π΅ Ρ‚Π°ΠΊ часто Π² Π·Π°Π΄Π°Ρ‡Π°Ρ… тСкстовой классификации.

1.4.2 Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΈ ΠΏΠΎΠ»Π½ΠΎΡ‚Π°

Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ P ΠΈ ΠΏΠΎΠ»Π½ΠΎΡ‚Π° R ΡΠ²Π»ΡΡŽΡ‚ся ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ°ΠΌΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ ΠΏΡ€ΠΈ ΠΎΡ†Π΅Π½ΠΊΠ΅ большСй части систСм Π°Π½Π°Π»ΠΈΠ·Π° ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ. Иногда ΠΎΠ½ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ сами ΠΏΠΎ ΡΠ΅Π±Π΅, ΠΈΠ½ΠΎΠ³Π΄Π° Π² ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ базиса для ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄Π½Ρ‹Ρ… ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ, Ρ‚Π°ΠΊΠΈΡ… ΠΊΠ°ΠΊ F1-ΠΌΠ΅Ρ€Π°.

Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ систСмы Π² ΠΏΡ€Π΅Π΄Π΅Π»Π°Ρ… класса — это доля ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π΄Π΅ΠΉΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ°Ρ‰ΠΈΡ… Π΄Π°Π½Π½ΠΎΠΌΡƒ классу ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ всСх ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ систСма отнСсла ΠΊ ΡΡ‚ΠΎΠΌΡƒ классу. Π­Ρ‚Π° ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΡƒ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²ΠΈΡ‚ΡŒ ΠΊΠ°ΠΊ ΡΡ‚Π΅ΠΏΠ΅Π½ΡŒ «Ρ€Π°Π·ΡƒΠΌΠ½ΠΎΡΡ‚ΠΈ» систСмы. ΠŸΠΎΠ»Π½ΠΎΡ‚Π° систСмы — это доля Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹Ρ… классификатором ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ°Ρ‰ΠΈΡ… классу, ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ всСх ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² этого класса Π² Ρ‚Сстовой Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅. Π”Π°Π½Π½ΡƒΡŽ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΡƒ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²ΠΈΡ‚ΡŒ ΠΊΠ°ΠΊ ΡΡ‚Π΅ΠΏΠ΅Π½ΡŒ ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹ систСмы.

ΠœΠ΅Ρ‚Ρ€ΠΈΠΊΠ° точности опрСдСляСтся Ρ„ΠΎΡ€ΠΌΡƒΠ»ΠΎΠΉ

.(10)

ΠœΠ΅Ρ‚Ρ€ΠΈΠΊΠ° точности Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€ΠΈΠ·ΡƒΠ΅Ρ‚, сколько ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Ρ… ΠΎΡ‚ ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€Π° ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² ΡΠ²Π»ΡΡŽΡ‚ΡΡ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹ΠΌΠΈ. Π§Π΅ΠΌ большС Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ, Ρ‚Π΅ΠΌ мСньшС число Π»ΠΎΠΆΠ½Ρ‹Ρ… ΠΏΠΎΠΏΠ°Π΄Π°Π½ΠΈΠΉ. Но ΡΡ‚Π° ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ° Π½Π΅ Π΄Π°Π΅Ρ‚ прСдставлСниС ΠΎ Ρ‚ΠΎΠΌ, всС Π»ΠΈ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹Π΅ ΠΎΡ‚Π²Π΅Ρ‚Ρ‹ Π²Π΅Ρ€Π½ΡƒΠ» классификатор. Для этого сущСствуСт ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ° ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹, опрСдСляСмая Ρ„ΠΎΡ€ΠΌΡƒΠ»ΠΎΠΉ

.(11)

ΠœΠ΅Ρ‚Ρ€ΠΈΠΊΠ° ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹ Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€ΠΈΠ·ΡƒΠ΅Ρ‚ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒ классификатора «ΡƒΠ³Π°Π΄Ρ‹Π²Π°Ρ‚ΡŒ» ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ ΠΎΡ‚Π²Π΅Ρ‚Ρ‹ Π² Ρ‚Сстовой Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅. ΠžΡ‚ΠΌΠ΅Ρ‚ΠΈΠΌ, Ρ‡Ρ‚ΠΎ Π»ΠΎΠΆΠ½ΠΎ-ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ ΠΎΡ‚Π²Π΅Ρ‚Ρ‹ Π½ΠΈΠΊΠ°ΠΊ Π½Π΅ Π²Π»ΠΈΡΡŽΡ‚ Π½Π° ΡΡ‚Ρƒ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΡƒ.

1.4.3 F1-ΠΌΠ΅Ρ€Π°

ΠœΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ точности ΠΈ ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹ Π΄Π°ΡŽΡ‚ достаточно ΠΈΡΡ‡Π΅Ρ€ΠΏΡ‹Π²Π°ΡŽΡ‰ΡƒΡŽ характСристику классификатора. ΠŸΠΎΠ½ΡΡ‚Π½ΠΎ, Ρ‡Ρ‚ΠΎ Ρ‡Π΅ΠΌ Π²Ρ‹ΡˆΠ΅ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΈ ΠΏΠΎΠ»Π½ΠΎΡ‚Π°, Ρ‚Π΅ΠΌ Π»ΡƒΡ‡ΡˆΠ΅. Если ΠΏΠΎΠ²Ρ‹ΡˆΠ°Ρ‚ΡŒ ΠΏΠΎΠ»Π½ΠΎΡ‚Ρƒ, дСлая классификатор Π±ΠΎΠ»Π΅Π΅ «ΠΎΠΏΡ‚имистичным», это ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Ρ‚ ΠΊ ΠΏΠΎΠ½ΠΈΠΆΠ΅Π½ΠΈΡŽ точности ΠΈΠ·-Π·Π° увСличСния числа Π»ΠΎΠΆΠ½ΠΎ-ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ². Если ΠΆΠ΅ Π΄Π΅Π»Π°Ρ‚ΡŒ классификатор Π±ΠΎΠ»Π΅Π΅ «ΠΏΠ΅ΡΡΠΈΠΌΠΈΡΡ‚ΠΈΡ‡Π½Ρ‹ΠΌ», Ρ‚ΠΎ ΠΏΡ€ΠΈ ростС точности ΠΏΡ€ΠΎΠΈΠ·ΠΎΠΉΠ΄Π΅Ρ‚ ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠ΅ ΠΏΠ°Π΄Π΅Π½ΠΈΠ΅ ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹ ΠΈΠ·-Π·Π° ΠΎΡ‚Π±Ρ€Π°ΠΊΠΎΠ²ΠΊΠΈ ΠΊΠ°ΠΊΠΎΠ³ΠΎ-Ρ‚ΠΎ числа ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹Ρ… ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ².

Π’ Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΉ ΠΆΠΈΠ·Π½ΠΈ максимальная Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΈ ΠΏΠΎΠ»Π½ΠΎΡ‚Π° Π½Π΅ Π΄ΠΎΡΡ‚ΠΈΠΆΠΈΠΌΡ‹ ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ, поэтому приходится ΠΈΡΠΊΠ°Ρ‚ΡŒ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ баланс. Π‘ ΡΡ‚ΠΎΠΉ Ρ†Π΅Π»ΡŒΡŽ вводится ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ°, которая ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ‚ Π² ΡΠ΅Π±Π΅ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ ΠΎ Ρ‚очности ΠΈ ΠΏΠΎΠ»Π½ΠΎΡ‚Π΅ классификатора. Она ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ»Π° Π½Π°Π·Π²Π°Π½ΠΈΠ΅ F1-ΠΌΠ΅Ρ€Π° ΠΈ Ρ„актичСски являСтся срСдним гармоничСским Π²Π΅Π»ΠΈΡ‡ΠΈΠ½ P ΠΈ R:

.(12)

Π’ Π΄Π°Π½Π½ΠΎΠΉ Ρ„ΠΎΡ€ΠΌΡƒΠ»Π΅ придаСтся ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²Ρ‹ΠΉ вСс точности ΠΈ ΠΏΠΎΠ»Π½ΠΎΡ‚Π΅, поэтому F1-ΠΌΠ΅Ρ€Π° Π±ΡƒΠ΄Π΅Ρ‚ ΡΠ½ΠΈΠΆΠ°Ρ‚ΡŒΡΡ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΠΎ ΠΏΡ€ΠΈ ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΠΈ точности.

Π“Π»Π°Π²Π° 2. ΠŸΡ€Π°ΠΊΡ‚ΠΈΡ‡Π΅ΡΠΊΠΎΠ΅ исслСдованиС Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π°

2.1 ΠŸΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ½Π°Ρ рСализация

Для написания ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹-Π°Π½Π°Π»ΠΈΠ·Π°Ρ‚ΠΎΡ€Π° Π±Ρ‹Π» использован язык программирования C#.

2.1.1 ΠŸΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΡΠΊΠΈΠΉ интСрфСйс

ΠŸΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ° Ρ€Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π° Π² Π²ΠΈΠ΄Π΅ консольного прилоТСния. Запуск осущСствляСтся ΠΈΠ· ΠΊΠΎΠΌΠ°Π½Π΄Π½ΠΎΠΉ строки Windows. Бинтаксис ΠΊΠΎΠΌΠ°Π½Π΄Ρ‹ запуска исполняСмого Ρ„Π°ΠΉΠ»Π° прСдставлСн Π½Π° Ρ€ΠΈΡ. 3.

Рис. 3 — Бинтаксис ΠΊΠΎΠΌΠ°Π½Π΄Ρ‹ запуска прилоТСния По ΡƒΠΌΠΎΠ»Ρ‡Π°Π½ΠΈΡŽ коэффициСнт дисбаланса, количСство Π±Π»ΠΎΠΊΠΎΠ² для пСрСкрСстной ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ .

2.1.2 Π’Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅

Π‘Π»ΠΎΠ²Π°Ρ€ΡŒ хранится Π² Ρ‚Скстовом Ρ„Π°ΠΉΠ»Π΅ Dictionary.txt.

Π˜ΡΡ…ΠΎΠ΄Π½Ρ‹Π΅ тСксты для обучСния ΠΈ ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΈ Ρ€Π°ΡΠΏΠΎΠ»Π°Π³Π°ΡŽΡ‚ΡΡ Π² ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΡ… дирСкториях:

/SourceTexts/MinusSamples — ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠ΅ Π½Π΅Π³Π°Ρ‚ΠΈΠ²Π½Ρ‹Π΅ тСксты,

/SourceTexts/PlusSamples — ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠ΅ ΠΏΠΎΠ·ΠΈΡ‚ΠΈΠ²Π½Ρ‹Π΅ тСксты,

/SourceTexts/TauSamples — тСксты, Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… трСбуСтся ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ.

ВСксты послС ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠΎΠΉ Mystem ΠΏΠΎΠΌΠ΅Ρ‰Π°ΡŽΡ‚ΡΡ Π² Π΄ΠΈΡ€Π΅ΠΊΡ‚ΠΎΡ€ΠΈΠΈ:

/NormalizedTexts/MinusSamples — Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π½Ρ‹Π΅ Π½Π΅Π³Π°Ρ‚ΠΈΠ²Π½Ρ‹Π΅ тСксты,

/NormalizedTexts/PlusSamples — Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π½Ρ‹Π΅ ΠΏΠΎΠ·ΠΈΡ‚ΠΈΠ²Π½Ρ‹Π΅ тСксты,

/NormalizedTexts/TauSamples — Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π½Ρ‹Π΅ тСксты, Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… трСбуСтся ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ.

2.1.3 Π’Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅

Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΠΏΡ€ΠΎΡ†Π΅Π΄ΡƒΡ€Ρ‹ кросс-Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΠΈ содСрТатся Π² Ρ‚Скстовом Ρ„Π°ΠΉΠ»Π΅ ResultsCrossValidation. txt, Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ классификации — Π² Ρ„Π°ΠΉΠ»Π΅ ResultsClassification.txt.

2.1.4 Π”ΠΈΠ°Π³Ρ€Π°ΠΌΠΌΠ° классов ΠΈ ΡΡ‚Ρ€ΡƒΠΊΡ‚ΡƒΡ€Ρ‹ Π΄Π°Π½Π½Ρ‹Ρ…

Π”ΠΈΠ°Π³Ρ€Π°ΠΌΠΌΠ° классов ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½Π° Π½Π° Ρ€ΠΈΡ. 4.

Рис. 4 — Π”ΠΈΠ°Π³Ρ€Π°ΠΌΠΌΠ° классов

Π’ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠ΅ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΡΠΊΠΈΠ΅ структуры Π΄Π°Π½Π½Ρ‹Ρ…:

o Π‘Ρ‚Ρ€ΡƒΠΊΡ‚ΡƒΡ€Π° Hypothesis содСрТит ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ ΠΎ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°Ρ…, Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€ΠΈΠ·ΡƒΡŽΡ‰ΠΈΡ… Π³ΠΈΠΏΠΎΡ‚Π΅Π·Ρƒ, родитСлях этих ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΈ ΠΊΠ»Π°ΡΡΠ΅ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ, ΠΊ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌΡƒ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ данная Π³ΠΈΠΏΠΎΡ‚Π΅Π·Π°.

public struct Hypothesis

{

// ΠœΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²

public HashSet setValues;

// ΠœΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎ Ρ€ΠΎΠ΄ΠΈΡ‚Π΅Π»Π΅ΠΉ

public HashSet setParents;

// Класс Π³ΠΈΠΏΠΎΡ‚Π΅Π·Ρ‹:

// '-' - ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ,

// '+' - ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ

public char type;

}

o Π‘Ρ‚Ρ€ΡƒΠΊΡ‚ΡƒΡ€Π° TextInfo содСрТит характСристики тСкста: имя Ρ„Π°ΠΉΠ»Π°, мноТСство слов ΠΈΠ· Ρ‚Скста, содСрТащихся Π² ΡΠ»ΠΎΠ²Π°Ρ€Π΅, ΠΈ ΠΊΠ»Π°ΡΡ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкста.

public struct TextInfo

{

// Имя Ρ„Π°ΠΉΠ»Π°, содСрТащСго тСкст

public string name;

// ΠœΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎ слов ΠΈΠ· ΡΠ»ΠΎΠ²Π°Ρ€Ρ, содСрТщихся Π² Ρ‚СкстС

public HashSet setValues;

// Класс тСкста:

// '-' - ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ,

// '+' - ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ

// 't' - Π½Π΅ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠΉ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ

public char type;

}

ПолС setValues содСрТит индСксы слов, ΠΏΡ€ΠΈΡΡƒΡ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΡ… Π² Ρ‚СкстС.

o Π‘Ρ‚Ρ€ΡƒΠΊΡ‚ΡƒΡ€Π° EffectMeasure описываСт ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ качСства.

public struct EffectMeasure

{

// Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ

public double precission;

// ΠŸΠΎΠ»Π½ΠΎΡ‚Π°

public double recall;

// F1-ΠΌΠ΅Ρ€Π°

public double f1_measure;

// ΠŸΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒ

public double accuracy;

}

ΠŸΡ€ΠΈΠ²Π΅Π΄Π΅ΠΌ описаниС классов ΠΈ Ρ€Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π½Ρ‹Ρ… Π² Π½ΠΈΡ… ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ².

Класс Program ΠΎΡ‚Π²Π΅Ρ‡Π°Π΅Ρ‚ Π·Π° ΠΏΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΊΡƒ Π΄Π°Π½Π½Ρ‹Ρ… ΠΊ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ ΠΈ Π²Ρ‹Π²ΠΎΠ΄ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ² Π² Ρ„Π°ΠΉΠ». ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ класса:

o BuildHashSet — Ρ„ΠΎΡ€ΠΌΠΈΡ€ΡƒΠ΅Ρ‚ мноТСство слов, содСрТащихся Π² Ρ‚СкстС;

o LoadDictionary — Π·Π°Π³Ρ€ΡƒΠΆΠ°Π΅Ρ‚ ΡΠ»ΠΎΠ²Π°Ρ€ΡŒ ΠΈΠ· Ρ„Π°ΠΉΠ»Π° Dictionary. txt;

o NormText — осущСствляСт Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ тСкстов, Ρ‚. Π΅. ΠΏΠ΅Ρ€Π΅Π²ΠΎΠ΄ΠΈΡ‚ ΠΊΠ°ΠΆΠ΄ΠΎΠ΅ слово Π² Π½Π°Ρ‡Π°Π»ΡŒΠ½ΡƒΡŽ Ρ„ΠΎΡ€ΠΌΡƒ;

o PrintResultCrossValidation — выполняСт Π²Ρ‹Π²ΠΎΠ΄ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ качСства Π² Ρ„Π°ΠΉΠ» ResultsCrossValidation. txt;

o PrintResultClassifications — выполняСт Π²Ρ‹Π²ΠΎΠ΄ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ качСства Π² Ρ„Π°ΠΉΠ» ResultsClassifications. txt;

o RandomSort — выполняСт сортировку ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… тСкстов Π² ΡΠ»ΡƒΡ‡Π°ΠΉΠ½ΠΎΠΌ порядкС.

Класс TextNormalizer ΠΎΡ‚Π²Π΅Ρ‡Π°Π΅Ρ‚ Π·Π° Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ тСкстов. ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ класса:

o CreateProcess — создаСт Π½ΠΎΠ²Ρ‹ΠΉ процСсс (запускаСт морфологичСский Π°Π½Π°Π»ΠΈΠ·Π°Ρ‚ΠΎΡ€ Mystem ΠΎΡ‚ Π―ndex);

o Normalize — ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚ Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ тСкстов Π² Π·Π°Π΄Π°Π½Π½ΠΎΠΉ Π΄ΠΈΡ€Π΅ΠΊΡ‚ΠΎΡ€ΠΈΠΈ.

Класс CrossValidator ΠΎΡ‚Π²Π΅Ρ‡Π°Π΅Ρ‚ Π·Π° ΠΏΠ΅Ρ€Π΅ΠΊΡ€Π΅ΡΡ‚Π½ΡƒΡŽ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΡƒ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ. ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ класса:

o CalcKoeff — рассчитываСт ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ качСства Π°Π½Π°Π»ΠΈΠ·Π° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ;

o ProcessTexts — осущСствляСт ΠΏΠ΅Ρ€Π΅ΠΊΡ€Π΅ΡΡ‚Π½ΡƒΡŽ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΡƒ (Π΄Π΅Π»ΠΈΡ‚ мноТСство тСкстов Π½Π° Ρ€Π°Π²Π½Π΅Π΅ части; ΠΏΠΎΠΎΡ‡Π΅Ρ€Π΅Π΄Π½ΠΎ ΠΎΠ΄Π½Ρƒ ΠΈΠ· Ρ‡Π°ΡΡ‚Π΅ΠΉ Π²Ρ‹Π±ΠΈΡ€Π°Π΅Ρ‚ Π² ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½ΠΎΠΉ, ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Π΅ — Π² ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ…);

Класс JsmProcessor ΠΎΡ‚Π²Π΅Ρ‡Π°Π΅Ρ‚ Π·Π° ΡΡ‚Π°ΠΏΡ‹ Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π°. ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ класса:

o Analogy — выполняСт ΠΏΡ€ΠΎΡ†Π΅Π΄ΡƒΡ€Ρƒ Π°Π½Π°Π»ΠΎΠ³ΠΈΠΈ;

o Classification — опрСдСляСт класс Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкста;

o ConflictResolution, …, ConflictResolution6 — Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ² Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… ΠΊΡ€ΠΈΡ‚Π΅Ρ€ΠΈΠ΅Π²;

o Induction — выполняСт ΠΏΡ€ΠΎΡ†Π΅Π΄ΡƒΡ€Ρƒ ΠΈΠ½Π΄ΡƒΠΊΡ†ΠΈΠΈ (Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Норриса поиска пСрСсСчСний тСкстов).

2.2 ВСкстовая коллСкция

ΠŸΠ΅Ρ€Π΅Π΄ ΠΏΡ€ΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ΠΌ экспСримСнта Π±Ρ‹Π»Π° составлСна коллСкция ΠΎΡ‚Π·Ρ‹Π²ΠΎΠ² ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΉ сСти Π˜Π½Ρ‚Π΅Ρ€Π½Π΅Ρ‚ ΠΎ Ρ„ΠΈΠ»ΡŒΠΌΠ°Ρ… с ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ сайта http://www.megacritic.ru. ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΎΡ‚Π·Ρ‹Π² ΠΈΠΌΠ΅Π΅Ρ‚ ΠΎΡ†Π΅Π½ΠΊΡƒ ΠΏΠΎ ΡˆΠΊΠ°Π»Π΅ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ ΠΎΡ‚ 1 Π΄ΠΎ 10. Π’ Π½Π°ΡˆΠ΅ΠΉ Ρ€Π°Π±ΠΎΡ‚Π΅ исслСдуСтся Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄ Π² ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠΈ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π΄Π²ΡƒΡ… классов, поэтому Π΄Π΅ΡΡΡ‚ΠΈΠ±Π°Π»Π»ΡŒΠ½Π°Ρ шкала отобраТаСтся Π² Π΄Π²ΡƒΡ…Π±Π°Π»Π»ΡŒΠ½ΡƒΡŽ: ΠΎΡ‚Π·Ρ‹Π²Ρ‹ с ΠΎΡ†Π΅Π½ΠΊΠ°ΠΌΠΈ ΠΎΡ‚ 8 Π΄ΠΎ 10 ΠΎΠ±ΠΎΠ·Π½Π°Ρ‡Π°ΡŽΡ‚ΡΡ ΠΊΠ°ΠΊ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅, с ΠΎΡ†Π΅Π½ΠΊΠ°ΠΌΠΈ ΠΎΡ‚ 1 Π΄ΠΎ 3 — ΠΊΠ°ΠΊ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅. Бформированная ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π°Ρ коллСкция Π½Π΅ ΡΠΎΠ΄Π΅Ρ€ΠΆΠΈΡ‚ ΠΎΡ‚Π·Ρ‹Π²Ρ‹ с ΠΎΡ†Π΅Π½ΠΊΠ°ΠΌΠΈ ΠΎΡ‚ 4 Π΄ΠΎ 7, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ для обучСния классификатора ΠΌΡ‹ ΡΡ‚Π°Ρ€Π°Π»ΠΈΡΡŒ Π²Ρ‹Π±ΠΈΡ€Π°Ρ‚ΡŒ тСксты, содСрТащиС Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ ΠΎΠ΄Π½ΠΎΠ·Π½Π°Ρ‡Π½ΠΎ Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½Π½ΡƒΡŽ ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΡƒΡŽ окраску. ΠžΠ±Ρ‰Π΅Π΅ количСство ΠΎΡ‚Π·Ρ‹Π²ΠΎΠ² — 500, ΠΈΠ· Π½ΠΈΡ… ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… — 250, ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… — 250.

2.3 ЭкспСримСнты ΠΈ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹

Для тСстирования Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π° автоматичСского пороТдСния Π³ΠΈΠΏΠΎΡ‚Π΅Π· использовался ΠΊΠΎΠΌΠΏΡŒΡŽΡ‚Π΅Ρ€ со ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌΠΈ характСристиками:

ь CPU AMD AthlonΡ‚ΠΌ XP 2500+ Barton (Socket 462, 1,833MHz, L2 512Kb, 333MHz);

ь RAM DDR 512 Mb (pc-3200) 200MHz/400Mbps;

ь OS Windows XP Professional SP3 x32.

2.3.1 ΠžΡ†Π΅Π½ΠΊΠ° качСства Π°Π½Π°Π»ΠΈΠ·Π° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ

ИсслСдованиС качСства распознавания Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкстов ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΠ»ΠΎΡΡŒ Π² Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ ΠΎΡ‚:

Β· словаря (автоматичСский, Ρ€ΡƒΡ‡Π½ΠΎΠΉ);

Β· частСй Ρ€Π΅Ρ‡ΠΈ, входящих Π² ΡΠ»ΠΎΠ²Π°Ρ€ΡŒ (ΠΏΡ€ΠΈΠ»Π°Π³Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ…, ΡΡƒΡ‰Π΅ΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ…, Π³Π»Π°Π³ΠΎΠ»ΠΎΠ², Π° Ρ‚Π°ΠΊΠΆΠ΅ ΠΈΡ… Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΠΉ);

Β· Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ².

ΠžΡ†Π΅Π½ΠΊΠ° качСства ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΠ»Π°ΡΡŒ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΏΡ€ΠΎΡ†Π΅Π΄ΡƒΡ€Ρ‹ кросс-Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΠΈ. Π’Π΅ΡΡŒ Π½Π°Π±ΠΎΡ€ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… тСкстов разбивался Π½Π° 5 Ρ€Π°Π²Π½Ρ‹Ρ… ΠΏΠΎ ΠΎΠ±ΡŠΠ΅ΠΌΡƒ частСй. ΠŸΠΎΠΎΡ‡Π΅Ρ€Π΅Π΄Π½ΠΎ каТдая ΠΈΠ· ΡΡ‚ΠΈΡ… частСй ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Π»Π°ΡΡŒ Π² ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½ΠΎΠΉ, ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Π΅ — Π² ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ…. ЗначСния ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ, ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Π΅ Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ Ρ†ΠΈΠΊΠ»Π΅ ΠΏΡ€ΠΎΡ†Π΅Π΄ΡƒΡ€Ρ‹ кросс-Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΠΈ, Π² ΠΈΡ‚ΠΎΠ³Π΅ ΡƒΡΡ€Π΅Π΄Π½ΡΠ»ΠΈΡΡŒ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ срСднСго арифмСтичСского ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… чисСл.

1. Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ тСстирования Π² Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ ΠΎΡ‚ ΡΠ»ΠΎΠ²Π°Ρ€Ρ ΠΈ Ρ‡Π°ΡΡ‚Π΅ΠΉ Ρ€Π΅Ρ‡ΠΈ ВСстированиС ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΠ»ΠΎΡΡŒ ΠΏΡ€ΠΈ коэффициСнтС СстСствСнного дисбаланса. ΠŸΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Π΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ прСдставлСны Π² Ρ‚Π°Π±Π». 2 ΠΈ Ρ‚Π°Π±Π». 3.

Π’Π°Π±Π»ΠΈΡ†Π° 2 — Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ тСстирования Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π° Π² Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ ΠΎΡ‚ ΡΠ»ΠΎΠ²Π°Ρ€Ρ ΠΈ Ρ‡Π°ΡΡ‚Π΅ΠΉ Ρ€Π΅Ρ‡ΠΈ ΠΏΡ€ΠΈ использовании Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ² Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ количСства Π³ΠΈΠΏΠΎΡ‚Π΅Π·

ΠŸΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹

ΠœΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ качСства

Π§Π°ΡΡ‚ΡŒ Ρ€Π΅Ρ‡ΠΈ

Π‘Π»ΠΎΠ²Π°Ρ€ΡŒ

Precision

Recall

F1-measure

Accuracy

ΠŸΡ€ΠΈΠ».

Авт.

0,915

0,890

0,902

0,896

Π ΡƒΡ‡Π½ΠΎΠΉ

0,918

0,892

0,904

0,898

Π‘ΡƒΡ‰.

Авт.

0,433

0,868

0,573

0,711

Π ΡƒΡ‡Π½ΠΎΠΉ

0,769

0,859

0,805

0,885

Π“Π».

Авт.

0,775

0,841

0,806

0,816

Π ΡƒΡ‡Π½ΠΎΠΉ

0,704

0,808

0,749

0,779

ΠŸΡ€ΠΈΠ». + Π‘ΡƒΡ‰.

Авт.

0,716

0,966

0,822

0,850

Π ΡƒΡ‡Π½ΠΎΠΉ

0,956

0,927

0,940

0,941

ΠŸΡ€ΠΈΠ». + Π“Π».

Авт.

0,916

0,898

0,906

0,902

Π ΡƒΡ‡Π½ΠΎΠΉ

0,927

0,929

0,928

0,925

Π‘ΡƒΡ‰. + Π“Π».

Авт.

0,616

0,940

0,741

0,801

Π ΡƒΡ‡Π½ΠΎΠΉ

0,809

0,903

0,852

0,888

ΠŸΡ€ΠΈΠ». + Π‘ΡƒΡ‰. + Π“Π».

Авт.

0,778

0,964

0,860

0,876

Π ΡƒΡ‡Π½ΠΎΠΉ

0,918

0,972

0,944

0,945

ВсС части Ρ€Π΅Ρ‡ΠΈ

Авт.

0,768

0,921

0,833

0,850

Π ΡƒΡ‡Π½ΠΎΠΉ

0,907

0,944

0,924

0,925

Π’Π°Π±Π»ΠΈΡ†Π° 3 — Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ тСстирования Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π° Π² Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ ΠΎΡ‚ ΡΠ»ΠΎΠ²Π°Ρ€Ρ ΠΈ Ρ‡Π°ΡΡ‚Π΅ΠΉ Ρ€Π΅Ρ‡ΠΈ ΠΏΡ€ΠΈ использовании Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ² Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ произвСдСния количСства характСристик Π½Π° ΠΊΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ Ρ€ΠΎΠ΄ΠΈΡ‚Π΅Π»Π΅ΠΉ

ΠŸΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹

ΠœΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ качСства

Π§Π°ΡΡ‚ΡŒ Ρ€Π΅Ρ‡ΠΈ

Π‘Π»ΠΎΠ²Π°Ρ€ΡŒ

Precision

Recall

F1-measure

Accuracy

ΠŸΡ€ΠΈΠ».

Авт.

0,882

0,861

0,871

0,868

Π ΡƒΡ‡Π½ΠΎΠΉ

0,931

0,855

0,890

0,881

Π‘ΡƒΡ‰.

Авт.

0,685

0,723

0,699

0,706

Π ΡƒΡ‡Π½ΠΎΠΉ

0,692

0,789

0,735

0,813

Π“Π».

Авт.

0,762

0,768

0,764

0,766

Π ΡƒΡ‡Π½ΠΎΠΉ

0,835

0,768

0,795

0,800

ΠŸΡ€ΠΈΠ». + Π‘ΡƒΡ‰.

Авт.

0,787

0,843

0,814

0,820

Π ΡƒΡ‡Π½ΠΎΠΉ

0,933

0,893

0,912

0,911

ΠŸΡ€ΠΈΠ». + Π“Π».

Авт.

0,872

0,845

0,858

0,855

Π ΡƒΡ‡Π½ΠΎΠΉ

0,935

0,840

0,884

0,875

Π‘ΡƒΡ‰. + Π“Π».

Авт.

0,771

0,790

0,779

0,781

Π ΡƒΡ‡Π½ΠΎΠΉ

0,839

0,873

0,855

0,862

ΠŸΡ€ΠΈΠ». + Π‘ΡƒΡ‰. + Π“Π».

Авт.

0,848

0,857

0,852

0,854

Π ΡƒΡ‡Π½ΠΎΠΉ

0,947

0,878

0,911

0,907

ВсС части Ρ€Π΅Ρ‡ΠΈ

Авт.

0,684

0,889

0,770

0,798

Π ΡƒΡ‡Π½ΠΎΠΉ

0,952

0,880

0,914

0,909

На ΠΎΡΠ½ΠΎΠ²Π°Π½ΠΈΠΈ этой ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ, ΠΏΡ€ΠΎΠ²Π΅Π΄Π΅ΠΌ Π°Π½Π°Π»ΠΈΠ· влияния ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Ρ… ΡΠΎΡΡ‚Π°Π²Π»ΡΡŽΡ‰ΠΈΡ… Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π° Π½Π° ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²ΠΎ распознавания Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкстов.

Π°) ВлияниС словаря Π’ Ρ‚Π°Π±Π». 4 ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½Ρ‹ Ρ€Π°Π·ΠΌΠ΅Ρ€Ρ‹ словаря ΠΏΠΎ ΠΊΠ°ΠΆΠ΄ΠΎΠΉ части Ρ€Π΅Ρ‡ΠΈ, Π° Π½Π° Ρ€ΠΈΡ. 5 эти Π΄Π°Π½Π½Ρ‹Π΅ прСдставлСны Π² Π²ΠΈΠ΄Π΅ Π΄ΠΈΠ°Π³Ρ€Π°ΠΌΠΌΡ‹. АвтоматичСский ΡΠ»ΠΎΠ²Π°Ρ€ΡŒ формировался ΠΏΡƒΡ‚Π΅ΠΌ добавлСния ΠΈΠ· Ρ‚Скстов ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ всСх слов Π±Π΅Π· ΠΈΡΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΡ. Π ΡƒΡ‡Π½ΠΎΠΉ ΡΠ»ΠΎΠ²Π°Ρ€ΡŒ составлялся ΠΈΠ· Π°Π²Ρ‚оматичСского ΠΏΡƒΡ‚Π΅ΠΌ удалСния слов с Π½Π΅ΠΉΡ‚Ρ€Π°Π»ΡŒΠ½ΠΎΠΉ окраской.

Π’Π°Π±Π»ΠΈΡ†Π° 4 — Π Π°Π·ΠΌΠ΅Ρ€ словаря

ΠŸΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹

Π Π°Π·ΠΌΠ΅Ρ€ словаря

ΠŸΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹

Π Π°Π·ΠΌΠ΅Ρ€ словаря

Π§Π°ΡΡ‚ΡŒ Ρ€Π΅Ρ‡ΠΈ

Π‘Π»ΠΎΠ²Π°Ρ€ΡŒ

Π§Π°ΡΡ‚ΡŒ Ρ€Π΅Ρ‡ΠΈ

Π‘Π»ΠΎΠ²Π°Ρ€ΡŒ

ΠŸΡ€ΠΈΠ».

Авт.

ΠŸΡ€ΠΈΠ». + Π“Π».

Авт.

Π ΡƒΡ‡Π½ΠΎΠΉ

Π ΡƒΡ‡Π½ΠΎΠΉ

Π‘ΡƒΡ‰.

Авт.

Π‘ΡƒΡ‰. + Π“Π».

Авт.

Π ΡƒΡ‡Π½ΠΎΠΉ

Π ΡƒΡ‡Π½ΠΎΠΉ

Π“Π».

Авт.

ΠŸΡ€ΠΈΠ». + Π‘ΡƒΡ‰. + Π“Π».

Авт.

Π ΡƒΡ‡Π½ΠΎΠΉ

Π ΡƒΡ‡Π½ΠΎΠΉ

ΠŸΡ€ΠΈΠ». + Π‘ΡƒΡ‰.

Авт.

ВсС части Ρ€Π΅Ρ‡ΠΈ

Авт.

Π ΡƒΡ‡Π½ΠΎΠΉ

Π ΡƒΡ‡Π½ΠΎΠΉ

Рис. 5 — Π Π°Π·ΠΌΠ΅Ρ€ словаря ИспользованиС Ρ€ΡƒΡ‡Π½ΠΎΠ³ΠΎ словаря Π² Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²Π΅ случаСв ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΠ»ΠΎ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ Π±ΠΎΠ»Π΅Π΅ высокиС ΠΎΡ†Π΅Π½ΠΊΠΈ. Π£Π»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΠ΅ ΠΎΡ†Π΅Π½ΠΎΠΊ составило ΠΎΡ‚ 1% Π΄ΠΎ 77% ΠΏΠΎ Ρ‚Π°Π±Π». 2 ΠΈ ΠΎΡ‚ 1% Π΄ΠΎ 39% ΠΏΠΎ Ρ‚Π°Π±Π». 3. Π‘Ρ€Π΅Π΄Π½Π΅Π΅ ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΠ΅ ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»Π΅ΠΉ прСдставлСно Π² Ρ‚Π°Π±Π». 5. ΠΠ΅Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ ΡƒΡ…ΡƒΠ΄ΡˆΠ΅Π½ΠΈΠ΅ Π½Π°Π±Π»ΡŽΠ΄Π°Π΅Ρ‚ΡΡ ΠΏΠΎ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ΅ ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹. Π£Π»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΠ΅ связано с Ρ‚Π΅ΠΌ, Ρ‡Ρ‚ΠΎ ΡΠ»ΠΎΠ²Π°Ρ€ΡŒ, составлСнный Π²Ρ€ΡƒΡ‡Π½ΡƒΡŽ, содСрТит слова с Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ ярко Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½Π½ΠΎΠΉ ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΠΉ окраской, ΠΈ ΠΏΡ€Π°ΠΊΡ‚ичСски Π½Π΅ ΡΠΎΠ΄Π΅Ρ€ΠΆΠΈΡ‚ слов с Π½Π΅ΠΉΡ‚Ρ€Π°Π»ΡŒΠ½ΠΎΠΉ окраской. Благодаря ΠΎΡ‚ΡΡƒΡ‚ΡΡ‚Π²ΠΈΡŽ Π½Π΅ΠΉΡ‚Ρ€Π°Π»ΡŒΠ½ΠΎ ΠΎΠΊΡ€Π°ΡˆΠ΅Π½Π½Ρ‹Ρ… слов Ρ„ΠΎΡ€ΠΌΠΈΡ€ΡƒΡŽΡ‰ΠΈΠ΅ΡΡ Π³ΠΈΠΏΠΎΡ‚Π΅Π·Ρ‹ Π±ΠΎΠ»Π΅Π΅ Ρ‚ΠΎΡ‡Π½ΠΎ Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€ΠΈΠ·ΡƒΡŽΡ‚ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ.

Π’Π°Π±Π»ΠΈΡ†Π° 5 — Π‘Ρ€Π΅Π΄Π½Π΅Π΅ ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΠ΅ ΠΎΡ†Π΅Π½ΠΎΠΊ ΠΏΡ€ΠΈ использовании Ρ€ΡƒΡ‡Π½ΠΎΠ³ΠΎ словаря ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Π°Π²Ρ‚оматичСским

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ усрСдняСмых Π΄Π°Π½Π½Ρ‹Ρ…

ΠœΠ΅Ρ‚Ρ€ΠΈΠΊΠ°

Precision

Recall

F1-measure

Accuracy

Π’Π°Π±Π». 2

11,4%

— 0,39%

5,7%

4,1%

Π’Π°Π±Π». 3

11,6%

3%

7,4%

7,6%

Π’Π°Π±Π»ΠΈΡ†Π° 6 — ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ сформированных Π³ΠΈΠΏΠΎΡ‚Π΅Π· (ΠΏΡ€ΠΈ использовании Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ² Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ количСства Π³ΠΈΠΏΠΎΡ‚Π΅Π·)

ΠŸΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹

ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ Π³ΠΈΠΏΠΎΡ‚Π΅Π·

Π§Π°ΡΡ‚ΡŒ Ρ€Π΅Ρ‡ΠΈ

Π‘Π»ΠΎΠ²Π°Ρ€ΡŒ

ΠŸΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅

ΠžΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅

ΠŸΡ€ΠΈΠ».

Авт.

Π ΡƒΡ‡Π½ΠΎΠΉ

Π‘ΡƒΡ‰.

Авт.

Π ΡƒΡ‡Π½ΠΎΠΉ

Π“Π».

Авт.

Π ΡƒΡ‡Π½ΠΎΠΉ

ΠŸΡ€ΠΈΠ». + Π‘ΡƒΡ‰.

Авт.

Π ΡƒΡ‡Π½ΠΎΠΉ

ΠŸΡ€ΠΈΠ». + Π“Π».

Авт.

Π ΡƒΡ‡Π½ΠΎΠΉ

Π‘ΡƒΡ‰. + Π“Π».

Авт.

Π ΡƒΡ‡Π½ΠΎΠΉ

ΠŸΡ€ΠΈΠ». + Π‘ΡƒΡ‰. + Π“Π».

Авт.

Π ΡƒΡ‡Π½ΠΎΠΉ

ВсС части Ρ€Π΅Ρ‡ΠΈ

Авт.

Π ΡƒΡ‡Π½ΠΎΠΉ

Наряду с ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΠ΅ΠΌ качСства снизилось врСмя Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹. Π­Ρ‚ΠΎ Π²Ρ‹Π·Π²Π°Π½ΠΎ ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΠ΅ΠΌ количСства слов Π² Ρ€ΡƒΡ‡Π½ΠΎΠΌ словарС ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Π°Π²Ρ‚оматичСским, ΠΈ ΠΊΠ°ΠΊ слСдствиС, сниТСниСм Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ поиска пСрСсСчСний тСкстов. Π’ Ρ‚Π°Π±Π». 6 этот Ρ„Π°ΠΊΡ‚ подтвСрТдаСтся ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΠ΅ΠΌ количСства Π³ΠΈΠΏΠΎΡ‚Π΅Π·.

Π±) ВлияниС частСй Ρ€Π΅Ρ‡ΠΈ ΠŸΡ€ΠΎΠ²Π΅Π΄Π΅Π½Π½Ρ‹Π΅ испытания ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ, Ρ‡Ρ‚ΠΎ ΠΈΠ· Ρ‚Ρ€Π΅Ρ… Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ многочислСнных Π³Ρ€ΡƒΠΏΠΏ частСй Ρ€Π΅Ρ‡ΠΈ (ΠΏΡ€ΠΈΠ»., сущ., Π³Π».) Π½Π°ΠΈΠ»ΡƒΡ‡ΡˆΠΈΠ΅ ΠΎΡ†Π΅Π½ΠΊΠΈ качСства опрСдСлСния Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ Π΄ΠΎΡΡ‚ΠΈΠ³Π°ΡŽΡ‚ΡΡ ΠΏΡ€ΠΈ использовании ΠΈΠΌΠ΅Π½ ΠΏΡ€ΠΈΠ»Π°Π³Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ…. Π’ Ρ‚Π°Π±Π». 7 ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½Ρ‹ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΡ ΠΎΡ†Π΅Π½ΠΎΠΊ ΠΏΡ€ΠΈ использовании ΠΈΠΌΠ΅Π½ ΠΏΡ€ΠΈΠ»Π°Π³Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Π΄Ρ€ΡƒΠ³ΠΈΠ΅ частями Ρ€Π΅Ρ‡ΠΈ. Π‘Ρ€Π°Π²Π½Π΅Π½ΠΈΠ΅ ΠΏΡ€ΠΎΠ²Π΅Π΄Π΅Π½ΠΎ ΠΏΠΎ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π°ΠΌ испытаний с Ρ€ΡƒΡ‡Π½Ρ‹ΠΌ словарСм.

Π’Π°Π±Π»ΠΈΡ†Π° 7 — Π£Π»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΠ΅ ΠΎΡ†Π΅Π½ΠΎΠΊ ΠΏΡ€ΠΈ использовании ΠΈΠΌΠ΅Π½ ΠΏΡ€ΠΈΠ»Π°Π³Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Π΄Ρ€ΡƒΠ³ΠΈΠΌΠΈ частями Ρ€Π΅Ρ‡ΠΈ (ΠΏΡ€ΠΈ использовании Ρ€ΡƒΡ‡Π½ΠΎΠ³ΠΎ словаря)

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ Π΄Π°Π½Π½Ρ‹Ρ…

Π§Π°ΡΡ‚ΡŒ Ρ€Π΅Ρ‡ΠΈ, с ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΠ»ΠΎΡΡŒ сравнСниС

ΠœΠ΅Ρ‚Ρ€ΠΈΠΊΠ°

Precision

Recall

F1-measure

Accuracy

Π’Π°Π±Π». 2

сущ.

19,4%

3,8%

12,3%

1,5%

Π³Π».

30,4%

10,4%

20,7%

15,3%

Π’Π°Π±Π». 3

сущ.

34,5%

8,4%

21,1%

8,4%

Π³Π».

11,5%

11,3%

11,9%

10,1%

ОбъСдинСниС ΠΏΡ€ΠΈΠ»Π°Π³Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… с Π΄Ρ€ΡƒΠ³ΠΈΠΌΠΈ частями Ρ€Π΅Ρ‡ΠΈ ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΠ»ΠΎ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ Π΅Ρ‰Π΅ Π±ΠΎΠ»Π΅Π΅ высокиС ΠΎΡ†Π΅Π½ΠΊΠΈ. ΠΠ°ΠΈΠ»ΡƒΡ‡ΡˆΠΈΠ΅ ΠΈ Π±Π»ΠΈΠ·ΠΊΠΈΠ΅ ΠΌΠ΅ΠΆΠ΄Ρƒ собой ΠΎΡ†Π΅Π½ΠΊΠΈ Π±Ρ‹Π»ΠΈ достигнуты ΠΏΡ€ΠΈ комбинациях:

Β· ΠΏΠΎ Π΄Π°Π½Π½Ρ‹ΠΌ Ρ‚Π°Π±Π». 2 — ΠΏΡ€ΠΈΠ». + сущ., ΠΏΡ€ΠΈΠ». + сущ. + Π³Π».;

Β· ΠΏΠΎ Π΄Π°Π½Π½Ρ‹ΠΌ Ρ‚Π°Π±Π». 3 — ΠΏΡ€ΠΈΠ». + сущ., ΠΏΡ€ΠΈΠ». + сущ. + Π³Π»., всС части Ρ€Π΅Ρ‡ΠΈ.

Π”Π°Π½Π½Ρ‹ΠΉ экспСримСнт ΠΏΠΎΠΊΠ°Π·Π°Π», Ρ‡Ρ‚ΠΎ наибольший Π²ΠΊΠ»Π°Π΄ Π² ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²ΠΎ опрСдСлСния Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкста вносят ΠΏΡ€ΠΈΠ»Π°Π³Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅.

Π²) БовмСстноС влияниС словаря ΠΈ Ρ‡Π°ΡΡ‚Π΅ΠΉ Ρ€Π΅Ρ‡ΠΈ По Π΄Π°Π½Π½Ρ‹ΠΌ Ρ‚Π°Π±Π». 2 ΠΈ 3 Π½Π°ΠΈΠΌΠ΅Π½Π΅Π΅ Ρ…ΠΎΡ€ΠΎΡˆΠΈΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΎ использованиС сущ. ΠΈ Π°Π²Ρ‚оматичСского словаря. ΠΠ°ΠΈΠ»ΡƒΡ‡ΡˆΠΈΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ (строки, Π²Ρ‹Π΄Π΅Π»Π΅Π½Π½Ρ‹Π΅ сСрым Ρ†Π²Π΅Ρ‚ΠΎΠΌ) Π±Ρ‹Π»ΠΈ достигнуты ΠΏΡ€ΠΈ использовании сочСтаний Ρ€ΡƒΡ‡Π½ΠΎΠ³ΠΎ словаря ΠΈ ΠΏΡ€ΠΈΠ». + сущ., ΠΏΡ€ΠΈΠ». + сущ. + Π³Π»., всСх частСй Ρ€Π΅Ρ‡ΠΈ.

2. Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ экспСримСнта Π² Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ ΠΎΡ‚ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ² Π’ ΠΏΡ€ΠΎΡ†Π΅ΡΡΠ΅ экспСримСнта для каТдоготСкста Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ совпадСний характСристик ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΡΠ»ΠΈΡΡŒ мноТСства подходящих ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΈ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… Π³ΠΈΠΏΠΎΡ‚Π΅Π·. Π—Π°Ρ‚Π΅ΠΌ эти Π³ΠΈΠΏΠΎΡ‚Π΅Π·Ρ‹ поступали Π½Π° Π²Ρ…ΠΎΠ΄ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ², которая Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Π·Π°Π΄Π°Π½Π½ΠΎΠ³ΠΎ критСрия присваивала тСксту ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΡƒΡŽ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ. Для Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ² использовались Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ, ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½Π½Ρ‹Π΅ Π² ΠΏ. 1.2.2. ΠšΠΎΠΌΠΏΡŒΡŽΡ‚Π΅Ρ€Π½Ρ‹ΠΉ экспСримСнт проводился ΠΏΡ€ΠΈ коэффициСнтС СстСствСнного дисбаланса. Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ прСдставлСны Π² Ρ‚Π°Π±Π». 8.

Π’Π°Π±Π»ΠΈΡ†Π° 8 — Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π° Π² Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ ΠΎΡ‚ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ²

ΠšΡ€ΠΈΡ‚Π΅Ρ€ΠΈΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ²

ΠœΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ качСства

Precision

Recall

F1-measure

Accuracy

Π‘ΡƒΠΌΠΌΠ°Ρ€Π½ΠΎΠ΅ количСство Π³ΠΈΠΏΠΎΡ‚Π΅Π·

0,950

0,906

0,927

0,919

Π‘ΡƒΠΌΠΌΠ°Ρ€Π½ΠΎΠ΅ количСство характСристик Π²ΠΎ Π²ΡΠ΅Ρ… Π³ΠΈΠΏΠΎΡ‚Π΅Π·Π°Ρ…

0,919

0,915

0,917

0,911

Π‘ΡƒΠΌΠΌΠ°Ρ€Π½ΠΎΠ΅ количСство Ρ€ΠΎΠ΄ΠΈΡ‚Π΅Π»Π΅ΠΉ Ρƒ Π²ΡΠ΅Ρ… Π³ΠΈΠΏΠΎΡ‚Π΅Π·

0,940

0,850

0,892

0,882

ΠŸΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΈΠ΅ количСства характСристик Π½Π° ΠΊΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ Ρ€ΠΎΠ΄ΠΈΡ‚Π΅Π»Π΅ΠΉ

0,932

0,843

0,885

0,874

Π’Π·Π²Π΅ΡˆΠ΅Π½Π½ΠΎΠ΅ срСднСС арифмСтичСскоС числа характСристик

0,941

0,844

0,889

0,879

Π’Π·Π²Π΅ΡˆΠ΅Π½Π½ΠΎΠ΅ срСднСС арифмСтичСскоС числа Ρ€ΠΎΠ΄ΠΈΡ‚Π΅Π»Π΅ΠΉ

0,717

0,679

0,696

0,691

Π”Π°Π½Π½Ρ‹Π΅ Ρ‚Π°Π±Π». 8 Π±Ρ‹Π»ΠΈ ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Ρ‹ ΠΏΡ€ΠΈ использовании Ρ€ΡƒΡ‡Π½ΠΎΠ³ΠΎ словаря с ΠΏΡ€ΠΈΠ»Π°Π³Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ. На ΠΎΡΠ½ΠΎΠ²Π°Π½ΠΈΠΈ этих ΠΌΠΎΠΆΠ½ΠΎ Π·Π°ΠΊΠ»ΡŽΡ‡ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ функция Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ² влияСт Π½Π° ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²ΠΎ опрСдСлСния Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкстов. Π›ΡƒΡ‡ΡˆΠΈΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΠΏΠΎΠΊΠ°Π·Π°Π»Π° функция Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ² Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ суммарного количСства Π³ΠΈΠΏΠΎΡ‚Π΅Π·.

2.3.2 ΠžΡ†Π΅Π½ΠΊΠ° Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹

Π’ ΠΏΡ€ΠΎΡ†Π΅ΡΡΠ΅ провСдСния экспСримСнтов Π±Ρ‹Π»ΠΎ Π·Π°ΠΌΠ΅Ρ€Π΅Π½ΠΎ фактичСскоС врСмя Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹-Π°Π½Π°Π»ΠΈΠ·Π°Ρ‚ΠΎΡ€Π° Π² Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ ΠΎΡ‚ ΠΊΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²Π° ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… тСкстов. ΠžΡ†Π΅Π½ΠΊΠ° Π²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ слоТности ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹ Π² Ρ†Π΅Π»ΠΎΠΌ опрСдСляСтся Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠΌ поиска пСрСсСчСний тСкстов. Π’Π°ΠΊ ΠΊΠ°ΠΊ Π·Π°Π΄Π°Ρ‡Π° поиска ΠΎΠ±Ρ‰ΠΈΡ… Ρ„Ρ€Π°Π³ΠΌΠ΅Π½Ρ‚ΠΎΠ² тСкстов являСтся NP-ΠΏΠΎΠ»Π½ΠΎΠΉ, Ρ‚ΠΎ Π²Ρ€Π΅ΠΌΡ Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹ с ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΠ΅ΠΌ числа ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… тСкстов растСт ΠΏΠΎ ΡΠΊΡΠΏΠΎΠ½Π΅Π½Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎΠΉ зависимости. ΠŸΡ€ΠΈ ΠΏΡ€ΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠΈ экспСримСнта ΠΏΠΎ Π·Π°ΠΌΠ΅Ρ€Ρƒ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ использовался Ρ€ΡƒΡ‡Π½ΠΎΠΉ ΡΠ»ΠΎΠ²Π°Ρ€ΡŒ с ΠΏΡ€ΠΈΠ»Π°Π³Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ. На Ρ€ΠΈΡ. 6 ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ Π³Ρ€Π°Ρ„ΠΈΠΊ зависимости Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹ ΠΎΡ‚ ΠΊΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²Π° тСкстов.

Рис. 6 — ВрСмя Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹-Π°Π½Π°Π»ΠΈΠ·Π°Ρ‚ΠΎΡ€Π° ΠŸΡ€ΠΈ ΠΏΠΎΠΌΠΎΡ‰ΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° Π½Π°ΠΈΠΌΠ΅Π½ΡŒΡˆΠΈΡ… ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΎΠ² построСно Π΄Π²Π° приблиТСния исслСдуСмой зависимости (рис. 6). Для рассмотрСнного Π½Π°Π±ΠΎΡ€Π° Π²Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Ρ‚ΠΎΡ‡Π½ΠΎΠΉ оказалась ΡΠΊΡΠΏΠΎΠ½Π΅Π½Ρ†ΠΈΠ°Π»ΡŒΠ½Π°Ρ Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΡŒ.

Π’ Ρ‚Π°Π±Π». 9 ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½ΠΎ врСмя Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹ для Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… частСй Ρ€Π΅Ρ‡ΠΈ ΠΈ ΡΠ»ΠΎΠ²Π°Ρ€Π΅ΠΉ, Π° Π½Π° Ρ€ΠΈΡ. 7 ΠΈ Ρ€ΠΈΡ. 8 эти Π΄Π°Π½Π½Ρ‹Π΅ прСдставлСны Π² Π²ΠΈΠ΄Π΅ Π΄ΠΈΠ°Π³Ρ€Π°ΠΌΠΌ.

Π’Π°Π±Π»ΠΈΡ†Π° 9 — ВрСмя Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹-Π°Π½Π°Π»ΠΈΠ·Π°Ρ‚ΠΎΡ€Π° (ΠΏΡ€ΠΈ использовании Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ² Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ количСства Π³ΠΈΠΏΠΎΡ‚Π΅Π·)

ΠŸΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹

ВрСмя Ρ€Π°Π±ΠΎΡ‚Ρ‹, ΠΌΠΈΠ½

ΠŸΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹

ВрСмя Ρ€Π°Π±ΠΎΡ‚Ρ‹, ΠΌΠΈΠ½

Π§Π°ΡΡ‚ΡŒ Ρ€Π΅Ρ‡ΠΈ

Π‘Π»ΠΎΠ²Π°Ρ€ΡŒ

Π§Π°ΡΡ‚ΡŒ Ρ€Π΅Ρ‡ΠΈ

Π‘Π»ΠΎΠ²Π°Ρ€ΡŒ

ΠŸΡ€ΠΈΠ».

Авт.

0,145

ΠŸΡ€ΠΈΠ». + Π“Π».

Авт.

1,006

Π ΡƒΡ‡Π½ΠΎΠΉ

0,082

Π ΡƒΡ‡Π½ΠΎΠΉ

0,210

Π‘ΡƒΡ‰.

Авт.

0,705

Π‘ΡƒΡ‰. + Π“Π».

Авт.

3,505

Π ΡƒΡ‡Π½ΠΎΠΉ

0,035

Π ΡƒΡ‡Π½ΠΎΠΉ

0,104

Π“Π».

Авт.

0,230

ΠŸΡ€ΠΈΠ». + Π‘ΡƒΡ‰. + Π“Π».

Авт.

9,128

Π ΡƒΡ‡Π½ΠΎΠΉ

0,045

Π ΡƒΡ‡Π½ΠΎΠΉ

0,396

ΠŸΡ€ΠΈΠ». + Π‘ΡƒΡ‰.

Авт.

2,381

ВсС части Ρ€Π΅Ρ‡ΠΈ

Авт.

98,880

Π ΡƒΡ‡Π½ΠΎΠΉ

0,159

Π ΡƒΡ‡Π½ΠΎΠΉ

0,633

Π°

Π± Π ΠΈΡ. 7 — ВрСмя Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹-Π°Π½Π°Π»ΠΈΠ·Π°Ρ‚ΠΎΡ€Π° (Π² ΠΌΡ): Π° — автоматичСский ΡΠ»ΠΎΠ²Π°Ρ€ΡŒ; Π± — Ρ€ΡƒΡ‡Π½ΠΎΠΉ ΡΠ»ΠΎΠ²Π°Ρ€ΡŒ

На Ρ€ΠΈΡ. 8 ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½Π° Π΄ΠΈΠ°Π³Ρ€Π°ΠΌΠΌΠ° Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹ с Ρ€ΡƒΡ‡Π½Ρ‹ΠΌ словарСм Π² ΠΏΡ€ΠΎΡ†Π΅Π½Ρ‚Π½ΠΎΠΌ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠΈ ΠΊΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ Ρ€Π°Π±ΠΎΡ‚Ρ‹ с Π°Π²Ρ‚оматичСским словарСм.

Рис. 8 — ВрСмя Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹ с Ρ€ΡƒΡ‡Π½Ρ‹ΠΌ словарСм Π² ΠΏΡ€ΠΎΡ†Π΅Π½Ρ‚Π½ΠΎΠΌ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠΈ ΠΊΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ Ρ€Π°Π±ΠΎΡ‚Ρ‹ с Π°Π²Ρ‚оматичСским словарСм

ΠŸΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Π΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‚, Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΈ использовании Ρ€ΡƒΡ‡Π½ΠΎΠ³ΠΎ словаря ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹ сущСствСнно большС, Ρ‡Π΅ΠΌ Π² ΡΠ»ΡƒΡ‡Π°Π΅ автоматичСского словаря. ΠŸΡ€ΠΈ этом качСство распознавания Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ Π²Ρ‹ΡˆΠ΅.

Π—Π°ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅

Π’ ΠΏΡ€ΠΎΡ†Π΅ΡΡΠ΅ выполнСния курсовой Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π±Ρ‹Π» ΠΈΠ·ΡƒΡ‡Π΅Π½ Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄ автоматичСского пороТдСния Π³ΠΈΠΏΠΎΡ‚Π΅Π·, примСняСмый для Π°Π½Π°Π»ΠΈΠ·Π° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкстов, Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½Π° программная рСализация этого ΠΌΠ΅Ρ‚ΠΎΠ΄Π° ΠΈ ΠΏΡ€ΠΎΠ²Π΅Π΄Π΅Π½ ряд ΠΊΠΎΠΌΠΏΡŒΡŽΡ‚Π΅Ρ€Π½Ρ‹Ρ… экспСримСнтов. ИсслСдованиС Π±Ρ‹Π»ΠΎ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΎ Π½Π° Π²Ρ‹ΡΠ²Π»Π΅Π½ΠΈΠ΅ влияния ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ΠΎΠ² Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄Π° Π½Π° ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²ΠΎ распознавания Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкстов. Π˜Π·ΡƒΡ‡Π°Π»ΠΎΡΡŒ влияниС словаря, частСй Ρ€Π΅Ρ‡ΠΈ ΠΈ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ². Анализ ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Ρ… Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ² ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΠ» ΡΠ΄Π΅Π»Π°Ρ‚ΡŒ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠ΅ Π²Ρ‹Π²ΠΎΠ΄Ρ‹:

o ΡΠ»ΠΎΠ²Π°Ρ€ΡŒ, составлСнный Π²Ρ€ΡƒΡ‡Π½ΡƒΡŽ, ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Π°Π²Ρ‚оматичСским словарСм Π΄Π°Π΅Ρ‚ ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΠ΅ значСния ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ качСства вслСдствиС отсСчСния мноТСства слов с Π½Π΅ΠΉΡ‚Ρ€Π°Π»ΡŒΠ½ΠΎΠΉ окраской, Π° Ρ‚Π°ΠΊΠΆΠ΅ ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΠ²Π°Π΅Ρ‚ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹;

o Π½Π°ΠΈΠ±ΠΎΠ»ΡŒΡˆΠΈΠΉ Π²ΠΊΠ»Π°Π΄ Π² ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²ΠΎ опрСдСлСния Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ вносят ΠΈΠΌΠ΅Π½Π° ΠΏΡ€ΠΈΠ»Π°Π³Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ вслСдствиС частого употрСблСния ΠΈ ΡΠΎΠ΄Π΅Ρ€ΠΆΠ°Π½ΠΈΡ ярко Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½Π½ΠΎΠΉ ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΠΉ окраски;

o Ρ€Π°Π·Π½Ρ‹Π΅ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ² Π΄Π°ΡŽΡ‚ Ρ€Π°Π·Π½ΠΎΠ΅ качСство опрСдСлСния Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ.

Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΏΠΎΠΊΠ°Π·Π°Π» Ρ…ΠΎΡ€ΠΎΡˆΠΈΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΠΏΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΡŽ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ ΠΎΡ‚Π·Ρ‹Π²ΠΎΠ² ΠΎ Ρ„ΠΈΠ»ΡŒΠΌΠ°Ρ…. На ΠΎΡΠ½ΠΎΠ²Π°Π½ΠΈΠΈ экспСримСнтов ΠΌΠΎΠΆΠ½ΠΎ ΡΠΊΠ°Π·Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ· ΠΏΡƒΡ‚Π΅ΠΉ ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΡ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° являСтся качСствСнноС составлСниС словарСй ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΠΉ лСксики.

БиблиографичСский список

1. Feldman R. Techniques and Applications for Sentiment Analysis // Communications of the ACM. 2013. Vol. 56, № 4. P. 82−89.

2. Kuznetsov S.O., Obiedkov S.A. Comparing Perfomance of Algorithms for Generating Concept Lattices // Journal of Experimental and Theoretical Artificial Intelligence. 2002. Vol. 14.

3. Liu B. Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers, 2012.

4. Refaeilzadeh P., Tang L., Liu H. Encyclopedia of Database Systems // Springer, US. 2009.

5. Sebastiani F. Machine learning in Automated Text Categorization // ACM Computing Surveys. 2002. Vol. 34. P. 1−47.

6. АвтоматичСскоС ΠΏΠΎΡ€ΠΎΠΆΠ΄Π΅Π½ΠΈΠ΅ Π³ΠΈΠΏΠΎΡ‚Π΅Π· Π² ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½Ρ‹Ρ… систСмах / ΠΏΠΎΠ΄ Ρ€Π΅Π΄. Π’. К. Π€ΠΈΠ½Π½Π°. — Πœ.: Π›ΠΈΠ±Ρ€ΠΎΠΊΠΎΠΌ, 2009. — 528 с.

7. Π”Π‘Πœ-ΠΌΠ΅Ρ‚ΠΎΠ΄ автоматичСского пороТдСния Π³ΠΈΠΏΠΎΡ‚Π΅Π· / ΠΏΠΎΠ΄ Ρ€Π΅Π΄. О. М. Аншакова. — Πœ.: Π›ΠΈΠ±Ρ€ΠΎΠΊΠΎΠΌ, 2009. — 432 с.

8. ΠšΠΎΠΆΡƒΠ½ΠΎΠ²Π° О. Π‘. ВСхнология Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ сСмантичСского словаря систСмы ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ ΠΌΠΎΠ½ΠΈΡ‚ΠΎΡ€ΠΈΠ½Π³Π° // АвторСфСрат диссСртации Π½Π° ΡΠΎΠΈΡΠΊΠ°Π½ΠΈΠ΅ ΡƒΡ‡Π΅Π½ΠΎΠΉ стСпСни ΠΊΠ°Π½Π΄ΠΈΠ΄Π°Ρ‚Π° тСхничСских Π½Π°ΡƒΠΊ. — Πœ., 2009. — 21 с.

9. ΠšΠΎΡ‚Π΅Π»ΡŒΠ½ΠΈΠΊΠΎΠ² Π•. Π’. РаспознаваниС ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΠΉ ΡΠΎΡΡ‚Π°Π²Π»ΡΡŽΡ‰Π΅ΠΉ Π² Ρ‚Скстах: ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ ΠΈ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Ρ‹ / Π•. Π’. ΠšΠΎΡ‚Π΅Π»ΡŒΠ½ΠΈΠΊΠΎΠ², М. Π’. КлСковкина, Π’. А. ПСскишСва, О. А. ΠŸΠ΅ΡΡ‚ΠΎΠ²; ΠΏΠΎΠ΄. Ρ€Π΅Π΄. Π‘. М. ΠžΠΊΡƒΠ»ΠΎΠ²Π°. — ΠšΠΈΡ€ΠΎΠ²: Изд-Π²ΠΎ ВятГГУ, 2012. — 103 с.

10. ΠšΠΎΡ‚Π΅Π»ΡŒΠ½ΠΈΠΊΠΎΠ² Π•. Π’., ПСскишСва Π’. А., ΠŸΠ΅ΡΡ‚ΠΎΠ² О. А. ΠŸΠ°Ρ€Π°Π»Π»Π΅Π»ΡŒΠ½Ρ‹ΠΉ Π²Ρ‹Π±ΠΎΡ€ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² классификатора для Π°Π½Π°Π»ΠΈΠ·Π° Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ тСкстов // Вопросы соврСмСнной Π½Π°ΡƒΠΊΠΈ ΠΈ ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠΈ. УнивСрситСт ΠΈΠΌ. Π’. И. ВСрнадского. Π’Π°ΠΌΠ±ΠΎΠ²: Π“ΠžΠ£ Π’ΠŸΠž Π’Π“Π’Π£, 2012. Π‘. 67−74.

ΠŸΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅

Π€Π°ΠΉΠ» Program. cs

using System;

using System.Collections.Generic;

using System. Linq;

using System. Text;

using System. IO;

using System. Collections;

using System. Diagnostics;

namespace JSM_VS

{

/// Π“ΠΈΠΏΠΎΡ‚Π΅Π·Ρ‹

public struct Hypothesis

{

/// ΠœΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²

public HashSet setValues;

/// ΠœΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎ Ρ€ΠΎΠ΄ΠΈΡ‚Π΅Π»Π΅ΠΉ

public HashSet setParents;

/// Класс Π³ΠΈΠΏΠΎΡ‚Π΅Π·Ρ‹:

/// '-' - ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ,

/// '+' - ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ

public char type;

}

/// ОписаниС тСкстов

public struct TextInfo

{

/// Имя Ρ„Π°ΠΉΠ»Π°, содСрТащСго тСкст

public string name;

/// ΠœΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎ слов ΠΈΠ· ΡΠ»ΠΎΠ²Π°Ρ€Ρ, содСрТщихся Π² Ρ‚СкстС

public HashSet setValues;

/// Класс тСкста:

/// '-' - ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ,

/// '+' - ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ

/// 't' - Π½Π΅ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠΉ Ρ‚ΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ

public char type;

}

/// ΠœΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ качСства

public struct EffectMeasure

{

/// Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ

public double precission;

/// ΠŸΠΎΠ»Π½ΠΎΡ‚Π°

public double recall;

/// F1-ΠΌΠ΅Ρ€Π°

public double f1_measure;

/// ΠŸΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒ

public double accuracy;

//public int countPlusHyp; // ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… Π³ΠΈΠΏΠΎΡ‚Π΅Π·

//public int countMinusHyp; // ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… Π³ΠΈΠΏΠΎΡ‚Π΅Π·

}

class Program

{

/// Π—Π°Π³Ρ€ΡƒΠ·ΠΊΠ° словаря

static void LoadDictionary (Dictionary words)

{

StreamReader sr = new StreamReader («dictionary.txt», Encoding. GetEncoding (1251));

int numWord = 0;

while (!sr.EndOfStream)

{

string str = sr. ReadLine ();

numWord++;

words.Add (str, numWord);

}

sr.Close ();

}

/// Π‘ΠΎΡ€Ρ‚ΠΈΡ€ΠΎΠ²ΠΊΠ° массива ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² Π² ΡΠ»ΡƒΡ‡Π°ΠΉΠ½ΠΎΠΌ порядкС

static void RandomSort (TextInfo[] arrayOfSet)

{

Random rand = new Random ();

for (int i = 0; i < arrayOfSet. Length; i++)

{

int index1 = rand. Next (0, arrayOfSet. Length — 1);

int index2 = rand. Next (0, arrayOfSet. Length — 1);

TextInfo temp = arrayOfSet[index1];

arrayOfSet[index1] = arrayOfSet[index2];

arrayOfSet[index2] = temp;

}

}

/// Нормализация исходных тСкстов

static void NormText ()

// НормализуСм ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ тСксты

TextNormalizer srcText = new TextNormalizer ();

srcText.Normalize («SourceTexts\PlusSamples», «NormalizedTexts\PlusSamples»);

// НормализуСм ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ тСксты

srcText.Normalize («SourceTexts\MinusSamples», «NormalizedTexts\MinusSamples»);

// НормализуСм Ρ‚Π°Ρƒ-тСксты

srcText.Normalize («SourceTexts\TauSamples», «NormalizedTexts\TauSamples»);

}

/// ΠŸΠΎΡΡ‚Ρ€ΠΎΠ΅Π½ΠΈΠ΅ массива ΠΈΠ· ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π² слов, содСрТащихся Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ тСкстС

static void BuildHashSet (Dictionary dict, string dirName,

out TextInfo[] samples, char type)

{

DirectoryInfo diNormText = new DirectoryInfo (dirName);

FileInfo[] fiNormText = diNormText. GetFiles ();

samples = new TextInfo[fiNormText.Length];

for (int i = 0; i < fiNormText. Length; i++)

samples[i]. setValues = new HashSet ();

for (int i = 0; i < fiNormText. Length; i++)

{

StreamReader sr = new StreamReader (dirName + «» + fiNormText[i]. Name,

Encoding.GetEncoding (1251));

samples[i].name = fiNormText[i]. Name;

while (!sr.EndOfStream)

{

string str = sr. ReadLine ();

string[] masStr = str. Split ('=', ',');

if (dict.ContainsKey (masStr[0]))

samples[i]. setValues. Add (dict[masStr[0]]);

}

samples[i].type = type;

sr.Close ();

}

}

static void PrintResultCrossValidation (string description, EffectMeasure koeff, long time)

{

StreamWriter sw = new StreamWriter («ResultsCrossValidation.txt», false, Encoding. GetEncoding (1251));

sw.WriteLine (description);

sw.WriteLine («Preccision = {0:d3}», koeff.precission.ToString ());

sw.WriteLine («Recall = {0:d3}», koeff.recall.ToString ());

sw.WriteLine («F1-measure = {0:d3}», koeff. f1_measure.ToString ());

sw.WriteLine («Accuracy = {0:d3}», koeff.accuracy.ToString ());

sw.WriteLine («Time processing = {0}», time. ToString ());

sw.Close ();

}

static void PrintResultClassification (char[] resClassification, TextInfo[] tauSamples, long time)

{

StreamWriter sw = new StreamWriter («ResultsClassification.txt», false, Encoding. GetEncoding (1251));

for (int i = 0; i < tauSamples. Length; i++)

sw.WriteLine («{0} {1}», tauSamples[i]. name, resClassification[i]);

sw.WriteLine («Time processing = {0}», time. ToString ());

sw.Close ();

}

static void Main (string[] args)

{

bool error = false;

double imbalance;

int typeFuncResolution;

int index = 0;

if (args.Length > 0 && args. Length <= 5)

{

// Π’Ρ‹Π·ΠΎΠ² справки

if (index < args. Length && args[index] == «-help»)

{

error = true;

}

// ΠŸΡ€ΠΎΠ²Π΅Ρ€ΠΊΠ° нСобходимости Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ тСкстов

if (!error && index < args. Length && args[index] == «-n»)

{

NormText ();

index++;

}

// Π’ΠΈΠΏ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ²

try

{

typeFuncResolution = int. Parse (args[index]);

if (typeFuncResolution < 1 && typeFuncResolution > 6)

{

error = true;

Console.WriteLine («ΠžΡˆΠΈΠ±ΠΊΠ°! НСвСрно Π·Π°Π΄Π°Π½ Π½ΠΎΠΌΠ΅Ρ€ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ²»);

}

index++;

}

catch

{

typeFuncResolution = 1;

}

// ΠšΠΎΡΡ„Ρ„ΠΈΡ†ΠΈΠ΅Π½Ρ‚ дисбаланса

try

{

imbalance = double. Parse (args[index]);

index++;

}

catch

{

imbalance = 1;

}

Stopwatch timer = new Stopwatch ();

Dictionary dict = new Dictionary ();

LoadDictionary (dict);

// Массив мноТСств, содСрТащий Π² i-Ρ‚ΠΎΠΉ ячСйкС Π½ΠΎΠΌΠ΅Ρ€Π° слов ΠΈΠ· ΡΠ»ΠΎΠ²Π°Ρ€Ρ, входящих Π² i-Ρ‚Ρ‹ΠΉ тСкст

TextInfo[] plusSamples, minusSamples, tauSamples;

ΠŸΠΎΠΊΠ°Π·Π°Ρ‚ΡŒ вСсь тСкст
Π—Π°ΠΏΠΎΠ»Π½ΠΈΡ‚ΡŒ Ρ„ΠΎΡ€ΠΌΡƒ Ρ‚Π΅ΠΊΡƒΡ‰Π΅ΠΉ Ρ€Π°Π±ΠΎΡ‚ΠΎΠΉ