ΠŸΠΎΠΌΠΎΡ‰ΡŒ Π² написании студСнчСских Ρ€Π°Π±ΠΎΡ‚
АнтистрСссовый сСрвис

ΠœΠ΅Ρ‚ΠΎΠ΄ΠΈΠΊΠ° Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ½ΠΎΠ³ΠΎ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚Π° для поиска ΠΏΡ€ΠΈΡ‡ΠΈΠ½ Π² измСнСниях Ρ‚Ρ€Π΅Π½Π΄ΠΎΠ² Π² Π΄Π°Π½Π½Ρ‹Ρ…

Π”ΠΈΠΏΠ»ΠΎΠΌΠ½Π°ΡΠŸΠΎΠΌΠΎΡ‰ΡŒ Π² Π½Π°ΠΏΠΈΡΠ°Π½ΠΈΠΈΠ£Π·Π½Π°Ρ‚ΡŒ ΡΡ‚ΠΎΠΈΠΌΠΎΡΡ‚ΡŒΠΌΠΎΠ΅ΠΉ Ρ€Π°Π±ΠΎΡ‚Ρ‹

Алгоритм построСния ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠΉ Ρ€Π°Π·Π΄Π΅Π»ΡΡŽΡ‰Π΅ΠΉ гипСрплоскости, ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½Π½Ρ‹ΠΉ Π² 1963 Π³ΠΎΠ΄Ρƒ Π’Π»Π°Π΄ΠΈΠΌΠΈΡ€ΠΎΠΌ Π’Π°ΠΏΠ½ΠΈΠΊΠΎΠΌ ΠΈ ΠΠ»Π΅ΠΊΡΠ΅Π΅ΠΌ ЧСрвонСнкисом — Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ классификации. Однако Π² 1992 Π³ΠΎΠ΄Ρƒ Π‘Π΅Ρ€Π½Ρ…Π°Ρ€Π΄ БосСр, ИзабСлл Π“ΠΈΠΉΠΎΠ½ ΠΈ Π’Π°ΠΏΠ½ΠΈΠΊ ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠΈΠ»ΠΈ способ создания Π½Π΅Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠ³ΠΎ классификатора, Π² ΠΎΡΠ½ΠΎΠ²Π΅ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ Π»Π΅ΠΆΠΈΡ‚ ΠΏΠ΅Ρ€Π΅Ρ…ΠΎΠ΄ ΠΎΡ‚ ΡΠΊΠ°Π»ΡΡ€Π½Ρ‹Ρ… ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΈΠΉ ΠΊ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½Ρ‹ΠΌ ядрам, Ρ‚Π°ΠΊ Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡ‹ΠΉ kernel trick (ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½Π½Ρ‹ΠΉ… Π§ΠΈΡ‚Π°Ρ‚ΡŒ Π΅Ρ‰Ρ‘ >

ΠœΠ΅Ρ‚ΠΎΠ΄ΠΈΠΊΠ° Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ½ΠΎΠ³ΠΎ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚Π° для поиска ΠΏΡ€ΠΈΡ‡ΠΈΠ½ Π² измСнСниях Ρ‚Ρ€Π΅Π½Π΄ΠΎΠ² Π² Π΄Π°Π½Π½Ρ‹Ρ… (Ρ€Π΅Ρ„Π΅Ρ€Π°Ρ‚, курсовая, Π΄ΠΈΠΏΠ»ΠΎΠΌ, ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ)

Π Π΅Ρ„Π΅Ρ€Π°Ρ‚

ОбъСм Ρ€Π°Π±ΠΎΡ‚Ρ‹: 123 страницы, 9 ΠΈΠ»Π»ΡŽΡΡ‚Ρ€Π°Ρ†ΠΈΠΉ, 4 прилоТСния, 1 Ρ‚Π°Π±Π»ΠΈΡ†Π°

ΠšΠ»ΡŽΡ‡Π΅Π²Ρ‹Π΅ слова: Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ классификации, Π°Π½Π°Π»ΠΈΠ· Π΄Π°Π½Π½Ρ‹Ρ…, data mining, машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Дипломная Ρ€Π°Π±ΠΎΡ‚Π° посвящСна ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΈΠΊΠ΅ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ½ΠΎΠ³ΠΎ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚Π° для поиска ΠΏΡ€ΠΈΡ‡ΠΈΠ½ Π² ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΡΡ… Ρ‚Ρ€Π΅Π½Π΄ΠΎΠ² Π² Π΄Π°Π½Π½Ρ‹Ρ…. РассмотрСно созданиС систСмы ΠΏΡ€Π΅Π΄ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠ° систСмы классификации Π½Π° Π±Π°Π·Π΅ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² машинного обучСния. Π’ Ρ€Π°Π±ΠΎΡ‚Π΅ опрСдСляСтся ΠΎΠ±Π»Π°ΡΡ‚ΡŒ примСнСния Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½ΠΎΠΉ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹. Для Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ систСмы ΠΏΡ€Π΅Π΄ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ… использован язык программирования C#, Π€Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊ .Net, Π° Ρ‚Π°ΠΊΠΆΠ΅ Π‘Π£Π‘Π” MS SQL Server 2008R2. Для Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ систСмы классификации использован язык программирования Python ΠΈ Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ° Scikit-Learn. Для систСмы классификации Π±Ρ‹Π»Π° использована стратСгия One-vs-Rest для Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² классификации Машина ΠžΠΏΠΎΡ€Π½Ρ‹Ρ… Π’Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² (с Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹ΠΌΠΈ ядрами) ΠΈ ΠΠ°ΠΈΠ²Π½Ρ‹ΠΉ БайСсовский ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€. Π Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠ° вСлась ΠΏΠΎΠ΄ ΠΎΠΏΠ΅Ρ€Π°Ρ†ΠΈΠΎΠ½Π½ΠΎΠΉ систСмой Windows 7. ΠžΡΡƒΡ‰Π΅ΡΡ‚Π²Π»Π΅Π½Ρ‹ экспСримСнты ΠΏΠΎ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠ΅ точности объяснСний, Π΄Π°Π²Π°Π΅ΠΌΡ‹Ρ… систСмой Π½Π° Ρ‚Сстовых Π΄Π°Π½Π½Ρ‹Ρ….

  • Π Π΅Ρ„Π΅Ρ€Π°Ρ‚
  • Π’Π²Π΅Π΄Π΅Π½ΠΈΠ΅
    • ΠŸΠΎΡΡ‚Π°Π½ΠΎΠ²ΠΊΠ° Π·Π°Π΄Π°Ρ‡ΠΈ
  • 1. ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ машинного обучСния ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ машинного обучСния
    • 1.1 Π—Π°Π΄Π°Ρ‡Π° классификации
    • 1.2 Multiclass классификация
      • 1.2.1 БтратСгия One-vs.-rest
    • 1.3 Multi-label классификация
    • Π’Ρ‹Π²ΠΎΠ΄Ρ‹
  • 2. ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹, Ρ€Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π½Ρ‹Π΅ Π² ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ½ΠΎΠΉ систСмС
    • 2.1 TF-IDF
    • 2.2 Наивный БайСсовский ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€
    • 2.3 SVM
      • 2.3.1 БтохастичСский Π“Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Ρ‹ΠΉ Бпуск
    • Π’Ρ‹Π²ΠΎΠ΄Ρ‹
  • 3. РСализация систСмы
    • 3.1 ΠŸΡ€Π΅Π΄ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ° ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ
      • 3.1.1 Π˜Π½ΡΡ‚Ρ€ΡƒΠΊΡ†ΠΈΡ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Ρ
    • 3.2 БистСма классификации
      • 3.2.1 Π Π°Π±ΠΎΡ‡ΠΈΠΉ Ρ€Π΅ΠΆΠΈΠΌ
      • 3.2.2 ВСстовый Ρ€Π΅ΠΆΠΈΠΌ
      • 3.2.3 Π˜Π½ΡΡ‚Ρ€ΡƒΠΊΡ†ΠΈΡ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Ρ
    • Π’Ρ‹Π²ΠΎΠ΄Ρ‹
  • 4. ΠœΠ°ΡˆΠΈΠ½Π½Ρ‹ΠΉ экспСримСнт
    • Π’Ρ‹Π²ΠΎΠ΄Ρ‹
  • Π—Π°ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅
  • Бписок ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Π½Π½Ρ‹Ρ… рСсурсов
  • ΠŸΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ 1. БистСма ΠΏΡ€Π΅Π΄ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ
    • Program.cs
    • FactMiner.cs
    • Logger.cs
  • ΠŸΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ 2. Π€Π°ΠΉΠ» ΠΊΠΎΠ½Ρ„ΠΈΠ³ΡƒΡ€Π°Ρ†ΠΈΠΈ систСмы ΠΏΡ€Π΅Π΄ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ
  • ΠŸΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ 3. Π₯Ρ€Π°Π½ΠΈΠΌΡ‹Π΅ ΠΏΡ€ΠΎΡ†Π΅Π΄ΡƒΡ€Ρ‹ ΠΈ Ρ‚Π°Π±Π»ΠΈΡ‡Π½Ρ‹Π΅ прСдставлСния Π±Π°Π·Ρ‹ Π΄Π°Π½Π½Ρ‹Ρ… FactEventAnalysisDB
    • usp_populateCoraxFactsTable
    • usp_clearFactsTables
    • SpikeFactsHypothesis
    • PriceFactsHypothesis
  • ΠŸΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ 4. БистСма классификации

Π’ ΡΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΌ ΠΌΠΈΡ€Π΅ особСнно слоТной являСтся Π·Π°Π΄Π°Ρ‡Π° ΠΏΠΎ ΠΏΠΎΠΈΡΠΊΡƒ ΠΏΡ€ΠΈΡ‡ΠΈΠ½Ρ‹ Π² ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΈ повСдСния комплСксной систСмы. НапримСр:

— Π§Ρ‚ΠΎ послуТило ΠΏΡ€ΠΈΡ‡ΠΈΠ½ΠΎΠΉ скачка энСргопотрСблСния Π³ΠΎΡ€ΠΎΠ΄Π°?

— ΠŸΠΎΡ‡Π΅ΠΌΡƒ Ρ€Π΅Π·ΠΊΠΎ выросла Π·Π°Π±ΠΎΠ»Π΅Π²Π°Π΅ΠΌΠΎΡΡ‚ΡŒ Π³Ρ€ΠΈΠΏΠΏΠΎΠΌ Π² ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠΉ странС?

— ΠŸΠΎ ΠΊΠ°ΠΊΠΎΠΉ ΠΏΡ€ΠΈΡ‡ΠΈΠ½Π΅ Ρ†Π΅Π½Π° Π½Π΅ΠΊΠΎΠΉ Ρ†Π΅Π½Π½ΠΎΠΉ Π±ΡƒΠΌΠ°Π³ΠΈ Ρ€Π΅Π·ΠΊΠΎ ΡƒΠΏΠ°Π»Π° Π² ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½Ρ‹ΠΉ дСнь?

Одной ΠΈΠ· ΡΠ°ΠΌΡ‹Ρ… слоТных ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌ ΠΏΡ€ΠΈ выявлСнии ΠΈ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ Π·Π°ΠΊΠΎΠ½ΠΎΠ² развития комплСксных систСм ΠΈ ΠΏΡ€ΠΈΠ½ΡΡ‚ия Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ являСтся Ρ„ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ понимания Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½ΠΈΡ… связСй ΠΈ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΠΎΠ² Ρ‚Π΅Ρ… ΠΈΠ»ΠΈ ΠΈΠ½Ρ‹Ρ… процСссов Π² ΡΠΈΡΡ‚Π΅ΠΌΠ°Ρ…. Как ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ, этих связСй ΠΈ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΠΎΠ² ΠΌΠ½ΠΎΠ³ΠΎ, Ρ€Π°Π·Π½Ρ‹Π΅ элСмСнты систСмы ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ связаны ΠΌΠ΅ΠΆΠ΄Ρƒ собой самыми Ρ€Π°Π·Π½Ρ‹ΠΌΠΈ прямыми ΠΈ ΠΎΠ±Ρ€Π°Ρ‚Π½Ρ‹ΠΌΠΈ связями, ΠΏΡ€ΠΈ этом ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ элСмСнт Ρ‚Π°ΠΊ ΠΈΠ»ΠΈ ΠΈΠ½Π°Ρ‡Π΅ связан с Ρ„ункциями систСмы ΠΈ ΠΎΡ‡Π΅Π½ΡŒ часто — с Π²Ρ€Π΅Π΄Π½Ρ‹ΠΌΠΈ ΠΈΠ»ΠΈ Π½Π΅ΠΆΠ΅Π»Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ эффСктами. Π£Ρ‡ΠΈΡ‚Ρ‹Π²Π°Ρ‚ΡŒ ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ всС эти связи Π² Ρ€Π°Π±ΠΎΡ‚Π΅ ΠΎΡ‡Π΅Π½ΡŒ слоТно.

Π’ ΡΠ°ΠΌΠΎΠΌ Π΄Π΅Π»Π΅, Π² Π»ΡŽΠ±ΠΎΠΌ ΠΈΠ· ΡƒΠΏΠΎΠΌΡΠ½ΡƒΡ‚Ρ‹Ρ… Π²Ρ‹ΡˆΠ΅ случаСв Π½Π° Π΄ΠΈΠ½Π°ΠΌΠΈΠΊΡƒ систСмы (ΡƒΡ€ΠΎΠ²Π΅Π½ΡŒ энСргопотрСблСния, Π·Π°Π±ΠΎΠ»Π΅Π²Π°Π΅ΠΌΠΎΡΡ‚ΡŒ, Ρ†Π΅Π½Π° Ρ†Π΅Π½Π½ΠΎΠΉ Π±ΡƒΠΌΠ°Π³ΠΈ) ΠΌΠΎΠ³ΡƒΡ‚ Π²Π»ΠΈΡΡ‚ΡŒ сотни тысяч Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… событий. Π’Ρ‹ΡΠ²ΠΈΡ‚ΡŒ ΠΊΠ°ΠΊΠΎΠ΅ ΠΈΠ· ΡΠΎΠ±Ρ‹Ρ‚ΠΈΠΉ Π²Ρ‹Π·Π²Π°Π»ΠΎ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π² Π΄ΠΈΠ½Π°ΠΌΠΈΠΊΠ΅ Ρ‡Ρ€Π΅Π·Π²Ρ‹Ρ‡Π°ΠΉΠ½ΠΎ слоТно. Богласно исслСдованиям психологов, Π½ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΉ Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊ способСн ΡƒΠ΄Π΅Ρ€ΠΆΠΈΠ²Π°Ρ‚ΡŒ Π² Π·ΠΎΠ½Π΅ своСго внимания 7 ± 2 ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°. А Π² Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹Ρ… систСмах ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² ΠΈ ΡΠ²ΡΠ·Π΅ΠΉ Π²ΠΎ ΠΌΠ½ΠΎΠ³ΠΎ Ρ€Π°Π· большС. Π’ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ ΠΏΡ€ΠΈ ΠΏΠΎΠΏΡ‹Ρ‚ΠΊΠ΅ всС это «ΠΎΡ…Π²Π°Ρ‚ΠΈΡ‚ΡŒ Π² ΡƒΠΌΠ΅» Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ Π½Π°Ρ€ΡƒΡˆΠ°Π΅Ρ‚ΡΡ, случайным ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ «ΠΏΡ€Ρ‹Π³Π°Π΅Ρ‚» ΠΎΡ‚ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° ΠΊ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρƒ, ΠΏΡ€Π΅ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΠ²Π°Π΅Ρ‚ ΠΎΠ΄Π½ΠΈ ΠΈ ΠΏΡ€Π΅ΡƒΠΌΠ΅Π½ΡŒΡˆΠ°Π΅Ρ‚ ΠΈΠ»ΠΈ просто пропускаСт Π΄Ρ€ΡƒΠ³ΠΈΠ΅ элСмСнты ΠΈ ΡΠ²ΡΠ·ΠΈ ΠΈ Ρ‚. ΠΏ. Π¦Π΅Π»ΡŒΠ½ΡƒΡŽ ΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΈΠ²Π½ΡƒΡŽ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½Ρƒ ΡƒΠ²ΠΈΠ΄Π΅Ρ‚ΡŒ Π½Π΅ ΡƒΠ΄Π°Π΅Ρ‚ся.

НапримСр, Π½ΠΈΠΆΠ΅ прСдставлСн Π³Ρ€Π°Ρ„ΠΈΠΊ Ρ†Π΅Π½ Π½Π΅ΠΊΠΎΠΉ Π½Π΅Ρ„Ρ‚Π΅Π΄ΠΎΠ±Ρ‹Π²Π°ΡŽΡ‰Π΅ΠΉ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ ΠΏΠΎ ΠΌΠ΅ΡΡΡ†Π°ΠΌ.

Рис. 1. ΠŸΡ€ΠΈΠΌΠ΅Ρ€ слома Ρ‚Ρ€Π΅Π½Π΄Π° На Π΄Π°Π½Π½ΠΎΠΌ Π³Ρ€Π°Ρ„ΠΈΠΊΠ΅ явно Π²ΠΈΠ΄Π΅Π½ рост Ρ†Π΅Π½Ρ‹ Π°ΠΊΡ†ΠΈΠΉ Π΄Π°Π½Π½ΠΎΠΉ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ Π²ΠΏΠ»ΠΎΡ‚ΡŒ Π΄ΠΎ 6.1.2008, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ смСнился Π΅Π΅ ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½Ρ‹ΠΌ спадом послС этого ΠΌΠΎΠΌΠ΅Π½Ρ‚Π° Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ. ΠžΠΏΡ‹Ρ‚Π½Ρ‹ΠΉ спСциалист Π² Π°Π½Π°Π»ΠΈΠ·Π΅ Ρ†Π΅Π½Π½Ρ‹Ρ… Π±ΡƒΠΌΠ°Π³ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΈΡ‚ΡŒ события, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΡ€ΠΎΠΈΠ·ΠΎΡˆΠ»ΠΈ 6.1.2008 ΠΈ Π²Ρ‹ΡΡΠ½ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ Π² ΡΡ‚ΠΎΡ‚ дСнь Π±Ρ‹Π» ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½ ΠΎΡ‚Ρ‡Π΅Ρ‚ ΠΎ ΠΏΠ΅Ρ€ΡΠΏΠ΅ΠΊΡ‚ΠΈΠ²Π°Ρ… китайской экономики, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π±Ρ‹Π» Π½Π΅Π³Π°Ρ‚ΠΈΠ²Π½Ρ‹ΠΌ. Π¦Π΅Π½Π° Π°ΠΊΡ†ΠΈΠΉ Π½Π΅Ρ„Ρ‚Π΅Π΄ΠΎΠ±Ρ‹Π²Π°ΡŽΡ‰ΠΈΡ… ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΉ сильно зависит ΠΎΡ‚ ΡΠΊΠΎΠ½ΠΎΠΌΠΈΠΊΠΈ ΠšΠΈΡ‚Π°Ρ, ΠΈΠ±ΠΎ данная страна являСтся ΠΊΡ€ΡƒΠΏΠ½Π΅ΠΉΡˆΠΈΠΌ Π² ΠΌΠΈΡ€Π΅ ΠΏΠΎΡ‚Ρ€Π΅Π±ΠΈΡ‚Π΅Π»Π΅ΠΌ Π½Π΅Ρ„Ρ‚ΠΈ, ΠΈ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ Π² Π΅Π΅ ΡΠΊΠΎΠ½ΠΎΠΌΠΈΠΊΠ΅ ΠΌΠΎΠ³ΡƒΡ‚ сильно ΡΠ½ΠΈΠ·ΠΈΡ‚ΡŒ Π΄ΠΎΡ…ΠΎΠ΄Ρ‹ Π½Π΅Ρ„Ρ‚Π΅Π΄ΠΎΠ±Ρ‹Π²Π°ΡŽΡ‰ΠΈΡ… ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΉ.

Однако для выполнСния Π°Π½Π°Π»ΠΈΠ·Π°, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΡ‚ Π½Π°ΠΉΡ‚ΠΈ объяснСниС ΠΏΡ€ΠΎΠΈΠ·ΠΎΡˆΠ΅Π΄ΡˆΠ΅ΠΌΡƒ измСнСнию Π² Π΄ΠΈΠ½Π°ΠΌΠΈΠΊΠ΅ Ρ†Π΅Π½Ρ‹ Ρ†Π΅Π½Π½ΠΎΠΉ Π±ΡƒΠΌΠ°Π³ΠΈ Ρ‚Ρ€Π΅Π±ΡƒΡŽΡ‚ΡΡ ΠΎΠ±ΡˆΠΈΡ€Π½Ρ‹Π΅ знания Π² ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚Π½ΠΎΠΉ области, Ρ…ΠΎΡ€ΠΎΡˆΠΎ Ρ€Π°Π·Π±ΠΈΡ€Π°Ρ‚ΡŒΡΡ Π² Ρ…арактСристиках ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΉ, Π° Ρ‚Π°ΠΊΠΆΠ΅ Π±Ρ‹Ρ‚ΡŒ Π² ΡΠΎΡΡ‚оянии ΠΈΠ·ΡƒΡ‡ΠΈΡ‚ΡŒ ΠΊΠΎΠ»ΠΎΡΡΠ°Π»ΡŒΠ½Ρ‹Π΅ ΠΎΠ±ΡŠΠ΅ΠΌΡ‹ Π΄Π°Π½Π½Ρ‹Ρ… — ΠΈΠ±ΠΎ Π² Ρ‚ΠΎΡ‚ ΠΆΠ΅ дСнь, 6.1.2008, Π² ΠΌΠΈΡ€Π΅ ΠΏΡ€ΠΎΠΈΠ·ΠΎΡˆΠ»ΠΈ ΠΌΠΈΠ»Π»ΠΈΠΎΠ½Ρ‹ событий, ΠΊΠ°ΠΆΠ΄ΠΎΠ΅ ΠΈΠ· ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΠΌΠΎΠ³Π»ΠΎ ΠΏΠΎΠ²Π»ΠΈΡΡ‚ΡŒ Π½Π° Π΄ΠΈΠ½Π°ΠΌΠΈΠΊΡƒ Ρ†Π΅Π½Ρ‹.

ΠžΡ‡Π΅Π²ΠΈΠ΄Π½ΠΎ, ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ· ΡΠΏΠΎΡΠΎΠ±ΠΎΠ² ΠΏΠΎΠΌΠΎΡ‡ΡŒ экспСрту Π² ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠΈ ΠΏΡ€ΠΈΡ‡ΠΈΠ½ измСнСния Π΄ΠΈΠ½Π°ΠΌΠΈΠΊΠΈ систСмы Π±ΡƒΠ΄Π΅Ρ‚ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ Π·Π°Π΄Π°Ρ‡ΠΈ ΠΏΠΎ ΡΠΎΠΊΡ€Π°Ρ‰Π΅Π½ΠΈΡŽ списка событий, связанных с ΡΠΈΡΡ‚Π΅ΠΌΠΎΠΉ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ экспСрту Π½ΡƒΠΆΠ½ΠΎ Ρ€Π°ΡΡΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ. ВмСсто дСсятков тысяч событий экспСрт смоТСт ΡΠΎΡΡ€Π΅Π΄ΠΎΡ‚ΠΎΡ‡ΠΈΡ‚ΡŒΡΡ Π½Π° Ρ€Π°ΡΡΠΌΠΎΡ‚Ρ€Π΅Π½ΠΈΠΈ лишь ΠΈΡ… Π½Π΅Π±ΠΎΠ»ΡŒΡˆΠΎΠ³ΠΎ подмноТСства ΠΈ ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΠ² свою ΠΊΠΎΠΌΠΏΠ΅Ρ‚Π΅Π½Ρ†ΠΈΡŽ Π² ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚Π½ΠΎΠΉ области смоТСт ΠΎΡ‚Π²Π΅Ρ‚ΠΈΡ‚ΡŒ Π½Π° Π²ΠΎΠΏΡ€ΠΎΡ, Ρ‡Ρ‚ΠΎ ΠΆΠ΅ Π²Ρ‹Π·Π²Π°Π»ΠΎ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π² Π΄ΠΈΠ½Π°ΠΌΠΈΠΊΠ΅ систСмы. ИмСнно данная Π·Π°Π΄Π°Ρ‡Π° выдСлСния Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ вСроятных объяснСний ΠΏΡ€ΠΈΡ‡ΠΈΠ½ Π½Π΅ΠΊΠΎΠ΅Π³ΠΎ измСнСния ΠΈ Π±ΡƒΠ΄Π΅Ρ‚ Ρ€Π΅ΡˆΠ΅Π½Π° Π² Π΄Π°Π½Π½ΠΎΠΉ Ρ€Π°Π±ΠΎΡ‚Π΅.

Π’ ΠΏΠ΅Ρ€Π²ΠΎΠΉ Π³Π»Π°Π²Π΅ производится постановка Π·Π°Π΄Π°Ρ‡ΠΈ, Π΅Π΅ Π±ΠΎΠ»Π΅Π΅ ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½ΠΎΠ΅ описаниС, Π° Ρ‚Π°ΠΊΠΆΠ΅ описаниС исходных Π΄Π°Π½Π½Ρ‹Ρ….

Π’ΠΎ Π²Ρ‚ΠΎΡ€ΠΎΠΉ Π³Π»Π°Π²Π΅ приводится описаниС Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² ΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ², ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½Π½Ρ‹Ρ… ΠΏΡ€ΠΈ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ Π΄Π°Π½Π½ΠΎΠΉ систСмы.

Π’ Ρ‚Ρ€Π΅Ρ‚ΡŒΠ΅ΠΉ Π³Π»Π°Π²Π΅ описываСтся рСализация систСмы с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ языков программирования T-SQL, C# ΠΈ Python, Π° Ρ‚Π°ΠΊΠΆΠ΅ Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ scikit-learn.

Π’ Ρ‡Π΅Ρ‚Π²Π΅Ρ€Ρ‚ΠΎΠΉ Π³Π»Π°Π²Π΅ приводится описаниС ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² ΠΎΡ†Π΅Π½ΠΊΠΈ качСства Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½ΠΎΠΉ систСмы, ΠΈ Π΄Π΅Π»Π°ΡŽΡ‚ся Π²Ρ‹Π²ΠΎΠ΄Ρ‹ ΠΎ ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ Ρ€Π°Π±ΠΎΡ‚Ρ‹ систСмы Π½Π° Ρ‚Сстовых Π΄Π°Π½Π½Ρ‹Ρ….

ΠŸΠΎΡΡ‚Π°Π½ΠΎΠ²ΠΊΠ° Π·Π°Π΄Π°Ρ‡ΠΈ

Π Π΅ΡˆΠΈΡ‚ΡŒ Π·Π°Π΄Π°Ρ‡Ρƒ ΠΏΠΎ ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΈ Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ интСрСсных для рассмотрСния событий ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΠΎΠΌΠΎΡ‡ΡŒ Π˜Π½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½Ρ‹ΠΉ Анализ Π”Π°Π½Π½Ρ‹Ρ….

Π˜Π½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ· Π΄Π°Π½Π½Ρ‹Ρ… (Ρ‚Π°ΠΊΠΆΠ΅ извСстный ΠΊΠ°ΠΊ Data Mining) — ΡΠΎΠ±ΠΈΡ€Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ Π½Π°Π·Π²Π°Π½ΠΈΠ΅, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΠΎΠ΅ для обозначСния совокупности ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² обнаруТСния Π² Π΄Π°Π½Π½Ρ‹Ρ… Ρ€Π°Π½Π΅Π΅ нСизвСстных, Π½Π΅Ρ‚Ρ€ΠΈΠ²ΠΈΠ°Π»ΡŒΠ½Ρ‹Ρ…, практичСски ΠΏΠΎΠ»Π΅Π·Π½Ρ‹Ρ… ΠΈ Π΄ΠΎΡΡ‚ΡƒΠΏΠ½Ρ‹Ρ… ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΡ€Π΅Ρ‚Π°Ρ†ΠΈΠΈ Π·Π½Π°Π½ΠΈΠΉ, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹Ρ… для принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ Π² Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… сфСрах чСловСчСской Π΄Π΅ΡΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ. Π”Π°Π½Π½Ρ‹ΠΉ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ Π±Ρ‹Π» Π²Π²Π΅Π΄Π΅Π½ Π² ΠΎΠ±ΠΈΡ…ΠΎΠ΄ Π“Ρ€ΠΈΠ³ΠΎΡ€ΠΈΠ΅ΠΌ ΠŸΡΡ‚Π΅Ρ†ΠΊΠΈΠΌ-Π¨Π°ΠΏΠΈΡ€ΠΎ Π² 1989 Π³ΠΎΠ΄Ρƒ.

ΠžΡΠ½ΠΎΠ²Ρƒ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² Data Mining ΡΠΎΡΡ‚Π°Π²Π»ΡΡŽΡ‚ всСвозмоТныС ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ классификации, модСлирования ΠΈ ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡ, основанныС Π½Π° ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠΈ Π΄Π΅Ρ€Π΅Π²ΡŒΠ΅Π² Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ, искусствСнных Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Ρ… сСтСй, гСнСтичСских Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ², ΡΠ²ΠΎΠ»ΡŽΡ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ программирования, ассоциативной памяти, Π½Π΅Ρ‡Ρ‘Ρ‚ΠΊΠΎΠΉ Π»ΠΎΠ³ΠΈΠΊΠΈ. К ΠΌΠ΅Ρ‚ΠΎΠ΄Π°ΠΌ Data Mining Π½Π΅Ρ€Π΅Π΄ΠΊΠΎ относят статистичСскиС ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ (дСскриптивный Π°Π½Π°Π»ΠΈΠ·, коррСляционный ΠΈ Ρ€Π΅Π³Ρ€Π΅ΡΡΠΈΠΎΠ½Π½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ·, Ρ„Π°ΠΊΡ‚ΠΎΡ€Π½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ·, диспСрсионный Π°Π½Π°Π»ΠΈΠ·, ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Π½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ·, дискриминантный Π°Π½Π°Π»ΠΈΠ·, Π°Π½Π°Π»ΠΈΠ· Π²Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… рядов, Π°Π½Π°Π»ΠΈΠ· выТиваСмости, Π°Π½Π°Π»ΠΈΠ· связСй). Π’Π°ΠΊΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹, ΠΎΠ΄Π½Π°ΠΊΠΎ, ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°ΡŽΡ‚ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π°ΠΏΡ€ΠΈΠΎΡ€Π½Ρ‹Π΅ прСдставлСния ΠΎΠ± Π°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΡƒΠ΅ΠΌΡ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ…, Ρ‡Ρ‚ΠΎ нСсколько расходится с Ρ†Π΅Π»ΡΠΌΠΈ Data Mining (ΠΎΠ±Π½Π°Ρ€ΡƒΠΆΠ΅Π½ΠΈΠ΅ Ρ€Π°Π½Π΅Π΅ нСизвСстных Π½Π΅Ρ‚Ρ€ΠΈΠ²ΠΈΠ°Π»ΡŒΠ½Ρ‹Ρ… ΠΈ ΠΏΡ€Π°ΠΊΡ‚ичСски ΠΏΠΎΠ»Π΅Π·Π½Ρ‹Ρ… Π·Π½Π°Π½ΠΈΠΉ). Одними ΠΈΠ· Π²Π°ΠΆΠ½Π΅ΠΉΡˆΠΈΡ… инструмСнтов, ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‰ΠΈΡ… Ρ€Π΅ΡˆΠ°Ρ‚ΡŒ Π·Π°Π΄Π°Ρ‡ΠΈ Data Mining ΡΠ²Π»ΡΡŽΡ‚ΡΡ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Машинного ΠžΠ±ΡƒΡ‡Π΅Π½ΠΈΡ.

МашинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΈΠ»ΠΈ Machine Learning — ΠΎΠ±ΡˆΠΈΡ€Π½Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ€Π°Π·Π΄Π΅Π» искусствСнного ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚Π°, ΠΈΠ·ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ построСния ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, способных ΠΎΠ±ΡƒΡ‡Π°Ρ‚ΡŒΡΡ, ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² для ΠΈΡ… ΠΏΠΎΡΡ‚роСния ΠΈ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡ. Π Π°Π·Π»ΠΈΡ‡Π°ΡŽΡ‚ Π΄Π²Π° Ρ‚ΠΈΠΏΠ° обучСния. ΠžΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΏΠΎ ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚Π°ΠΌ, ΠΈΠ»ΠΈ ΠΈΠ½Π΄ΡƒΠΊΡ‚ΠΈΠ²Π½ΠΎΠ΅ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅, основано Π½Π° Π²Ρ‹ΡΠ²Π»Π΅Π½ΠΈΠΈ закономСрностСй Π² ΡΠΌΠΏΠΈΡ€ΠΈΡ‡Π΅ΡΠΊΠΈΡ… Π΄Π°Π½Π½Ρ‹Ρ…. Π”Π΅Π΄ΡƒΠΊΡ‚ΠΈΠ²Π½ΠΎΠ΅ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°Π΅Ρ‚ Ρ„ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ Π·Π½Π°Π½ΠΈΠΉ экспСртов ΠΈ ΠΈΡ… ΠΏΠ΅Ρ€Π΅Π½ΠΎΡ Π² ΠΊΠΎΠΌΠΏΡŒΡŽΡ‚Π΅Ρ€ Π² Π²ΠΈΠ΄Π΅ Π±Π°Π·Ρ‹ Π·Π½Π°Π½ΠΈΠΉ. Π”Π΅Π΄ΡƒΠΊΡ‚ΠΈΠ²Π½ΠΎΠ΅ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ принято ΠΎΡ‚Π½ΠΎΡΠΈΡ‚ΡŒ ΠΊ ΠΎΠ±Π»Π°ΡΡ‚ΠΈ экспСртных систСм, поэтому Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹ машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΈ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΏΠΎ ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚Π°ΠΌ ΠΌΠΎΠΆΠ½ΠΎ ΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ синонимами.

МашинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ находится Π½Π° ΡΡ‚Ρ‹ΠΊΠ΅ матСматичСской статистики, ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΈ Π΄ΠΈΡΠΊΡ€Π΅Ρ‚Π½ΠΎΠΉ ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠΈ, Π½ΠΎ ΠΈΠΌΠ΅Π΅Ρ‚ Ρ‚Π°ΠΊΠΆΠ΅ ΠΈ ΡΠΎΠ±ΡΡ‚Π²Π΅Π½Π½ΡƒΡŽ спСцифику, ΡΠ²ΡΠ·Π°Π½Π½ΡƒΡŽ с ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ°ΠΌΠΈ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ эффСктивности ΠΈ ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡ. МногиС ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ ΠΈΠ½Π΄ΡƒΠΊΡ‚ΠΈΠ²Π½ΠΎΠ³ΠΎ обучСния Ρ€Π°Π·Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π»ΠΈΡΡŒ ΠΊΠ°ΠΊ Π°Π»ΡŒΡ‚Π΅Ρ€Π½Π°Ρ‚ΠΈΠ²Π° классичСским статистичСским ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Π°ΠΌ.

Π—Π°Π΄Π°Ρ‡Ρƒ машинного обучСния ΠΌΠΎΠΆΠ½ΠΎ ΠΎΠΏΠΈΡΠ°Ρ‚ΡŒ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ. Π˜ΠΌΠ΅Π΅Ρ‚ΡΡ мноТСство ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² (ситуаций) ΠΈ ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹Ρ… ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² (ΠΎΡ‚ΠΊΠ»ΠΈΠΊΠΎΠ², Ρ€Π΅Π°ΠΊΡ†ΠΈΠΉ). БущСствуСт нСкоторая Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΡŒ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΎΡ‚Π²Π΅Ρ‚Π°ΠΌΠΈ ΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ, Π½ΠΎ ΠΎΠ½Π° нСизвСстна. Π˜Π·Π²Π΅ΡΡ‚Π½Π° Ρ‚ΠΎΠ»ΡŒΠΊΠΎ конСчная ΡΠΎΠ²ΠΎΠΊΡƒΠΏΠ½ΠΎΡΡ‚ΡŒ ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚ΠΎΠ² — ΠΏΠ°Ρ€ «ΠΎΠ±ΡŠΠ΅ΠΊΡ‚, ΠΎΡ‚Π²Π΅Ρ‚», называСмая ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΎΠΉ. На ΠΎΡΠ½ΠΎΠ²Π΅ этих Π΄Π°Π½Π½Ρ‹Ρ… трСбуСтся Π²ΠΎΡΡΡ‚Π°Π½ΠΎΠ²ΠΈΡ‚ΡŒ Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΡŒ, Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ ΠΏΠΎΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ, способный для любого ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° Π²Ρ‹Π΄Π°Ρ‚ΡŒ достаточно Ρ‚ΠΎΡ‡Π½Ρ‹ΠΉ ΠΎΡ‚Π²Π΅Ρ‚. Для измСрСния точности ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² ΠΎΠΏΡ€Π΅Π΄Π΅Π»Ρ‘Π½Π½Ρ‹ΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ вводится Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΎΠ½Π°Π» качСства.

Данная постановка являСтся ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½ΠΈΠ΅ΠΌ классичСских Π·Π°Π΄Π°Ρ‡ аппроксимации Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΉ. Π’ ΠΊΠ»Π°ΡΡΠΈΡ‡Π΅ΡΠΊΠΈΡ… Π·Π°Π΄Π°Ρ‡Π°Ρ… аппроксимации ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ ΡΠ²Π»ΡΡŽΡ‚ΡΡ Π΄Π΅ΠΉΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ числа ΠΈΠ»ΠΈ Π²Π΅ΠΊΡ‚ΠΎΡ€Ρ‹. Π’ Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹Ρ… ΠΏΡ€ΠΈΠΊΠ»Π°Π΄Π½Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡Π°Ρ… Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ ΠΎΠ± ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°Ρ… ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ Π½Π΅ΠΏΠΎΠ»Π½Ρ‹ΠΌΠΈ, Π½Π΅Ρ‚ΠΎΡ‡Π½Ρ‹ΠΌΠΈ, нСчисловыми, Ρ€Π°Π·Π½ΠΎΡ€ΠΎΠ΄Π½Ρ‹ΠΌΠΈ. Π­Ρ‚ΠΈ особСнности приводят ΠΊ Π±ΠΎΠ»ΡŒΡˆΠΎΠΌΡƒ Ρ€Π°Π·Π½ΠΎΠΎΠ±Ρ€Π°Π·ΠΈΡŽ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² машинного обучСния. Π Π°Π·Π΄Π΅Π» машинного обучСния, с ΠΎΠ΄Π½ΠΎΠΉ стороны, образовался Π² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ раздСлСния Π½Π°ΡƒΠΊΠΈ ΠΎ Π½Π΅ΠΉΡ€ΠΎΡΠ΅Ρ‚ях Π½Π° ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ обучСния сСтСй ΠΈ Π²ΠΈΠ΄Ρ‹ Ρ‚ΠΎΠΏΠΎΠ»ΠΎΠ³ΠΈΠΉ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρ‹ сСтСй, Π° Ρ Π΄Ρ€ΡƒΠ³ΠΎΠΉ, Π²ΠΎΠ±Ρ€Π°Π» Π² ΡΠ΅Π±Ρ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ матСматичСской статистики. ПодобноС Ρ€Π°Π·Π½ΠΎΠΎΠ±Ρ€Π°Π·ΠΈΠ΅ позволяСт Π½Π°ΠΌ ΠΏΠΎΠ΄ΠΎΠ±Ρ€Π°Ρ‚ΡŒ инструмСнт для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΎΠ·Π²ΡƒΡ‡Π΅Π½Π½ΠΎΠΉ Π·Π°Π΄Π°Ρ‡ΠΈ ΠΏΠΎ ΠΏΠΎΠΈΡΠΊΡƒ событий, Π²Ρ‹Π·Π²Π°Π²ΡˆΠΈΡ… измСнСния Π² Π΄ΠΈΠ½Π°ΠΌΠΈΠΊΠ΅ систСм.

Π˜Ρ‚Π°ΠΊ, имССтся Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ… ΠΎ Ρ†Π΅Π½Π°Ρ… Π½Π° Ρ†Π΅Π½Π½Ρ‹Π΅ Π±ΡƒΠΌΠ°Π³ΠΈ ΠΈ ΠΎ ΠΊΠΎΡ€ΠΏΠΎΡ€Π°Ρ‚ΠΈΠ²Π½Ρ‹Ρ… событиях (Ρ‚Π°ΠΊΠΈΡ… ΠΊΠ°ΠΊ Π²Ρ‹ΠΏΠ»Π°Ρ‚Π° Π΄ΠΈΠ²ΠΈΠ΄Π΅Π½Π΄ΠΎΠ², измСнСния Ρ€Π΅ΠΉΡ‚ΠΈΠ½Π³Π° ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΉ, собраниях Π°ΠΊΡ†ΠΈΠΎΠ½Π΅Ρ€ΠΎΠ²) ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ хранятся Π² Π±Π°Π·Π΅ Π΄Π°Π½Π½Ρ‹Ρ… MS SQL Server.

Π—Π°Π΄Π°Ρ‡Π° дСлится Π½Π° Ρ‚Ρ€ΠΈ части:

1) Π˜Π·Π²Π»Π΅Ρ‡ΡŒ ΠΈΠ· ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΎ Ρ†Π΅Π½Π°Ρ… Π΄Π°Π½Π½Ρ‹Π΅ ΠΎ Ρ‚ΠΎΠΌ, для ΠΊΠ°ΠΊΠΈΡ… Ρ†Π΅Π½Π½Ρ‹Ρ… Π±ΡƒΠΌΠ°Π³ ΠΊΠΎΠ³Π΄Π° наблюдалось ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π² Ρ‚Ρ€Π΅Π½Π΄Π΅ Π² Ρ†Π΅Π½Π΅ (Ссли Ρ†Π΅Π½Π° Π½Π° Π±ΡƒΠΌΠ°Π³Ρƒ росла Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ врСмя, Ρ‚ΠΎ Π² ΠΊΠ°ΠΊΠΎΠΉ ΠΌΠΎΠΌΠ΅Π½Ρ‚ ΠΎΠ½Π° Π½Π°Ρ‡Π°Π»Π° ΡΠ½ΠΈΠΆΠ°Ρ‚ΡŒΡΡ ΠΈΠ»ΠΈ стала Π½Π΅ΠΈΠ·ΠΌΠ΅Π½Π½ΠΎΠΉ).

2) Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ систСму, которая смоТСт ΠΎΠ±ΡƒΡ‡ΠΈΡ‚ΡŒΡΡ Π½Π° ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΎ ΠΏΡ€Π΅Π΄ΡˆΠ΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΡ… событиях ΠΈ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΡΡ… Π² Ρ‚Ρ€Π΅Π½Π΄Π°Ρ…

3) ПослС обучСния систСма ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ² Π½Π° Π²Ρ…ΠΎΠ΄ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ ΠΎ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΈ Π² Π΄ΠΈΠ½Π°ΠΌΠΈΠΊΠ΅ Ρ†Π΅Π½Ρ‹ ΠΊΠ°ΠΊΠΎΠΉ-Π»ΠΈΠ±ΠΎ Ρ†Π΅Π½Π½ΠΎΠΉ Π±ΡƒΠΌΠ°Π³ΠΈ Π΄ΠΎΠ»ΠΆΠ½Π° Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΡ€Π΅Π΄ΠΎΡΡ‚Π°Π²Π»ΡΡ‚ΡŒ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ ΠΎ Ρ‚ΠΎΠΌ, ΠΊΠ°ΠΊΠΎΠ΅ событиС Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ вСроятно Π²Ρ‹Π·Π²Π°Π»ΠΎ Π΄Π°Π½Π½ΠΎΠ΅ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ (ΠΊΠ°ΠΊΠΈΠΌΠΈ характСристиками Π΄ΠΎΠ»ΠΆΠ½ΠΎ ΠΎΠ±Π»Π°Π΄Π°Ρ‚ΡŒ Ρ‚Π°ΠΊΠΎΠ΅ событиС).

Π‘ ΡƒΡ‡Π΅Ρ‚ΠΎΠΌ этого описания ΠΈ Π°Π½Π°Π»ΠΈΠ·Π° ΠΈΠΌΠ΅ΡŽΡ‰Π΅ΠΉΡΡ Π»ΠΈΡ‚Π΅Ρ€Π°Ρ‚ΡƒΡ€Ρ‹ Π² Π΄Π°Π½Π½ΠΎΠΉ области ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΠΌ направлСния Ρ€Π°Π±ΠΎΡ‚Ρ‹:

1) Π Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠ° ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹, которая Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΡ€Π΅ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Ρ‹Π²Π°Ρ‚ΡŒ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ ΠΎ Ρ†Π΅Π½Π°Ρ… Π½Π° Ρ†Π΅Π½Π½Ρ‹Π΅ Π±ΡƒΠΌΠ°Π³ΠΈ Π² ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ ΠΎΠ± ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΡΡ… Π² Ρ‚Ρ€Π΅Π½Π΄Π°Ρ… Ρ†Π΅Π½ Π½Π° Ρ†Π΅Π½Π½Ρ‹Π΅ Π±ΡƒΠΌΠ°Π³ΠΈ.

2) РассмотрСниС Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² машинного обучСния, Π²Ρ‹Π±ΠΎΡ€ Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ подходящСго Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° машинного обучСния с Ρ‚ΠΎΡ‡ΠΊΠΈ зрСния Π΅Π³ΠΎ матСматичСской ΠΌΠΎΠ΄Π΅Π»ΠΈ

3) РСализация Π²Ρ‹Π±Ρ€Π°Π½Π½Ρ‹Ρ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² Π² ΠΊΠΎΠ΄Π΅

4) ΠŸΡ€ΠΎΠ²Π΅Ρ€ΠΊΠ° Ρ€Π°Π±ΠΎΡ‚Ρ‹ систСмы Π½Π° Ρ‚Сстовых Π΄Π°Π½Π½Ρ‹Ρ… БистСма Π΄ΠΎΠ»ΠΆΠ½Π° Π±Ρ‹Ρ‚ΡŒ способна ΠΊ ΠΌΠ°ΡΡˆΡ‚абируСмости, Π° Π΅Π΅ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° Π΄ΠΎΠ»ΠΆΠ½Π° Π±Ρ‹Ρ‚ΡŒ Π»Π΅Π³ΠΊΠΎ измСняСмой. Π›Π΅Π³Ρ‡Π΅ всСго этого Π΄ΠΎΠ±ΠΈΡ‚ΡŒΡΡ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽ Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΡƒ scikit-learn, которая прСдоставляСт большоС количСство Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… ΠΌΠΎΠ΄ΡƒΠ»Π΅ΠΉ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠΎΠΆΠ½ΠΎ Π»Π΅Π³ΠΊΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Π² Π΄Ρ€ΡƒΠ³ΠΈΡ… систСмах.

1. ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ машинного обучСния ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ машинного обучСния

Π—Π°Π΄Π°Ρ‡Ρƒ, ΡΡ‚ΠΎΡΡ‰ΡƒΡŽ ΠΏΠ΅Ρ€Π΅Π΄ Π½Π°ΠΌΠΈ, ΠΌΠΎΠΆΠ½ΠΎ отнСсти ΠΊ Π·Π°Π΄Π°Ρ‡Π΅ классификации, Π³Π΄Π΅ Π² ΠΎΡ‚Π²Π΅Ρ‚ Π½Π° Π½Π°Π±ΠΎΡ€ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² (страна, Ρ‚ΠΈΠΏ Π±ΡƒΠΌΠ°Π³, Ρ‚ΠΈΠΏ измСнСния Π² Π΄ΠΈΠ½Π°ΠΌΠΈΠΊΠ΅) систСма Π΄ΠΎΠ»ΠΆΠ½Π° Π²ΠΎΠ·Π²Ρ€Π°Ρ‰Π°Ρ‚ΡŒ нСсколько ΠΌΠ΅Ρ‚ΠΎΠΊ классов, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΎΠΏΠΈΡΡ‹Π²Π°ΡŽΡ‚ событиС, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π²Ρ‹Π·Π²Π°Π»ΠΎ Π΄Π°Π½Π½ΠΎΠ΅ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π² Π΄ΠΈΠ½Π°ΠΌΠΈΠΊΠ΅. НиТС проводится информация ΠΎ Π·Π°Π΄Π°Ρ‡Π΅ классификации ΠΈ Π΅Π΅ ΠΏΠΎΠ΄Π²ΠΈΠ΄Π°Ρ….

1.1 Π—Π°Π΄Π°Ρ‡Π° классификации

Π—Π°Π΄Π°Ρ‡Π° классификации — формализованная Π·Π°Π΄Π°Ρ‡Π°, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ имССтся мноТСство ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² (ситуаций), Ρ€Π°Π·Π΄Π΅Π»Ρ‘Π½Π½Ρ‹Ρ… Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ Π½Π° ΠΊΠ»Π°ΡΡΡ‹. Π—Π°Π΄Π°Π½ΠΎ ΠΊΠΎΠ½Π΅Ρ‡Π½ΠΎΠ΅ мноТСство ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², для ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… извСстно, ΠΊ ΠΊΠ°ΠΊΠΈΠΌ классам ΠΎΠ½ΠΈ относятся. Π­Ρ‚ΠΎ мноТСство называСтся Π²Ρ‹Π±ΠΎΡ€ΠΊΠΎΠΉ. Классовая ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ½ΠΎΡΡ‚ΡŒ ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Ρ… ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² нСизвСстна. ВрСбуСтся ΠΏΠΎΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ, способный ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ (см. Π½ΠΈΠΆΠ΅) ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ ΠΈΠ· ΠΈΡΡ…ΠΎΠ΄Π½ΠΎΠ³ΠΎ мноТСства.

ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ — Π·Π½Π°Ρ‡ΠΈΡ‚, ΡƒΠΊΠ°Π·Π°Ρ‚ΡŒ Π½ΠΎΠΌΠ΅Ρ€ (ΠΈΠ»ΠΈ Π½Π°ΠΈΠΌΠ΅Π½ΠΎΠ²Π°Π½ΠΈΠ΅) класса, ΠΊ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌΡƒ относится Π΄Π°Π½Π½Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚.

ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΡ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° — Π½ΠΎΠΌΠ΅Ρ€ ΠΈΠ»ΠΈ Π½Π°ΠΈΠΌΠ΅Π½ΠΎΠ²Π°Π½ΠΈΠ΅ класса, Π²Ρ‹Π΄Π°Π²Π°Π΅ΠΌΡ‹ΠΉ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠΌ классификации Π² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ Π΅Π³ΠΎ примСнСния ΠΊ Π΄Π°Π½Π½ΠΎΠΌΡƒ ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΠΎΠΌΡƒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρƒ.

Π’ ΠΌΠ°ΡˆΠΈΠ½Π½ΠΎΠΌ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ Π·Π°Π΄Π°Ρ‡Π° классификации Ρ€Π΅ΡˆΠ°Π΅Ρ‚ΡΡ, ΠΊΠ°ΠΊ ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ, с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² искусствСнных Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Ρ… сСтСй ΠΏΡ€ΠΈ постановкС экспСримСнта Π² Π²ΠΈΠ΄Π΅ обучСния с ΡƒΡ‡ΠΈΡ‚Π΅Π»Π΅ΠΌ.

ΠœΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΡ‡Π΅ΡΠΊΠΈ Π΄Π°Π½Π½ΡƒΡŽ Π·Π°Π΄Π°Ρ‡Ρƒ ΠΌΠΎΠΆΠ½ΠΎ ΠΎΠΏΠΈΡΠ°Ρ‚ΡŒ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ:

ΠŸΡƒΡΡ‚ΡŒ — мноТСство описаний ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², — мноТСство Π½ΠΎΠΌΠ΅Ρ€ΠΎΠ² (ΠΈΠ»ΠΈ Π½Π°ΠΈΠΌΠ΅Π½ΠΎΠ²Π°Π½ΠΈΠΉ) классов. БущСствуСт нСизвСстная цСлСвая Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΡŒ — ΠΎΡ‚ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅, значСния ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ извСстны Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π½Π° ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°Ρ… ΠΊΠΎΠ½Π΅Ρ‡Π½ΠΎΠΉ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ. ВрСбуСтся ΠΏΠΎΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ, способный ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ .

Π‘ΠΎΠ»Π΅Π΅ ΠΎΠ±Ρ‰Π΅ΠΉ считаСтся вСроятностная постановка Π·Π°Π΄Π°Ρ‡ΠΈ. ΠŸΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°Π΅Ρ‚ΡΡ, Ρ‡Ρ‚ΠΎ мноТСство ΠΏΠ°Ρ€ «ΠΎΠ±ΡŠΠ΅ΠΊΡ‚, класс» являСтся вСроятностным пространством с Π½Π΅ΠΈΠ·Π²Π΅ΡΡ‚Π½ΠΎΠΉ вСроятностной ΠΌΠ΅Ρ€ΠΎΠΉ. Π˜ΠΌΠ΅Π΅Ρ‚ΡΡ конСчная ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° наблюдСний, сгСнСрированная согласно вСроятностной ΠΌΠ΅Ρ€Π΅. ВрСбуСтся ΠΏΠΎΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ, способный ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ .

ΠŸΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠΌ называСтся ΠΎΡ‚ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅, Π³Π΄Π΅ — мноТСство допустимых Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°. Если Π·Π°Π΄Π°Π½Ρ‹ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ, Ρ‚ΠΎ Π²Π΅ΠΊΡ‚ΠΎΡ€ называСтся ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²Ρ‹ΠΌ описаниСм ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°. ΠŸΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²Ρ‹Π΅ описания допустимо ΠΎΡ‚ΠΎΠΆΠ΄Π΅ΡΡ‚Π²Π»ΡΡ‚ΡŒ с ΡΠ°ΠΌΠΈΠΌΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ. ΠŸΡ€ΠΈ этом мноТСство Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²Ρ‹ΠΌ пространством.

Π’ Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ ΠΎΡ‚ ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²Π° ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ дСлятся Π½Π° ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠ΅ Ρ‚ΠΈΠΏΡ‹:

1. Π‘ΠΈΠ½Π°Ρ€Π½Ρ‹ΠΉ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊ:

2. ΠΠΎΠΌΠΈΠ½Π°Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊ: — ΠΊΠΎΠ½Π΅Ρ‡Π½ΠΎΠ΅ мноТСство

3. ΠŸΠΎΡ€ΡΠ΄ΠΊΠΎΠ²Ρ‹ΠΉ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊ: — ΠΊΠΎΠ½Π΅Ρ‡Π½ΠΎΠ΅ упорядочСнноС мноТСство

4. ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²Π΅Π½Π½Ρ‹ΠΉ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊ: — мноТСство Π΄Π΅ΠΉΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… чисСл Часто Π²ΡΡ‚Ρ€Π΅Ρ‡Π°ΡŽΡ‚ΡΡ ΠΏΡ€ΠΈΠΊΠ»Π°Π΄Π½Ρ‹Π΅ Π·Π°Π΄Π°Ρ‡ΠΈ с Ρ€Π°Π·Π½ΠΎΡ‚ΠΈΠΏΠ½Ρ‹ΠΌΠΈ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°ΠΌΠΈ, для ΠΈΡ… Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ походят Π΄Π°Π»Π΅ΠΊΠΎ Π½Π΅ Π²ΡΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹.

ΠšΠ»Π°ΡΡΠΈΡ‡Π΅ΡΠΊΠΎΠΉ Π·Π°Π΄Π°Ρ‡Π΅ΠΉ классификации считаСтся двухклассовая классификация, Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ Π·Π°Π΄Π°Ρ‡Π° опрСдСлСния ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ Π»ΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ лишь ΠΎΠ΄Π½ΠΎΠΌΡƒ ΠΈΠ· Π΄Π²ΡƒΡ… классов, которая слуТит основой для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Π±ΠΎΠ»Π΅Π΅ слоТных Π·Π°Π΄Π°Ρ‡.

1.2 Multiclass классификация

Multiclass classification (многоклассовая классификация) — частный случай Π·Π°Π΄Π°Ρ‡ΠΈ классификации ΠΏΡ€ΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ трСбуСтся ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ Π² Π±ΠΎΠ»Π΅Π΅ Ρ‡Π΅ΠΌ ΠΎΠ΄ΠΈΠ½ ΠΈΠ· Π΄Π²ΡƒΡ… классов. Когда число классов достигаСт ΠΌΠ½ΠΎΠ³ΠΈΡ… тысяч Π·Π°Π΄Π°Ρ‡Π° сущСствСнно вырастаСт Π² ΡΠ»ΠΎΠΆΠ½ΠΎΡΡ‚ΠΈ.

Π’ Ρ‚ΠΎ Π²Ρ€Π΅ΠΌΡ ΠΊΠ°ΠΊ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ классификации ΠΏΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΡŽ Π΄ΠΎΠΏΡƒΡΠΊΠ°ΡŽΡ‚ использования Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… классов Π΄Ρ€ΡƒΠ³ΠΈΠ΅ ΠΌΠΎΠ³ΡƒΡ‚ Π½Π΅ ΠΈΠΌΠ΅Ρ‚ΡŒ Ρ‚Π°ΠΊΠΎΠΉ возмоТности, Π² Ρ‚ΠΎ ΠΆΠ΅ врСмя ΠΎΠ½ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Π½Ρ‹ Π² Π·Π°Π΄Π°Ρ‡Π°Ρ… многоклассовой классификации с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… стратСгий. ΠšΠ»Π°ΡΡΠΈΡ‡Π΅ΡΠΊΠΎΠΉ считаСтся стратСгия One-vs.-rest (ΠΎΠ΄ΠΈΠ½-ΠΏΡ€ΠΎΡ‚ΠΈΠ²-всСх, OvA ΠΈΠ»ΠΈ OvR).

1.2.1 БтратСгия One-vs.-rest

БтратСгия One-vs.-rest Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ Π² ΡΠ΅Π±Ρ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΡƒ ΠΎΠ΄Π½ΠΎΠ³ΠΎ классификатора для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ класса, ΠΏΡ€ΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ ΠΌΡ‹ ΡΡ‡ΠΈΡ‚Π°Π΅ΠΌ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρ‹ с Π½ΡƒΠΆΠ½Ρ‹ΠΌ классом ΠΏΠΎΠ·ΠΈΡ‚ΠΈΠ²Π½Ρ‹ΠΌΠΈ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π°ΠΌΠΈ, Π° Π²ΡΠ΅ ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρ‹ — Π½Π΅Π³Π°Ρ‚ΠΈΠ²Π½Ρ‹ΠΌΠΈ. БтратСгия Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π±Π°Π·ΠΎΠ²Ρ‹Π΅ классификаторы Π²ΠΎΠ·Π²Ρ€Π°Ρ‰Π°Π»ΠΈ ΠΌΠ΅Ρ€Ρƒ увСрСнности (confidence score) своСго Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ, Π° Π½Π΅ ΠΏΡ€ΠΎΡΡ‚ΠΎ ΠΌΠ΅Ρ‚ΠΊΡƒ класса. ДискрСтныС ΠΌΠ΅Ρ‚ΠΊΠΈ класса ΠΌΠΎΠ³ΡƒΡ‚ привСсти ΠΊ Π΄Π²ΡƒΡΠΌΡ‹ΡΠ»Π΅Π½Π½ΠΎΡΡ‚ΠΈ, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ нСсколько классов ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ прСдсказаны для ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π°.

ΠŸΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎΠ΅ описаниС Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° для стратСгии OvA, которая ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Π±ΠΈΠ½Π°Ρ€Π½Ρ‹ΠΉ классификатор L ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»Π΅Π½ΠΎ Π½ΠΈΠΆΠ΅:

Π’Ρ…ΠΎΠ΄:

Β· L, Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ обучСния для Π±ΠΈΠ½Π°Ρ€Π½ΠΎΠ³ΠΎ классификатора

Β· ΠŸΡ€ΠΈΠΌΠ΅Ρ€Ρ‹

Β· ΠœΠ΅Ρ‚ΠΊΠΈ Π³Π΄Π΅ являСтся ΠΌΠ΅Ρ‚ΠΊΠΎΠΉ для ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π°

Π’Ρ‹Ρ…ΠΎΠ΄:

Β· Набор ΠΎΠ±ΡƒΡ‡Π΅Π½Π½Ρ‹Ρ… классификаторов для

ΠŸΡ€ΠΎΡ†Π΅ΡΡ:

Β· Для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΈΠ·

o Π‘ΠΎΠ·Π΄Π°Ρ‚ΡŒ Π½ΠΎΠ²Ρ‹ΠΉ Π²Π΅ΠΊΡ‚ΠΎΡ€ ΠΌΠ΅Ρ‚ΠΎΠΊ Π³Π΄Π΅, 0 — Π² ΠΏΡ€ΠΎΡ‚ΠΈΠ²Π½ΠΎΠΌ случаС

o ΠŸΡ€ΠΈΠΌΠ΅Π½ΠΈΡ‚ΡŒ ΠΊ Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ

Для принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΡ‚ΡŒ всС классификаторы ΠΊ Π½ΠΎΠ²ΠΎΠΌΡƒ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρƒ ΠΈ Π½Π°Π·Π½Π°Ρ‡ΠΈΡ‚ΡŒ Π΅ΠΌΡƒ ΠΌΠ΅Ρ‚ΠΊΡƒ для ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠΉ классификатор дСмонстрируСт Π½Π°ΠΈΠ±ΠΎΠ»ΡŒΡˆΡƒΡŽ ΠΌΠ΅Ρ€Ρƒ увСрСнности:

Данная стратСгия являСтся Ρ‡Ρ€Π΅Π·Π²Ρ‹Ρ‡Π°ΠΉΠ½ΠΎ популярной, Π½ΠΎ Π²ΠΎ ΠΌΠ½ΠΎΠ³ΠΎΠΌ являСтся эвристикой, которая страдаСт ΠΎΡ‚ Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌ. Π’ΠΎ-ΠΏΠ΅Ρ€Π²Ρ‹Ρ…, ΠΌΠ°ΡΡˆΡ‚Π°Π± ΠΌΠ΅Ρ€Ρ‹ увСрСнности ΠΌΠΎΠΆΠ΅Ρ‚ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΡ‚Π»ΠΈΡ‡Π°Ρ‚ΡŒΡΡ ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹ΠΌΠΈ Π±ΠΈΠ½Π°Ρ€Π½Ρ‹ΠΌΠΈ классификаторами. Π’ΠΎ-Π²Ρ‚ΠΎΡ€Ρ‹Ρ…, Π΄Π°ΠΆΠ΅ Ссли распрСдСлСниС Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… классов сбалансированно Π²ΠΎ Π²ΡΠ΅ΠΌ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½ΠΎΠΌ Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ…, Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ обучСния Π±ΠΈΠ½Π°Ρ€Π½Ρ‹Ρ… классификаторов Π½Π°Π±Π»ΡŽΠ΄Π°ΡŽΡ‚ нСсбалансированноС распрСдСлСниС, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ, ΠΊΠ°ΠΊ ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ, количСство ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² Π½Π°ΠΌΠ½ΠΎΠ³ΠΎ ΠΏΡ€Π΅Π²Ρ‹ΡˆΠ°Π΅Ρ‚ количСство ΠΏΠΎΠ·ΠΈΡ‚ΠΈΠ²Π½Ρ‹Ρ… ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ². Π’ ΠΏΡ€ΠΎΡ†Π΅ΡΡΠ΅ изучСния Π΄Π°Π½Π½ΠΎΠ³ΠΎ класса Π·Π°Π΄Π°Ρ‡ Π±Ρ‹Π»ΠΈ созданы ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Π·Π°Π΄Π°Ρ‡ΠΈ Multi-label классификации, Ρ€Π΅Ρ‡ΡŒ ΠΎ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΠΎΠΉΠ΄Π΅Ρ‚ Π½ΠΈΠΆΠ΅.

1.3 Multi-label классификация

Multi-label классификация (ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½Ρ‹ΠΉ ΠΏΠ΅Ρ€Π΅Π²ΠΎΠ΄ — «ΠΌΠ½ΠΎΠ³ΠΎΡ‚Смная классификация») — ΠΎΠ΄ΠΈΠ½ ΠΈΠ· Π²ΠΈΠ΄ΠΎΠ² Π·Π°Π΄Π°Ρ‡ классификации, Π³Π΄Π΅ ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρƒ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΏΡ€ΠΈΡΠ²ΠΎΠΈΡ‚ΡŒ сразу нСсколько ΠΌΠ΅Ρ‚ΠΎΠΊ принадлСТности ΠΊ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠΌΡƒ классу. Π€ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎ Π·Π°Π΄Π°Ρ‡Π° ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ описана ΠΊΠ°ΠΊ Π½Π°Ρ…ΠΎΠΆΠ΄Π΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ, которая Π±ΡƒΠ΄Π΅Ρ‚ ΡΡ‚Π°Π²ΠΈΡ‚ΡŒ Π² ΡΠΎΠΎΡ‚вСтствиС Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρ‹ Π±ΠΈΠ½Π°Ρ€Π½Ρ‹ΠΌ Π²Π΅ΠΊΡ‚ΠΎΡ€Π°ΠΌ, Π° Π½Π΅ ΡΠΊΠ°Π»ΡΡ€Π½Ρ‹ΠΌ значСниям, ΠΊΠ°ΠΊ Π² ΠΊΠ»Π°ΡΡΠΈΡ‡Π΅ΡΠΊΠΎΠΉ Π·Π°Π΄Π°Ρ‡Π΅ классификации.

БущСствуСт Π΄Π²Π° основных ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Π° для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Π΄Π°Π½Π½ΠΎΠΉ Π·Π°Π΄Π°Ρ‡ΠΈ — ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ трансформации ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ ΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π°Π΄Π°ΠΏΡ‚Π°Ρ†ΠΈΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ². ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ трансформации ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ ΠΏΡ€Π΅ΠΎΠ±Ρ€Π°Π·ΡƒΡŽΡ‚ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡƒ ΠΊ Π½Π°Π±ΠΎΡ€Ρƒ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌ Π±ΠΈΠ½Π°Ρ€Π½ΠΎΠΉ классификации, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ Ρ€Π΅ΡˆΠ΅Π½Ρ‹ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ классификаторов, способных Ρ€Π΅ΡˆΠ°Ρ‚ΡŒ Π±ΠΈΠ½Π°Ρ€Π½Ρ‹Π΅ Π·Π°Π΄Π°Ρ‡ΠΈ классификации. ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π°Π΄Π°ΠΏΡ‚Π°Ρ†ΠΈΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ², Π² ΡΠ²ΠΎΡŽ ΠΎΡ‡Π΅Ρ€Π΅Π΄ΡŒ, ΠΌΠΎΠ΄ΠΈΡ„ΠΈΡ†ΠΈΡ€ΡƒΡŽΡ‚ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ классификации Ρ‚Π°ΠΊ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΎΠ½ΠΈ ΠΌΠΎΠ³Π»ΠΈ Π½Π°ΠΏΡ€ΡΠΌΡƒΡŽ Ρ€Π΅ΡˆΠ°Ρ‚ΡŒ Π·Π°Π΄Π°Ρ‡Ρƒ multi-label классификации. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, вмСсто Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡƒΠΏΡ€ΠΎΡ‰Π°Ρ‚ΡŒ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡƒ ΠΎΠ½ΠΈ ΠΏΡ‹Ρ‚Π°ΡŽΡ‚ΡΡ нСпосрСдствСнно Ρ€Π΅ΡˆΠ°Ρ‚ΡŒ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡƒ multi-label классификации.

Π’ ΠΎΠ±Π»Π°ΡΡ‚ΠΈ machine learning классичСскими ΡΡ‡ΠΈΡ‚Π°ΡŽΡ‚ΡΡ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ трансформации ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π΄Π΅ΠΌΠΎΠ½ΡΡ‚Ρ€ΠΈΡ€ΡƒΡŽΡ‚ Π½Π°ΠΈΠ»ΡƒΡ‡ΡˆΠ΅Π΅ качСство прСдсказаний. Π‘Ρ€Π΅Π΄ΠΈ Π½ΠΈΡ… самым распространСнным ΠΈ ΠΏΠΎΠΏΡƒΠ»ΡΡ€Π½Ρ‹ΠΌ считаСтся ΠΌΠ΅Ρ‚ΠΎΠ΄ Π΄Π²ΠΎΠΈΡ‡Π½Ρ‹Ρ… ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠΉ (binary relevance method). Π”Π°Π½Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°Π΅Ρ‚ созданиС ΠΈ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡ ΠΎΠ΄Π½ΠΎΠ³ΠΎ Π±ΠΈΠ½Π°Ρ€Π½ΠΎΠ³ΠΎ классификатора для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΠΉ ΠΌΠ΅Ρ‚ΠΊΠΈ. Π”Π°Π»Π΅Π΅, ΠΊΠΎΠ³Π΄Π° ΠΌΠΎΠ΄Π΅Π»ΠΈ подаСтся Π½ΠΎΠ²Ρ‹ΠΉ ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΠΎΠ½Π° присваиваСт Π΄Π°Π½Π½ΠΎΠΌΡƒ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρƒ всС ΠΌΠ΅Ρ‚ΠΊΠΈ для ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ классификаторы Π΄Π°Π»ΠΈ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ ΠΎΡ‚Π²Π΅Ρ‚. ΠœΠ΅Ρ‚ΠΎΠ΄ прСвращСния Π·Π°Π΄Π°Ρ‡ΠΈ Π² Π½Π°Π±ΠΎΡ€ Π±ΠΈΠ½Π°Ρ€Π½Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡ классификации ΠΈΠΌΠ΅Π΅Ρ‚ ΠΌΠ½ΠΎΠ³ΠΎ ΠΎΠ±Ρ‰Π΅Π³ΠΎ с ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠΌ one-vs.-all ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΊΠ»Π°ΡΡΠΎΠ²ΠΎΠΉ классификации. Π’Π΅ΠΌ Π½Π΅ ΠΌΠ΅Π½Π΅Π΅, Π½Π°Π΄ΠΎ ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°Ρ‚ΡŒ Ρ‡Ρ‚ΠΎ это Π½Π΅ ΠΈΠ΄Π΅Π°Π»ΡŒΠ½ΠΎ Ρ‚ΠΎΡ‚ ΠΆΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄ — ΠΎΠ½ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΡƒΠ΅Ρ‚ ΠΎΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ классификатор для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΌΠ΅Ρ‚ΠΊΠΈ, Π½ΠΎ Π½Π΅ Π΄Π»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΠ³ΠΎ значСния этой ΠΌΠ΅Ρ‚ΠΊΠΈ.

ΠœΠ΅Ρ€ΠΎΠΉ «ΠΌΠ½ΠΎΠ³ΠΎΡ‚Смности» Π΄Π°Π½Π½ΠΎΠ³ΠΎ Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ… ΠΌΠΎΠΆΠ½ΠΎ ΠΎΡ†Π΅Π½ΠΈΡ‚ΡŒ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Π΄Π²ΡƒΡ… статистичСских Ρ„ΠΎΡ€ΠΌΡƒΠ»:

Β· ΠšΠ°Ρ€Π΄ΠΈΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΌΠ΅Ρ‚ΠΎΠΊ (label cardinality) — срСднСС количСство ΠΌΠ΅Ρ‚ΠΎΠΊ, присвоСнных ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρƒ Π² Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ…:

Β· ΠŸΠ»ΠΎΡ‚Π½ΠΎΡΡ‚ΡŒ ΠΌΠ΅Ρ‚ΠΎΠΊ — количСство ΠΌΠ΅Ρ‚ΠΎΠΊ Π½Π° ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ ΠΈΠ· Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ… Π΄Π΅Π»Π΅Π½Π½ΠΎΠ΅ Π½Π° ΠΎΠ±Ρ‰Π΅Π΅ количСство Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… ΠΌΠ΅Ρ‚ΠΎΠΊ, усрСднённоС ΠΏΠΎ Π²ΡΠ΅ΠΌ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π°ΠΌ:

Π³Π΄Π΅

ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ ΠΎΡ†Π΅Π½ΠΊΠΈ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ multi-label классификации Π² ΠΊΠΎΡ€Π½Π΅ ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‚ΡΡ ΠΎΡ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹Ρ… Π² ΠΌΠ½ΠΎΠ³ΠΎΠΊΠ»Π°ΡΡΠΎΠ²ΠΎΠΉ ΠΈΠ»ΠΈ Π±ΠΈΠ½Π°Ρ€Π½ΠΎΠΉ классификации, Π² ΡΠ²ΡΠ·ΠΈ с Π΅ΡΡ‚СствСнными отличиями Π΄Π°Π½Π½ΠΎΠΉ Π·Π°Π΄Π°Ρ‡ΠΈ классификации. Если — ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ ΠΌΠ΅Ρ‚ΠΎΠΊ для Π΄Π°Π½Π½ΠΎΠ³ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π°, Π° — Π½Π°Π±ΠΎΡ€ прСдсказанных ΠΌΠ΅Ρ‚ΠΎΠΊ, Ρ‚ΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠ΅ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ для Ρ‚Π°ΠΊΠΎΠ³ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π°:

Β· Hamming loss — доля ΠΎΡˆΠΈΠ±ΠΎΡ‡Π½Ρ‹Ρ… ΠΌΠ΅Ρ‚ΠΎΠΊ Π²ΠΎ Π²ΡΠ΅ΠΌ Π½Π°Π±ΠΎΡ€Π΅ ΠΌΠ΅Ρ‚ΠΎΠΊ. ЯвляСтся Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠ΅ΠΉ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ, ΠΏΠΎΡ‚ΠΎΠΌΡƒ Π΅Π΅ ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Ρ€Π°Π²Π½ΠΎ 0. ВСсно связанная с Π½Π΅ΠΉ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ° Hamming Score, Ρ‚Π°ΠΊΠΆΠ΅ имСнуСмая «Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ Π² ΠΌΠ½ΠΎΠ³ΠΎΡ‚Π΅ΠΌΠ½ΠΎΠΉ Π·Π°Π΄Π°Ρ‡Π΅» (accuracy in the multi-label setting), опрСдСляСтся ΠΊΠ°ΠΊ количСство ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹Ρ… ΠΌΠ΅Ρ‚ΠΎΠΊ Π΄Π΅Π»Π΅Π½Π½ΠΎΠ΅ Π½Π° ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½Π΅Π½ΠΈΠ΅ прСдсказанных ΠΈ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹Ρ… ΠΌΠ΅Ρ‚ΠΎΠΊ:

Β· Precision, recall ΠΈ F1-ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ° (F1-score). Precision (Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ) Ρ€Π°Π²Π½Π° Π΄ΠΎΠ»Π΅ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ прСдсказанных ΠΌΠ΅Ρ‚ΠΎΠΊ ΠΎΡ‚ ΠΎΠ±Ρ‰Π΅Π³ΠΎ количСства прСдсказанных ΠΌΠ΅Ρ‚ΠΎΠΊ —. Recall (ΠΏΠΎΠ»Π½ΠΎΡ‚Π°) Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€ΠΈΠ·ΡƒΠ΅Ρ‚ всС Π»ΠΈ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹Π΅ ΠΎΡ‚Π²Π΅Ρ‚Ρ‹ Π²Π΅Ρ€Π½ΡƒΠ» классификатор, Ρ€Π°Π²Π½Π° Π΄ΠΎΠ»Π΅ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ прСдсказанных ΠΌΠ΅Ρ‚ΠΎΠΊ ΠΎΡ‚ ΠΎΠ±Ρ‰Π΅Π³ΠΎ количСства ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹Ρ… ΠΌΠ΅Ρ‚ΠΎΠΊ —. ΠœΠ΅Ρ‚Ρ€ΠΈΠΊΠ° F1 — фактичСски являСтся гармоничСским срСдним ΠΎΡ‚ Precision ΠΈ Recall,

Β· ΠœΠ΅Ρ‚Ρ€ΠΈΠΊΠ° Ρ‚ΠΎΡ‡Π½ΠΎΠ³ΠΎ соотвСтствия (Exact Match Metric). Бамая строгая ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ°, прСдставляСт собой долю ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² для ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… классификатор смог Π²Π΅Ρ€Π½ΠΎ ΡƒΠΊΠ°Π·Π°Ρ‚ΡŒ всС ΠΌΠ΅Ρ‚ΠΊΠΈ.

Π’Ρ‹Π²ΠΎΠ΄Ρ‹

Буммируя всС Π²Ρ‹ΡˆΠ΅ΡΠΊΠ°Π·Π°Π½Π½ΠΎΠ΅ ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ ΡƒΠΊΠ°Π·Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ Π·Π°Π΄Π°Ρ‡Π°, которая стоит ΠΏΠ΅Ρ€Π΅Π΄ Π½Π°ΠΌΠΈ являСтся Π³ΠΈΠ±Ρ€ΠΈΠ΄ΠΎΠΌ multi-label ΠΈ multiclass классификации. Для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π° Π½Π°ΠΌ трСбуСтся ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Ρ‹Π²Π°Ρ‚ΡŒ ΠΎΠ΄Π½Ρƒ ΠΈΠ»ΠΈ нСсколько ΠΌΠ΅Ρ‚ΠΎΠΊ (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, страна, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΡ€ΠΎΠΈΠ·ΠΎΡˆΠ»ΠΎ событиС, ΠΈΠ»ΠΈ индустрия, с ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ связано ΠΏΡ€ΠΎΠΈΠ·ΠΎΡˆΠ΅Π΄ΡˆΠ΅Π΅ событиС), ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΌΠ΅Ρ‚ΠΊΠ΅ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ присвоСно нСсколько Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ. ΠŸΠΎΠ΄ΠΎΠ±Π½Ρ‹Π΅ Π·Π°Π΄Π°Ρ‡ΠΈ ΠΈΠΌΠ΅ΡŽΡ‚ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ multi-task классификация ΠΈΠ»ΠΈ multiclass — multi-output классификация. Π—Π°Π΄Π°Ρ‡ΠΈ, ΠΏΠΎΠ΄ΠΎΠ±Π½Ρ‹Π΅ этой ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΡƒΡΠΏΠ΅ΡˆΠ½ΠΎ Ρ€Π΅ΡˆΠ°ΡŽΡ‚ΡΡ Π² Ρ‚Π°ΠΊΠΎΠΉ области ΠΊΠ°ΠΊ Document classification (классификация Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²), Ρ‡Ρ‚ΠΎ позволяСт ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ Π΅Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ ΡƒΡΠΏΠ΅ΡˆΠ½ΠΎ Π°Π΄Π°ΠΏΡ‚ΠΈΡ€ΠΎΠ²Π°Π½Ρ‹ для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ стоящСй ΠΏΠ΅Ρ€Π΅Π΄ Π½Π°ΠΌΠΈ Π·Π°Π΄Π°Ρ‡ΠΈ. Рассмотрим Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ примСняСмыС Π² Ρ€Π°ΠΌΠΊΠ°Ρ… классификации Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², Π° Ρ‚Π°ΠΊΠΆΠ΅ примСняСмыС Π² ΡΡ‚ΠΎΠΉ области классификаторы.

2. ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹, Ρ€Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π½Ρ‹Π΅ Π² ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ½ΠΎΠΉ систСмС

2.1 TF-IDF

TF-IDF (TF — term frequency, IDF — inverse document frequency) — статистичСская ΠΌΠ΅Ρ€Π°, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΠ°Ρ для ΠΎΡ†Π΅Π½ΠΊΠΈ ваТности слова Π² ΠΊΠΎΠ½Ρ‚СкстС Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°, ΡΠ²Π»ΡΡŽΡ‰Π΅Π³ΠΎΡΡ Ρ‡Π°ΡΡ‚ΡŒΡŽ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΈΠ»ΠΈ корпуса. ВСс Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ слова ΠΏΡ€ΠΎΠΏΠΎΡ€Ρ†ΠΈΠΎΠ½Π°Π»Π΅Π½ количСству употрСблСния этого слова Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅, ΠΈ ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎ ΠΏΡ€ΠΎΠΏΠΎΡ€Ρ†ΠΈΠΎΠ½Π°Π»Π΅Π½ частотС употрСблСния слова Π² Π΄Ρ€ΡƒΠ³ΠΈΡ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ… ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ.

ΠœΠ΅Ρ€Π° TF-IDF часто ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Π² Π·Π°Π΄Π°Ρ‡Π°Ρ… Π°Π½Π°Π»ΠΈΠ·Π° тСкстов ΠΈ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ поиска, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΠΊΠ°ΠΊ ΠΎΠ΄ΠΈΠ½ ΠΈΠ· ΠΊΡ€ΠΈΡ‚Π΅Ρ€ΠΈΠ΅Π² рСлСвантности Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° поисковому запросу, ΠΏΡ€ΠΈ расчётС ΠΌΠ΅Ρ€Ρ‹ близости Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΏΡ€ΠΈ кластСризации.

TF (term frequency — частота слова) — ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ числа вхоТдСния Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ слова ΠΊ ΠΎΠ±Ρ‰Π΅ΠΌΡƒ количСству слов Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, оцСниваСтся Π²Π°ΠΆΠ½ΠΎΡΡ‚ΡŒ слова Π² ΠΏΡ€Π΅Π΄Π΅Π»Π°Ρ… ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°.

Π³Π΄Π΅ Π΅ΡΡ‚ΡŒ число Π²Ρ…ΠΎΠΆΠ΄Π΅Π½ΠΈΠΉ слова Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚, Π° Π² Π·Π½Π°ΠΌΠ΅Π½Π°Ρ‚Π΅Π»Π΅ — ΠΎΠ±Ρ‰Π΅Π΅ число слов Π² Π΄Π°Π½Π½ΠΎΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅.

IDF (inverse document frequency — обратная частота Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°) — инвСрсия частоты, с ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ слово встрСчаСтся Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ… ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ. ОсновополоТником Π΄Π°Π½Π½ΠΎΠΉ ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ†ΠΈΠΈ являСтся ΠšΠ°Ρ€Π΅Π½ Π‘ΠΏΠ°Ρ€ΠΊ ДТонс. Π£Ρ‡Ρ‘Ρ‚ IDF ΡƒΠΌΠ΅Π½ΡŒΡˆΠ°Π΅Ρ‚ вСс ΡˆΠΈΡ€ΠΎΠΊΠΎΡƒΠΏΠΎΡ‚Ρ€Π΅Π±ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… слов. Для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΡƒΠ½ΠΈΠΊΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ слова Π² ΠΏΡ€Π΅Π΄Π΅Π»Π°Ρ… ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΠΎΠΉ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² сущСствуСт Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠ΄Π½ΠΎ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ IDF.

Π“Π΄Π΅:

Β· - количСство Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² Π² ΠΊΠΎΡ€ΠΏΡƒΡΠ΅

Β· - количСство Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², Π² ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… встрСчаСтся (ΠΊΠΎΠ³Π΄Π°

Π’Ρ‹Π±ΠΎΡ€ основания Π»ΠΎΠ³Π°Ρ€ΠΈΡ„ΠΌΠ° Π² Ρ„ΠΎΡ€ΠΌΡƒΠ»Π΅ Π½Π΅ ΠΈΠΌΠ΅Π΅Ρ‚ значСния, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ основания ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ ΠΊ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΡŽ вСса ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ слова Π½Π° ΠΏΠΎΡΡ‚оянный ΠΌΠ½ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒ, Ρ‡Ρ‚ΠΎ Π½Π΅ Π²Π»ΠΈΡΠ΅Ρ‚ Π½Π° ΡΠΎΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ вСсов.

Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, ΠΌΠ΅Ρ€Π° TF-IDF являСтся ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΈΠ΅ΠΌ Π΄Π²ΡƒΡ… сомноТитСлСй:

Π‘ΠΎΠ»ΡŒΡˆΠΎΠΉ вСс Π² TF-IDF ΠΏΠΎΠ»ΡƒΡ‡Π°Ρ‚ слова с Π²Ρ‹ΡΠΎΠΊΠΎΠΉ частотой Π² ΠΏΡ€Π΅Π΄Π΅Π»Π°Ρ… ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΠΎΠ³ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° ΠΈ Ρ Π½ΠΈΠ·ΠΊΠΎΠΉ частотой ΡƒΠΏΠΎΡ‚Ρ€Π΅Π±Π»Π΅Π½ΠΈΠΉ Π² Π΄Ρ€ΡƒΠ³ΠΈΡ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ…. ΠœΠ΅Ρ€Π° TF-IDF часто ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ для прСдставлСния Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ Π² Π²ΠΈΠ΄Π΅ числовых Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ², ΠΎΡ‚Ρ€Π°ΠΆΠ°ΡŽΡ‰ΠΈΡ… Π²Π°ΠΆΠ½ΠΎΡΡ‚ΡŒ использования ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ слова ΠΈΠ· Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ Π½Π°Π±ΠΎΡ€Π° слов (количСство слов Π½Π°Π±ΠΎΡ€Π° опрСдСляСт Ρ€Π°Π·ΠΌΠ΅Ρ€Π½ΠΎΡΡ‚ΡŒ Π²Π΅ΠΊΡ‚ΠΎΡ€Π°) Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅. Подобная модСль называСтся Π²Π΅ΠΊΡ‚ΠΎΡ€Π½ΠΎΠΉ модСлью (Vector space model) ΠΈ Π΄Π°Ρ‘Ρ‚ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ ΡΡ€Π°Π²Π½ΠΈΠ²Π°Ρ‚ΡŒ тСксты, сравнивая ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡŽΡ‰ΠΈΠ΅ ΠΈΡ… Π²Π΅ΠΊΡ‚ΠΎΡ€Π° Π² ΠΊΠ°ΠΊΠΎΠΉ Π»ΠΈΠ±ΠΎ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ΅ (Π΅Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²ΠΎ расстояниС, косинусная ΠΌΠ΅Ρ€Π°, манхэттСнскоС расстояниС, расстояниС Π§Π΅Π±Ρ‹ΡˆΡ‘Π²Π° ΠΈ Π΄Ρ€.), Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ производя кластСрный Π°Π½Π°Π»ΠΈΠ·.

Π’ ΠΊΠΎΠ½Ρ‚СкстС рассматриваСмой Π² Π΄Π°Π½Π½ΠΎΠΉ Ρ€Π°Π±ΠΎΡ‚Π΅ Π·Π°Π΄Π°Ρ‡ΠΈ, ΠΌΠ΅Ρ€Π° TF-IDF ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½Π° для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Π΄Π²ΡƒΡ… Π·Π°Π΄Π°Ρ‡:

Β· «Π£Ρ€Π°Π²Π½ΠΈΠ²Π°Π½ΠΈΠ΅» влияния событий ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΈΠΌΠ΅ΡŽΡ‚ большоС количСство ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² с Ρ‚Π΅ΠΌΠΈ событиями, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΈΠΌΠ΅ΡŽΡ‚ ΠΌΠ°Π»ΠΎΠ΅ количСство ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ²

Β· ΠŸΡ€ΠΈΠ΄Π°Π½ΠΈΠ΅ большСго вСса Ρ‚Π΅ΠΌ значСниям ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² событий, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π²ΡΡ‚Ρ€Π΅Ρ‡Π°ΡŽΡ‚ΡΡ Ρ€Π΅ΠΆΠ΅, Ρ‡Π΅ΠΌ Ρ‚Π΅, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π²ΡΡ‚Ρ€Π΅Ρ‡Π°ΡŽΡ‚ΡΡ часто. Π’ ΡΠ°ΠΌΠΎΠΌ Π΄Π΅Π»Π΅, Ссли, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, большая Ρ‡Π°ΡΡ‚ΡŒ событий ассоциирована с ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠΉ страной, это ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚ Ρ‡Ρ‚ΠΎ Π½Π°Π»ΠΈΡ‡ΠΈΠ΅ Π΄Π°Π½Π½ΠΎΠΉ страны Π² ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°Ρ… события ΠΈΠΌΠ΅Π΅Ρ‚ ΠΌΠ°Π»ΡƒΡŽ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΡƒΡŽ Ρ†Π΅Π½Π½ΠΎΡΡ‚ΡŒ.

Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, использовав подсчСт ΠΌΠ΅Ρ€Ρ‹ TF-IDF ΠΌΡ‹ ΡΠΌΠΎΠΆΠ΅ΠΌ ΠΏΡ€Π΅ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Ρ‚ΡŒ наш список событий ΠΈ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΉ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² Π² Ρ„ΠΎΡ€ΠΌΠ°Ρ‚ числовых Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ², Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ ΠΌΡ‹ ΡΠΌΠΎΠΆΠ΅ΠΌ ΠΏΡ€Π΅ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Ρ‚ΡŒ Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ ΠΊ Π²Π΅ΠΊΡ‚ΠΎΡ€Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ большСй вСс Π±ΡƒΠ΄Π΅Ρ‚ прСдоставлСн значСниям ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π²ΡΡ‚Ρ€Π΅Ρ‡Π°ΡŽΡ‚ΡΡ Ρ€Π΅Π΄ΠΊΠΎ, Π° Ρ‚Π°ΠΊΠΆΠ΅ уравняСт Π²Π°ΠΆΠ½ΠΎΡΡ‚ΡŒ событий с Π±ΠΎΠ»ΡŒΡˆΠΈΠΌ ΠΈ ΠΌΠ°Π»Ρ‹ΠΌ числом ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². ПослС этого ΠΌΡ‹ ΡΠΌΠΎΠΆΠ΅ΠΌ ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΡ‚ΡŒ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ multiclass — multi-label классификации с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΊΠ°ΠΊΠΎΠ³ΠΎ-Π»ΠΈΠ±ΠΎ классификатора. Π’ Ρ€Π°ΠΌΠΊΠ°Ρ… Document classification ΠΎΡ‚Π»ΠΈΡ‡Π½ΠΎ сСбя ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ Π΄Π²Π° классификатора — SVM (с Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠΌ обучСния SGD) ΠΈ ΠΠ°ΠΈΠ²Π½Ρ‹ΠΉ БайСсовский классификатор. Оба этих классификатора Ρ€Π°ΡΡΠΌΠ°Ρ‚Ρ€ΠΈΠ²Π°ΡŽΡ‚ΡΡ Π½ΠΈΠΆΠ΅.

2.2 Наивный БайСсовский ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€

Наивный байСсовский классификатор — простой вСроятностный классификатор, основанный Π½Π° ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠΈ Π’Π΅ΠΎΡ€Π΅ΠΌΡ‹ БайСса со ΡΡ‚Ρ€ΠΎΠ³ΠΈΠΌΠΈ (Π½Π°ΠΈΠ²Π½Ρ‹ΠΌΠΈ) прСдполоТСниями ΠΎ Π½Π΅Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ.

Π’ Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ ΠΎΡ‚ Ρ‚ΠΎΡ‡Π½ΠΎΠΉ ΠΏΡ€ΠΈΡ€ΠΎΠ΄Ρ‹ вСроятностной ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π½Π°ΠΈΠ²Π½Ρ‹Π΅ байСсовскиС классификаторы ΠΌΠΎΠ³ΡƒΡ‚ ΠΎΠ±ΡƒΡ‡Π°Ρ‚ΡŒΡΡ ΠΎΡ‡Π΅Π½ΡŒ эффСктивно. Π’ΠΎ ΠΌΠ½ΠΎΠ³ΠΈΡ… практичСских прилоТСниях, для ΠΎΡ†Π΅Π½ΠΊΠΈ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² для Π½Π°ΠΈΠ²Π½Ρ‹Ρ… байСсовых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ ΠΌΠ΅Ρ‚ΠΎΠ΄ максимального правдоподобия; Π΄Ρ€ΡƒΠ³ΠΈΠΌΠΈ словами, ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ с Π½Π°ΠΈΠ²Π½ΠΎΠΉ байСсовской модСлью, Π½Π΅ Π²Π΅Ρ€Ρ Π² Π±Π°ΠΉΠ΅ΡΠΎΠ²ΡΠΊΡƒΡŽ Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ ΠΈ Π½Π΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ байСсовскиС ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹.

НСсмотря Π½Π° Π½Π°ΠΈΠ²Π½Ρ‹ΠΉ Π²ΠΈΠ΄ ΠΈ, нСсомнСнно, ΠΎΡ‡Π΅Π½ΡŒ ΡƒΠΏΡ€ΠΎΡ‰Π΅Π½Π½Ρ‹Π΅ условия, Π½Π°ΠΈΠ²Π½Ρ‹Π΅ байСсовскиС классификаторы часто Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‚ Π½Π°ΠΌΠ½ΠΎΠ³ΠΎ Π»ΡƒΡ‡ΡˆΠ΅ Π²ΠΎ ΠΌΠ½ΠΎΠ³ΠΈΡ… слоТных ΠΆΠΈΠ·Π½Π΅Π½Π½Ρ‹Ρ… ситуациях.

Достоинством Π½Π°ΠΈΠ²Π½ΠΎΠ³ΠΎ байСсовского классификатора являСтся ΠΌΠ°Π»ΠΎΠ΅ количСство Π΄Π°Π½Π½Ρ‹Ρ… для обучСния, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹Ρ… для ΠΎΡ†Π΅Π½ΠΊΠΈ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², Ρ‚Ρ€Π΅Π±ΡƒΠ΅ΠΌΡ‹Ρ… для классификации.

ВСроятностная модСль для классификатора — это условная модСль Π½Π°Π΄ зависимой ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ класса с ΠΌΠ°Π»Ρ‹ΠΌ количСством Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ² ΠΈΠ»ΠΈ классов, зависимая ΠΎΡ‚ Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ…. ΠŸΡ€ΠΎΠ±Π»Π΅ΠΌΠ° Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ ΠΊΠΎΠ³Π΄Π° количСство свойств ΠΎΡ‡Π΅Π½ΡŒ Π²Π΅Π»ΠΈΠΊΠΎ ΠΈΠ»ΠΈ ΠΊΠΎΠ³Π΄Π° свойство ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Ρ‚ΡŒ большоС количСство Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ, Ρ‚ΠΎΠ³Π΄Π° ΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ Ρ‚Π°ΠΊΡƒΡŽ модСль Π½Π° Π²Π΅Ρ€ΠΎΡΡ‚ностных Ρ‚Π°Π±Π»ΠΈΡ†Π°Ρ… становится Π½Π΅Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ ΠΌΡ‹ ΠΏΠ΅Ρ€Π΅Ρ„ΠΎΡ€ΠΌΡƒΠ»ΠΈΡ€ΡƒΠ΅ΠΌ модСль, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡΠ΄Π΅Π»Π°Ρ‚ΡŒ Π΅Ρ‘ Π»Π΅Π³ΠΊΠΎ ΠΏΠΎΠ΄Π΄Π°ΡŽΡ‰Π΅ΠΉΡΡ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅.

Π˜ΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ Ρ‚Π΅ΠΎΡ€Π΅ΠΌΡƒ БайСса, запишСм На ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠ΅ интСрСсСн лишь Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒ этой Π΄Ρ€ΠΎΠ±ΠΈ, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ Π·Π½Π°ΠΌΠ΅Π½Π°Ρ‚Π΅Π»ΡŒ Π½Π΅ Π·Π°Π²ΠΈΡΠΈΡ‚ ΠΎΡ‚ ΠΈ Π·Π½Π°Ρ‡Π΅Π½ΠΈΡ свойств Π΄Π°Π½Ρ‹, Ρ‚Π°ΠΊ Ρ‡Ρ‚ΠΎ Π·Π½Π°ΠΌΠ΅Π½Π°Ρ‚Π΅Π»ΡŒ — константа.

Π§ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒ эквивалСнтСн совмСстной вСроятности ΠΌΠΎΠ΄Π΅Π»ΠΈ которая ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ пСрСписана ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΏΠΎΠ²Ρ‚ΠΎΡ€Π½Ρ‹Π΅ прилоТСния ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠΉ условной вСроятности:

ΠΈ Ρ‚.Π΄. Π’Π΅ΠΏΠ΅Ρ€ΡŒ ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ «Π½Π°ΠΈΠ²Π½Ρ‹Π΅» прСдполоТСния условной нСзависимости: ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠΈΠΌ, Ρ‡Ρ‚ΠΎ ΠΊΠ°ΠΆΠ΄ΠΎΠ΅ свойство условно нСзависимо ΠΎΡ‚ Π»ΡŽΠ±ΠΎΠ³ΠΎ Π΄Ρ€ΡƒΠ³ΠΎΠ³ΠΎ свойства ΠΏΡ€ΠΈ. Π­Ρ‚ΠΎ ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚:

Ρ‚Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, совмСстная модСль ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½Π° ΠΊΠ°ΠΊ:

Π­Ρ‚ΠΎ ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ ΠΈΠ· ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΡ ΠΎ Π½Π΅Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ, условноС распрСдСлСниС ΠΏΠΎ ΠΊΠ»Π°ΡΡΠΎΠ²ΠΎΠΉ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½ΠΎ Ρ‚Π°ΠΊ:

Π³Π΄Π΅ — это ΠΌΠ°ΡΡˆΡ‚Π°Π±Π½Ρ‹ΠΉ ΠΌΠ½ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒ, зависящий Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΡ‚, Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ константа, Ссли значСния ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… извСстны.

ВсС ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ аппроксимированы ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ частотами ΠΈΠ· Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ… обучСния. Π­Ρ‚ΠΎ ΠΎΡ†Π΅Π½ΠΊΠΈ максимального правдоподобия вСроятностСй. НСпрСрывныС свойства, ΠΊΠ°ΠΊ ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ, ΠΎΡ†Π΅Π½ΠΈΠ²Π°ΡŽΡ‚ΡΡ Ρ‡Π΅Ρ€Π΅Π· Π½ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎΠ΅ распрСдСлСниС. Π’ ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ матСматичСского оТидания ΠΈ Π΄ΠΈΡΠΏΠ΅Ρ€ΡΠΈΠΈ Π²Ρ‹Ρ‡ΠΈΡΠ»ΡΡŽΡ‚ΡΡ статистики — срСднСС арифмСтичСскоС ΠΈ ΡΡ€Π΅Π΄Π½Π΅ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ичСскоС ΠΎΡ‚ΠΊΠ»ΠΎΠ½Π΅Π½ΠΈΠ΅ соотвСтствСнно.

Если Π΄Π°Π½Π½Ρ‹ΠΉ класс ΠΈ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ свойства Π½ΠΈΠΊΠΎΠ³Π΄Π° Π½Π΅ Π²ΡΡ‚Ρ€Π΅Ρ‡Π°ΡŽΡ‚ΡΡ вмСстС Π² Π½Π°Π±ΠΎΡ€Π΅ обучСния, Ρ‚ΠΎΠ³Π΄Π° ΠΎΡ†Π΅Π½ΠΊΠ°, основанная Π½Π° Π²Π΅Ρ€ΠΎΡΡ‚ностях, Π±ΡƒΠ΄Π΅Ρ‚ Ρ€Π°Π²Π½Π° Π½ΡƒΠ»ΡŽ. Π­Ρ‚ΠΎ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ°, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ ΠΏΡ€ΠΈ ΠΏΠ΅Ρ€Π΅ΠΌΠ½ΠΎΠΆΠ΅Π½ΠΈΠΈ нулСвая ΠΎΡ†Π΅Π½ΠΊΠ° ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Ρ‚ ΠΊ ΠΏΠΎΡ‚Π΅Ρ€Π΅ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΎ Π΄Ρ€ΡƒΠ³ΠΈΡ… вСроятностях. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ ΠΏΡ€Π΅Π΄ΠΏΠΎΡ‡Ρ‚ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΡ‚ΡŒ нСбольшиС ΠΏΠΎΠΏΡ€Π°Π²ΠΊΠΈ Π²ΠΎ Π²ΡΠ΅ ΠΎΡ†Π΅Π½ΠΊΠΈ вСроятностСй Ρ‚Π°ΠΊ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ никакая Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ Π½Π΅ Π±Ρ‹Π»Π° строго Ρ€Π°Π²Π½Π° Π½ΡƒΠ»ΡŽ.

Наивный байСсовский классификатор ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ‚ модСль с ΠΏΡ€Π°Π²ΠΈΠ»ΠΎΠΌ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ. Одно ΠΎΠ±Ρ‰Π΅Π΅ ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ Π΄ΠΎΠ»ΠΆΠ½ΠΎ Π²Ρ‹Π±Ρ€Π°Ρ‚ΡŒ Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π²Π΅Ρ€ΠΎΡΡ‚Π½ΡƒΡŽ Π³ΠΈΠΏΠΎΡ‚Π΅Π·Ρƒ; ΠΎΠ½ΠΎ извСстно ΠΊΠ°ΠΊ апостСриорноС ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ (MAP). Π‘ΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠΉ классификатор — это функция опрСдСлённая ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ:

2.3 SVM

ΠœΠ΅Ρ‚ΠΎΠ΄ ΠΎΠΏΠΎΡ€Π½Ρ‹Ρ… Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² (Π°Π½Π³Π». SVM, support vector machine) — Π½Π°Π±ΠΎΡ€ схоТих Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² обучСния с ΡƒΡ‡ΠΈΡ‚Π΅Π»Π΅ΠΌ, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‰ΠΈΡ…ΡΡ для Π·Π°Π΄Π°Ρ‡ классификации ΠΈ Ρ€Π΅Π³Ρ€Π΅ΡΡΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ Π°Π½Π°Π»ΠΈΠ·Π°. ΠŸΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ ΠΊ ΡΠ΅ΠΌΠ΅ΠΉΡΡ‚Π²Ρƒ Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹Ρ… классификаторов, ΠΌΠΎΠΆΠ΅Ρ‚ Ρ‚Π°ΠΊΠΆΠ΅ Ρ€Π°ΡΡΠΌΠ°Ρ‚Ρ€ΠΈΠ²Π°Ρ‚ΡŒΡΡ ΠΊΠ°ΠΊ ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½Ρ‹ΠΉ случай рСгуляризации ΠΏΠΎ Π’ΠΈΡ…ΠΎΠ½ΠΎΠ²Ρƒ. ΠžΡΠΎΠ±Ρ‹ΠΌ свойством ΠΌΠ΅Ρ‚ΠΎΠ΄Π° ΠΎΠΏΠΎΡ€Π½Ρ‹Ρ… Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² являСтся Π½Π΅ΠΏΡ€Π΅Ρ€Ρ‹Π²Π½ΠΎΠ΅ ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΠ΅ эмпиричСской ошибки классификации ΠΈ ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΠ΅ Π·Π°Π·ΠΎΡ€Π°, поэтому ΠΌΠ΅Ρ‚ΠΎΠ΄ Ρ‚Π°ΠΊΠΆΠ΅ извСстСн ΠΊΠ°ΠΊ ΠΌΠ΅Ρ‚ΠΎΠ΄ классификатора с ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΌ Π·Π°Π·ΠΎΡ€ΠΎΠΌ.

Основная идСя ΠΌΠ΅Ρ‚ΠΎΠ΄Π° — ΠΏΠ΅Ρ€Π΅Π²ΠΎΠ΄ исходных Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² Π² ΠΏΡ€ΠΎΡΡ‚ранство Π±ΠΎΠ»Π΅Π΅ высокой размСрности ΠΈ ΠΏΠΎΠΈΡΠΊ Ρ€Π°Π·Π΄Π΅Π»ΡΡŽΡ‰Π΅ΠΉ гипСрплоскости с ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΌ Π·Π°Π·ΠΎΡ€ΠΎΠΌ Π² ΡΡ‚ΠΎΠΌ пространствС. Π”Π²Π΅ ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΡŒΠ½Ρ‹Ρ… гипСрплоскости строятся ΠΏΠΎ ΠΎΠ±Π΅ΠΈΠΌ сторонам гипСрплоскости, Ρ€Π°Π·Π΄Π΅Π»ΡΡŽΡ‰Π΅ΠΉ наши классы. Π Π°Π·Π΄Π΅Π»ΡΡŽΡ‰Π΅ΠΉ Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ»ΠΎΡΠΊΠΎΡΡ‚ΡŒΡŽ Π±ΡƒΠ΄Π΅Ρ‚ Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ»ΠΎΡΠΊΠΎΡΡ‚ΡŒ, ΠΌΠ°ΠΊΡΠΈΠΌΠΈΠ·ΠΈΡ€ΡƒΡŽΡ‰Π°Ρ расстояниС Π΄ΠΎ Π΄Π²ΡƒΡ… ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΡŒΠ½Ρ‹Ρ… гипСрплоскостСй. Алгоритм Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Π² ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠΈ, Ρ‡Ρ‚ΠΎ Ρ‡Π΅ΠΌ большС Ρ€Π°Π·Π½ΠΈΡ†Π° ΠΈΠ»ΠΈ расстояниС ΠΌΠ΅ΠΆΠ΄Ρƒ этими ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ гипСрплоскостями, Ρ‚Π΅ΠΌ мСньшС Π±ΡƒΠ΄Π΅Ρ‚ срСдняя ошибка классификатора.

Часто Π² Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°Ρ… машинного обучСния Π²ΠΎΠ·Π½ΠΈΠΊΠ°Π΅Ρ‚ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π΄Π°Π½Π½Ρ‹Π΅. ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ Π΄Π°Π½Π½Ρ‹Ρ… прСдставлСн ΠΊΠ°ΠΊ Π²Π΅ΠΊΡ‚ΠΎΡ€ (Ρ‚ΠΎΡ‡ΠΊΠ°) Π²ΠΌΠ΅Ρ€Π½ΠΎΠΌ пространствС (ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ p Ρ‡ΠΈΡΠ΅Π»). КаТдая ΠΈΠ· ΡΡ‚ΠΈΡ… Ρ‚ΠΎΡ‡Π΅ΠΊ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠ΄Π½ΠΎΠΌΡƒ ΠΈΠ· Π΄Π²ΡƒΡ… классов. Нас интСрСсуСт, ΠΌΠΎΠΆΠ΅ΠΌ Π»ΠΈ ΠΌΡ‹ Ρ€Π°Π·Π΄Π΅Π»ΠΈΡ‚ΡŒ Ρ‚ΠΎΡ‡ΠΊΠΈ Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ»ΠΎΡΠΊΠΎΡΡ‚ΡŒΡŽ Ρ€Π°Π·ΠΌΠ΅Ρ€Π½ΠΎΡΡ‚ΡŒΡŽ Π­Ρ‚ΠΎ Ρ‚ΠΈΠΏΠΈΡ‡Π½Ρ‹ΠΉ случай Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ раздСлимости. Π’Π°ΠΊΠΈΡ… гипСрплоскостСй ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΠΌΠ½ΠΎΠ³ΠΎ. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ Π²ΠΏΠΎΠ»Π½Π΅ СстСствСнно ΠΏΠΎΠ»Π°Π³Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ максимизация Π·Π°Π·ΠΎΡ€Π° ΠΌΠ΅ΠΆΠ΄Ρƒ классами способствуСт Π±ΠΎΠ»Π΅Π΅ ΡƒΠ²Π΅Ρ€Π΅Π½Π½ΠΎΠΉ классификации. Π’ΠΎ Π΅ΡΡ‚ΡŒ ΠΌΠΎΠΆΠ΅ΠΌ Π»ΠΈ ΠΌΡ‹ Π½Π°ΠΉΡ‚ΠΈ Ρ‚Π°ΠΊΡƒΡŽ Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ»ΠΎΡΠΊΠΎΡΡ‚ΡŒ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ расстояниС ΠΎΡ‚ Π½Π΅Ρ‘ Π΄ΠΎ Π±Π»ΠΈΠΆΠ°ΠΉΡˆΠ΅ΠΉ Ρ‚ΠΎΡ‡ΠΊΠΈ Π±Ρ‹Π»ΠΎ ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΌ. Π­Ρ‚ΠΎ Π±Ρ‹ ΠΎΠ·Π½Π°Ρ‡Π°Π»ΠΎ, Ρ‡Ρ‚ΠΎ расстояниС ΠΌΠ΅ΠΆΠ΄Ρƒ двумя блиТайшими Ρ‚ΠΎΡ‡ΠΊΠ°ΠΌΠΈ, Π»Π΅ΠΆΠ°Ρ‰ΠΈΠΌΠΈ ΠΏΠΎ Ρ€Π°Π·Π½Ρ‹Π΅ стороны гипСрплоскости, максимально. Если такая Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ»ΠΎΡΠΊΠΎΡΡ‚ΡŒ сущСствуСт, Ρ‚ΠΎ ΠΎΠ½Π° нас Π±ΡƒΠ΄Π΅Ρ‚ ΠΈΠ½Ρ‚Π΅Ρ€Π΅ΡΠΎΠ²Π°Ρ‚ΡŒ большС всСго; ΠΎΠ½Π° называСтся ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠΉ Ρ€Π°Π·Π΄Π΅Π»ΡΡŽΡ‰Π΅ΠΉ Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ»ΠΎΡΠΊΠΎΡΡ‚ΡŒΡŽ, Π° ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠΉ Π΅ΠΉ Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹ΠΉ классификатор называСтся ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎ Ρ€Π°Π·Π΄Π΅Π»ΡΡŽΡ‰ΠΈΠΌ классификатором.

Π€ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΠΎΠΏΠΈΡΠ°Ρ‚ΡŒ Π·Π°Π΄Π°Ρ‡Ρƒ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ.

ПолагаСм, Ρ‡Ρ‚ΠΎ Ρ‚ΠΎΡ‡ΠΊΠΈ ΠΈΠΌΠ΅ΡŽΡ‚ Π²ΠΈΠ΄:, Π³Π΄Π΅ ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Π΅Ρ‚ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ 1 ΠΈΠ»ΠΈ ?1, Π² Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ ΠΎΡ‚ Ρ‚ΠΎΠ³ΠΎ, ΠΊΠ°ΠΊΠΎΠΌΡƒ классу ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ Ρ‚ΠΎΡ‡ΠΊΠ°. КаТдоС — этомСрный вСщСствСнный Π²Π΅ΠΊΡ‚ΠΎΡ€, ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ значСниями ΠΈΠ»ΠΈ. Если Ρ‚ΠΎΡ‡ΠΊΠΈ Π½Π΅ Π±ΡƒΠ΄ΡƒΡ‚ Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·ΠΎΠ²Π°Π½Ρ‹, Ρ‚ΠΎ Ρ‚ΠΎΡ‡ΠΊΠ° с Π±ΠΎΠ»ΡŒΡˆΠΈΠΌΠΈ отклонСниями ΠΎΡ‚ ΡΡ€Π΅Π΄Π½ΠΈΡ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚ Ρ‚ΠΎΡ‡Π΅ΠΊ слишком сильно повлияСт Π½Π° ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€. ΠœΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ Ρ€Π°ΡΡΠΌΠ°Ρ‚Ρ€ΠΈΠ²Π°Ρ‚ΡŒ это ΠΊΠ°ΠΊ ΡƒΡ‡Π΅Π±Π½ΡƒΡŽ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΡŽ, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ элСмСнта ΡƒΠΆΠ΅ Π·Π°Π΄Π°Π½ класс, ΠΊ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌΡƒ ΠΎΠ½ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚. ΠœΡ‹ Ρ…ΠΎΡ‚ΠΈΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° ΠΎΠΏΠΎΡ€Π½Ρ‹Ρ… Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² классифицировал ΠΈΡ… Ρ‚Π°ΠΊΠΈΠΌ ΠΆΠ΅ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ. Для этого ΠΌΡ‹ ΡΡ‚Ρ€ΠΎΠΈΠΌ Ρ€Π°Π·Π΄Π΅Π»ΡΡŽΡ‰ΡƒΡŽ Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ»ΠΎΡΠΊΠΎΡΡ‚ΡŒ, которая ΠΈΠΌΠ΅Π΅Ρ‚ Π²ΠΈΠ΄:

Π’Π΅ΠΊΡ‚ΠΎΡ€ — пСрпСндикуляр ΠΊ Ρ€Π°Π·Π΄Π΅Π»ΡΡŽΡ‰Π΅ΠΉ гипСрплоскости. ΠŸΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ Ρ€Π°Π²Π΅Π½ ΠΏΠΎ ΠΌΠΎΠ΄ΡƒΠ»ΡŽ Ρ€Π°ΡΡΡ‚ΠΎΡΠ½ΠΈΡŽ ΠΎΡ‚ Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ»ΠΎΡΠΊΠΎΡΡ‚ΠΈ Π΄ΠΎ Π½Π°Ρ‡Π°Π»Π° ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚. Если ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ Ρ€Π°Π²Π΅Π½ Π½ΡƒΠ»ΡŽ, Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ»ΠΎΡΠΊΠΎΡΡ‚ΡŒ ΠΏΡ€ΠΎΡ…ΠΎΠ΄ΠΈΡ‚ Ρ‡Π΅Ρ€Π΅Π· Π½Π°Ρ‡Π°Π»ΠΎ ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚, Ρ‡Ρ‚ΠΎ ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡ΠΈΠ²Π°Π΅Ρ‚ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅.

Π’Π°ΠΊ ΠΊΠ°ΠΊ нас интСрСсуСт ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ΅ Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅, нас ΠΈΠ½Ρ‚Π΅Ρ€Π΅ΡΡƒΡŽΡ‚ ΠΎΠΏΠΎΡ€Π½Ρ‹Π΅ Π²Π΅ΠΊΡ‚ΠΎΡ€Π° ΠΈ Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ»ΠΎΡΠΊΠΎΡΡ‚ΠΈ, ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΡŒΠ½Ρ‹Π΅ ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠΉ ΠΈ Π±Π»ΠΈΠΆΠ°ΠΉΡˆΠΈΠ΅ ΠΊ ΠΎΠΏΠΎΡ€Π½Ρ‹ΠΌ Π²Π΅ΠΊΡ‚ΠΎΡ€Π°ΠΌ Π΄Π²ΡƒΡ… классов. МоТно ΠΏΠΎΠΊΠ°Π·Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ эти ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΡŒΠ½Ρ‹Π΅ гипСрплоскости ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ описаны ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌΠΈ уравнСниям (с Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒΡŽ Π΄ΠΎ Π½ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²ΠΊΠΈ).

Если ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎ Ρ€Π°Π·Π΄Π΅Π»ΠΈΠΌΠ°, Ρ‚ΠΎ ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ Π²Ρ‹Π±Ρ€Π°Ρ‚ΡŒ гипСрплоскости Ρ‚Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΌΠ΅ΠΆΠ΄Ρƒ Π½ΠΈΠΌΠΈ Π½Π΅ Π»Π΅ΠΆΠ°Π»Π° Π½ΠΈ ΠΎΠ΄Π½Π° Ρ‚ΠΎΡ‡ΠΊΠ° ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ ΠΈ Π·Π°Ρ‚Π΅ΠΌ ΠΌΠ°ΠΊΡΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ расстояниС ΠΌΠ΅ΠΆΠ΄Ρƒ гипСрплоскостями. Π¨ΠΈΡ€ΠΈΠ½Ρƒ полосы ΠΌΠ΅ΠΆΠ΄Ρƒ Π½ΠΈΠΌΠΈ Π»Π΅Π³ΠΊΠΎ Π½Π°ΠΉΡ‚ΠΈ ΠΈΠ· ΡΠΎΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ Π³Π΅ΠΎΠΌΠ΅Ρ‚Ρ€ΠΈΠΈ, ΠΎΠ½Π° Ρ€Π°Π²Π½Π°, Ρ‚Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ наша Π·Π°Π΄Π°Ρ‡Π° ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ. Π§Ρ‚ΠΎΠ±Ρ‹ ΠΈΡΠΊΠ»ΡŽΡ‡ΠΈΡ‚ΡŒ всС Ρ‚ΠΎΡ‡ΠΊΠΈ ΠΈΠ· ΠΏΠΎΠ»ΠΎΡΡ‹, ΠΌΡ‹ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ ΡƒΠ±Π΅Π΄ΠΈΡ‚ΡŒΡΡ для всСх, Ρ‡Ρ‚ΠΎ Π­Ρ‚ΠΎ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Ρ‚Π°ΠΊΠΆΠ΅ записано Π² Π²ΠΈΠ΄Π΅:

Π’ ΡΠ»ΡƒΡ‡Π°Π΅ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ раздСлимости классов, ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ° построСния ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠΉ Ρ€Π°Π·Π΄Π΅Π»ΡΡŽΡ‰Π΅ΠΉ гипСрплоскости сводится ΠΊ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΏΡ€ΠΈ условии (1). Π­Ρ‚ΠΎ Π·Π°Π΄Π°Ρ‡Π° ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΈΡ‡Π½ΠΎΠΉ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ, которая ΠΈΠΌΠ΅Π΅Ρ‚ Π²ΠΈΠ΄:

По Ρ‚Π΅ΠΎΡ€Π΅ΠΌΠ΅ ΠšΡƒΠ½Π° — Π’Π°ΠΊΠΊΠ΅Ρ€Π° эта Π·Π°Π΄Π°Ρ‡Π° эквивалСнтна двойствСнной Π·Π°Π΄Π°Ρ‡Π΅ поиска сСдловой Ρ‚ΠΎΡ‡ΠΊΠΈ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Π›Π°Π³Ρ€Π°Π½ΠΆΠ°.

Π“Π΄Π΅ — Π²Π΅ΠΊΡ‚ΠΎΡ€ двойствСнных ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… Π‘Π²Π΅Π΄Π΅ΠΌ эту Π·Π°Π΄Π°Ρ‡Ρƒ ΠΊ ΡΠΊΠ²ΠΈΠ²Π°Π»Π΅Π½Ρ‚Π½ΠΎΠΉ Π·Π°Π΄Π°Ρ‡Π΅ ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΈΡ‡Π½ΠΎΠ³ΠΎ программирования, ΡΠΎΠ΄Π΅Ρ€ΠΆΠ°Ρ‰ΡƒΡŽ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ двойствСнныС ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅:

Допустим ΠΌΡ‹ Ρ€Π΅ΡˆΠΈΠ»ΠΈ Π΄Π°Π½Π½ΡƒΡŽ Π·Π°Π΄Π°Ρ‡Ρƒ, Ρ‚ΠΎΠ³Π΄Π° ΠΈ ΠΌΠΎΠΆΠ½ΠΎ Π½Π°ΠΉΡ‚ΠΈ ΠΏΠΎ Ρ„ΠΎΡ€ΠΌΡƒΠ»Π°ΠΌ:

Π’ ΠΈΡ‚ΠΎΠ³Π΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ классификации ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ записан Π² Π²ΠΈΠ΄Π΅:

ΠŸΡ€ΠΈ этом суммированиС ΠΈΠ΄Π΅Ρ‚ Π½Π΅ ΠΏΠΎ Π²ΡΠ΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅, Π° Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΏΠΎ ΠΎΠΏΠΎΡ€Π½Ρ‹ΠΌ Π²Π΅ΠΊΡ‚ΠΎΡ€Π°ΠΌ, для ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ…

Π’ ΡΠ»ΡƒΡ‡Π°Π΅ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ нСраздСлимости классов, для Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΌΠΎΠ³ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ, ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΠΌ Π΅ΠΌΡƒ Π΄ΠΎΠΏΡƒΡΠΊΠ°Ρ‚ΡŒ ошибки Π½Π° ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅. Π’Π²Π΅Π΄Π΅ΠΌ Π½Π°Π±ΠΎΡ€ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ…, Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€ΠΈΠ·ΡƒΡŽΡ‰ΠΈΡ… Π²Π΅Π»ΠΈΡ‡ΠΈΠ½Ρƒ ошибки Π½Π° ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°Ρ…. Π’ΠΎΠ·ΡŒΠΌΠ΅ΠΌ Π·Π° ΠΎΡ‚ΠΏΡ€Π°Π²Π½ΡƒΡŽ Ρ‚ΠΎΡ‡ΠΊΡƒ (2), смягчим ограничСния нСравСнства, Ρ‚Π°ΠΊ ΠΆΠ΅ Π²Π²Π΅Π΄Ρ‘ΠΌ Π² ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΡƒΠ΅ΠΌΡ‹ΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΎΠ½Π°Π» ΡˆΡ‚Ρ€Π°Ρ„ Π·Π° ΡΡƒΠΌΠΌΠ°Ρ€Π½ΡƒΡŽ ΠΎΡˆΠΈΠ±ΠΊΡƒ:

ΠšΠΎΡΡ„Ρ„ΠΈΡ†ΠΈΠ΅Π½Ρ‚ — ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ настройки ΠΌΠ΅Ρ‚ΠΎΠ΄Π°, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ позволяСт Ρ€Π΅Π³ΡƒΠ»ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ ΠΌΠ΅ΠΆΠ΄Ρƒ максимизациСй ΡˆΠΈΡ€ΠΈΠ½Ρ‹ Ρ€Π°Π·Π΄Π΅Π»ΡΡŽΡ‰Π΅ΠΉ полосы ΠΈ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠ΅ΠΉ суммарной ошибки.

Аналогично, ΠΏΠΎ Ρ‚Π΅ΠΎΡ€Π΅ΠΌΠ΅ ΠšΡƒΠ½Π°-Π’Π°ΠΊΠΊΠ΅Ρ€Π° сводим Π·Π°Π΄Π°Ρ‡Ρƒ ΠΊ ΠΏΠΎΠΈΡΠΊΡƒ сСдловой Ρ‚ΠΎΡ‡ΠΊΠΈ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Π›Π°Π³Ρ€Π°Π½ΠΆΠ°:

По Π°Π½Π°Π»ΠΎΠ³ΠΈΠΈ свСдСм эту Π·Π°Π΄Π°Ρ‡Ρƒ ΠΊ ΡΠΊΠ²ΠΈΠ²Π°Π»Π΅Π½Ρ‚Π½ΠΎΠΉ:

На ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠ΅ для построСния ΠΌΠ°ΡˆΠΈΠ½Ρ‹ ΠΎΠΏΠΎΡ€Π½Ρ‹Ρ… Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² Ρ€Π΅ΡˆΠ°ΡŽΡ‚ ΠΈΠΌΠ΅Π½Π½ΠΎ эту Π·Π°Π΄Π°Ρ‡Ρƒ, Π° Π½Π΅ (3), Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ Π³Π°Ρ€Π°Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π»ΠΈΠ½Π΅ΠΉΠ½ΡƒΡŽ Ρ€Π°Π·Π΄Π΅Π»ΠΈΠΌΠΎΡΡ‚ΡŒ Ρ‚ΠΎΡ‡Π΅ΠΊ Π½Π° Π΄Π²Π° класса Π² ΠΎΠ±Ρ‰Π΅ΠΌ случаС Π½Π΅ ΠΏΡ€Π΅Π΄ΡΡ‚авляСтся Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹ΠΌ. Π­Ρ‚ΠΎΡ‚ Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠΌ с ΠΌΡΠ³ΠΊΠΈΠΌ Π·Π°Π·ΠΎΡ€ΠΎΠΌ (soft-margin SVM), Ρ‚ΠΎΠ³Π΄Π° ΠΊΠ°ΠΊ Π² Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎ Ρ€Π°Π·Π΄Π΅Π»ΠΈΠΌΠΎΠΌ случаС говорят ΠΎ ΠΆΡ‘стком Π·Π°Π·ΠΎΡ€Π΅ (hard-margin SVM).

Для Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° классификации сохраняСтся Ρ„ΠΎΡ€ΠΌΡƒΠ»Π° (4), с Ρ‚ΠΎΠΉ лишь Ρ€Π°Π·Π½ΠΈΡ†Π΅ΠΉ, Ρ‡Ρ‚ΠΎ Ρ‚Π΅ΠΏΠ΅Ρ€ΡŒ Π½Π΅Π½ΡƒΠ»Π΅Π²Ρ‹ΠΌΠΈ ΠΎΠ±Π»Π°Π΄Π°ΡŽΡ‚ Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠΏΠΎΡ€Π½Ρ‹Π΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹, Π½ΠΎ ΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹-Π½Π°Ρ€ΡƒΡˆΠΈΡ‚Π΅Π»ΠΈ. Π’ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Ρ‘Π½Π½ΠΎΠΌ смыслС это нСдостаток, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Π½Π°Ρ€ΡƒΡˆΠΈΡ‚Π΅Π»ΡΠΌΠΈ часто ΠΎΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‚ΡΡ ΡˆΡƒΠΌΠΎΠ²Ρ‹Π΅ выбросы, ΠΈ ΠΏΠΎΡΡ‚Ρ€ΠΎΠ΅Π½Π½ΠΎΠ΅ Π½Π° Π½ΠΈΡ… Ρ€Π΅ΡˆΠ°ΡŽΡ‰Π΅Π΅ ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ, ΠΏΠΎ ΡΡƒΡ‚ΠΈ Π΄Π΅Π»Π°, опираСтся Π½Π° ΡˆΡƒΠΌ.

ΠšΠΎΠ½ΡΡ‚Π°Π½Ρ‚Ρƒ ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ Π²Ρ‹Π±ΠΈΡ€Π°ΡŽΡ‚ ΠΏΠΎ ΠΊΡ€ΠΈΡ‚Π΅Ρ€ΠΈΡŽ ΡΠΊΠΎΠ»ΡŒΠ·ΡΡ‰Π΅Π³ΠΎ контроля. Π­Ρ‚ΠΎ Ρ‚Ρ€ΡƒΠ΄ΠΎΡ‘ΠΌΠΊΠΈΠΉ способ, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ Π·Π°Π΄Π°Ρ‡Ρƒ приходится Ρ€Π΅ΡˆΠ°Ρ‚ΡŒ Π·Π°Π½ΠΎΠ²ΠΎ ΠΏΡ€ΠΈ ΠΊΠ°ΠΆΠ΄ΠΎΠΌ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΈ .

Если Π΅ΡΡ‚ΡŒ основания ΠΏΠΎΠ»Π°Π³Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° ΠΏΠΎΡ‡Ρ‚ΠΈ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎ Ρ€Π°Π·Π΄Π΅Π»ΠΈΠΌΠ°, ΠΈ Π»ΠΈΡˆΡŒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹-выбросы ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΡ†ΠΈΡ€ΡƒΡŽΡ‚ΡΡ Π½Π΅Π²Π΅Ρ€Π½ΠΎ, Ρ‚ΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΡ‚ΡŒ Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΡŽ выбросов. Π‘Π½Π°Ρ‡Π°Π»Π° Π·Π°Π΄Π°Ρ‡Π° Ρ€Π΅ΡˆΠ°Π΅Ρ‚ΡΡ ΠΏΡ€ΠΈ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ C, ΠΈ ΠΈΠ· Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ удаляСтся нСбольшая доля ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², ΠΈΠΌΠ΅ΡŽΡ‰ΠΈΡ… Π½Π°ΠΈΠ±ΠΎΠ»ΡŒΡˆΡƒΡŽ Π²Π΅Π»ΠΈΡ‡ΠΈΠ½Ρƒ ошибки. ПослС этого Π·Π°Π΄Π°Ρ‡Π° Ρ€Π΅ΡˆΠ°Π΅Ρ‚ΡΡ Π·Π°Π½ΠΎΠ²ΠΎ ΠΏΠΎ ΡƒΡΠ΅Ρ‡Ρ‘Π½Π½ΠΎΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅. Π’ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ, придётся ΠΏΡ€ΠΎΠ΄Π΅Π»Π°Ρ‚ΡŒ нСсколько Ρ‚Π°ΠΊΠΈΡ… ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΉ, ΠΏΠΎΠΊΠ° ΠΎΡΡ‚Π°Π²ΡˆΠΈΠ΅ΡΡ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ Π½Π΅ ΠΎΠΊΠ°ΠΆΡƒΡ‚ся Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎ Ρ€Π°Π·Π΄Π΅Π»ΠΈΠΌΡ‹ΠΌΠΈ.

Алгоритм построСния ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠΉ Ρ€Π°Π·Π΄Π΅Π»ΡΡŽΡ‰Π΅ΠΉ гипСрплоскости, ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½Π½Ρ‹ΠΉ Π² 1963 Π³ΠΎΠ΄Ρƒ Π’Π»Π°Π΄ΠΈΠΌΠΈΡ€ΠΎΠΌ Π’Π°ΠΏΠ½ΠΈΠΊΠΎΠΌ ΠΈ ΠΠ»Π΅ΠΊΡΠ΅Π΅ΠΌ ЧСрвонСнкисом — Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ классификации. Однако Π² 1992 Π³ΠΎΠ΄Ρƒ Π‘Π΅Ρ€Π½Ρ…Π°Ρ€Π΄ БосСр, ИзабСлл Π“ΠΈΠΉΠΎΠ½ ΠΈ Π’Π°ΠΏΠ½ΠΈΠΊ ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠΈΠ»ΠΈ способ создания Π½Π΅Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠ³ΠΎ классификатора, Π² ΠΎΡΠ½ΠΎΠ²Π΅ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ Π»Π΅ΠΆΠΈΡ‚ ΠΏΠ΅Ρ€Π΅Ρ…ΠΎΠ΄ ΠΎΡ‚ ΡΠΊΠ°Π»ΡΡ€Π½Ρ‹Ρ… ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΈΠΉ ΠΊ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½Ρ‹ΠΌ ядрам, Ρ‚Π°ΠΊ Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡ‹ΠΉ kernel trick (ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½Π½Ρ‹ΠΉ Π²ΠΏΠ΅Ρ€Π²Ρ‹Π΅ М. А. АйзСрманом, Π­. М. Π‘Ρ€Π°Π²Π΅Ρ€ΠΌΠ°Π½Π½ΠΎΠΌ ΠΈ Π›. Π’. Розоноэром для ΠΌΠ΅Ρ‚ΠΎΠ΄Π° ΠΏΠΎΡ‚Π΅Π½Ρ†ΠΈΠ°Π»ΡŒΠ½Ρ‹Ρ… Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΉ), ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‰ΠΈΠΉ ΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ Π½Π΅Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹Π΅ Ρ€Π°Π·Π΄Π΅Π»ΠΈΡ‚Π΅Π»ΠΈ. Π Π΅Π·ΡƒΠ»ΡŒΡ‚ΠΈΡ€ΡƒΡŽΡ‰ΠΈΠΉ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΊΡ€Π°ΠΉΠ½Π΅ ΠΏΠΎΡ…ΠΎΠΆ Π½Π° Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ классификации, с Ρ‚ΠΎΠΉ лишь Ρ€Π°Π·Π½ΠΈΡ†Π΅ΠΉ, Ρ‡Ρ‚ΠΎ ΠΊΠ°ΠΆΠ΄ΠΎΠ΅ скалярноС ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΈΠ΅ Π² ΠΏΡ€ΠΈΠ²Π΅Π΄Ρ‘Π½Π½Ρ‹Ρ… Π²Ρ‹ΡˆΠ΅ Ρ„ΠΎΡ€ΠΌΡƒΠ»Π°Ρ… замСняСтся Π½Π΅Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠ΅ΠΉ ядра (скалярным ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΈΠ΅ΠΌ Π² ΠΏΡ€ΠΎΡΡ‚ранствС с Π±ΠΎΠ»ΡŒΡˆΠ΅ΠΉ Ρ€Π°Π·ΠΌΠ΅Ρ€Π½ΠΎΡΡ‚ΡŒΡŽ). Π’ ΡΡ‚ΠΎΠΌ пространствС ΡƒΠΆΠ΅ ΠΌΠΎΠΆΠ΅Ρ‚ ΡΡƒΡ‰Π΅ΡΡ‚Π²ΠΎΠ²Π°Ρ‚ΡŒ ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½Π°Ρ Ρ€Π°Π·Π΄Π΅Π»ΡΡŽΡ‰Π°Ρ Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ»ΠΎΡΠΊΠΎΡΡ‚ΡŒ. Π’Π°ΠΊ ΠΊΠ°ΠΊ Ρ€Π°Π·ΠΌΠ΅Ρ€Π½ΠΎΡΡ‚ΡŒ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌΠΎΠ³ΠΎ пространства ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ большС размСрности исходного, Ρ‚ΠΎ ΠΏΡ€Π΅ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Π½ΠΈΠ΅, ΡΠΎΠΏΠΎΡΡ‚Π°Π²Π»ΡΡŽΡ‰Π΅Π΅ скалярныС произвСдСния, Π±ΡƒΠ΄Π΅Ρ‚ Π½Π΅Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹ΠΌ, Π° Π·Π½Π°Ρ‡ΠΈΡ‚ функция, ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰Π°Ρ Π² ΠΈΡΡ…ΠΎΠ΄Π½ΠΎΠΌ пространствС ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠΉ Ρ€Π°Π·Π΄Π΅Π»ΡΡŽΡ‰Π΅ΠΉ гипСрплоскости, Π±ΡƒΠ΄Π΅Ρ‚ Ρ‚Π°ΠΊΠΆΠ΅ Π½Π΅Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ.

Π‘Ρ‚ΠΎΠΈΡ‚ ΠΎΡ‚ΠΌΠ΅Ρ‚ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ Ссли исходноС пространство ΠΈΠΌΠ΅Π΅Ρ‚ достаточно Π²Ρ‹ΡΠΎΠΊΡƒΡŽ Ρ€Π°Π·ΠΌΠ΅Ρ€Π½ΠΎΡΡ‚ΡŒ, Ρ‚ΠΎ ΠΌΠΎΠΆΠ½ΠΎ Π½Π°Π΄Π΅ΡΡ‚ΡŒΡΡ, Ρ‡Ρ‚ΠΎ Π² Π½Ρ‘ΠΌ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° окаТСтся Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎ Ρ€Π°Π·Π΄Π΅Π»ΠΈΠΌΠΎΠΉ.

НаиболСС распространённыС ядра:

1. Π›ΠΈΠ½Π΅ΠΉΠ½ΠΎΠ΅ ядро:

2. ПолиномиальноС (ΠΎΠ΄Π½ΠΎΡ€ΠΎΠ΄Π½ΠΎΠ΅):

3. RBF функция:

4. Π‘ΠΈΠ³ΠΌΠΎΠΈΠ΄:

Π’ Ρ€Π°ΠΌΠΊΠ°Ρ… поставлСнной ΠΏΠ΅Ρ€Π΅Π΄ Π½Π°ΠΌΠΈ Π·Π°Π΄Π°Ρ‡ΠΈ Π±ΡƒΠ΄Π΅ΠΌ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠ΅ ΠΎΠ΄Π½ΠΎΡ€ΠΎΠ΄Π½ΠΎΠ΅ ядро. Π”Π°Π½Π½ΠΎΠ΅ ядро ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΎ ΠΎΡ‚Π»ΠΈΡ‡Π½Ρ‹Π΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ Π² Π·Π°Π΄Π°Ρ‡Π°Ρ… Document Classification, хотя ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с ΠΠ°ΠΈΠ²Π½Ρ‹ΠΌ БайСсовским ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€ΠΎΠΌ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π΄Π°Π½Π½ΠΎΠ³ΠΎ классификатора занимаСтся ΡΡ€Π°Π²Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ большой ΠΏΡ€ΠΎΠΌΠ΅ΠΆΡƒΡ‚ΠΎΠΊ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ. Π’Π°ΠΊΠΆΠ΅ ΠΏΡ€ΠΎΠ²Π΅Ρ€Π΅Π½Π° Ρ€Π°Π±ΠΎΡ‚Π° всСх ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Ρ… ядСр ΠΈΠ· Π΄Π°Π½Π½ΠΎΠ³ΠΎ списка ΠΈ Π²Ρ‹ΡΠ²Π»Π΅Π½ΠΎ, Ρ‡Ρ‚ΠΎ ΠΈΡ… ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π·Π°Π½ΠΈΠΌΠ°Π΅Ρ‚ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ больший ΠΏΡ€ΠΎΠΌΠ΅ΠΆΡƒΡ‚ΠΎΠΊ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ, ΠΏΡ€ΠΈ этом Π½Π΅ ΠΏΡ€ΠΈΠ²Π½ΠΎΡΡ особых ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΠΉ Π² Ρ‚очности классификации.

Для ускорСния обучСния ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΏΠΎΠ΄ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ΠΌ БтохастичСский Π“Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½Ρ‹ΠΉ Бпуск, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ позволяСт Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΡƒΡΠΊΠΎΡ€ΠΈΡ‚ΡŒ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ классификатора, Π½Π΅ ΡΠΈΠ»ΡŒΠ½ΠΎ ТСртвуя Π΅Π³ΠΎ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒΡŽ.

3.3.1 БтохастичСский Π“Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½Ρ‹ΠΉ Бпуск

Π“Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ — это ΡˆΠΈΡ€ΠΎΠΊΠΈΠΉ класс ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΎΠ½Π½Ρ‹Ρ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ², ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹Ρ… Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π² ΠΌΠ°ΡˆΠΈΠ½Π½ΠΎΠΌ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π—Π΄Π΅ΡΡŒ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ Π±ΡƒΠ΄Π΅Ρ‚ рассмотрСн Π² ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ способа ΠΏΠΎΠ΄Π±ΠΎΡ€Π° Π²Π΅ΠΊΡ‚ΠΎΡ€Π° синаптичСских вСсов Π² Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΌ классификаторС. ΠŸΡƒΡΡ‚ΡŒ — цСлСвая Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΡŒ, извСстная Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π½Π° ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°Ρ… ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ:

Найдём Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ, Π°ΠΏΠΏΡ€ΠΎΠΊΡΠΈΠΌΠΈΡ€ΡƒΡŽΡ‰ΠΈΠΉ Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΡŒ. Π’ ΡΠ»ΡƒΡ‡Π°Π΅ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠ³ΠΎ классификатора искомый Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΈΠΌΠ΅Π΅Ρ‚ Π²ΠΈΠ΄:

Π³Π΄Π΅ ΠΈΠ³Ρ€Π°Π΅Ρ‚ Ρ€ΠΎΠ»ΡŒ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ (Π² ΠΏΡ€ΠΎΡΡ‚Π΅ΠΉΡˆΠ΅ΠΌ случаС ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚ΡŒ).

Богласно ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏΡƒ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ эмпиричСского риска для этого достаточно Ρ€Π΅ΡˆΠΈΡ‚ΡŒ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΎΠ½Π½ΡƒΡŽ Π·Π°Π΄Π°Ρ‡Ρƒ:

Π“Π΄Π΅ — заданная функция ΠΏΠΎΡ‚Π΅Ρ€ΡŒ.

Для ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΠΌ ΠΌΠ΅Ρ‚ΠΎΠ΄ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска (gradient descent). Π­Ρ‚ΠΎ ΠΏΠΎΡˆΠ°Π³ΠΎΠ²Ρ‹ΠΉ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ, Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ Π²Π΅ΠΊΡ‚ΠΎΡ€ измСняСтся Π² Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠΈ наибольшСго убывания Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΎΠ½Π°Π»Π° (Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ Π² Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠΈ Π°Π½Ρ‚ΠΈΠ³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π°):

Π“Π΄Π΅ — ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€, Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡ‹ΠΉ Ρ‚Π΅ΠΌΠΏΠΎΠΌ обучСния (learning rate).

Π’ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹ 2 основных ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Π° ΠΊ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска:

1. ΠŸΠ°ΠΊΠ΅Ρ‚Π½Ρ‹ΠΉ (batch), ΠΊΠΎΠ³Π΄Π° Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° просматриваСтся Ρ†Π΅Π»ΠΈΠΊΠΎΠΌ, ΠΈ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ послС этого измСняСтся. Π­Ρ‚ΠΎ Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ Π±ΠΎΠ»ΡŒΡˆΠΈΡ… Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… Π·Π°Ρ‚Ρ€Π°Ρ‚.

2. БтохастичСский (stochastic/online), ΠΊΠΎΠ³Π΄Π° Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° ΠΈΠ· ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ ΠΊΠ°ΠΊΠΈΠΌ-Ρ‚ΠΎ (случайным) ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ выбираСтся Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠ΄ΠΈΠ½ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ Π²Π΅ΠΊΡ‚ΠΎΡ€ настраиваСтся Π½Π° ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ вновь Π²Ρ‹Π±ΠΈΡ€Π°Π΅ΠΌΡ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚.

МоТно ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²ΠΈΡ‚ΡŒ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ стохастичСского Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска Π² Π²ΠΈΠ΄Π΅ псСвдокода ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ:

Π’Ρ…ΠΎΠ΄:

Β· - ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°

Β· - Ρ‚Π΅ΠΌΠΏ обучСния

Β· - ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ сглаТивания Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΎΠ½Π°Π»Π°

Π’Ρ‹Ρ…ΠΎΠ΄:

1. Π’Π΅ΠΊΡ‚ΠΎΡ€ вСсов

Π’Π΅Π»ΠΎ:

1) Π˜Π½ΠΈΡ†ΠΈΠ°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ вСса

2) Π˜Π½ΠΈΡ†ΠΈΠ°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ‚Π΅ΠΊΡƒΡ‰ΡƒΡŽ ΠΎΡ†Π΅Π½ΠΊΡƒ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΎΠ½Π°Π»Π°:

3) ΠŸΠΎΠ²Ρ‚ΠΎΡ€ΡΡ‚ΡŒ:

1. Π’Ρ‹Π±Ρ€Π°Ρ‚ΡŒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ ΠΈΠ· ΡΠ»ΡƒΡ‡Π°ΠΉΠ½Ρ‹ΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ

2. Π’Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚ΡŒ Π²Ρ‹Ρ…ΠΎΠ΄Π½ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° ΠΈ ΠΎΡˆΠΈΠ±ΠΊΡƒ:

3. Π‘Π΄Π΅Π»Π°Ρ‚ΡŒ шаг Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска

4. ΠžΡ†Π΅Π½ΠΈΡ‚ΡŒ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΎΠ½Π°Π»Π°:

4) Пока Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Π½Π΅ ΡΡ‚абилизируСтся ΠΈ/ΠΈΠ»ΠΈ вСса Π½Π΅ ΠΏΠ΅Ρ€Π΅ΡΡ‚Π°Π½ΡƒΡ‚ ΠΈΠ·ΠΌΠ΅Π½ΡΡ‚ΡŒΡΡ.

Π“Π»Π°Π²Π½Ρ‹ΠΌ достоинством SGD ΠΌΠΎΠΆΠ½ΠΎ Π½Π°Π·Π²Π°Ρ‚ΡŒ Π΅Π³ΠΎ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния Π½Π° ΠΈΠ·Π±Ρ‹Ρ‚ΠΎΡ‡Π½ΠΎ Π±ΠΎΠ»ΡŒΡˆΠΈΡ… Π΄Π°Π½Π½Ρ‹Ρ…. ИмСнно это интСрСсно для нас Π² Ρ€Π°ΠΌΠΊΠ°Ρ… поставлСнной ΠΏΠ΅Ρ€Π΅Π΄ Π½Π°ΠΌΠΈ Π·Π°Π΄Π°Ρ‡ΠΈ ΠΈΠ±ΠΎ объСм Π²Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… Π±ΡƒΠ΄Π΅Ρ‚ вСсьма Π²Π΅Π»ΠΈΠΊ. Π’ Ρ‚ΠΎ ΠΆΠ΅ врСмя, Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ SGD Π² ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ ΠΎΡ‚ ΠΊΠ»Π°ΡΡΠΈΡ‡Π΅ΡΠΊΠΎΠ³ΠΎ ΠΏΠ°ΠΊΠ΅Ρ‚Π½ΠΎΠ³ΠΎ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска Π΄Π°Π΅Ρ‚ нСсколько ΠΌΠ΅Π½ΡŒΡˆΡƒΡŽ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ классификации. Π’Π°ΠΊΠΆΠ΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ SGD Π½Π΅ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΠΌ ΠΏΡ€ΠΈ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ ΠΌΠ°ΡˆΠΈΠ½Ρ‹ ΠΎΠΏΠΎΡ€Π½Ρ‹Ρ… Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² с Π½Π΅Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹ΠΌ ядром.

Π’Ρ‹Π²ΠΎΠ΄Ρ‹

Π’ Ρ€Π°ΠΌΠΊΠ°Ρ… Ρ€Π΅ΡˆΠ°Π΅ΠΌΠΎΠΉ Π·Π°Π΄Π°Ρ‡ΠΈ Π½Π°ΠΌ потрСбуСтся Π²ΠΎΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠΌ прСобразования исходных Π΄Π°Π½Π½Ρ‹Ρ… TF-IDF, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΡ‚ Π½Π°ΠΌ ΠΏΠΎΠ²Ρ‹ΡΠΈΡ‚ΡŒ Π²Π΅ΡΠΎΠΌΠΎΡΡ‚ΡŒ Ρ€Π΅Π΄ΠΊΠΈΡ… событий ΠΈ ΡΠ½ΠΈΠ·ΠΈΡ‚ΡŒ вСс частых событий. ΠŸΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Π΅ послС прСобразования Π΄Π°Π½Π½Ρ‹Π΅ ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ ΠΏΠ΅Ρ€Π΅Π΄Π°Π²Π°Ρ‚ΡŒ классификаторам, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ подходят для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ стоящСй ΠΏΠ΅Ρ€Π΅Π΄ Π½Π°ΠΌΠΈ Π·Π°Π΄Π°Ρ‡ΠΈ, Π° ΠΈΠΌΠ΅Π½Π½ΠΎ: Наивный БайСсовский ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€ ΠΈΠ»ΠΈ Машина ΠžΠΏΠΎΡ€Π½Ρ‹Ρ… Π’Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² с Π›ΠΈΠ½Π΅ΠΉΠ½Ρ‹ΠΌ ядром, обучСнная ΠΏΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρƒ стохастичСского Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска. Π’Π°ΠΊΠΆΠ΅ ΠΌΡ‹ ΠΎΡΡƒΡ‰Π΅ΡΡ‚Π²ΠΈΠΌ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΡƒ эффСктивности ΠœΠ°ΡˆΠΈΠ½Ρ‹ ΠžΠΏΠΎΡ€Π½Ρ‹Ρ… Π’Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² с Π½Π΅Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹ΠΌΠΈ ядрами, ΠΎΠ±ΡƒΡ‡Π΅Π½Π½ΠΎΠΉ ΠΏΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρƒ ΠΏΠ°ΠΊΠ΅Ρ‚Π½ΠΎΠ³ΠΎ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска. Однако, Π΄Π°Π½Π½Ρ‹ΠΉ Ρ‚ΠΈΠΏ классификатора Π½Π΅ ΠΊΠ°ΠΆΠ΅Ρ‚ся подходящим для поставлСнной Π·Π°Π΄Π°Ρ‡ΠΈ Π² ΡΠΈΠ»Ρƒ слишком слоТного ядра ΠΈ ΡΠΊΠ»ΠΎΠ½Π½ΠΎΡΡ‚ΠΈ ΠΊ ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π°Π΅ΠΌΠΎΡΡ‚ΠΈ, ΠΏΡ€ΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ классификатор ΠΏΠ»ΠΎΡ…ΠΎ справляСтся с Π΄Π°Π½Π½Ρ‹ΠΌΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½Π΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Π»ΠΈΡΡŒ для обучСния классификатора.

ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ½Ρ‹ΠΉ ΠΌΠ°ΡˆΠΈΠ½Π½Ρ‹ΠΉ ΠΏΡ€Π΅Π΄ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ° Π΄Π°Π½Π½Ρ‹ΠΉ

3. РСализация систСмы

Π Π°Π±ΠΎΡ‚Π° систСмы состоит ΠΈΠ· Π΄Π²ΡƒΡ… этапов. На ΠΏΠ΅Ρ€Π²ΠΎΠΌ этапС производится ΠΈΠ·Π²Π»Π΅Ρ‡Π΅Π½ΠΈΠ΅ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΎ Ρ‚Ρ€Π΅Π½Π΄Π°Ρ… Π² Ρ†Π΅Π½Π°Ρ…, ΡƒΡΡ‚Π°Π½Π°Π²Π»ΠΈΠ²Π°ΡŽΡ‚ΡΡ ΠΏΠ΅Ρ€ΠΈΠΎΠ΄Ρ‹ роста, сниТСния ΠΈ ΠΏΠΎΡΡ‚оянства Ρ†Π΅Π½ Π½Π° Ρ†Π΅Π½Π½Ρ‹Π΅ Π±ΡƒΠΌΠ°Π³ΠΈ. Π Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠ° систСмы, способной Π²Ρ‹ΠΏΠΎΠ»Π½ΠΈΡ‚ΡŒ Π΄Π°Π½Π½Ρ‹ΠΉ этап Π½Π΅ ΡΠ²Π»ΡΠ΅Ρ‚ся основной Ρ‚Π΅ΠΌΠΎΠΉ Π΄Π°Π½Π½ΠΎΠΉ Ρ€Π°Π±ΠΎΡ‚Ρ‹, ΠΏΠΎΡ‚ΠΎΠΌΡƒ примСнСнная для ΠΏΡ€Π΅Π΄ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ… ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ° Π±ΡƒΠ΄Π΅Ρ‚ описана ΠΊΡ€Π°Ρ‚ΠΊΠΎ.

На Π²Ρ‚ΠΎΡ€ΠΎΠΌ этапС добытая информация ΠΎ Ρ‚Ρ€Π΅Π½Π΄Π°Ρ… примСняСтся для Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠΈ классификатора ΠΈ Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΈΡ прСдсказаний ΠΎ ΠΏΡ€ΠΈΡ‡ΠΈΠ½Π°Ρ… Π°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΡƒΠ΅ΠΌΡ‹Ρ… ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΉ Π² Ρ‚Ρ€Π΅Π½Π΄Π°Ρ… Ρ†Π΅Π½.

3.1 ΠŸΡ€Π΅Π΄ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ° ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ

Для извлСчСния ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΎ Ρ‚Ρ€Π΅Π½Π΄Π°Ρ… Π² Ρ†Π΅Π½Π°Ρ… ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ FactEventAnalyzer. exe, Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½ΠΎΠ΅ Π½Π° C#. ВСкст ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹ доступСн Π² ΠŸΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΈ 1.

ΠŸΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ° Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ с Π½Π°Π±ΠΎΡ€ΠΎΠΌ Π΄Π°Π½Π½Ρ‹Ρ… ΠΎ Ρ†Π΅Π½Π°Ρ… Π½Π° Ρ†Π΅Π½Π½Ρ‹Π΅ Π±ΡƒΠΌΠ°Π³ΠΈ ΠΈ ΠΎ ΠΊΠΎΡ€ΠΏΠΎΡ€Π°Ρ‚ΠΈΠ²Π½Ρ‹Ρ… событиях (Ρ‚Π°ΠΊΠΈΡ… ΠΊΠ°ΠΊ Π²Ρ‹ΠΏΠ»Π°Ρ‚Π° Π΄ΠΈΠ²ΠΈΠ΄Π΅Π½Π΄ΠΎΠ², измСнСния Ρ€Π΅ΠΉΡ‚ΠΈΠ½Π³Π° ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΉ, собраниях Π°ΠΊΡ†ΠΈΠΎΠ½Π΅Ρ€ΠΎΠ²) ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ хранятся Π² Π±Π°Π·Π΅ Π΄Π°Π½Π½Ρ‹Ρ… MS SQL Server.

ΠŸΡ€ΠΈΠΌΠ΅Ρ€Ρ‹ доступных Π΄Π°Π½Π½Ρ‹Ρ… продСмонстрированы Π½ΠΈΠΆΠ΅.

Π˜Π½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡ ΠΎ Ρ†Π΅Π½Π½Ρ‹Ρ… Π±ΡƒΠΌΠ°Π³Π°Ρ…:

SecId

Ticker

Issuer

Sec Type

Inv Type

Price Currency

Region

Issuer Country

Exchange

Industry Sector

IBM

International Business Machines Corp

EQTY

EQTY

USD

American

USA

XNYS

IT Consulting & Other Services

ADVS

Advent Software Inc

EQTY

EQTY

USD

American

USA

XNGS

Application Software

MSFT US Equity

Microsoft Corp

EQTY

EQTY

USD

American

USA

XNGS

Systems Software

WIL SP

Wilmar International Ltd

EQTY

EQTY

SGD

Asian

SGP

XSES

Agricultural Products

ADM

Archer-Daniels-Midland Co

EQTY

EQTY

USD

American

USA

XNYS

Agricultural Products

AGU

Agrium Inc

EQTY

EQTY

USD

American

CAN

XNYS

Fertilizers & Agricultural Chemicals

BG

Bunge Ltd

EQTY

EQTY

USD

American

BMU

XNYS

Agricultural Products

GGR SP

Golden Agri-Resources Ltd

EQTY

EQTY

SGD

Asian

MUS

XSES

Agricultural Products

INGR

Ingredion Inc

EQTY

EQTY

USD

American

USA

XNYS

Agricultural Products

VT

Viterra Inc

EQTY

EQTY

CAD

American

CAN

XTSE

Agricultural Products

1. SecId. Π’Π½ΡƒΡ‚Ρ€Π΅Π½Π½ΠΈΠΉ ΡƒΠ½ΠΈΠΊΠ°Π»ΡŒΠ½Ρ‹ΠΉ ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€ Π±ΡƒΠΌΠ°Π³ΠΈ

2. Ticker. Π˜Π΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€, ΠΏΠΎΠ΄ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ Π±ΡƒΠΌΠ°Π³Π° торгуСтся Π½Π° Π±ΠΈΡ€ΠΆΠ΅

3. Issuer. Компания, Π²Ρ‹ΠΏΡƒΡΡ‚ΠΈΠ²ΡˆΠ°Ρ Π΄Π°Π½Π½ΡƒΡŽ Π±ΡƒΠΌΠ°Π³Ρƒ

4. SecType. Код Ρ‚ΠΈΠΏΠ° Ρ†Π΅Π½Π½ΠΎΠΉ Π±ΡƒΠΌΠ°Π³ΠΈ

5. InvType. Код ΠΏΠΎΠ΄Ρ‚ΠΈΠΏΠ° Ρ†Π΅Π½Π½ΠΎΠΉ Π±ΡƒΠΌΠ°Π³ΠΈ

6. PriceCurrency. Π’Π°Π»ΡŽΡ‚Π°, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ торгуСтся данная Π±ΡƒΠΌΠ°Π³Π°

7. Region. Π Π΅Π³ΠΈΠΎΠ½, с ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ ассоциирована данная Π±ΡƒΠΌΠ°Π³Π°

8. IssuerCountry. Π‘Ρ‚Ρ€Π°Π½Π° рСгистрации ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ, Π²Ρ‹ΠΏΡƒΡΡ‚ΠΈΠ²ΡˆΠ΅ΠΉ Π΄Π°Π½Π½ΡƒΡŽ Π±ΡƒΠΌΠ°Π³Ρƒ

9. Exchange. Π‘ΠΈΡ€ΠΆΠ°, Π½Π° ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ торгуСтся данная Π±ΡƒΠΌΠ°Π³Π°

10. IndustrySector. Π˜Π½Π΄ΡƒΡΡ‚Ρ€ΠΈΡ, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ компания, Π²Ρ‹ΠΏΡƒΡΡ‚ΠΈΠ²ΡˆΠ°Ρ Π΄Π°Π½Π½ΡƒΡŽ Π±ΡƒΠΌΠ°Π³Ρƒ Π˜Π½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡ ΠΎ Ρ†Π΅Π½Π°Ρ…:

Date

DateTick

SecId

Price

AskPrice

BidPrice

1/24/12 0:00

2/20/12 0:00

26.5

3/5/12 0:00

0.28 375

0.022

0.0265

3/12/12 0:00

37.14

37.12

37.23

3/20/12 0:00

1.49

1.45

1.45

4/9/12 0:00

4/20/12 0:00

0.195

0.013

0.12

5/2/12 0:00

5/14/12 0:00

3.4

2.8

2.8

5/21/12 0:00

0.0024

0.0005

0.175

1. Date. Π˜Π½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡ ΠΎ Π΄Π°Ρ‚Π΅, Π½Π° ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ Π±Ρ‹Π»Π° Π°ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½Π° указанная Ρ†Π΅Π½Π°

2. DateTick. Π˜Π½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡ ΠΎ Π΄Π°, Π½Π° ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ Π±Ρ‹Π»Π° Π°ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½Π° Ρ†Π΅Π½Π°, прСдставлСнная Π² Π²ΠΈΠ΄Π΅ числа Π΄Π½Π΅ΠΉ с 1-Π³ΠΎ января 1900 Π³ΠΎΠ΄Π°

3. SecId. Π’Π½ΡƒΡ‚Ρ€Π΅Π½Π½ΠΈΠΉ ΡƒΠ½ΠΈΠΊΠ°Π»ΡŒΠ½Ρ‹ΠΉ ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€ Π±ΡƒΠΌΠ°Π³ΠΈ, для ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Π°ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½Π° данная Ρ†Π΅Π½Π°

4. Price. ЗначСния Ρ†Π΅Π½Ρ‹ закрытия

5. Ask. Π—Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Ρ†Π΅Π½Ρ‹

6. Bid. Π—Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Ρ†Π΅Π½Ρ‹ Π˜Π½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡ ΠΎ ΠΊΠΎΡ€ΠΏΠΎΡ€Π°Ρ‚ΠΈΠ²Π½Ρ‹Ρ… событиях:

SecId

UniqueCoraxId

EffectiveDate

EventType

EventMajorType

2/4/14 0:00

Merger

Standard

4/3/14 0:00

Stock Split

Standard

2/4/14 0:00

Merger

Standard

12/12/13 0:00

Cash Dividend

Standard

3/13/14 0:00

Cash Dividend

Standard

2/27/14 0:00

Merger

Standard

3/27/14 0:00

Cash Dividend

Standard

12/23/13 0:00

Divestiture

Standard

3/30/14 0:00

Merger

Standard

3/30/14 0:00

Divestiture

Standard

1. SecId. Π’Π½ΡƒΡ‚Ρ€Π΅Π½Π½ΠΈΠΉ ΡƒΠ½ΠΈΠΊΠ°Π»ΡŒΠ½Ρ‹ΠΉ ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€ Π±ΡƒΠΌΠ°Π³ΠΈ, для ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Π°ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎ Π΄Π°Π½Π½ΠΎΠ΅ событиС

2. UniqueCoraxId. Π£Π½ΠΈΠΊΠ°Π»ΡŒΠ½Ρ‹ΠΉ ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€ Π΄Π°Π½Π½ΠΎΠ³ΠΎ события.

3. EffectiveDate. Π”Π°Ρ‚Π° события.

4. EventType. ΠŸΠΎΠ΄Ρ‚ΠΈΠΏ события.

5. EventMajorType. Π“Π»ΠΎΠ±Π°Π»ΡŒΠ½Ρ‹ΠΉ Ρ‚ΠΈΠΏ события.

ΠŸΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ вызываСтся ΠΈΠ· ΠΊΠΎΠΌΠ°Π½Π΄Π½ΠΎΠΉ строки, послС Ρ‡Π΅Π³ΠΎ выполняСт ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΉ процСсс:

1) Π‘Ρ‡ΠΈΡ‚Ρ‹Π²Π°ΡŽΡ‚ΡΡ стартовыС ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ ΠΈΠ· xml-Ρ„Π°ΠΉΠ»Π° Config. xml (доступСн Π² ΠŸΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΈ 2).

2) ЗапускаСтся процСсс runFactMiner, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΈΠ·Π²Π»Π΅ΠΊΠ°Π΅Ρ‚ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ ΠΎ Ρ‚Ρ€Π΅Π½Π΄Π°Ρ… ΠΈΠ· ΠΈΡΡ…ΠΎΠ΄Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ прСдоставлСнных ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². Данная Π·Π°Π΄Π°Ρ‡Π° выполняСтся ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ:

1. Для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ Ρ†Π΅Π½Π½ΠΎΠΉ Π±ΡƒΠΌΠ°Π³ΠΈ ΡƒΠ΄ΠΎΠ²Π»Π΅Ρ‚Π²ΠΎΡ€ΡΡŽΡ‰Π΅ΠΉ ΠΏΠ΅Ρ€Π΅Π΄Π°Π½Π½Ρ‹ΠΌ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ° ΠΏΠ΅Ρ€Π΅Π±ΠΈΡ€Π°Π΅Ρ‚ ΠΊΠ°ΠΆΠ΄ΡƒΡŽ ΠΈΠΌΠ΅ΡŽΡ‰ΡƒΡŽΡΡ запись ΠΎ Π΅Π΅ Ρ†Π΅Π½Π΅ Π² Ρ…ронологичСском порядкС.

2. Если Ρ†Π΅Π½Π° Π² Ρ‚Π΅ΠΊΡƒΡ‰Π΅ΠΉ записи Π²Ρ‹ΡˆΠ΅ Ρ‡Π΅ΠΌ Π² ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅ΠΉ — ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°Π΅ΠΌ Ρ‡Ρ‚ΠΎ Ρ†Π΅Π½Π° растСт, Ссли ΠΎΠ½Π° мСньшС — ΠΏΠ°Π΄Π°Π΅Ρ‚. ΠŸΡ€ΠΈ этом ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π΄ΠΎΠ»ΠΆΠ½ΠΎ ΠΏΡ€Π΅Π²Π·ΠΎΠΉΡ‚ΠΈ Π·Π°Ρ€Π°Π½Π΅Π΅ Π·Π°Π΄Π°Π½Π½Ρ‹ΠΉ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ Ρ‡ΡƒΠ²ΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ changeThreshold (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€ 0.2 ΠΏΡ€ΠΎΡ†Π΅Π½Ρ‚Π° измСнСния) Π² ΠΏΡ€ΠΎΡ‚ΠΈΠ²Π½ΠΎΠΌ случаС считаСм Ρ‡Ρ‚ΠΎ Ρ†Π΅Π½Π° Π½Π΅ΠΈΠ·ΠΌΠ΅Π½Π½Π°.

3. Π’ Ρ‚ΠΎΠΌ случаС Ссли ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Ρ†Π΅Π½Ρ‹ ΠΏΡ€Π΅Π²Ρ‹ΡˆΠ°Π΅Ρ‚ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π½Π°ΠΏΠ΅Ρ€Π΅Π΄ Π·Π°Π΄Π°Π½Π½Ρ‹ΠΉ ΡƒΡ€ΠΎΠ²Π΅Π½ΡŒ (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Π±ΠΎΠ»Π΅Π΅ 3%) Ρ‚ΠΎ ΡΡ‡ΠΈΡ‚Π°Π΅ΠΌ Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΎΠΈΠ·ΠΎΡˆΠ΅Π» «Π²ΡΠΏΠ»Π΅ΡΠΊ» (spike) ΠΈ ΡΠΎΠ·Π΄Π°Π΅ΠΌ ΠΎΠ± ΡΡ‚ΠΎΠΌ запись. Π—Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ этого уровня хранится Π² ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π΅ spikeThreshold.

4. Если Ρ‚Ρ€Π΅Π½Π΄ измСняСтся Π½Π° ΠΎΡ‡Π΅Ρ€Π΅Π΄Π½ΠΎΠΉ записи ΠΎ Ρ†Π΅Π½Π΅ — ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°Π΅ΠΌ Ρ‡Ρ‚ΠΎ Ρ‚Ρ€Π΅Π½Π΄ ΠΌΠΎΠ³ Π±Ρ‹Ρ‚ΡŒ сломлСн.

5. Π’ Ρ‚ΠΎΠΌ случаС Ссли ΠΌΡ‹ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°Π΅ΠΌ слом Ρ‚Ρ€Π΅Π½Π΄Π° ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ° провСряСт Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ количСство ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΡ… записСй ΠΎ Ρ†Π΅Π½Π°Ρ… (количСство Ρ‚Π°ΠΊΠΆΠ΅ задаСтся ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠΌ dateThreshold). Если ΠΏΡ€ΠΈ сравнСнии Ρ‚Π΅ΠΊΡƒΡ‰Π΅ΠΉ записи Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ Ρ‚ΠΎΠΉ, Π½Π° ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΡ€ΠΎΠΈΠ·ΠΎΡˆΠ΅Π» слом Ρ‚Ρ€Π΅Π½Π΄Π°, Π²ΠΈΠ΄ΠΈΠΌ, Ρ‡Ρ‚ΠΎ слом Ρ‚Ρ€Π΅Π½Π΄Π° ΠΏΠΎΠ΄Ρ‚Π²Π΅Ρ€ΠΆΠ΄Π΅Π½ — создаСм запись ΠΎ Π½Π°Ρ‡Π°Π»Π΅ Ρ‚Ρ€Π΅Π½Π΄Π° ΠΈ Π΅Π³ΠΎ ΠΎΠΊΠΎΠ½Ρ‡Π°Π½ΠΈΠΈ. Если слом Ρ‚Ρ€Π΅Π½Π΄Π° Π½Π΅ ΠΏΠΎΠ΄Ρ‚Π²Π΅Ρ€ΠΆΠ΄Π΅Π½ — ΠΏΡ€ΠΎΠ΄ΠΎΠ»ΠΆΠ°Π΅ΠΌ ΠΏΠ΅Ρ€Π΅Π±ΠΎΡ€

3) По ΠΎΠΊΠΎΠ½Ρ‡Π°Π½ΠΈΡŽ Ρ‚Π°ΠΊΠΎΠ³ΠΎ ΠΏΠ΅Ρ€Π΅Π±ΠΎΡ€Π° Π² Π±Π°Π·Π΅ Π΄Π°Π½Π½Ρ‹Ρ… FactEventAnalysisDB, с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Ρ‚Π°Π±Π»ΠΈΡ‡Π½Ρ‹Ρ… прСдставлСния PriceFactsHypothesis извлСкаСтся информация ΠΎ Ρ‚Ρ€Π΅Π½Π΄Π°Ρ… Π½Π° Ρ†Π΅Π½Π½Ρ‹Π΅ Π±ΡƒΠΌΠ°Π³ΠΈ, Π° Ρ ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ прСдставлСния SpikeFactsHypothesis — ΠΎ «Π²ΡΠΏΠ»Π΅ΡΠΊΠ°Ρ…» ΠΈ ΡΠΎΡ…Ρ€Π°Π½ΡΡŽΡ‚ΡΡ Π² Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹ΠΉ Ρ„Π°ΠΉΠ» Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Π° csv.

Π”ΠΈΠ°Π³Ρ€Π°ΠΌΠΌΠ° классов систСмы ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½Π° Π½ΠΈΠΆΠ΅:

Рис. 2. Π”ΠΈΠ°Π³Ρ€Π°ΠΌΠΌΠ° классов прилоТСния Fact Event Analyzer

ΠšΡ€Π°Ρ‚ΠΊΠΎΠ΅ описаниС классов Π½Π°Π΄ΠΎ Π½ΠΈΠΆΠ΅:

1) CoraxesSource, CoraxFactsTable, PricesSource, SecuritiesSource, PriceFactsTable, SpikeFactsTable. ΠšΠ»Π°ΡΡΡ‹, ΠΎΠ±Π΅ΡΠΏΠ΅Ρ‡ΠΈΠ²Π°ΡŽΡ‰ΠΈΠΉ доступ ΠΊ ΠΈΡΡ‚ΠΎΡ‡Π½ΠΈΠΊΠ°ΠΌ Π΄Π°Π½Π½Ρ‹Ρ… — ΠΎΠ΄Π½ΠΎΠΈΠΌΠ΅Π½Π½Ρ‹ΠΌ Ρ‚Π°Π±Π»ΠΈΡ†Π°ΠΌ Π² Π±Π°Π·Π΅ Π΄Π°Π½Π½Ρ‹Ρ… FactEventAnalysisDB.

2) FactEventAnalysisDBDataContext. Π‘Π»ΡƒΠΆΠ΅Π±Π½Ρ‹ΠΉ класс, ΠΎΠ±Π΅ΡΠΏΠ΅Ρ‡ΠΈΠ²Π°ΡŽΡ‰ΠΈΠΉ ΠΊΠΎΠΌΠΌΡƒΠ½ΠΈΠΊΠ°Ρ†ΠΈΡŽ прилоТСния с Π±Π°Π·ΠΎΠΉ Π΄Π°Π½Π½Ρ‹Ρ… FactEventAnalysisDB.

3) FactMiner. Класс, Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡŽΡ‰ΠΈΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ извлСчСния ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΎ Ρ‚Ρ€Π΅Π½Π΄Π°Ρ… с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΏΠ΅Ρ€Π΅Π΄Π°Π½Π½Ρ‹Ρ… Π΅ΠΌΡƒ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², ΠΈ Π·Π°ΠΏΠΈΡΡŒ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΎ Ρ‚Ρ€Π΅Π½Π΄Π°Ρ… Π² Ρ„Π°ΠΉΠ»Ρ‹.

4) Logger. Класс, Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡŽΡ‰ΠΈΠΉ Π²Π΅Π΄Π΅Π½ΠΈΠ΅ ΠΆΡƒΡ€Π½Π°Π»Π° Ρ€Π°Π±ΠΎΡ‚Ρ‹ прилоТСния.

5) PriceFactsHypothesi. Класс, ΠΎΠ±Π΅ΡΠΏΠ΅Ρ‡ΠΈΠ²Π°ΡŽΡ‰ΠΈΠΉ Π²Ρ‹Π·ΠΎΠ² Ρ‚Π°Π±Π»ΠΈΡ‡Π½ΠΎΠ³ΠΎ прСдставлСния PriceFactsHypothesis Π² Π±Π°Π·Π΅ FactEventAnalysisDB.

6) SpikeFactHypothesi. Класс, ΠΎΠ±Π΅ΡΠΏΠ΅Ρ‡ΠΈΠ²Π°ΡŽΡ‰ΠΈΠΉ Π²Ρ‹Π·ΠΎΠ² Ρ‚Π°Π±Π»ΠΈΡ‡Π½ΠΎΠ³ΠΎ прСдставлСния SpikeFactsHypothesis Π² Π±Π°Π·Π΅ FactEventAnalysisDB.

7) Program. Π“Π»Π°Π²Π½Ρ‹ΠΉ класс, ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΡŽΡ‰ΠΈΠΉ всС ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Π΅ классы ΠΈ Π²Ρ‹Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π΄Ρ€ΡƒΠ³ΠΈΡ… классов ΠΏΠΎ Ρ…ΠΎΠ΄Ρƒ выполнСния ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹. Π’Π°ΠΊΠΆΠ΅ обСспСчиваСт Ρ‡Ρ‚Π΅Π½ΠΈΠ΅ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹ ΠΈΠ· Ρ„Π°ΠΉΠ»Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ².

8) Settings. Π‘Π»ΡƒΠΆΠ΅Π±Π½Ρ‹ΠΉ класс, хранящий ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ ΠΎ ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΈ.

9) Parameters. Π‘Ρ‚Ρ€ΡƒΠΊΡ‚ΡƒΡ€Π°, ΠΎΠ±Π΅ΡΠΏΠ΅Ρ‡ΠΈΠ²Π°ΡŽΡ‰Π°Ρ Ρ…Ρ€Π°Π½Π΅Π½ΠΈΠ΅ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹, считанных ΠΈΠ· Ρ„Π°ΠΉΠ»Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ².

Π’ ΠΏΡ€ΠΎΡ†Π΅ΡΡΠ΅ Ρ€Π°Π±ΠΎΡ‚Ρ‹ систСма Π±Π°Π·Ρƒ Π΄Π°Π½Π½Ρ‹Ρ… FactEventAnalysisDB, Π΅Π΅ Π΄ΠΈΠ°Π³Ρ€Π°ΠΌΠΌΠ° ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½Π° Π½ΠΈΠΆΠ΅:

Π’Π°ΠΊΠΆΠ΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Π΄Π²Π΅ Ρ…Ρ€Π°Π½ΠΈΠΌΡ‹Ρ… ΠΏΡ€ΠΎΡ†Π΅Π΄ΡƒΡ€Ρ‹ ΠΈΠ· Π±Π°Π·Ρ‹ FactEventAnalysisDB, ΠΊΠΎΠ΄ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… доступСн Π² ΠŸΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΈ 3. Π˜Ρ… ΠΎΠΏΠΈΡΠ°Π½ΠΈΠ΅ ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½ΠΎ Π½ΠΈΠΆΠ΅:

1) usp_ClearFactsTables. ΠžΡ‡ΠΈΡ‰Π°Π΅Ρ‚ Ρ‚Π°Π±Π»ΠΈΡ†Ρ‹ CoraxFactsTable ΠΈ SpikeFactsTable, ΠΎΡ‚ ΡΡ‚Π°Ρ€Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ…, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠΎΠ³Π»ΠΈ ΠΎΡΡ‚Π°Ρ‚ΡŒΡΡ ΠΎΡ‚ ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΡ… Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΈΠΉ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹

2) usp_populateCoraxFactsTable. ΠžΡΡƒΡ‰Π΅ΡΡ‚Π²Π»ΡΠ΅Ρ‚ ΠΏΡ€Π΅Π΄ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΡƒ Π΄Π°Π½Π½Ρ‹Ρ… Π² Ρ‚Π°Π±Π»ΠΈΡ†Π΅ CoraxesSource ΠΈ ΠΏΠ΅Ρ€Π΅Π½ΠΎΡΠΈΡ‚ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ Π² Ρ‚Π°Π±Π»ΠΈΡ†Ρƒ CoraxFactsTable.

Рис. 3. Π”ΠΈΠ°Π³Ρ€Π°ΠΌΠΌΠ° Π±Π°Π·Ρ‹ Π΄Π°Π½Π½Ρ‹Ρ… FactEventAnalysisDB

Помимо этого ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ Π΄Π²Π° Ρ‚Π°Π±Π»ΠΈΡ‡Π½Ρ‹Ρ… прСдставлСния, описаниС ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π΄Π°Π½ΠΎ Π½ΠΈΠΆΠ΅:

1) PriceFactsHypothesis. ΠŸΡ€Π΅Π΄ΡΡ‚Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΈΠ·Π²Π»Π΅ΠΊΠ°ΡŽΡ‰Π΅Π΅ всС ΠΏΠ°Ρ€Ρ‹ «ΠΊΠΎΡ€ΠΏΠΎΡ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠ΅ событиС — ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π² Ρ‚Ρ€Π΅Π½Π΄Π΅ Ρ†Π΅Π½Ρ‹» ΠΈΠ· Ρ‚Π°Π±Π»ΠΈΡ† PriceFactsTable ΠΈ CoraxFactsTable Π½Π° ΠΊΠ°ΠΆΠ΄ΡƒΡŽ Π΄Π°Ρ‚Ρƒ.

2) SpikeFactsHypothesis. ΠŸΡ€Π΅Π΄ΡΡ‚Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΈΠ·Π²Π»Π΅ΠΊΠ°ΡŽΡ‰Π΅Π΅ всС ΠΏΠ°Ρ€Ρ‹ «ΠΊΠΎΡ€ΠΏΠΎΡ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠ΅ событиС — всплСск Π² Ρ†Π΅Π½Π΅» ΠΈΠ· Ρ‚Π°Π±Π»ΠΈΡ† SpikeFactsTable ΠΈ CoraxFactsTable Π½Π° ΠΊΠ°ΠΆΠ΄ΡƒΡŽ Π΄Π°Ρ‚Ρƒ.

Код Π΄Π°Π½Π½Ρ‹Ρ… прСдставлСний Ρ‚Π°ΠΊΠΆΠ΅ доступСн Π² ΠŸΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΈ 3.

Π—Π°Π΄Π°Ρ‡Π° извлСчСния Ρ‚Ρ€Π΅Π½Π΄ΠΎΠ² Π½Π΅ ΡΠ²Π»ΡΠ΅Ρ‚ся Π³Π»Π°Π²Π½ΠΎΠΉ Ρ‚Π΅ΠΌΠΎΠΉ Ρ€Π°Π±ΠΎΡ‚Ρ‹, ΠΏΠΎΡ‚ΠΎΠΌΡƒ упомянута ΠΊΡ€Π°Ρ‚ΠΊΠΎ.

По Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π°ΠΌ Ρ€Π°Π±ΠΎΡ‚Ρ‹ систСма ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚ Π΄Π²Π° Ρ„Π°ΠΉΠ»Π° — SpikeFacts. csv ΠΈ PriceFacts. csv, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ Π² Π΄Π°Π»ΡŒΠ½Π΅ΠΉΡˆΠ΅ΠΌ. Π”Π°Π½Π½Ρ‹Π΅ Ρ„Π°ΠΉΠ»Ρ‹ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡŽΡ‚ собой список ΠΏΠ°Ρ€ «Π₯арактСристика события» — «Π₯арактСристика измСнСния» Π½Π° ΠΊΠ°ΠΆΠ΄ΡƒΡŽ Π΄Π°Ρ‚Ρƒ.

НиТС прСдставлСна инструкция ΠΏΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Π½ΠΈΡŽ систСмы ΠΏΡ€Π΅Π΄ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ.

3.1.1 Π˜Π½ΡΡ‚Ρ€ΡƒΠΊΡ†ΠΈΡ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Ρ

Для использования систСмы Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΡƒΠ±Π΅Π΄ΠΈΡ‚ΡŒΡΡ, Ρ‡Ρ‚ΠΎ Π±Π°Π·Π° с ΠΈΡΡ…ΠΎΠ΄Π½Ρ‹ΠΌΠΈ Π΄Π°Π½Π½Ρ‹ΠΌΠΈ FactEventAnalysisDB Ρ€Π°Π·Π²Π΅Ρ€Π½ΡƒΡ‚Π° Π½Π° ΠΊΠΎΠΌΠΏΡŒΡŽΡ‚Π΅Ρ€Π΅ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Ρ. ПослС этого Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΡΠΊΠΎΠΏΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ„Π°ΠΉΠ» FactEventAnalyzer Π² Π»ΡŽΠ±ΡƒΡŽ ΠΏΠ°ΠΏΠΊΡƒ Π½Π° ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΡΠΊΠΎΠΌ ΠΊΠΎΠΌΠΏΡŒΡŽΡ‚Π΅Ρ€Π΅. Π’ Ρ‚Ρƒ ΠΆΠ΅ ΠΏΠ°ΠΏΠΊΡƒ Π½ΡƒΠΆΠ½ΠΎ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚ΡŒ Ρ„Π°ΠΉΠ» Config. xml (доступСн Π² ΠŸΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΈ 2). Π’ Π΄Π°Π½Π½ΠΎΠΌ Ρ„Π°ΠΉΠ»Π΅ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΡƒΠΊΠ°Π·Π°Ρ‚ΡŒ Π°ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½Ρ‹Π΅ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ для ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΡ… ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ…:

1. logFolder. Π£ΠΊΠ°Π·Π°Ρ‚ΡŒ ΠΏΠ°ΠΏΠΊΡƒ, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Π±ΡƒΠ΄Π΅Ρ‚ Ρ…Ρ€Π°Π½ΠΈΡ‚ΡŒΡΡ ΠΆΡƒΡ€Π½Π°Π» выполнСния ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹

2. changeThreshold. Π£ΠΊΠ°Π·Π°Ρ‚ΡŒ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ (Π² ΠΏΡ€ΠΎΡ†Π΅Π½Ρ‚Π°Ρ…) Π½Π° ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ Π΄ΠΎΠ»ΠΆΠ½Π° ΠΈΠ·ΠΌΠ΅Π½ΠΈΡ‚ΡŒΡΡ Ρ†Π΅Π½Π°, Ρ‡Ρ‚ΠΎΠ±Ρ‹ систСма ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠΈΠ»Π° Ρ‡Ρ‚ΠΎ Ρ‚Ρ€Π΅Π½Π΄ Π² ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΈ Ρ†Π΅Π½Ρ‹ Π±Ρ‹Π» сломлСн.

3. Dates (from ΠΈ to). Π”Π°Ρ‚Ρ‹ с ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΈ ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ Π±ΡƒΠ΄ΡƒΡ‚ ΠΏΡ€ΠΎΠ°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Ρ‹ Ρ†Π΅Π½Ρ‹ (ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ для ограничСния объСма Π΄Π°Π½Π½Ρ‹Ρ…, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π±ΡƒΠ΄ΡƒΡ‚ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚Π°Π½Ρ‹.

4. spikeThreshold. Π—Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ (Π² ΠΏΡ€ΠΎΡ†Π΅Π½Ρ‚Π°Ρ…) Π½Π° ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ Π΄ΠΎΠ»ΠΆΠ½Π° ΠΈΠ·ΠΌΠ΅Π½ΠΈΡ‚ΡŒΡΡ Ρ†Π΅Π½Π°, Ρ‡Ρ‚ΠΎΠ±Ρ‹ систСма сдСлала Π²Ρ‹Π²ΠΎΠ΄ ΠΎ Π½Π°Π»ΠΈΡ‡ΠΈΠΈ «Π²ΡΠΏΠ»Π΅ΡΠΊΠ°» Π² Ρ†Π΅Π½Π΅.

5. dateThreshold. На ΡΠΊΠΎΠ»ΡŒΠΊΠΎ Π΄Π½Π΅ΠΉ Π²ΠΏΠ΅Ρ€Π΅Π΄ систСма Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΡΡ‚ΡŒ Ρ†Π΅Π½Ρ‹ для ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ Π³ΠΈΠΏΠΎΡ‚Π΅Π·Ρ‹ ΠΎΠ± ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΈ Π² Ρ‚Ρ€Π΅Π½Π΄Π΅ Ρ†Π΅Π½Ρ‹.

6. filesForMl. Папка, Π² ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ Π±ΡƒΠ΄ΡƒΡ‚ сохранСны Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹.

ΠŸΡ€ΠΈΠΌΠ΅Ρ€ использования ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹ продСмонстрирован Π½ΠΈΠΆΠ΅.

ΠŸΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ° скопирована Π² ΠΏΠ°ΠΏΠΊΡƒ D: DiplomaProjectPreProcessing

Рис. 4. ΠŸΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ° скопирована Π² ΠΏΠ°ΠΏΠΊΡƒ Π”Π²ΠΎΠΉΠ½ΠΎΠΉ Ρ‰Π΅Π»Ρ‡ΠΎΠΊ ΠΌΡ‹ΡˆΠΈ ΠΏΠΎ FactEventAnalyzer. exe запускаСт ΠΏΡ€Π΅Π΄ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊ. Π’Π°ΠΊ ΠΊΠ°ΠΊ это консольноС ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ Ρ‚ΠΎ ΠΏΠΎΡΠ²Π»ΡΠ΅Ρ‚ся ΠΎΠΊΠ½ΠΎ консоли, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΡΡ‚Π°Π²Π°Ρ‚ΡŒΡΡ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹ΠΌ Π½Π° Π²ΡΠ΅ врСмя Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹.

Рис. 5. Π Π°Π±ΠΎΡ‚Π° систСмы ΠΏΡ€Π΅Π΄ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ… ПослС Π·Π°Π²Π΅Ρ€ΡˆΠ΅Π½ΠΈΡ Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹ Π² ΠΏΠΎΠ΄ΠΏΠ°ΠΏΠΊΠ΅ Log доступСн ΠΆΡƒΡ€Π½Π°Π» Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹:

Рис. 6. Π–ΡƒΡ€Π½Π°Π» Ρ€Π°Π±ΠΎΡ‚Ρ‹ систСмы ΠΏΡ€Π΅Π΄ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ…, А Π² ΡƒΠΊΠ°Π·Π°Π½Π½ΠΎΠΉ Ρ€Π°Π½Π΅Π΅ Π² Ρ„Π°ΠΉΠ»Π΅ Config. xml ΠΏΠ°ΠΏΠΊΠ΅ хранятся Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹ ΠΏΡ€Π΅Π΄ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ:

Рис. 7. Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ Ρ€Π°Π±ΠΎΡ‚Ρ‹ систСмы ΠΏΡ€Π΅Π΄ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ…

3.2 БистСма классификации

ΠŸΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Π΅ Π² ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅ΠΌ шагС Ρ„Π°ΠΉΠ»Ρ‹ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ систСмой FactGeneralyzer, ΠΊΠΎΠ΄ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ доступСн Π² ΠŸΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΈ 4.

Данная систСма Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π° с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ языка Python ΠΈ ΠΏΠ°ΠΊΠ΅Ρ‚Π° Scikit-learn, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΡ€Π΅Π΄ΠΎΡΡ‚Π°Π²Π»ΡΡŽΡ‚ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ упомянутых Π² ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΡ… Ρ€Π°Π·Π΄Π΅Π»Π°Ρ… ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² машинного обучСния. БистСма позволяСт Π²Ρ‹Π±Ρ€Π°Ρ‚ΡŒ классификатор, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π±ΡƒΠ΄Π΅Ρ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ ΠΏΡ€ΠΈ Ρ€Π°Π±ΠΎΡ‚Π΅. БистСма способна Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ Π² Π΄Π²ΡƒΡ… Ρ€Π΅ΠΆΠΈΠΌΠ°Ρ… — тСстовом ΠΈ Ρ€Π°Π±ΠΎΡ‡Π΅ΠΌ. ОписаниС ΠΎΠ±ΠΎΠΈΡ… Ρ€Π΅ΠΆΠΈΠΌΠΎΠ² прСдставлСно Π½ΠΈΠΆΠ΅.

ΠŸΠΎΠΊΠ°Π·Π°Ρ‚ΡŒ вСсь тСкст
Π—Π°ΠΏΠΎΠ»Π½ΠΈΡ‚ΡŒ Ρ„ΠΎΡ€ΠΌΡƒ Ρ‚Π΅ΠΊΡƒΡ‰Π΅ΠΉ Ρ€Π°Π±ΠΎΡ‚ΠΎΠΉ