ΠŸΠΎΠΌΠΎΡ‰ΡŒ Π² написании студСнчСских Ρ€Π°Π±ΠΎΡ‚
АнтистрСссовый сСрвис

Анализ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² автоматичСской классификации Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²

ΠšΡƒΡ€ΡΠΎΠ²Π°ΡΠŸΠΎΠΌΠΎΡ‰ΡŒ Π² Π½Π°ΠΏΠΈΡΠ°Π½ΠΈΠΈΠ£Π·Π½Π°Ρ‚ΡŒ ΡΡ‚ΠΎΠΈΠΌΠΎΡΡ‚ΡŒΠΌΠΎΠ΅ΠΉ Ρ€Π°Π±ΠΎΡ‚Ρ‹

ВозмоТности ΡƒΡ‡Π΅Ρ‚Π° сСмантики Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² Π½Π° Π΅ΡΡ‚СствСнном языкС. ΠœΠΎΠ΄ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΡ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² прСдставлСния Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΈ Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊ (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, использованиС Π² ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² словосочСтаний вмСсто ΠΎΠ΄ΠΈΠ½ΠΎΡ‡Π½Ρ‹Ρ… слов) ΠΏΠΎΠΌΠΎΠ³Π°ΡŽΡ‚ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Ρ‚ΠΎΡ‡Π½Π΅Π΅ ΠΎΡ‚Ρ€Π°Π·ΠΈΡ‚ΡŒ сСмантику тСкста. Однако Π½Π΅ Π²ΡΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ классификации способны ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Ρ‚ΡŒ ΠΌΠΎΠ΄ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΈ Ρ‚Π°ΠΊΠΎΠ³ΠΎ Ρ€ΠΎΠ΄Π°. НапримСр, Π΄ΠΎΠΏΡƒΡ‰Π΅Π½ΠΈΠ΅ нСзависимости Π½Π° ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ основываСтся… Π§ΠΈΡ‚Π°Ρ‚ΡŒ Π΅Ρ‰Ρ‘ >

Анализ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² автоматичСской классификации Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² (Ρ€Π΅Ρ„Π΅Ρ€Π°Ρ‚, курсовая, Π΄ΠΈΠΏΠ»ΠΎΠΌ, ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ)

Π€Π΅Π΄Π΅Ρ€Π°Π»ΡŒΠ½ΠΎΠ΅ государствСнноС Π±ΡŽΠ΄ΠΆΠ΅Ρ‚Π½ΠΎΠ΅ ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ ΡƒΡ‡Ρ€Π΅ΠΆΠ΄Π΅Π½ΠΈΠ΅ Π²Ρ‹ΡΡˆΠ΅Π³ΠΎ ΠΏΡ€ΠΎΡ„Π΅ΡΡΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΠ³ΠΎ образования

«Π’ΠΎΠ»ΡŒΡΡ‚Ρ‚ΠΈΠ½ΡΠΊΠΈΠΉ государствСнный унивСрситСт»

ΠšΡƒΡ€ΡΠΎΠ²Π°Ρ Ρ€Π°Π±ΠΎΡ‚Π° Π’Π΅ΠΌΠ° Анализ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² автоматичСской классификации Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² Π‘Ρ‚ΡƒΠ΄Π΅Π½Ρ‚ Бидякин Антон Π’Π°Π»Π΅Ρ€ΡŒΠ΅Π²ΠΈΡ‡ Π³. Π’ΠΎΠ»ΡŒΡΡ‚Ρ‚ΠΈ

2012 Π³.

  • Π’Π΅Π΄Π΅Π½ΠΈΠ΅
  • 1. ΠŸΠΎΡΡ‚Π°Π½ΠΎΠ²ΠΊΠ° Π·Π°Π΄Π°Ρ‡ΠΈ
  • 2. ΠžΠ±Ρ‰ΠΈΠ΅ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Ρ‹ ΠΊ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡŽ Π·Π°Π΄Π°Ρ‡ΠΈ классификации
  • 3. Π˜Π½Π΄Π΅ΠΊΡΠ°Ρ†ΠΈΡ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°
  • 3.1 ΠŸΠΎΡΡ‚Ρ€ΠΎΠ΅Π½ΠΈΠ΅ Π²Π΅ΠΊΡ‚ΠΎΡ€Π° Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² ΠΈ ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΠ΅ Π΅Π³ΠΎ размСрности
  • 3.2 РасчСт вСсов Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ²
  • 4. ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ построСния классификаторов
  • 4.1 ΠœΠ΅Ρ‚ΠΎΠ΄ Rocchio
  • 4.2 ΠœΠ΅Ρ‚ΠΎΠ΄ вСроятностной классификации (ΠΌΠ΅Ρ‚ΠΎΠ΄ БайСса)
  • 4.3 ΠœΠ΅Ρ‚ΠΎΠ΄ Ρ€Π°Π·Ρ€Π΅ΡˆΠ°ΡŽΡ‰ΠΈΡ… Π΄Π΅Ρ€Π΅Π²ΡŒΠ΅Π² (Π΄Π΅Ρ€Π΅Π²ΡŒΡ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ)
  • 4.4 ΠŸΡ€Π°Π²ΠΈΠ»Π° принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ
  • 4.5 МодСли рСгрСссии
  • 4.6 Π˜ΡΠΊΡƒΡΡΡ‚Π²Π΅Π½Π½Ρ‹Π΅ Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Π΅ сСти
  • 4.7 ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€Ρ‹ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ². ΠœΠ΅Ρ‚ΠΎΠ΄ k Π±Π»ΠΈΠΆΠ°ΠΉΡˆΠΈΡ… сосСдСй
  • 5. ΠžΡ†Π΅Π½ΠΊΠ° качСства классификации
  • 5.1 ΠžΡ†Π΅Π½ΠΊΠ° автоматичСской классификации Π² Ρ‚радициях ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ поиска
  • 5.2 ΠžΡ†Π΅Π½ΠΊΠ° автоматичСской классификации с Ρ‚ΠΎΡ‡ΠΊΠΈ зрСния особСнностСй Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ
  • Π—Π°ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅
  • Бписок Π»ΠΈΡ‚Π΅Ρ€Π°Ρ‚ΡƒΡ€Ρ‹
  • автоматичСская классификация Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ поиск

Π’ Π½Π°ΡˆΠ΅ врСмя классификация Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Ρ‚Π°ΠΊΠΈΡ… Π·Π°Π΄Π°Ρ‡ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ поиска ΠΊΠ°ΠΊ: Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΡ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², распознаваниС спама, автоматичСскоС Π°Π½Π½ΠΎΡ‚ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅, автоматичСский ΠΏΠ΅Ρ€Π΅Π²ΠΎΠ΄ (ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ° снятия нСоднозначности), составлСниС ΠΈΠ½Ρ‚Π΅Ρ€Π½Π΅Ρ‚-ΠΊΠ°Ρ‚Π°Π»ΠΎΠ³ΠΎΠ², классификация новостСй, распрСдСлСниС Ρ€Π΅ΠΊΠ»Π°ΠΌΡ‹. Π‘ΡƒΡ€Π½Ρ‹ΠΌΠΈ Ρ‚Π΅ΠΌΠΏΠ°ΠΌΠΈ Ρ€Π°Π·Π²ΠΈΠ²Π°ΡŽΡ‚ΡΡ систСмы ΠΏΠ΅Ρ€ΡΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… Π°Π³Ρ€Π΅Π³Π°Ρ‚ΠΎΡ€ΠΎΠ² ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ, автоматичСски ΠΏΠΎΠ΄Π±ΠΈΡ€Π°ΡŽΡ‰ΠΈΡ… новости ΠΈ ΡΡ‚Π°Ρ‚ΡŒΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠΎΠ³ΡƒΡ‚ Π·Π°ΠΈΠ½Ρ‚Π΅Ρ€Π΅ΡΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΠΎΠ³ΠΎ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Ρ. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Π°ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ автоматичСской классификации со Π²Ρ€Π΅ΠΌΠ΅Π½Π΅ΠΌ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ растСт.

ЦСлью Π΄Π°Π½Π½ΠΎΠΉ курсовой Ρ€Π°Π±ΠΎΡ‚Ρ‹ являСтся Π°Π½Π°Π»ΠΈΠ· ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² автоматичСской классификации Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², с ΠΎΡΠΎΠ±Ρ‹ΠΌ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ΠΌ ΠΊ Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ пСрспСктивным ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Π°ΠΌ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ основаны Π½Π° ΠΌΠ°ΡˆΠΈΠ½Π½ΠΎΠΌ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ.

Π’ Π·Π°Π΄Π°Ρ‡ΠΈ курсовой Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π²Ρ…ΠΎΠ΄ΠΈΡ‚:

Β· РассмотрСниС ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠ² ΠΊ ΠΈΠ½Π΄Π΅ΠΊΡΠ°Ρ†ΠΈΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²

Β· РассмотрСниС ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠ² ΠΊ ΠΏΠΎΡΡ‚Ρ€ΠΎΠ΅Π½ΠΈΡŽ классификаторов

Β· РассмотрСниС ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠ² ΠΊ ΠΎΡ†Π΅Π½ΠΊΠ΅ Ρ€Π°Π±ΠΎΡ‚Ρ‹ классификаторов

1. ΠŸΠΎΡΡ‚Π°Π½ΠΎΠ²ΠΊΠ° Π·Π°Π΄Π°Ρ‡ΠΈ

ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΡ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² (классификация тСкстов, text categorization, text classification ΠΈΠ»ΠΈ topic spotting) являСтся ΠΎΠ΄Π½ΠΎΠΉ ΠΈΠ· ΠΎΡΠ½ΠΎΠ²Π½Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ поиска.

Π’ ΠΎΠ±Ρ‰Π΅ΠΌ случаС Π·Π°Π΄Π°Ρ‡Π° формулируСтся Ρ‚Π°ΠΊ:

Π˜ΠΌΠ΅Π΅Ρ‚ΡΡ мноТСство Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² написанных Π½Π° Π΅ΡΡ‚СствСнном языкС (ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΠΎΠΌ Π² ΠΏΡ€Π΅Π΄Π΅Π»Π°Ρ… Π΄Π°Π½Π½ΠΎΠ³ΠΎ мноТСства), ΠΈ ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎ Π·Π°Ρ€Π°Π½Π΅Π΅ извСстных ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ (Ρ‚Π΅ΠΌ, Ρ€ΡƒΠ±Ρ€ΠΈΠΊ, Ρ€Π°Π·Π΄Π΅Π»ΠΎΠ²). ВрСбуСтся для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° Π²Ρ‹Π±Ρ€Π°Ρ‚ΡŒ ΠΎΠ΄Π½Ρƒ, ΠΈΠ»ΠΈ нСсколько ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ, ΠΊ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ ΠΎΠ½, Π² ΡΠΈΠ»Ρƒ своСго смыслового (сСмантичСского) содСрТания, относится с Π½Π°ΠΈΠ±ΠΎΠ»ΡŒΡˆΠ΅ΠΉ Π΄ΠΎΠ»Π΅ΠΉ увСрСнности.

Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Π·Π°Π΄Π°Ρ‡Π° классификации Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² Ρ„ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎ Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² ΠΏΡ€ΠΈΡΠ²ΠΎΠ΅Π½ΠΈΠΈ Π±ΡƒΠ»Π΅Π²Π° значСния ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΏΠ°Ρ€Π΅ .

НСизвСстная цСлСвая функция, Π³Π΄Π΅ Π’ ΠΈ F ΡΡ‚ΠΎ «ΠΈΡΡ‚ΠΈΠ½Π°» (Ссли тСкст ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ) ΠΈ «Π»ΠΎΠΆΡŒ» (Ссли тСкст Π½Π΅ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ) соотвСтствСнно, являСтся Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ΠΌ Π΄Π°Π½Π½ΠΎΠΉ Π·Π°Π΄Π°Ρ‡ΠΈ.

Π”ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚, для ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ Ρ€Π°Π·Ρ€Π΅ΡˆΠΈΡ‚ΡŒ Π·Π°Π΄Π°Ρ‡Ρƒ классификации, договоримся Π½Π°Π·Ρ‹Π²Π°Ρ‚ΡŒ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅ΠΌΡ‹ΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠΌ.

Π—Π°Π΄Π°Ρ‡Π° построСния классификатора, Π°ΠΏΠΏΡ€ΠΎΠΊΡΠΈΠΌΠΈΡ€ΡƒΡŽΡ‰Π΅Π³ΠΎ значСния Ρ†Π΅Π»Π΅Π²ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ, для ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ состоит Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ Π±Ρ‹ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ. ΠžΠ±Π»Π°ΡΡ‚ΡŒ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ различаСтся Π² Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ ΠΎΡ‚ Π²ΠΈΠ΄Π° классификации:

Β· ΠŸΡ€ΠΈ Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠΉ классификации ΠΎΠ±Π»Π°ΡΡ‚ΡŒ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Π»Π΅ΠΆΠΈΡ‚ Π² ΠΎΡ‚Ρ€Π΅Π·ΠΊΠ΅ Π’ Π΄Π°Π½Π½ΠΎΠΌ случаС, функция Π½Π° Π²Ρ…ΠΎΠ΄Π΅ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅Ρ‚ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ ΠΈ Π²ΠΎΠ·Π²Ρ€Π°Ρ‰Π°Π΅Ρ‚ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ статуса ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠ·Π°Ρ†ΠΈΠΈ (categorization status value), Ρ‚. Π΅ Ρ‡ΠΈΡΠ»ΠΎ ΠΎΡ‚ Π½ΡƒΠ»Ρ Π΄ΠΎ Π΅Π΄ΠΈΠ½ΠΈΡ†Ρ‹, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ Π³ΠΎΠ²ΠΎΡ€ΠΈΡ‚ ΠΎ ΡΡ‚Π΅ΠΏΠ΅Π½ΠΈ принадлСТности Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° ΠΊ ΠΎΠΏΡ€Π΄Π΅Π»Π΅Π½Π½ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹ Ρ€Π°Π½ΠΆΠΈΡ€ΡƒΡŽΡ‚ΡΡ Π² ΡΠΎΠΎΡ‚вСтствии с ΠΈΡ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ΠΌ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ, Π° ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€ ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Π΅Ρ‚ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ ΠΎ ΠΏΡ€ΠΈΡΠ²ΠΎΠ΅Π½ΠΈΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρƒ Π΄Π°Π½Π½ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ ΠΏΡ€ΠΈ Π°Π½Π°Π»ΠΈΠ·Π΅ условия.

Β· ΠŸΡ€ΠΈ Ρ‚ΠΎΡ‡Π½ΠΎΠΉ классификации ΠΎΠ±Π»Π°ΡΡ‚ΡŒ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ прСдставлСна двумя элСмСнтами {0,1} ΠΈΠ»ΠΈ {F, T} (Π³Π΄Π΅ Π’ ΠΈΠ»ΠΈ 1 это «ΠΈΡΡ‚ΠΈΠ½Π°», Ρ‚. Π΅. тСкст ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ, Π° F ΠΈΠ»ΠΈ 0 это «Π»ΠΎΠΆΡŒ», Ρ‚. Π΅. тСкст Π½Π΅ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ)

ΠΈΠ»ΠΈ Π’ Π΄Π°Π½Π½ΠΎΠΌ случаС, функция Π½Π° Π²Ρ…ΠΎΠ΄Π΅ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅Ρ‚ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ ΠΈ Π΄Π°Π΅Ρ‚ Ρ‚ΠΎΡ‡Π½Ρ‹ΠΉ ΠΎΡ‚Π²Π΅Ρ‚, ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ Π»ΠΈ тСкст Π΄Π°Π½Π½ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ ΠΈΠ»ΠΈ Π½Π΅Ρ‚.

Π›Π΅Π³ΠΊΠΎ Π²ΠΈΠ΄Π΅Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ рассмотрСнноС Π²Ρ‹ΡˆΠ΅ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ классификатора допускаСт случай, ΠΊΠΎΠ³Π΄Π° ΠΎΠ΄Π½ΠΎΠΌΡƒ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρƒ присваиваСтся нСсколько ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ. Π’ΠΎΠΎΠ±Ρ‰Π΅ говоря, ΠΌΠ΅ΠΆΠ΄Ρƒ элСмСнтами мноТСства ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠ΅ ΡΠΎΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡ:

Β· ΠšΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ΡΡ ΠΏΠ΅Ρ€Π΅ΡΠ΅ΠΊΠ°ΡŽΡ‰ΠΈΠΌΠΈΡΡ, Ссли Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ°Ρ‚ΡŒ ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ нСскольким катСгориям. ΠšΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ΡΡ Π½Π΅ΠΏΠ΅Ρ€Π΅ΡΠ΅ΠΊΠ°ΡŽΡ‰ΠΈΠΌΠΈΡΡ, Ссли Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ Π½Π΅ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ°Ρ‚ΡŒ ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ нСскольким катСгориям.

Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Ссли Π·Π°Π΄Π°Ρ‡Π° Π½Π΅ Π΄ΠΎΠΏΡƒΡΠΊΠ°Π΅Ρ‚ отнСсСниС Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° ΠΊ Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΠΌ катСгориям, достаточно Π·Π°ΠΏΡ€Π΅Ρ‚ΠΈΡ‚ΡŒ ΠΏΠ΅Ρ€Π΅ΡΠ΅ΠΊΠ°ΡŽΡ‰ΠΈΠ΅ΡΡ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ Π² Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ мноТСствС.

БущСствуСт частный случай Π·Π°Π΄Π°Ρ‡ΠΈ классификации Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², ΠΏΡ€ΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ мноТСство состоит ΠΈΠ· Π΄Π²ΡƒΡ… Π½Π΅ΠΏΠ΅Ρ€Π΅ΡΠ΅ΠΊΠ°ΡŽΡ‰ΠΈΡ…ΡΡ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ — бинарная классификация.

К Π±ΠΈΠ½Π°Ρ€Π½ΠΎΠΉ классификации ΠΌΠΎΠΆΠ½ΠΎ свСсти всС ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Π΅: для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ опрСдСляСм, ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ Π»ΠΈ Π΄Π°Π½Π½Ρ‹ΠΉ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ ΠΊ Π΄Π°Π½Π½ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ ΠΈΠ»ΠΈ ΠΊ Π΅Π΅ Π΄ΠΎΠΏΠΎΠ»Π½Π΅Π½ΠΈΡŽ. Π’ ΡΡ‚ΠΎΠΌ случаС ΠΌΡ‹ Π³Π°Ρ€Π°Π½Ρ‚ΠΈΡ€ΡƒΠ΅ΠΌ, Ρ‡Ρ‚ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ Π² ΠΈΡ‚ΠΎΠ³Π΅ Π±ΡƒΠ΄Π΅Ρ‚ отнСсСн Π½Π΅ Π±ΠΎΠ»Π΅Π΅ Ρ‡Π΅ΠΌ ΠΊ ΠΎΠ΄Π½ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ. Π•ΡΡ‚ΡŒ Π΄Π²Π° Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… способа использования классификатора Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Π΄Π²ΡƒΡ… Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… ΠΏΠΎΠ΄Π·Π°Π΄Π°Ρ‡[2]:

Β· DPC — document-pivoted categorization. Π”Π°Π½Π½Ρ‹ΠΉ Ρ‚ΠΈΠΏ ΠΏΠΎΠ΄Π·Π°Π΄Π°Ρ‡ встрСчаСтся Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ часто ΠΈ ΡΠΎΡΡ‚ΠΎΠΈΡ‚ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ для Π΄Π°Π½Π½ΠΎΠ³ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° трСбуСтся Π½Π°ΠΉΡ‚ΠΈ всС ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ, Π² ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΎΠ½ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΠΎΠΏΠ°ΡΡ‚ΡŒ. Π’ΠΈΠΏΠΈΡ‡Π½Ρ‹ΠΉ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ — сортировка элСктронных писСм ΠΈΠ»ΠΈ новостСй.

Β· CPC — category-pivoted categorization. Π’ ΡΡ‚ΠΎΠΌ случаС для Π΄Π°Π½Π½ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ трСбуСтся Π½Π°ΠΉΡ‚ΠΈ всС Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΊ Π΄Π°Π½Π½ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ относятся. Данная Π·Π°Π΄Π°Ρ‡Π° Π²ΠΎΠ·Π½ΠΈΠΊΠ°Π΅Ρ‚ Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€ Ρ‚ΠΎΠ³Π΄Π°, ΠΊΠΎΠ³Π΄Π° Π² ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎ, для ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ ΡƒΠΆΠ΅ Π±Ρ‹Π»Π° ΠΏΡ€ΠΎΠ²Π΅Π΄Π΅Π½Π° классификация Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², добавляСтся ΠΎΠ΄Π½Π° ΠΈΠ»ΠΈ нСсколько Π½ΠΎΠ²Ρ‹Ρ… ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ ΠΈ Ρ‚рСбуСтся Π·Π°Π½ΠΎΠ²ΠΎ ΠΏΠ΅Ρ€Π΅Ρ€Π°ΡΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹ ΠΌΠ΅ΠΆΠ΄Ρƒ Π½ΠΎΠ²Ρ‹ΠΌ мноТСством ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ.

На ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠ΅ Π·Π°Π΄Π°Ρ‡ΠΈ классификации часто ΡƒΡΠ»ΠΎΠΆΠ½ΡΡŽΡ‚ΡΡ. НапримСр, систСма ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ иСрархичСской (ΠΈΠΌΠ΅Ρ‚ΡŒ нСсколько ΡƒΡ€ΠΎΠ²Π½Π΅ΠΉ Π³Π»ΡƒΠ±ΠΈΠ½Ρ‹). Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, ΠΏΡ€ΠΈ отнСсСнии тСкста ΠΊ ΠΎΠ΄Π½ΠΎΠΉ ΠΈΠ· ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ, Π½ΡƒΠΆΠ½ΠΎ Π΄Π°Π»Π΅Π΅ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ Π΅Π³ΠΎ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ½ΠΎΡΡ‚ΡŒ ΠΊ ΠΎΠ΄Π½ΠΎΠΉ ΠΈΠ· ΠΏΠΎΠ΄ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ, ΠΈ Ρ‚. Π΄. Π€ΠΎΡ€ΠΌΠ°Ρ‚ тСкста ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Π½Π΅ ΡΡ‚Π°Π½Π΄Π°Ρ€Ρ‚Π½Ρ‹ΠΌ, ΠΊ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρƒ, тСкст Π½Π° ΠΈΡΠΊΡƒΡΡΡ‚Π²Π΅Π½Π½ΠΎΠΌ языкС; тСкст, прСдставлСнный Π² Π²ΠΈΠ΄Π΅ изобраТСния; тСксты Π½Π° Ρ€Π°Π·Π½Ρ‹Ρ… языках Π² ΠΏΡ€Π΅Π΄Π΅Π»Π°Ρ… ΠΎΠ΄Π½ΠΎΠ³ΠΎ мноТСства Π—Π°Π΄Π°Ρ‡Π° классификации Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΈΠΌΠ΅Π΅Ρ‚ ΠΌΠ½ΠΎΠ³ΠΎ ΠΎΠ±Ρ‰Π΅Π³ΠΎ с Π·Π°Π΄Π°Ρ‡Π΅ΠΉ кластСризации Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², ΠΎΠ΄Π½Π°ΠΊΠΎ Ρƒ ΡΡ‚ΠΈΡ… Π·Π°Π΄Π°Ρ‡ Π΅ΡΡ‚ΡŒ ΠΎΠ΄Π½ΠΎ ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏΠΈΠ°Π»ΡŒΠ½ΠΎΠ΅ Ρ€Π°Π·Π»ΠΈΡ‡ΠΈΠ΅ — Π² Π·Π°Π΄Π°Ρ‡Π΅ кластСризации мноТСство ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ Π·Π°Ρ€Π°Π½Π΅Π΅ Π½Π΅ Π·Π°Π΄Π°Π½Π½ΠΎ, ΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹ Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΡƒΡŽΡ‚ΡΡ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π² Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ ΠΎΡ‚ ΠΏΠΎΠΏΠ°Ρ€Π½ΠΎΠΉ схоТСсти ΠΌΠ΅ΠΆΠ΄Ρƒ собой.

2. ΠžΠ±Ρ‰ΠΈΠ΅ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Ρ‹ ΠΊ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡŽ Π·Π°Π΄Π°Ρ‡ΠΈ классификации

Π—Π°Ρ€ΠΎΠΆΠ΄Π΅Π½ΠΈΠ΅ Ρ‚Π΅ΠΎΡ€ΠΈΠΈ автоматичСской классификации тСкстов датируСтся Π½Π°Ρ‡Π°Π»ΠΎΠΌ 60-Ρ… Π³Π³. Π₯Π₯ Π². Π—Π° ΠΏΡ€ΠΎΡˆΠ΅Π΄ΡˆΠ΅Π΅ врСмя Π·Π°ΠΌΠ΅Ρ‚Π½ΠΎ измСнился ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ ΠΊ Π°Π½Π°Π»ΠΈΠ·Ρƒ ΠΈ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡŽ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹, Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΎΠΈΠ·ΠΎΡˆΠ»ΠΎ Π²ΠΎ ΠΌΠ½ΠΎΠ³ΠΎΠΌ благодаря появлСнию Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π±ΠΎΠ»Π΅Π΅ ΠΌΠΎΡ‰Π½ΠΎΠ³ΠΎ Π°ΠΏΠΏΠ°Ρ€Π°Ρ‚Π½ΠΎΠ³ΠΎ обСспСчСния ΠΈ Π²ΠΎΠ·Ρ€ΠΎΡΡˆΠ΅Π³ΠΎ интСрСса ΠΊ ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΡŽ Π΄Π°Π½Π½Ρ‹Ρ… ΠΈΠ΄Π΅ΠΉ Π² Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹Ρ… систСмах. На ΡΠ΅Π³ΠΎΠ΄Π½ΡΡˆΠ½ΠΈΠΉ дСнь ΠΌΠΎΠΆΠ½ΠΎ Π²Ρ‹Π΄Π΅Π»ΠΈΡ‚ΡŒ Π΄Π²Π° основных ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Π° ΠΊ Π°Π²Ρ‚оматичСской классификации Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²[3]:

1. Π”ΠΎ ΠΊΠΎΠ½Ρ†Π° 80-Ρ… Π³Π³. самым популярным ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠΌ ΠΊ ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΈ тСкстов являлся ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΈΠ½ΠΆΠ΅Π½Π΅Ρ€ΠΈΠΈ Π·Π½Π°Π½ΠΈΠΉ (knowledge engineering), Π·Π°ΠΊΠ»ΡŽΡ‡Π°ΡŽΡ‰ΠΈΡ…ΡΡ Π² ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠΈ Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊΠΎΠΌ-спСциалистом Π½Π°Π±ΠΎΡ€Π° ΠΏΡ€Π°Π²ΠΈΠ», ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ осущСствляСтся классификация. ΠŸΡ€ΠΈ условии, Ρ‡Ρ‚ΠΎ ΠΏΡ€Π°Π²ΠΈΠ»Π° составлСны Π³Ρ€Π°ΠΌΠΎΡ‚Π½ΠΎ, этот ΠΌΠ΅Ρ‚ΠΎΠ΄ являСтся Π±ΠΎΠ»Π΅Π΅ Ρ‚ΠΎΡ‡Π½Ρ‹ΠΌ, Π½Π΅ΠΆΠ΅Π»ΠΈ Π²Ρ‚ΠΎΡ€ΠΎΠΉ (см. Π½ΠΈΠΆΠ΅), Π° Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π»Π΅Π³ΠΊΠΎ ΠΏΠΎΠ΄Π΄Π°ΡŽΡ‚ΡΡ ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΡ€Π΅Ρ‚ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡŽ (Π»Π΅Π³ΠΊΠΎ Π²Ρ‹ΡΡΠ½ΠΈΡ‚ΡŒ, ΠΏΠΎΡ‡Π΅ΠΌΡƒ для Π΄Π°Π½Π½ΠΎΠ³ΠΎ тСкста Π±Ρ‹Π»Π° Π²Ρ‹Π±Ρ€Π°Π½Π° ΠΈΠΌΠ΅Π½Π½ΠΎ такая-Ρ‚ΠΎ Ρ€ΡƒΠ±Ρ€ΠΈΠΊΠ°). Однако, ΠΎΠ½ ΠΈΠΌΠ΅Π΅Ρ‚ сущСствСнный нСдостаток — созданиС ΠΈ ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠ°Π½ΠΈΠ΅ ΠΏΡ€Π°Π²ΠΈΠ» Π² Π°ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠΌ состоянии Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ постоянной Ρ€Π°Π±ΠΎΡ‚Ρ‹ спСциалиста, Π·Π½Π°ΠΊΠΎΠΌΠΎΠ³ΠΎ с Ρ‚ΠΎΠΉ ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚Π½ΠΎΠΉ ΠΎΠ±Π»Π°ΡΡ‚ΡŒΡŽ, для ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΠΈΡˆΠ΅Ρ‚ΡΡ Π΄Π°Π½Π½Ρ‹ΠΉ классификатор.

2. Π’ 90-Ρ… Π³Π³. Π½Π° ΡΠΌΠ΅Π½Ρƒ этому ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Ρƒ ΠΏΡ€ΠΈΡˆΠ΅Π» ΠΏΠΎΠ΄Ρ…ΠΎΠ΄, Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡ‹ΠΉ ΠΌΠ°ΡˆΠΈΠ½Π½Ρ‹ΠΌ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ΠΌ (machine learning), Π² ΡΠΎΠΎΡ‚вСтствии с ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ Π½Π°Π±ΠΎΡ€ ΠΏΡ€Π°Π²ΠΈΠ» ΠΈΠ»ΠΈ, Π±ΠΎΠ»Π΅Π΅ ΠΎΠ±Ρ‰Π΅, ΠΊΡ€ΠΈΡ‚Π΅Ρ€ΠΈΠΉ принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ тСкстового классификатора, вычисляСтся автоматичСски ΠΈΠ· ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… Π΄Π°Π½Π½Ρ‹Ρ….

ΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠ΅ Π΄Π°Π½Π½Ρ‹Π΅ — это мноТСство Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², ΡƒΡ‡Π°ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΡ… Π² ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ классификатора, для ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… извСстно Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Ρ†Π΅Π»Π΅Π²ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ. Π’. Π΅. это Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ количСство Ρ…ΠΎΡ€ΠΎΡˆΠΈΡ… ΠΎΠ±Ρ€Π°Π·Ρ†ΠΎΠ² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Ρ€Π°Π·Π΄Π΅Π»Π΅Π½Ρ‹ Π½Π° ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊΠΎΠΌ (Π½Π°Π·ΠΎΠ²Π΅ΠΌ Ρ€Π°Π·ΠΌΠ΅Ρ‚ΠΊΠΎΠΉ этот процСсс присвоСния ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°ΠΌ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π³ΠΎ мноТСства).

Π”ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ называСтся ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌ ΠΈΠ»ΠΈ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠΌ для ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ, Ссли Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Ρ†Π΅Π»Π΅Π²ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Ρ€Π°Π²Π½ΠΎ ΠΈΠ»ΠΈ соотвСтствСнно. ΠžΡ‡Π΅Π²ΠΈΠ΄Π½ΠΎ, Ρ‡Ρ‚ΠΎ для Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ Ρ€Π°Π·Ρ€Π΅ΡˆΠΈΡ‚ΡŒ Π·Π°Π΄Π°Ρ‡Ρƒ классификации.

НСсмотря Π½Π° Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ для Ρ€Π°Π·ΠΌΠ΅Ρ‚ΠΊΠΈ ΠΏΠΎ-ΠΏΡ€Π΅ΠΆΠ½Π΅ΠΌΡƒ трСбуСтся присутствиС спСциалиста, Π΄Π°Π½Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ Π³ΠΎΡ€Π°Π·Π΄ΠΎ Π±ΠΎΠ»Π΅Π΅ прост Π² Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Π·Π° ΡΡ‡Π΅Ρ‚ Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ процСсс Ρ€Π°Π·ΠΌΠ΅Ρ‚ΠΊΠΈ Π³ΠΎΡ€Π°Π·Π΄ΠΎ ΠΏΡ€ΠΎΡ‰Π΅ процСсса написания ΠΏΡ€Π°Π²ΠΈΠ». По ΠΌΠ΅Ρ€Π΅ нСобходимости, спСциалист добавляСт Π½ΠΎΠ²Ρ‹Π΅ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠ΅ Π΄Π°Π½Π½Ρ‹Π΅ Π² ΡΠΈΡΡ‚Π΅ΠΌΡƒ ΠΈ, Ρ‚Π΅ΠΌ самым, ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ Π°ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ критСрия классификации.

Π§Π°Ρ‰Π΅ всСго, ΠΏΡ€ΠΈ использовании ΠΌΠ΅Ρ‚ΠΎΠ΄Π° машинного обучСния, мноТСство ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… Π΄Π°Π½Π½Ρ‹Ρ… дСлится Π½Π° Ρ‚Ρ€ΠΈ Π½Π΅ΠΏΠ΅Ρ€Π΅ΡΠ΅ΠΊΠ°ΡŽΡ‰ΠΈΡ…ΡΡ мноТСства:

Β· - ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ мноТСство тСкстов (training set)

Β· - ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΎΡ‡Π½ΠΎΠ΅ мноТСство тСкстов (validation set)

Β· - ВСстовоС мноТСство тСкстов (test set)

ΠŸΡ€ΠΎΡ†Π΅ΡΡ обучСния классификатора дСлится, соотвСтствСнно, Π½Π° Ρ‚Ρ€ΠΈ Ρ„Π°Π·Ρ‹: Π€Π°Π·Π° машинного обучСния классификатора

Β· Π€Π°Π·Π° ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ ΠΈ Π½Π°ΡΡ‚Ρ€ΠΎΠΉΠΊΠΈ классификатора

Β· Π€Π°Π·Π° Ρ„ΠΈΠ½Π°Π»ΡŒΠ½ΠΎΠ³ΠΎ тСстирования классификатора Как ΡƒΠΆΠ΅ Π±Ρ‹Π»ΠΎ сказано, ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ мноТСство тСкстов ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Π² Ρ„Π°Π·Π΅ машинного обучСния для автоматичСской Π²Ρ‹Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ критСрия принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ. ПослС Ρ‚ΠΎΠ³ΠΎ, ΠΊΠ°ΠΊ Ρ‚Π°ΠΊΠΎΠΉ ΠΊΡ€ΠΈΡ‚Π΅Ρ€ΠΈΠΉ построСн, Π΅Π³ΠΎ Π½Π°ΡΡ‚Ρ€Π°ΠΈΠ²Π°ΡŽΡ‚ Π½Π° ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΎΡ‡Π½ΠΎΠΌ мноТСствС тСкстов. ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅Ρ‚ Π΄Π°Π½Π½ΠΎΠ΅ мноТСство ΠΈ Π²Ρ‹Π΄Π°Π΅Ρ‚ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹, Π΄Π°Π½Π½Ρ‹Π΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ провСряСтся, вносятся ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚ΠΈΠ²Ρ‹ Π² ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€. Π—Π°Ρ‚Π΅ΠΌ процСсс ΠΏΠΎΠ²Ρ‚ΠΎΡ€ΡΡŽΡ‚ Π·Π°Π½ΠΎΠ²ΠΎ, запуская классификатор для Ρ‚ΠΎΠ³ΠΎ ΠΆΠ΅ самого ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΎΡ‡Π½ΠΎΠ³ΠΎ мноТСства тСкстов. ПослС Ρ‚ΠΎΠ³ΠΎ ΠΊΠ°ΠΊ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ классификатора ΠΎΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‚ΡΡ настроСнными ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, производится ΠΎΠ΄Π½ΠΎ СдинствСнноС Ρ„ΠΈΠ½Π°Π»ΡŒΠ½ΠΎΠ΅ тСстированиС классификатора Π½Π° Ρ‚Сстовом мноТСствС тСкстов, Π² Ρ…ΠΎΠ΄Π΅ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ классификатор Ρ‚Π°ΠΊ ΠΆΠ΅ Π΄ΠΎΠ»ΠΆΠ΅Π½ ΠΏΠΎΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ΅ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅. Если этого Π½Π΅ ΠΏΡ€ΠΎΠΈΡΡ…ΠΎΠ΄ΠΈΡ‚, процСсс настройки Π½Π°Ρ‡ΠΈΠ½Π°ΡŽΡ‚ Π·Π°Π½ΠΎΠ²ΠΎ. Для Π½ΠΎΠ²ΠΎΠ³ΠΎ тСстирования выбираСтся Π½ΠΎΠ²ΠΎΠ΅ тСстовоС мноТСство тСкстов.

Π’ ΠΎΠ±Ρ‰Π΅ΠΌ случаС ΠΌΠΎΠΆΠ½ΠΎ Π²Ρ‹Π΄Π΅Π»ΠΈΡ‚ΡŒ Ρ‚Ρ€ΠΈ основныС Ρ„Π°Π·Ρ‹ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Π·Π°Π΄Π°Ρ‡ΠΈ классификации Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²:

1. Π˜Π½Π΄Π΅ΠΊΡΠ°Ρ†ΠΈΡ (построСниС индСкса) Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°

2. ΠŸΠΎΡΡ‚Ρ€ΠΎΠ΅Π½ΠΈΠ΅ классификатора

3. ΠžΡ†Π΅Π½ΠΊΠ° качСства классификации Π˜Π½Π΄Π΅ΠΊΡΠ°Ρ†ΠΈΠ΅ΠΉ называСтся процСсс привСдСния Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΊ Π΅Π΄ΠΈΠ½ΠΎΠΌΡƒ Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Ρƒ, ΡƒΠ΄ΠΎΠ±Π½ΠΎΠΌΡƒ для дальнСйшСй ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ. Π—Π°Ρ‡Π°ΡΡ‚ΡƒΡŽ приходится ΠΈΠΌΠ΅Ρ‚ΡŒ Π΄Π΅Π»ΠΎ с Π±ΠΎΠ»ΡŒΡˆΠΈΠΌΠΈ объСмами ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ, поэтому ΠΈΠ· ΠΈΠ½Π΄Π΅ΠΊΡΠ° Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° ΡΡ‚Π°Ρ€Π°ΡŽΡ‚ΡΡ Π²Ρ‹ΠΊΠΈΠ΄Ρ‹Π²Π°Ρ‚ΡŒ всС лишнСС. Π’Π°ΠΊ, Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ слова (ΠΏΡ€Π΅Π΄Π»ΠΎΠ³ΠΈ, ΡΠΎΡŽΠ·Ρ‹ ΠΈ Ρ‚. ΠΏ.) ΠΌΠΎΠ³ΡƒΡ‚ ΠΎΡ‡Π΅Π½ΡŒ часто Π²ΡΡ‚Ρ€Π΅Ρ‡Π°Ρ‚ΡŒΡΡ Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ…, Π½ΠΎ Π½Π΅ Π½Π΅ΡΡ‚ΠΈ Π½ΠΈΠΊΠ°ΠΊΠΎΠΉ смысловой Π½Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ.

ΠŸΠΎΡΡ‚Ρ€ΠΎΠ΅Π½ΠΈΠ΅ классификатора, ΠΊΠ°ΠΊ ΡƒΠΆΠ΅ Π±Ρ‹Π»ΠΎ сказано Π²Ρ‹ΡˆΠ΅, Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠΈ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ. БущСствуСт довольно ΠΌΠ½ΠΎΠ³ΠΎ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠ² ΠΊ ΠΏΠΎΡΡ‚Ρ€ΠΎΠ΅Π½ΠΈΡŽ классификаторов.

ΠžΡ†Π΅Π½ΠΊΠ° качСства классификации прСдставляСт собой ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΡƒ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ Ρ€Π°Π±ΠΎΡ‚Ρ‹ классификатора (ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ Ρ‚ΠΎΠ³ΠΎ, насколько Ρ…ΠΎΡ€ΠΎΡˆΠΎ функция аппроксимируСт значСния Ρ†Π΅Π»Π΅Π²ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ). Для этого производят запуск классификатора для Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ тСстового мноТСства Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², для ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… извСстны ΠΈΡ… ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹Π΅ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ (для ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… извСстны значСния Ρ†Π΅Π»Π΅Π²ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ). ОсобСнно Π²Π°ΠΆΠ½Π° ΠΎΡ†Π΅Π½ΠΊΠ° качСства ΠΏΡ€ΠΈ машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ классификатора, Π³Π΄Π΅ ΠΎΠ½Π° ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ для принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΎ ΠΏΡ€Π΅ΠΊΡ€Π°Ρ‰Π΅Π½ΠΈΠΈ процСсса обучСния. ΠžΡ†Π΅Π½ΠΊΡƒ качСства Ρ‚Π°ΠΊ ΠΆΠ΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ для Π²Ρ‹Π±ΠΎΡ€Π° классификатора, Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ подходящСго для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Π΄Π°Π½Π½ΠΎΠΉ Π·Π°Π΄Π°Ρ‡ΠΈ, Ссли Π² ΡΠΈΡΡ‚Π΅ΠΌΠ΅ Ρ€Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½ΠΎ нСсколько классификаторов, построСнных Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹ΠΌΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄Π°ΠΌΠΈ.

3. Π˜Π½Π΄Π΅ΠΊΡΠ°Ρ†ΠΈΡ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°

ВСкстовыС Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹ Π² ΠΈΡΡ…ΠΎΠ΄Π½ΠΎΠΌ Π²ΠΈΠ΄Π΅ Π½Π΅ ΠΏΠΎΠ΄Ρ…одят для ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΡ€Π΅Ρ‚Π°Ρ†ΠΈΠΈ классификатором ΠΈΠ»ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠΌ построСния классификатора. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ ΠΏΡ€ΠΎΡ†Π΅Π΄ΡƒΡ€Ρ‹ индСксации, которая ΠΏΠ΅Ρ€Π΅Π²ΠΎΠ΄ΠΈΡ‚ тСкст Π² ΡƒΠ΄ΠΎΠ±Π½ΠΎΠ΅, для Ρ€Π°Π±ΠΎΡ‚Ρ‹ классификатора, прСдставлСниС. ΠžΡ‡Π΅Π²ΠΈΠ΄Π½ΠΎ, Ρ‡Ρ‚ΠΎ для индСксации ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… ΠΈ Ρ‚Сстовых Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² Π΄ΠΎΠ»ΠΆΠ΅Π½ ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡ‚ΡŒΡΡ ΠΎΠ΄ΠΈΠ½ ΠΈ Ρ‚ΠΎΡ‚ ΠΆΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄ индСксации.

Π€Π°Π·Π° индСксации ΠΈΠΌΠ΅Π΅Ρ‚ ΠΎΠ³Ρ€ΠΎΠΌΠ½ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Π² Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΈ Π·Π°Π΄Π°Ρ‡ΠΈ классификации. ΠžΡ‚ Ρ‚ΠΎΠ³ΠΎ, насколько качСствСнно составлСн индСкс Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°, Π½Π°ΠΏΡ€ΡΠΌΡƒΡŽ зависит ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρ‹ классификатора.

Π’ ΠΎΠ±Ρ‰Π΅ΠΌ случаС индСксация состоит ΠΈΠ· ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΡ… шагов:

Β· ΠŸΠΎΡΡ‚Ρ€ΠΎΠ΅Π½ΠΈΡ Π²Π΅ΠΊΡ‚ΠΎΡ€Π° Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°

Β· УмСньшСниС размСрности Π²Π΅ΠΊΡ‚ΠΎΡ€Π° Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ²

Β· РасчСт вСсов Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² ИндСксом Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° Π² Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²Π΅ случаСв являСтся Π²Π΅ΠΊΡ‚ΠΎΡ€ Π²Π·Π²Π΅ΡˆΠ΅Π½Π½Ρ‹Ρ… Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² Π’Π΅Ρ€ΠΌΠΈΠ½ (Ρ‚Π΅Ρ€ΠΌ, ΠΏΡ€ΠΈΠ·Π½Π°ΠΊ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°) — это слово ΠΈΠ»ΠΈ словосочСтаниС ΠΈΠ· Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°, Π²Π°ΠΆΠ½ΠΎΠ΅ для классификатора.

Π‘Π»ΠΎΠ²Π°, Π½Π΅ ΡΠ²Π»ΡΡŽΡ‰ΠΈΠ΅ΡΡ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌΠΈ (Π½Π΅ Π½Π΅ΡΡƒΡ‰ΠΈΠ΅ смысловой Π½Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ ΠΈ Π½Π΅ Π²Π°ΠΆΠ½Ρ‹Π΅ для классификатора), Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ стоп-словами. Π’Π°ΠΊΠΈΠ΅ слова Π½Π΅ ΠΏΠΎΠΏΠ°Π΄Π°ΡŽΡ‚ Π² ΠΈΠ½Π΄Π΅ΠΊΡ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°, ΠΈ Π½Π΅ Ρ€Π°ΡΡΠΌΠ°Ρ‚Ρ€ΠΈΠ²Π°ΡŽΡ‚ΡΡ Π² ΠΏΡ€ΠΎΡ†Π΅ΡΡΠ΅ Ρ€Π°Π±ΠΎΡ‚Ρ‹ классификатора.

БущСствуСт нСсколько Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠ² ΠΊ ΠΏΡ€ΠΎΡ†Π΅ΡΡΡƒ индСксации, различия ΠΌΠ΅ΠΆΠ΄Ρƒ Π½ΠΈΠΌΠΈ Π·Π°ΠΊΠ»ΡŽΡ‡Π°ΡŽΡ‚ΡΡ:

Β· Π² ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠΈ, Ρ‡Ρ‚ΠΎ ΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠΌ

Β· Π² ΡΠΏΠΎΡΠΎΠ±Π°Ρ… опрСдСлСния вСса Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°

3.1 ΠŸΠΎΡΡ‚Ρ€ΠΎΠ΅Π½ΠΈΠ΅ Π²Π΅ΠΊΡ‚ΠΎΡ€Π° Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² ΠΈ ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΠ΅ Π΅Π³ΠΎ размСрности

Π§Π°Ρ‰Π΅ всСго ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°ΡŽΡ‚, Ρ‡Ρ‚ΠΎ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌΠΈ ΡΠ²Π»ΡΡŽΡ‚ΡΡ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Π΅ слова, Π²ΡΡ‚Ρ€Π΅Ρ‡Π°ΡŽΡ‰ΠΈΠ΅ΡΡ Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅.

ΠŸΡ€ΠΈ Ρ‚Π°ΠΊΠΎΠΌ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Π΅ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΈΡΠΊΠ°ΠΆΠ°Ρ‚ΡŒΡΡ ΠΈΠ»ΠΈ вовсС Ρ‚Π΅Ρ€ΡΡ‚ΡŒΡΡ смысл, Π·Π°ΠΊΠ»ΡŽΡ‡Π΅Π½Π½Ρ‹ΠΉ, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Π² Ρ„Ρ€Π°Π·Π΅ΠΎΠ»ΠΎΠ³ΠΈΠ·ΠΌΠ°Ρ…, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ с Ρ‚ΠΎΡ‡ΠΊΠΈ зрСния лингвистики ΡΠ²Π»ΡΡŽΡ‚ΡΡ Π½Π΅Π΄Π΅Π»ΠΈΠΌΡ‹ΠΌΠΈ словарными Π΅Π΄ΠΈΠ½ΠΈΡ†Π°ΠΌΠΈ. Однако, Π΄Π°ΠΆΠ΅ Ρ‚Π°ΠΊΠΎΠ΅, казалось Π±Ρ‹, Π³Ρ€ΡƒΠ±ΠΎΠ΅ Π΄ΠΎΠΏΡƒΡ‰Π΅Π½ΠΈΠ΅, Π² ΠΊΠΎΠ½Π΅Ρ‡Π½ΠΎΠΌ ΠΈΡ‚ΠΎΠ³Π΅, слабо влияСт Π½Π° ΠΊΠΎΠ½Π΅Ρ‡Π½Ρ‹ΠΉ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚. Π”. Π”. Π›ΡŒΡŽΠΈΡ считаСт, Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΈΡ‡ΠΈΠ½ΠΎΠΉ этого являСтся Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ индСксирования Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Ρ„Ρ€Π°Π· ΠΎΠ±Π»Π°Π΄Π°ΡŽΡ‚ Ρ…ΡƒΠ΄ΡˆΠΈΠΌΠΈ статистичСскими характСристиками ΠΏΠΎ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡŽ ΠΊ ΠΌΠ΅Ρ‚ΠΎΠ΄Π°ΠΌ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΠΎΠ΄ΠΈΠ½ΠΎΡ‡Π½Ρ‹Ρ… слов, хотя ΠΈΡ… ΡΠ΅ΠΌΠ°Π½Ρ‚ичСскиС качСства Π³ΠΎΡ€Π°Π·Π΄ΠΎ Π²Ρ‹ΡˆΠ΅.

ΠœΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎ всСх Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ², Π²ΡΡ‚Ρ€Π΅Ρ‡Π°ΡŽΡ‰ΠΈΡ…ΡΡ Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅, ΠΎΠ±ΠΎΠ·Π½Π°Ρ‡ΠΈΠΌ Π·Π° .

Π”ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹ ΠΌΠΎΠ³ΡƒΡ‚ ΡΠΎΡΡ‚ΠΎΡΡ‚ΡŒ ΠΈΠ· ΠΎΡ‡Π΅Π½ΡŒ большого числа слов. Помимо Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ Ρ…Ρ€Π°Π½Π΅Π½ΠΈΠ΅ ΠΈ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ° Ρ‚Π°ΠΊΠΎΠ³ΠΎ большого Π²Π΅ΠΊΡ‚ΠΎΡ€Π° Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ ΠΎΡ‰ΡƒΡ‚ΠΈΠΌΡ‹Ρ… Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… мощностСй, большая Ρ€Π°Π·ΠΌΠ΅Ρ€Π½ΠΎΡΡ‚ΡŒ Π²Π΅ΠΊΡ‚ΠΎΡ€Π° ΠΌΠΎΠΆΠ΅Ρ‚ ΡΠ½ΠΈΠΆΠ°Ρ‚ΡŒ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ классификатора, основанного Π½Π° ΠΌΠ°ΡˆΠΈΠ½Π½ΠΎΠΌ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ Π² Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²Π΅ случаСв цСлСсообразно максимально Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΠ΅ сокращСниС размСрности Π²Π΅ΠΊΡ‚ΠΎΡ€Π° Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ².

ΠŸΡ€Π΅ΠΆΠ΄Π΅ всСго, ΠΈΠ· Π²Π΅ΠΊΡ‚ΠΎΡ€Π° Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ², ΠΏΠΎ Π·Π°Ρ€Π°Π½Π΅Π΅ составлСнному ΡΠ»ΠΎΠ²Π°Ρ€ΡŽ, ΡƒΠ΄Π°Π»ΡΡŽΡ‚ΡΡ слова, ΠΎΠ±Π»Π°Π΄Π°ΡŽΡ‰ΠΈΠ΅ сСмантичСской Π½Π΅ΠΉΡ‚Ρ€Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒΡŽ (стоп-слова). Π’Π°ΠΊΠΈΠ΅ слова Π²ΡΡ‚Ρ€Π΅Ρ‡Π°ΡŽΡ‚ΡΡ Π² Ρ‚Скстах любой Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠΈ, Π° Π·Π½Π°Ρ‡ΠΈΡ‚, ΠΎΠ½ΠΈ бСсполСзны для классификатора.

Π’ΠΎ, ΠΊΠ°ΠΊΠΈΠ΅ слова ΡΡ‡ΠΈΡ‚Π°ΡŽΡ‚ΡΡ Π½Π΅ΠΉΡ‚Ρ€Π°Π»ΡŒΠ½Ρ‹ΠΌΠΈ, зависит ΠΏΡ€Π΅ΠΆΠ΄Π΅ всСго ΠΎΡ‚ ΡΠ·Ρ‹ΠΊΠ°, Π½Π° ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ составлСн Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚, Π° Ρ‚Π°ΠΊ ΠΆΠ΅ ΠΎΡ‚ ΠΎΠ±Π»Π°ΡΡ‚ΠΈ примСнСния автоматичСского классификатора.

Π’ Π°Π½Π³Π»ΠΈΠΉΡΠΊΠΎΠΌ языкС, стоп-словами ΡΠ²Π»ΡΡŽΡ‚ΡΡ Π°Ρ€Ρ‚ΠΈΠΊΠ»ΠΈ, мСстоимСния, ΠΏΡ€Π΅Π΄Π»ΠΎΠ³ΠΈ, ΡΠΎΡŽΠ·Ρ‹, ΡΠΎΡŽΠ·Π½Ρ‹Π΅ слова, частицы, мСТдомСтия, Π²ΡΠΏΠΎΠΌΠΎΠ³Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ Π³Π»Π°Π³ΠΎΠ»Ρ‹, ΠΌΠΎΠ΄Π°Π»ΡŒΠ½Ρ‹Π΅ Π³Π»Π°Π³ΠΎΠ»Ρ‹, Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅, Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ нарСчия.

Π’Π°ΠΊΠΆΠ΅ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΠΏΠΎΠ»Π½ΠΈΡ‚ΡŒ мноТСство стоп-слов Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½Π΅ Ρ‚ΠΈΠΏΠΈΡ‡Π½Ρ‹ для Ρ‚ΠΎΠΉ ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚Π½ΠΎΠΉ области, Π² Ρ€Π°ΠΌΠΊΠ°Ρ… ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Π±ΡƒΠ΄Π΅Ρ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ°-классификатор.

Для Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ класса Π·Π°Π΄Π°Ρ‡ удалСния сСмантичСски Π½Π΅ΠΉΡ‚Ρ€Π°Π»ΡŒΠ½Ρ‹Ρ… слов Π±ΡƒΠ΄Π΅Ρ‚ достаточно, особСнно Ссли исходный тСкст ΠΈΠΌΠ΅Π΅Ρ‚ нСбольшой Ρ€Π°Π·ΠΌΠ΅Ρ€ (новостныС Π·Π°ΠΌΠ΅Ρ‚ΠΊΠΈ, элСктронныС письма). Если тСкст ΠΈΠΌΠ΅Π΅Ρ‚ больший Ρ€Π°Π·ΠΌΠ΅Ρ€, Π²ΠΏΠΎΠ»Π½Π΅ вСроятно, Ρ‡Ρ‚ΠΎ Π² Π½Π΅ΠΌ Π΅ΡΡ‚ΡŒ слова Π±Π»ΠΈΠ·ΠΊΠΈΠ΅ ΠΏΠΎ ΡΠΌΡ‹ΡΠ»Ρƒ (синонимы, ΠΎΠ΄Π½ΠΎΠΊΠΎΡ€Π΅Π½Π½Ρ‹Π΅ слова). Π’Π°ΠΊΠΈΠ΅ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹ ΠΌΠΎΠΆΠ½ΠΎ ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΡ‚ΡŒ Π² ΠΊΠ»Π°ΡΡ‚Π΅Ρ€Ρ‹ (искусствСнныС Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹).

Π•ΡΡ‚ΡŒ нСсколько Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠ² ΠΊ ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΠΈ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ².

Π’ΠΎ-ΠΏΠ΅Ρ€Π²Ρ‹Ρ… ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡ‚ΡŒ словари синонимов ΠΈ ΡΠ»ΠΎΠ²Π°Ρ€ΠΈ ΠΎΠΌΠΎΠ½ΠΈΠΌΠΈΡ‡Π½Ρ‹Ρ… словоформ. Π­Ρ‚ΠΎ Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ простой ΠΈ Π½Π°Π΄Π΅ΠΆΠ½Ρ‹ΠΉ способ, Π½ΠΎ ΠΎΡ‡Π΅Π½ΡŒ ΠΌΠ΅Π΄Π»Π΅Π½Π½Ρ‹ΠΉ.

БущСствуСт нСсколько, Ρ‚Π°ΠΊ Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡ‹Ρ…, Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² стСмминга — Π²Ρ‹Π΄Π΅Π»Π΅Π½ΠΈΠ΅ Π±Π°Π·ΠΎΠ²ΠΎΠΉ словоформы слова. Одним ΠΈΠ· ΡΠ°ΠΌΡ‹Ρ… извСстных ΠΈ ΠΏΠΎΠΏΡƒΠ»ΡΡ€Π½Ρ‹Ρ… стСммСров являСтся Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠŸΠΎΡ€Ρ‚Π΅Ρ€Π°, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ, примСняя ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ ряд ΠΏΡ€Π°Π²ΠΈΠ», отсСкаСт окончания ΠΈ ΡΡƒΡ„фиксы, ΠΎΡΠ½ΠΎΠ²Ρ‹Π²Π°ΡΡΡŒ Π½Π° ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡ‚ях языка, Π² ΡΠ²ΡΠ·ΠΈ с Ρ‡Π΅ΠΌ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ быстро, Π½ΠΎ Π½Π΅ Π²ΡΠ΅Π³Π΄Π° Π±Π΅Π·ΠΎΡˆΠΈΠ±ΠΎΡ‡Π½ΠΎ.

Π•Ρ‰Π΅ ΠΎΠ΄Π½Π° Ρ‚Π΅Ρ…Π½ΠΈΠΊΠ° ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΡ размСрности Π²Π΅ΠΊΡ‚ΠΎΡ€Π° Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠΈ «ΠΊΠΎΡΡ„Ρ„ΠΈΡ†ΠΈΠ΅Π½Ρ‚ΠΎΠ² полСзности» Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ². Как ΡƒΠΆΠ΅ Π±Ρ‹Π»ΠΎ сказано Π²Ρ‹ΡˆΠ΅, Π»ΡŽΠ±ΡƒΡŽ Π·Π°Π΄Π°Ρ‡Ρƒ классификации ΠΌΠΎΠΆΠ½ΠΎ свСсти ΠΊ Π±ΠΈΠ½Π°Ρ€Π½ΠΎΠΉ: для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ опрСдСляСм, ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ Π»ΠΈ Π΄Π°Π½Π½Ρ‹ΠΉ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ ΠΊ Π΄Π°Π½Π½ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ ΠΈΠ»ΠΈ ΠΊ Π΅Π΅ Π΄ΠΎΠΏΠΎΠ»Π½Π΅Π½ΠΈΡŽ. Π’ΠΎΠ³Π΄Π° ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π°ΡΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ Π²ΡΡ‚Ρ€Π΅Ρ‚ΠΈΡ‚ΡŒ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅ ΠΏΡ€ΠΈ условии, Ρ‡Ρ‚ΠΎ ΠΎΠ½ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ ΠΈ Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ Π²ΡΡ‚Ρ€Π΅Ρ‚ΠΈΡ‚ΡŒ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅ ΠΏΡ€ΠΈ условии, Ρ‡Ρ‚ΠΎ ΠΎΠ½ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ дополнСнию. Если ΠΎΠ±Π΅ вСроятности Π±Π»ΠΈΠ·ΠΊΠΈ ΠΏΠΎ Π·Π½Π°Ρ‡Π΅Π½ΠΈΡŽ, Ρ‚ΠΎ Π·Π½Π°Ρ‡ΠΈΡ‚ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ с Ρ‚Π°ΠΊΠΈΠΌ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠΌ, с ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎ Ρ€Π°Π²Π½ΠΎΠΉ Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒΡŽ, ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΠΎΠΏΠ°ΡΡ‚ΡŒ ΠΊΠ°ΠΊ Π² ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΡŽ, Ρ‚Π°ΠΊ ΠΈ Π² Π΅Π΅ Π΄ΠΎΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅. Π—Π½Π°Ρ‡ΠΈΡ‚, для классификатора Ρ‚Π°ΠΊΠΎΠΉ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ бСсполСзСн, ΠΈ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΠΈΡΠΊΠ»ΡŽΡ‡Π΅Π½ ΠΈΠ· Ρ€Π°ΡΡΠΌΠΎΡ‚рСния. ΠšΠΎΡΡ„Ρ„ΠΈΡ†ΠΈΠ΅Π½Ρ‚ полСзности, Π² Π΄Π°Π½Π½ΠΎΠΌ случаС, ΠΌΠΎΠΆΠ½ΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ ΠΊΠ°ΠΊ ΠΌΠΎΠ΄ΡƒΠ»ΡŒ разности этих Π΄Π²ΡƒΡ… вСроятностСй.

3.2 РасчСт вСсов Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ²

ΠŸΡƒΡΡ‚ΡŒ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ ΠΈΠΌΠ΅Π΅Ρ‚ вСс ΠΏΠΎ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡŽ ΠΊ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρƒ. Π’ΠΎΠ³Π΄Π°, ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²ΠΈΡ‚ΡŒ Π² Π²ΠΈΠ΄Π΅ Π²Π΅ΠΊΡ‚ΠΎΡ€Π° вСсов Π΅Π³ΠΎ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ²:

.

ВСса Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² ΡƒΠ΄ΠΎΠ±Π½ΠΎ Π½ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ‚Π°ΠΊ, Ρ‡Ρ‚ΠΎ Π±Ρ‹ для

.

На ΡΠ°ΠΌΠΎΠΌ Π΄Π΅Π»Π΅, Π²Π΅ΠΊΡ‚ΠΎΡ€ соотвСтствСнно. Π’. Π΅. это Π²Π΅ΠΊΡ‚ΠΎΡ€, составлСнный ΠΈΠ· Π²Π΅ΡΠΎΠ² всСх Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹Ρ… Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠΎΠ³ΡƒΡ‚ Π²ΡΡ‚Ρ€Π΅Ρ‚ΠΈΡ‚ΡŒΡΡ Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅. РазумССтся, тСксты, содСрТащиС ΠΏΠΎΠ»Π½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ всСх Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹Ρ… Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ², Π½Π° ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠ΅ Π½Π΅ Π²ΡΡ‚Ρ€Π΅Ρ‡Π°ΡŽΡ‚ΡΡ, поэтому Π²Π΅ΠΊΡ‚ΠΎΡ€Ρ‹ ΠΈΠΌΠ΅ΡŽΡ‚ ΠΎΡ‡Π΅Π½ΡŒ Π±ΠΎΠ»ΡŒΡˆΡƒΡŽ Ρ€Π°Π·ΠΌΠ΅Ρ€Π½ΠΎΡΡ‚ΡŒ, ΠΈ (ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ) ΠΌΠ°Π»ΠΎ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΎΡ‚Π»ΠΈΡ‡Π½Ρ‹ ΠΎΡ‚ Π½ΡƒΠ»Ρ (), Ρ‚. Π΅. ΡΠ²Π»ΡΡŽΡ‚ΡΡ Ρ€Π°Π·Ρ€Π΅ΠΆΠ΅Π½Π½Ρ‹ΠΌΠΈ Π²Π΅ΠΊΡ‚ΠΎΡ€Π°ΠΌΠΈ. Π­Ρ‚Ρƒ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡ‚ΡŒ ΡƒΠ΄ΠΎΠ±Π½ΠΎ ΠΎΠΏΡƒΡΠΊΠ°Ρ‚ΡŒ ΠΏΡ€ΠΈ ΠΈΠ·Π»ΠΎΠΆΠ΅Π½ΠΈΠΈ Ρ‚Π΅ΠΎΡ€ΠΈΠΈ, Π½ΠΎ Π² ΠΏΡ€Π°ΠΊΡ‚ичСских расчСтах это Π½ΡƒΠΆΠ½ΠΎ ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°Ρ‚ΡŒ.

Π•ΡΡ‚ΡŒ нСсколько ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠ² ΠΊ Ρ‚ΠΎΠΌΡƒ, ΠΊΠ°ΠΊ Ρ€Π°ΡΡΡ‡ΠΈΡ‚Ρ‹Π²Π°Ρ‚ΡŒ вСса Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ².

Π‘Π°ΠΌΡ‹ΠΉ простой ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ — ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Ρ‚ΡŒ Π·Π° Π²Π΅Ρ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° количСство ΠΏΠΎΠ²Ρ‚ΠΎΡ€Π΅Π½ΠΈΠΉ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° Π² Π΄Π°Π½Π½ΠΎΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅. Π’. Π΅. для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅, Ρ€Π°Π²Π΅Π½ числу Π΄ΡƒΠ±Π»ΠΈΠΊΠ°Ρ‚ΠΎΠ² (Π³Π΄Π΅ — Π΄ΠΎΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ Π΄ΠΎ), Ρ‚Π°ΠΊΠΈΡ… Ρ‡Ρ‚ΠΎ, плюс ΠΎΠ΄ΠΈΠ½ (Π² Π΄Π°Π»ΡŒΠ½Π΅ΠΉΡˆΠ΅ΠΌ, Π² Ρ†Π΅Π»ΡΡ… сокращСния размСрности Π²Π΅ΠΊΡ‚ΠΎΡ€Π°, Π΄ΡƒΠ±Π»ΠΈΠΊΠ°Ρ‚Ρ‹ ΡƒΠ΄Π°Π»ΡΡŽΡ‚ΡΡ ΠΈΠ· ΠΈΠ½Π΄Π΅ΠΊΡΠ°). ΠžΠ±ΠΎΠ·Π½Π°Ρ‡ΠΈΠ² мноТСство Π΄ΡƒΠ±Π»ΠΈΠΊΠ°Ρ‚ΠΎΠ² Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° Π·Π° ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠΌ Ρ„ΠΎΡ€ΠΌΡƒΠ»Ρƒ:

Для Π½ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²ΠΊΠΈ вСса Ρ‚Π°ΠΊ, Ρ‡Ρ‚ΠΎ Π±Ρ‹ ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π°ΡΡΡ‡ΠΈΡ‚Ρ‹Π²Π°Ρ‚ΡŒ вСс Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅ ΠΊΠ°ΠΊ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ ΠΊ ΠΎΠ±Ρ‰Π΅ΠΌΡƒ числу Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅ (ΠΎΠ±ΠΎΠ·Π½Π°Ρ‡ΠΈΠΌ):

Π•Ρ‰Π΅ ΠΎΠ΄ΠΈΠ½ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄, Π·Π°ΠΊΠ»ΡŽΡ‡Π°ΡŽΡ‰ΠΈΠΉΡΡ Π² Π²Ρ‹Ρ‡ΠΈΡΠ»Π΅Π½ΠΈΠΈ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ, Π²Ρ‹Ρ‚Π΅ΠΊΠ°Π΅Ρ‚ ΠΈΠ· Π΄Π²ΡƒΡ…, ΠΈΠ½Ρ‚ΡƒΠΈΡ‚ΠΈΠ²Π½ΠΎ понятных, наблюдСний:

Β· Π§Π΅ΠΌ Ρ‡Π°Ρ‰Π΅ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ встрСчаСтся Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅, Ρ‚Π΅ΠΌ Π»ΡƒΡ‡ΡˆΠ΅ ΠΎΠ½ ΠΎΡ‚Ρ€Π°ΠΆΠ°Π΅Ρ‚ Π΅Π³ΠΎ содСрТаниС (Ρ‚Π΅ΠΌ Π²Ρ‹ΡˆΠ΅ Π΅Π³ΠΎ Π·Π½Π°Ρ‡ΠΈΠΌΠΎΡΡ‚ΡŒ для классификатора)

Β· Π§Π΅ΠΌ Π² Π±ΠΎΠ»ΡŒΡˆΠ΅ΠΌ количСствС Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² встрСчаСтся Ρ‚Π΅Ρ€ΠΌΠΈΠ½, Ρ‚Π΅ΠΌ ΠΌΠ΅Π½Π΅Π΅ Π·Π½Π°Ρ‡ΠΈΠΌΡ‹ΠΌ ΠΎΠ½ ΡΠ²Π»ΡΠ΅Ρ‚ся для классификатора Для Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Π΄Π°Π½Π½ΠΎΠ³ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° индСксации Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΈΠΌΠ΅Ρ‚ΡŒ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠ΅ мноТСство Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ². ΠžΠ±ΠΎΠ·Π½Π°Ρ‡ΠΈΠΌ Π·Π° ΠΏΠΎΠ΄ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΈΠ· ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π³ΠΎ мноТСства (), Π² ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… встрСчаСтся Ρ‚Π΅Ρ€ΠΌΠΈΠ½ ΠΈΠ· Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° .

Π’Π΅Π»ΠΈΡ‡ΠΈΠ½Ρƒ ΠΈΠ½ΠΎΠ³Π΄Π° Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π½ΠΎΠΉ частотой[2].

БущСствуСт ΠΌΠ½ΠΎΠ³ΠΎ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ, ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‰ΠΈΡ…ΡΡ Π΄Ρ€ΡƒΠ³ ΠΎΡ‚ Π΄Ρ€ΡƒΠ³Π° способами Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ вСсов Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² ΠΈ Π΄Ρ€ΡƒΠ³ΠΈΠΌΠΈ ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚ΠΈΡ€ΡƒΡŽΡ‰ΠΈΠΌΠΈ мноТитСлями.

Π’ΠΎΡ‚ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρ‹ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΉ:

Для Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ вСса Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°, рассчитанного с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΡƒΡŽ ΡΡ‚Π°Π½Π΄Π°Ρ€Ρ‚Π½ΡƒΡŽ Ρ„ΠΎΡ€ΠΌΡƒΠ»Ρƒ:

Π³Π΄Π΅ — количСство всСх Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² Π² ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΌ мноТСствС Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².

Для ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Ρ‹ ΠΈ Π΄Ρ€ΡƒΠ³ΠΈΠ΅, Π±ΠΎΠ»Π΅Π΅ экзотичСскиС ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ расчСта вСсов Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ². Π’Π°ΠΊ, Π½Π° Π·Π½Π°Ρ‡ΠΈΠΌΠΎΡΡ‚ΡŒ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° (Π° Π·Π½Π°Ρ‡ΠΈΡ‚, ΠΈ Π½Π° Π΅Π³ΠΎ вСс) Π² ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½ΡƒΡŽ ΠΈΠ»ΠΈ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½ΡƒΡŽ сторону ΠΌΠΎΠΆΠ΅Ρ‚ Π²Π»ΠΈΡΡ‚ΡŒ, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡ‚ΡŒ форматирования этого Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° Π² ΠΈΡΡ…ΠΎΠ΄Π½ΠΎΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅ (ΠΊ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρƒ, слова, Π²Ρ‹Π΄Π΅Π»Π΅Π½Π½Ρ‹Π΅ ΠΆΠΈΡ€Π½Ρ‹ΠΌ ΡˆΡ€ΠΈΡ„Ρ‚ΠΎΠΌ, Π΄Ρ€ΡƒΠ³ΠΈΠΌ Ρ†Π²Π΅Ρ‚ΠΎΠΌ, ΠΈΠ»ΠΈ большим Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠΌ ΡˆΡ€ΠΈΡ„Ρ‚Π°, ΠΌΠΎΠ³ΡƒΡ‚ Ρ€Π°ΡΡ†Π΅Π½ΠΈΠ²Π°Ρ‚ΡŒΡΡ ΠΊΠ°ΠΊ Π±ΠΎΠ»Π΅Π΅ Π·Π½Π°Ρ‡ΠΈΠΌΡ‹Π΅), ΠΈΠ»ΠΈ ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° Π² ΠΈΡΡ…ΠΎΠ΄Π½ΠΎΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅ (ΠΊ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρƒ, слова, взятыС ΠΈΠ· Π·Π°Π³ΠΎΠ»ΠΎΠ²ΠΊΠ° Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°, Ρ‚Π°ΠΊ ΠΆΠ΅ ΠΌΠΎΠ³ΡƒΡ‚ Ρ†Π΅Π½ΠΈΡ‚ΡŒΡΡ Π²Ρ‹ΡˆΠ΅). ΠžΡ‡Π΅Π²ΠΈΠ΄Π½ΠΎ, Ρ‡Ρ‚ΠΎ для Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Ρ‚Π°ΠΊΠΈΡ… ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² расчСта вСсов, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠΉ ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½Ρ‹ΠΉ Π²ΠΈΠ΄ Π²Π΅ΠΊΡ‚ΠΎΡ€Π° Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΌΠΎΠ³ Π±Ρ‹ ΠΎΡ‚Ρ€Π°ΠΆΠ°Ρ‚ΡŒ Ρ‚Π°ΠΊΡƒΡŽ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΡƒΡŽ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ.

ВСса Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² часто ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ для ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΠΈ размСрности Π²Π΅ΠΊΡ‚ΠΎΡ€Π° Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ². Π’ ΠΎΠ±Ρ‰Π΅ΠΌ случаС, ΡΡ‚Π°Ρ€Π°ΡŽΡ‚ΡΡ привСсти всС Π²Π΅ΠΊΡ‚ΠΎΡ€Ρ‹ ΠΊ Ρ‚Π°ΠΊΠΎΠΌΡƒ Π²ΠΈΠ΄Ρƒ, Ρ‡Ρ‚ΠΎ Π±Ρ‹ суммы вСсов всСх Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π²Π΅ΠΊΡ‚ΠΎΡ€Π° Π±Ρ‹Π»ΠΈ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²Ρ‹. Для этого, Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹ со ΡΠ»ΠΈΡˆΠΊΠΎΠΌ Π½ΠΈΠ·ΠΊΠΈΠΌ ΠΈΠ»ΠΈ слишком высоким Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ΠΌ вСса ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΈΠ·Π½Π°Ρ‚ΡŒ ΠΌΠ°Π»ΠΎΠ·Π½Π°Ρ‡ΠΈΠΌΡ‹ΠΌΠΈ ΠΈ ΠΈΡΠΊΠ»ΡŽΡ‡ΠΈΡ‚ΡŒ ΠΈΠ· Π²Π΅ΠΊΡ‚ΠΎΡ€Π°.

4. ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ построСния классификаторов

Как ΡƒΠΆΠ΅ Π½Π΅ΠΎΠ΄Π½ΠΎΠΊΡ€Π°Ρ‚Π½ΠΎ ΠΎΡ‚ΠΌΠ΅Ρ‡Π°Π»ΠΎΡΡŒ Π²Ρ‹ΡˆΠ΅, Π·Π°Π΄Π°Ρ‡Π° построСния классификатора сводится ΠΊ Π·Π°Π΄Π°Ρ‡Π΅ опрСдСлСния Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ, Π°ΠΏΠΏΡ€ΠΎΠΊΡΠΈΠΌΠΈΡ€ΡƒΡŽΡ‰Π΅ΠΉ значСния Ρ†Π΅Π»Π΅Π²ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ, для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ. Π’ΠΎΠΎΠ±Ρ‰Π΅ говоря, рСализация Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Ρ€Π°Π·Π½ΠΎΠΉ для Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ мноТСства. Но Π² ΠΏΠΎΠ΄Π°Π²Π»ΡΡŽΡ‰Π΅ΠΌ Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²Π΅ случаСв, ΠΌΠ΅Ρ‚ΠΎΠ΄ построСния классификатора ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ² для всСх ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ.

На Π²Ρ…ΠΎΠ΄ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ поступаСт Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚, прСдставлСнный Π² Π²ΠΈΠ΄Π΅ Π²Π·Π²Π΅ΡˆΠ΅Π½Π½Ρ‹Ρ… Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ². На Π²Ρ‹Ρ…ΠΎΠ΄Π΅, Π² ΠΎΠ±Ρ‰Π΅ΠΌ случаС, ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌ Π²Π΅ΠΊΡ‚ΠΎΡ€ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ статуса ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠ·Π°Ρ†ΠΈΠΈ, Ρ‚. Π΅. стСпСни принадлСТности Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° ΠΊ ΠΊΠ°Ρ‚Сгориям ΠΈΠ· ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²Π°:

Π”Π°Π»Π΅Π΅ Π·Π°Π΄Π°Ρ‡Π° Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ Π±Ρ‹ ΠΎΡ‚ Π²Π΅ΠΊΡ‚ΠΎΡ€Π° ΠΏΠ΅Ρ€Π΅ΠΉΡ‚ΠΈ ΠΊ Ρ‚ΠΎΡ‡Π½ΠΎΠΉ классификации.

Для этого ΠΌΠΎΠΆΠ½ΠΎ для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ Π²Ρ‹Π±Ρ€Π°Ρ‚ΡŒ ΠΏΠΎΡ€ΠΎΠ³ΠΎΠ²ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅. Если, Π·Π½Π°Ρ‡ΠΈΡ‚, Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ Π΄Π°Π½Π½ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ. Π”Ρ€ΡƒΠ³ΠΎΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄: для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°, для ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ Ρ€Π΅ΡˆΠ°Π΅Ρ‚ΡΡ Π·Π°Π΄Π°Ρ‡Π° классификации, Π²Ρ‹Π±ΠΈΡ€Π°Ρ‚ΡŒ нСсколько Π±Π»ΠΈΠΆΠ°ΠΉΡˆΠΈΡ… ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ, Ρ‚. Π΅. ΠΏΠ΅Ρ€Π²Ρ‹Π΅ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ, Π½Π° ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Π΅Ρ‚ наибольшиС значСния.

Рассмотрим Π΄Π°Π»Π΅Π΅ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ способы построСния классификатора.

4.1 ΠœΠ΅Ρ‚ΠΎΠ΄ Rocchio

ΠœΠ΅Ρ‚ΠΎΠ΄ Rocchio являСтся ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ· ΡΠ°ΠΌΡ‹Ρ… простых ΠΈ Ρ€Π°ΡΠΏΡ€ΠΎΡΡ‚Ρ€Π°Π½Π΅Π½Π½Ρ‹Ρ… ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² построСния классификатора. Π”Π°Π½Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Ρ‚Π°ΠΊ Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡ‹ΠΉ ΠΏΡ€ΠΎΡ„Π°ΠΉΠ» Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° для ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ.

ΠŸΡ€ΠΎΡ„Π°ΠΉΠ» (ΠΈΠ»ΠΈ ΠΏΡ€ΠΎΡ‚ΠΎΡ‚ΠΈΠΏ) Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° для ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ — это список Π²Π·Π²Π΅ΡˆΠ΅Π½Π½Ρ‹Ρ… Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ², Ρ„Π°ΠΊΡ‚ присутствия ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Ρ…ΠΎΡ€ΠΎΡˆΠΎ ΠΎΡ‚Π»ΠΈΡ‡Π°Π΅Ρ‚ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΡŽ ΠΎΡ‚ Π΄Ρ€ΡƒΠ³ΠΈΡ… ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, ΠΏΡ€ΠΎΡ„Π°ΠΉΠ» являСтся ΠΈΠ΄Π΅Π°Π»ΡŒΠ½Ρ‹ΠΌ индСксом Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΌΠΎΠ³ Π±Ρ‹ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ°Ρ‚ΡŒ Π΄Π°Π½Π½ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ. Π§Π΅ΠΌ большС индСкс ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅ΠΌΠΎΠ³ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°, ΠΏΠΎΡ…ΠΎΠΆ Π½Π° ΡΡ‚Π°Π»ΠΎΠ½Π½Ρ‹ΠΉ ΠΏΡ€ΠΎΡ„Π°ΠΉΠ» ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ, Ρ‚Π΅ΠΌ с Π±ΠΎΠ»ΡŒΡˆΠ΅ΠΉ ΡΡ‚Π΅ΠΏΠ΅Π½ΡŒΡŽ увСрСнности ΠΎΠ½ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ отнСсСн ΠΊ ΡΡ‚ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ.

ΠŸΡ€ΠΎΡ„Π°ΠΉΠ» для ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ Π² ΠΌΠ΅Ρ‚ΠΎΠ΄Π΅ Rocchio рассчитываСтся ΠΏΠΎ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΉ Ρ„ΠΎΡ€ΠΌΡƒΠ»Π΅:

Π³Π΄Π΅:

Β· - вСс Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅

Β· - мноТСство Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², ΡΠ²Π»ΡΡŽΡ‰ΠΈΡ…ΡΡ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π°ΠΌΠΈ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π³ΠΎ мноТСства Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² (ΠΈΠ½Ρ‹ΠΌΠΈ словами, мноТСство Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΈΠ· ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… Π΄Π°Π½Π½Ρ‹Ρ…, ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ°Ρ‰ΠΈΡ… ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ)

Β· - мноТСство Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², ΡΠ²Π»ΡΡŽΡ‰ΠΈΡ…ΡΡ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π°ΠΌΠΈ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π³ΠΎ мноТСства Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² (ΠΈΠ½Ρ‹ΠΌΠΈ словами, мноТСство Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΈΠ· ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… Π΄Π°Π½Π½Ρ‹Ρ…, Π½Π΅ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ°Ρ‰ΠΈΡ… ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ)

ПослС построСния всСх ΠΏΡ€ΠΎΡ„Π°ΠΉΠ»ΠΎΠ², классификатор опрСдСляСт расстояния ΠΌΠ΅ΠΆΠ΄Ρƒ Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠΌ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅ΠΌΠΎΠ³ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°, ΠΈ ΠΏΡ€ΠΎΡ„Π°ΠΉΠ»Π°ΠΌΠΈ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ. Π’ ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ расстояния часто ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ косинус ΡƒΠ³Π»Π° ΠΌΠ΅ΠΆΠ΄Ρƒ Π²Π΅ΠΊΡ‚ΠΎΡ€Π°ΠΌΠΈ.

Π”Π°Π½Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΎΠ±Π»Π°Π΄Π°Π΅Ρ‚ ΠΏΠΎΠ»Π΅Π·Π½ΠΎΠΉ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡ‚ΡŒΡŽ: ΠΏΡ€ΠΎΡ„Π°ΠΉΠ»Ρ‹ ΠΌΠΎΠΆΠ½ΠΎ быстро ΠΏΠ΅Ρ€Π΅ΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ ΠΏΡ€ΠΈ Π΄ΠΎΠ±Π°Π²Π»Π΅Π½ΠΈΠΈ Π½ΠΎΠ²Ρ‹Ρ… ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² Π² ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ мноТСство. Π­Ρ‚Π° ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡ‚ΡŒ ΠΏΠΎΠ»Π΅Π·Π½Π°, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Π² Π·Π°Π΄Π°Ρ‡Π΅ Π°Π΄Π°ΠΏΡ‚ΠΈΠ²Π½ΠΎΠΉ Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΠΈ, ΠΊΠΎΠ³Π΄Π° ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒ постСпСнно ΡƒΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ систСмС, ΠΊΠ°ΠΊΠΈΠ΅ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹ Π²Ρ‹Π±Ρ€Π°Π½Ρ‹ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ, Π° ΠΊΠ°ΠΊΠΈΠ΅ Π½Π΅Ρ‚.

4.2 ΠœΠ΅Ρ‚ΠΎΠ΄ вСроятностной классификации (ΠΌΠ΅Ρ‚ΠΎΠ΄ БайСса)

ВСроятностныС классификаторы Ρ€Π°ΡΡΠΌΠ°Ρ‚Ρ€ΠΈΠ²Π°ΡŽΡ‚ классификатор Π² Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°Ρ…, Ρ‚. Π΅. ΠΊΠ°ΠΊ Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ. Π­Ρ‚Ρƒ Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ ΠΏΠΎΠ΄ΡΡ‡ΠΈΡ‚Ρ‹Π²Π°ΡŽΡ‚ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Ρ‚Π΅ΠΎΡ€Π΅ΠΌΡ‹ БайСса[3]:

Π³Π΄Π΅:

Β· - Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½ΠΎ взятый Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²ΠΈΡ‚ΡŒ Π² Π²ΠΈΠ΄Π΅ Π²Π΅ΠΊΡ‚ΠΎΡ€Π°

ВычислСниС Π² Ρ„ΠΎΡ€ΠΌΡƒΠ»Π΅ БайСса Π·Π°Ρ‚Ρ€ΡƒΠ΄Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ, ΠΈΠ·-Π·Π° большого количСства всСвозмоТных Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ². Π’ ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Π΄Π°Π½Π½ΠΎΠΉ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ вводится Π΄ΠΎΠΏΡƒΡ‰Π΅Π½ΠΈΠ΅ нСзависимости (independence assumption), ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ Π»ΡŽΠ±Ρ‹Π΅ Π΄Π²Π΅ ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚Ρ‹ Π²Π΅ΠΊΡ‚ΠΎΡ€Π° Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°, рассмотрСнныС ΠΊΠ°ΠΊ случайныС ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅, статистичСски нСзависимы Π΄Ρ€ΡƒΠ³ ΠΎΡ‚ Π΄Ρ€ΡƒΠ³Π°, ΠΈ Π²Ρ‹Ρ€Π°ΠΆΠ°ΡŽΡ‚ся ΠΊΠ°ΠΊ:

На ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠ΅, Π΄ΠΎΠΏΡƒΡ‰Π΅Π½ΠΈΠ΅ нСзависимости ΠΏΠΎΡ‡Ρ‚ΠΈ Π½ΠΈΠΊΠΎΠ³Π΄Π° Π½Π΅ Π²Ρ‹ΠΏΠΎΠ»Π½ΡΠ΅Ρ‚ся. ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€Ρ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π΄Π°Π½Π½ΠΎΠ΅ Π΄ΠΎΠΏΡƒΡ‰Π΅Π½ΠΈΠ΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚, Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ΡΡ Π½Π°ΠΈΠ²Π½Ρ‹ΠΌΠΈ классификаторами БайСса. Одним ΠΈΠ· Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ извСстных Π½Π°ΠΈΠ²Π½Ρ‹Ρ… классификаторов БайСса являСтся Π±ΠΈΠ½Π°Ρ€Π½Ρ‹ΠΉ нСзависимый классификатор, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Π±ΠΈΠ½Π°Ρ€Π½Ρ‹Π΅ значСния Π²Π΅ΠΊΡ‚ΠΎΡ€Π° прСдставлСния Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°. Π’ ΡΡ‚ΠΎΠΌ случаС Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅ ΠΏΡ€ΠΈΠΌΠ΅Ρ‚ Π²ΠΈΠ΄:

4.3 ΠœΠ΅Ρ‚ΠΎΠ΄ Ρ€Π°Π·Ρ€Π΅ΡˆΠ°ΡŽΡ‰ΠΈΡ… Π΄Π΅Ρ€Π΅Π²ΡŒΠ΅Π² (Π΄Π΅Ρ€Π΅Π²ΡŒΡ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ)

Π”Π°Π½Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ основан Π½Π° ΠΏΠΎΡΡ‚Ρ€ΠΎΠ΅Π½ΠΈΠΈ Π΄Π΅Ρ€Π΅Π²Π° принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ ΠΏΠΎ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΌΡƒ мноТСству Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².

Π’ ΠΎΠ±Ρ‰Π΅ΠΌ случаС, это Π΄Π΅Ρ€Π΅Π²ΠΎ прСдставляСт собой связный ацикличСский ΠΎΡ€Π³Ρ€Π°Ρ„, Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½ΠΈΠ΅ ΡƒΠ·Π»Ρ‹ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ прСдставлСны Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌΠΈ, Π΄ΡƒΠ³ΠΈ ΠΏΠΎΠΌΠ΅Ρ‡Π΅Π½Ρ‹ тСстами Π½Π° Π²Π΅Ρ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ ΠΈΠΌΠ΅Π΅Ρ‚ Π² ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅ΠΌΠΎΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅, Π»ΠΈΡΡ‚ΡŒΡ ΠΏΠΎΠΌΠ΅Ρ‡Π΅Π½Ρ‹ катСгориями.

ΠšΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΡ присваиваСтся Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρƒ Π² Ρ…ΠΎΠ΄Π΅ рСкурсивного ΠΎΠ±Ρ…ΠΎΠ΄Π° Π΄Π΅Ρ€Π΅Π²Π°: классификатор ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ, начиная с ΠΊΠΎΡ€Π½Ρ Π΄Π΅Ρ€Π΅Π²Π°, ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΡ‚ Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½ΠΈΠ΅ ΡƒΠ·Π»Ρ‹ ΠΈ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΡΠ΅Ρ‚ вСс Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°, ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰Π΅Π³ΠΎ Π΄Π°Π½Π½ΠΎΠΌΡƒ ΡƒΠ·Π»Ρƒ, Π½Π° ΡΠΎΠΎΡ‚вСтствиС ΠΎΠ΄Π½ΠΎΠΉ ΠΈΠ· Π΄ΡƒΠ³, выходящих ΠΈΠ· Ρ‚Π΅ΠΊΡƒΡ‰Π΅ΠΉ Π²Π΅Ρ€ΡˆΠΈΠ½Ρ‹, для опрСдСлСния направлСния дальнСйшСго ΠΎΠ±Ρ…ΠΎΠ΄Π° Π•ΡΡ‚ΡŒ нСсколько ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² построСния Π΄Π΅Ρ€Π΅Π²Π°.

НаиболСС простым являСтся способ, ΠΏΡ€ΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ строится Π΄Π²ΠΎΠΈΡ‡Π½ΠΎΠ΅ Π΄Π΅Ρ€Π΅Π²ΠΎ, ΠΎΠ΄Π½Π° ΠΈΠ· Π΄ΡƒΠ³ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ ΠΏΠΎΠΌΠ΅Ρ‡Π΅Π½Π° условиСм (Ρ‡Ρ‚ΠΎ ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚ отсутствиС Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°, ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰Π΅Π³ΠΎ ΡƒΠ·Π»Ρƒ, Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅), Π° Π²Ρ‚орая Π΄ΡƒΠ³Π° ΠΏΠΎΠΌΠ΅Ρ‡Π΅Π½Π° условиСм (Ρ‡Ρ‚ΠΎ ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚ присутствиС Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°, ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰Π΅Π³ΠΎ ΡƒΠ·Π»Ρƒ, Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅). Π§Π°Ρ‰Π΅ всСго, Ρ‚Π°ΠΊΠΈΠ΅ Π΄Π΅Ρ€Π΅Π²ΡŒΡ Π²Ρ‹ΡΡΠ½ΡΡŽΡ‚, ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ Π»ΠΈ Π΄Π°Π½Π½Ρ‹ΠΉ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ, ΠΈΠ»ΠΈ Π΅Π΅ Π΄ΠΎΠΏΠΎΠ»Π½Π΅Π½ΠΈΡŽ (Ρ‚.Π΅. Π΄Π΅Ρ€Π΅Π²ΠΎ ΠΈΠΌΠ΅Π΅Ρ‚ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π΄Π²Π° Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… Π²ΠΈΠ΄Π° Π»ΠΈΡΡ‚ΡŒΠ΅Π²). Π’ Ρ‚Π°ΠΊΠΎΠΌ случаС, Π² ΡΠΈΡΡ‚Π΅ΠΌΠ΅ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ построСно Π½Π΅ ΠΎΠ΄Π½ΠΎ Π΄Π΅Ρ€Π΅Π²ΠΎ, Π° ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Ρ… Π΄Π΅Ρ€Π΅Π²ΡŒΠ΅Π² для ΠΏΠ°Ρ€. Π’ΠΏΡ€ΠΎΡ‡Π΅ΠΌ, Π²ΠΏΠΎΠ»Π½Π΅ допустимо, Π·Π°Ρ‚Π΅ΠΌ, ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΠΈΡ‚ΡŒ эти Π΄Π΅Ρ€Π΅Π²ΡŒΡ Π² ΠΎΠ΄Π½ΠΎ.

Одним ΠΈΠ· Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹Ρ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² построСния Π΄Π²ΠΎΠΈΡ‡Π½ΠΎΠ³ΠΎ Π΄Π΅Ρ€Π΅Π²Π° принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ для ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ, с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π³ΠΎ мноТСства, ΠΌΠΎΠΆΠ΅Ρ‚ ΡΠ»ΡƒΠΆΠΈΡ‚ΡŒ стратСгия «Ρ€Π°Π·Π΄Π΅Π»ΡΠΉ ΠΈ Π²Π»Π°ΡΡ‚Π²ΡƒΠΉ»:

Β· Для Ρ‚Π΅ΠΊΡƒΡ‰Π΅Π³ΠΎ ΡƒΠ·Π»Π° выясняСтся, ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ°Ρ‚ Π»ΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹, ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ Π΄Π°Π½Π½ΠΎΠΌΡƒ ΡƒΠ·Π»Ρƒ, ΠΊ ΠΎΠ΄Π½ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ

Β· Ссли Π½Π΅Ρ‚, выбираСтся Ρ‚Π΅Ρ€ΠΌΠΈΠ½, Ρ€Π°Π·Π±ΠΈΠ²Π°ΡŽΡ‰ΠΈΠΉ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ мноТСство Π½Π° Π΄Π²Π° подмноТСства, Π² ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… вСс ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ постоянный (ΠΈΠ»ΠΈ). Π­Ρ‚ΠΈ подмноТСства относят ΠΊ Ρ€Π°Π·Π½Ρ‹ΠΌ ΠΏΠΎΠ΄Π΄Π΅Ρ€Π΅Π²ΡŒΡΠΌ, Π° Ρ‚Скущая Π²Π΅Ρ€ΡˆΠΈΠ½Π° помСчаСтся Π΄Π°Π½Π½Ρ‹ΠΌ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠΌ.

Π­Ρ‚ΠΎΡ‚ процСсс повторяСтся Π΄ΠΎ Ρ‚Π΅Ρ… ΠΏΠΎΡ€, ΠΏΠΎΠΊΠ° Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ листС Π΄Π΅Ρ€Π΅Π²Π° всС ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠ΅ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹ Π½Π΅ Π±ΡƒΠ΄ΡƒΡ‚ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ°Ρ‚ΡŒ ΠΊ ΠΎΠ΄Π½ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ, Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΈ ΠΏΡ€ΠΈΡΠ²Π°ΠΈΠ²Π°Π΅Ρ‚ся Π΄Π°Π½Π½ΠΎΠΌΡƒ листу. ΠšΠ»ΡŽΡ‡Π΅Π²Ρ‹ΠΌ ΠΌΠΎΠΌΠ΅Π½Ρ‚ΠΎΠΌ Π² ΡΡ‚ΠΎΠΌ процСссС являСтся ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ подходящСго Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°, ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌΡƒ ΠΏΡ€ΠΎΡ…ΠΎΠ΄ΠΈΡ‚ Ρ€Π°Π·Π±ΠΈΠ΅Π½ΠΈΠ΅. Π’Ρ‹Π±ΠΎΡ€ Ρ‚Π°ΠΊΠΎΠ³ΠΎ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚ΡŒ, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, анализируя коэффициСнт полСзности Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°.

Π”Ρ€ΡƒΠ³ΠΎΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ — присвоСниС Π΄ΡƒΠ³Π°ΠΌ условий ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ вСсов Π²ΠΈΠ΄Π°, Π³Π΄Π΅ ΠΏΠΎΡ€ΠΎΠ³ΠΎΠ²ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ дляго ΡƒΠ·Π»Π°, — количСство Π΄ΡƒΠ³, выходящих ΠΈΠ· Π΄Π°Π½Π½ΠΎΠ³ΠΎ ΡƒΠ·Π»Π°. Π’ ΠΎΠ±Ρ‰Π΅ΠΌ случаС это допускаСт Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ построСния n-Π°Ρ€Π½Ρ‹Ρ… Π΄Π΅Ρ€Π΅Π²ΡŒΠ΅Π² Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ.

Π”Π΅Ρ€Π΅Π²ΡŒΡ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ ΠΌΠΎΠ³ΡƒΡ‚ Ρ‚Π°ΠΊΠΆΠ΅ Ρ€Π°Π·Π»ΠΈΡ‡Π°Ρ‚ΡŒΡΡ Π²ΠΈΠ΄ΠΎΠΌ Π»ΠΈΡΡ‚ΡŒΠ΅Π²: с Π½ΠΈΠΌΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ ассоциированы ΠΊΠ°ΠΊ ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½Ρ‹Π΅ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ, Ρ‚Π°ΠΊ ΠΈ Π²Π΅Ρ‰Π΅ΡΡ‚Π²Π΅Π½Π½Ρ‹Π΅ числа, ΠΎΡ‚Ρ€Π°ΠΆΠ°ΡŽΡ‰ΠΈΠ΅ ΡΡ‚Π΅ΠΏΠ΅Π½ΡŒ принадлСТности ΠΊ ΠΊΠ°ΠΊΠΎΠΉ-Π»ΠΈΠ±ΠΎ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ, ΠΈΠ»ΠΈ Π±ΡƒΠ»Π΅Π²Ρ‹ значСния true (ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ) ΠΈ false (Π½Π΅ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ).

ΠžΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° построСния Π΄Π΅Ρ€Π΅Π²Π° принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ Π² ΡΠ΅Π±Ρ Π΄Π²Π° основных этапа:

1. ΠŸΠΎΡΡ‚Ρ€ΠΎΠ΅Π½ΠΈΠ΅ Π΄Π΅Ρ€Π΅Π²Π°

2. Π‘ΠΎΠΊΡ€Π°Ρ‰Π΅Π½ΠΈΠ΅ размСрности Π΄Π΅Ρ€Π΅Π²Π°, для устранСния ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ Ρ‡Ρ€Π΅Π·ΠΌΠ΅Ρ€Π½ΠΎΠΉ ΠΏΠΎΠ΄Π³ΠΎΠ½ΠΊΠΈ классификатора ΠΏΠΎΠ΄ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ мноТСство, Ρ‚. Π΅. ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π΄Π΅Ρ€Π΅Π²Π°. Данная ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ° ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ ΠΊ ΡƒΡ…ΡƒΠ΄ΡˆΠ΅Π½ΠΈΡŽ качСства Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π΄Π΅Ρ€Π΅Π²Π° Π½Π° Π΄Π°Π½Π½Ρ‹Ρ…, Π½Π΅ Π²Ρ…одящих Π² ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ мноТСство Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².

БущСствуСт Ρ†Π΅Π»Ρ‹ΠΉ ряд стандартных Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² построСния Π΄Π΅Ρ€Π΅Π²Π° принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ: C4.5, CART, CHAID, MARS

4.4 ΠŸΡ€Π°Π²ΠΈΠ»Π° принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ

ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€, построСнный ΠΏΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρƒ ΠΏΡ€Π°Π²ΠΈΠ» принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ, состоит ΠΈΠ· Π΄ΠΈΠ·ΡŠΡŽΠ½ΠΊΡ‚ΠΈΠ²Π½Ρ‹Ρ… Π½ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½Ρ‹Ρ… Ρ„ΠΎΡ€ΠΌ (ДНЀ), Ρ‚. Π΅. логичСских конструкций (ΡƒΡ‚Π²Π΅Ρ€ΠΆΠ΄Π΅Π½ΠΈΠΉ), состоящих ΠΈΠ· ΠΏΠΎΡΡ‹Π»ΠΊΠΈ ΠΈ Π·Π°ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΡ ΠΈ ΡΠΎΠ΅Π΄ΠΈΠ½Π΅Π½Π½Ρ‹Ρ… логичСскими «Π˜» ΠΈ «Π˜Π›Π˜». Π’ ΠΏΠΎΡΡ‹Π»ΠΊΠ΅ утвСрТдаСтся Π½Π°Π»ΠΈΡ‡ΠΈΠ΅ ΠΈΠ»ΠΈ отсутствиС Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅, Π° Π² Π·Π°ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠΈ содСрТится Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ ΠΎ ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° ΠΏΠΎ Π΄Π°Π½Π½ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ. Из Ρ‚Π΅ΠΎΡ€ΠΈΠΈ машинного обучСния извСстно, Ρ‡Ρ‚ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ДНЀ эквивалСнтны ΠΌΠ΅Ρ‚ΠΎΠ΄Π°ΠΌ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Π΄Π΅Ρ€Π΅Π²ΡŒΠ΅Π² принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ. Однако, ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ· ΠΏΡ€Π΅ΠΈΠΌΡƒΡ‰Π΅ΡΡ‚Π² ДНЀ являСтся Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ Π΄Π°Π½Π½Ρ‹Π΅ классификаторы Π±ΠΎΠ»Π΅Π΅ ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½Ρ‹, ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Π΄Π΅Ρ€Π΅Π²ΡŒΡΠΌΠΈ.

ИдСя ДНЀ-ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² ΠΎΡ‚Π±ΠΎΡ€Π΅ ΠΈΠ· Π²ΡΠ΅Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹Ρ… ΠΏΠΎΠΊΡ€Ρ‹Π²Π°ΡŽΡ‰ΠΈΡ… ΠΏΡ€Π°Π²ΠΈΠ» (ΠΏΡ€Π°Π²ΠΈΠ», ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚Π½ΠΎ ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΡ†ΠΈΡ€ΡƒΡŽΡ‚ всС ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠ΅ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹) «Π½Π°ΠΈΠ»ΡƒΡ‡ΡˆΠ΅Π΅» ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ с Ρ‚ΠΎΡ‡ΠΊΠΈ зрСния Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ критСрия ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ. Π’ Ρ‚ΠΎ Π²Ρ€Π΅ΠΌΡ ΠΊΠ°ΠΊ Π΄Π΅Ρ€Π΅Π²ΡŒΡ принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ строятся свСрху Π²Π½ΠΈΠ· с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ стратСгии «Ρ€Π°Π·Π΄Π΅Π»ΡΠΉ ΠΈ Π²Π»Π°ΡΡ‚Π²ΡƒΠΉ», ДНЀ-ΠΏΡ€Π°Π²ΠΈΠ»Π° Π·Π°Ρ‡Π°ΡΡ‚ΡƒΡŽ Ρ„ΠΎΡ€ΠΌΠΈΡ€ΡƒΡŽΡ‚ΡΡ снизу Π²Π²Π΅Ρ€Ρ…. Π’ Π½Π°Ρ‡Π°Π»Π΅ ΠΈΠ½Π΄ΡƒΠΊΡ‚ΠΈΠ²Π½ΠΎΠ³ΠΎ процСсса построСния классификатора для ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠΉ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ прСдставляСт собой ΡƒΡ‚Π²Π΅Ρ€ΠΆΠ΄Π΅Π½ΠΈΠ΅ Π²ΠΈΠ΄Π°, Π³Π΄Π΅ это Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° ΠΈΠ· ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π³ΠΎ мноТСства, Π° Ρ€Π°Π²Π½ΠΎ Π΅Π΅ Π΄ΠΎΠΏΠΎΠ»Π½Π΅Π½ΠΈΡŽ. Π­Ρ‚ΠΎΡ‚ Π½Π°Π±ΠΎΡ€ ΡƒΡ‚Π²Π΅Ρ€ΠΆΠ΄Π΅Π½ΠΈΠΉ ΡƒΠΆΠ΅ являСтся ДНЀ-классификатором для ci, Π½ΠΎ ΠΎΡ‡Π΅Π²ΠΈΠ΄Π½ΠΎ, Ρ‡Ρ‚ΠΎ Π² Ρ‚Π°ΠΊΠΎΠΌ Π²ΠΈΠ΄Π΅ ΠΎΠ½ ΠΏΠΎΠ΄Π²Π΅Ρ€ΠΆΠ΅Π½ эффСкту пСрСобучСния. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ процСсс обучСния Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ Π² ΡΠ΅Π±Ρ ΡΡ‚Π°Π΄ΠΈΡŽ Π³Π΅Π½Π΅Ρ€Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ, Π² Ρ…ΠΎΠ΄Π΅ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΡ€Π°Π²ΠΈΠ»Π° ΡƒΠΏΡ€ΠΎΡ‰Π°ΡŽΡ‚ΡΡ, проходя Ρ‡Π΅Ρ€Π΅Π· ΡΠ΅Ρ€ΠΈΡŽ ΠΌΠΎΠ΄ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΉ (сокращСниС посылок ΡƒΡ‚Π²Π΅Ρ€ΠΆΠ΄Π΅Π½ΠΈΠΉ, слияниС ΡƒΡ‚Π²Π΅Ρ€ΠΆΠ΄Π΅Π½ΠΈΠΉ). Π­Ρ‚ΠΎ Π΄Π΅Π»Π°Π΅Ρ‚ ΠΏΡ€Π°Π²ΠΈΠ»Π° Π±ΠΎΠ»Π΅Π΅ ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½Ρ‹ΠΌΠΈ ΠΈ, Π² Ρ‚ΠΎ ΠΆΠ΅ врСмя, Π½Π΅ Π½Π°Ρ€ΡƒΡˆΠ°Π΅Ρ‚ свойства покрываСмости классификатора. Π’ Π·Π°Π²Π΅Ρ€ΡˆΠ΅Π½ΠΈΠΈ этого процСсса, ΠΊΠ°ΠΊ ΠΈ Π² ΡΠ»ΡƒΡ‡Π°Π΅ с Π΄Π΅Ρ€Π΅Π²ΡŒΡΠΌΠΈ, выполняСтся стадия усСчСния, Π² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΠΎΠ²Ρ‹ΡˆΠ°Π΅Ρ‚ΡΡ ΠΎΠ±ΠΎΠ±Ρ‰Π°ΡŽΡ‰Π°Ρ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒ классификатора.

ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠΉΡΡ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΠΏΡ€Π°Π²ΠΈΠ» принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ ΠΌΠΎΠΆΠ΅Ρ‚ сильно ΠΎΡ‚Π»ΠΈΡ‡Π°Ρ‚ΡŒΡΡ Π² ΠΌΠ΅Ρ‚ΠΎΠ΄Π°Ρ… ΠΈ ΠΊΡ€ΠΈΡ‚Сриях Π³Π΅Π½Π΅Ρ€Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΈ ΡƒΡΠ΅Ρ‡Π΅Π½ΠΈΡ. Π’ΠΎΡ‚ нСсколько ΠΈΠ½Π΄ΡƒΠΊΡ‚ΠΈΠ²Π½Ρ‹Ρ… ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ…ΡΡ стандартных ДНЀ-Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² построСния классификатора: Charade, DL-ESC, Ripper, Scar ΠΈ Swap-1.

4.5 МодСли рСгрСссии

Для построСния тСкстового классификатора ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ рСгрСссии. РСгрСссия здСсь ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚ Π°ΠΏΠΏΡ€ΠΎΠΊΡΠΈΠΌΠ°Ρ†ΠΈΡŽ Π±ΠΈΠ½Π°Ρ€Π½ΠΎΠΉ Ρ†Π΅Π»Π΅Π²ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠ΅ΠΉ, значСниями ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΡΠ²Π»ΡΡŽΡ‚ΡΡ Π΄Π΅ΠΉΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ числа. Π’ ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ Ρ‚Π°ΠΊΠΎΠΉ рСгрСссионной ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΌΠΎΠΆΠ΅Ρ‚ Π²Ρ‹ΡΡ‚ΡƒΠΏΠ°Ρ‚ΡŒ, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΠΌΠ΅Ρ‚ΠΎΠ΄ Π½Π°ΠΈΠΌΠ΅Π½ΡŒΡˆΠΈΡ… ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΎΠ² (МНК).

Π’ ΠœΠΠš с ΠΊΠ°ΠΆΠ΄Ρ‹ΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠΌ ассоциировано Π΄Π²Π° Π²Π΅ΠΊΡ‚ΠΎΡ€Π°:

Β· Π˜ΡΡ…ΠΎΠ΄Π½Ρ‹ΠΉ Π²Π΅ΠΊΡ‚ΠΎΡ€, ΡΠ²Π»ΡΡŽΡ‰ΠΈΠΉΡΡ стандартным Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠΌ вСсов Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² ΠΈΠ· ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²Π°

Β· Π Π΅Π·ΡƒΠ»ΡŒΡ‚ΠΈΡ€ΡƒΡŽΡ‰ΠΈΠΉ Π²Π΅ΠΊΡ‚ΠΎΡ€, составлСнный ΠΈΠ· Π²Π΅ΡΠΎΠ², Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€ΠΈΠ·ΡƒΡŽΡ‰ΠΈΡ… ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ½ΠΎΡΡ‚ΡŒ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° ΠΊ ΠΊΠ°Ρ‚Сгориям (для Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π³ΠΎ мноТСства, вСса Π²Π΅ΠΊΡ‚ΠΎΡ€Π° ΠΈΠΌΠ΅ΡŽΡ‚ Π±ΠΈΠ½Π°Ρ€Π½Ρ‹Π΅ значСния, для Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² тСстового мноТСства — Π½Π΅ Π±ΠΈΠ½Π°Ρ€Π½Ρ‹Π΅) Π’ Ρ‚Π°ΠΊΠΎΠΌ случаС, Π·Π°Π΄Π°Ρ‡Π° построСния классификатора сводится ΠΊ Π½Π°Ρ…ΠΎΠΆΠ΄Π΅Π½ΠΈΡŽ для Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚ΠΈΡ€ΡƒΡŽΡ‰Π΅Π³ΠΎ Π²Π΅ΠΊΡ‚ΠΎΡ€Π° ΠΏΠΎ Π΄Π°Π½Π½ΠΎΠΌΡƒ исходному Π²Π΅ΠΊΡ‚ΠΎΡ€Ρƒ. Π’. Π΅. построСниС классификатора Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Π²Ρ‹Ρ‡ΠΈΡΠ»Π΅Π½ΠΈΠΈ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ () Ρ‚Π°ΠΊΠΎΠΉ, Ρ‡Ρ‚ΠΎ. Данная ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π° вычисляСтся с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ МНК Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… Π΄Π°Π½Π½Ρ‹Ρ…, минимизируя ΠΎΡˆΠΈΠ±ΠΊΡƒ ΠΏΠΎ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΉ Ρ„ΠΎΡ€ΠΌΡƒΠ»Π΅:

Π³Π΄Π΅:

Β· - Π½ΠΎΡ€ΠΌΠ° ЀробСниуса для ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠΌ

Β· - ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π°, составлСнная ΠΈΠ· ΠΈΡΡ…ΠΎΠ΄Π½Ρ‹Ρ… Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²

Β· - ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π°, составлСнная ΠΈΠ· Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚ΠΈΡ€ΡƒΡŽΡ‰ΠΈΡ… Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠœΠ°Ρ‚Ρ€ΠΈΡ†Π° ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ вычисляСтся с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ сингулярного разлоТСния Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π³ΠΎ мноТСства. Π­Π»Π΅ΠΌΠ΅Π½Ρ‚Ρ‹ Π½Π°ΠΉΠ΄Π΅Π½Π½ΠΎΠΉ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€ΠΈΠ·ΡƒΡŽΡ‚ ΡΡ‚Π΅ΠΏΠ΅Π½ΡŒ ассоциированности ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ ΠΈ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° .

ЭкспСримСнты ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‚, Ρ‡Ρ‚ΠΎ МНК являСтся ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ· Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ эффСктивных классификаторов, ΠΎΠ΄Π½Π°ΠΊΠΎ вычислСниС ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ ΠΊ Π²Ρ‹ΡΠΎΠΊΠΈΠΌ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌ Π·Π°Ρ‚Ρ€Π°Ρ‚Π°ΠΌ.

4.6 Π˜ΡΠΊΡƒΡΡΡ‚Π²Π΅Π½Π½Ρ‹Π΅ Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Π΅ сСти

Π˜ΡΠΊΡƒΡΡΡ‚Π²Π΅Π½Π½Π°Ρ нСйронная ΡΠ΅Ρ‚ΡŒ прСдставляСт собой Π½Π°Π±ΠΎΡ€ взаимосвязанных Π½Π΅ΠΉΡ€ΠΎΠ½ΠΎΠ². ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ Π½Π΅ΠΉΡ€ΠΎΠ½ прСдставляСт собой элСмСнтарный ΠΏΡ€Π΅ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒ Π²Ρ…ΠΎΠ΄Π½Ρ‹Ρ… сигналов Π² Π²Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Π΅. Π’Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Π΅ сигналы Π²Ρ‹Ρ‡ΠΈΡΠ»ΡΡŽΡ‚ΡΡ ΠΊΠ°ΠΊ функция ΠΎΡ‚ Π²Ρ…ΠΎΠ΄Π½Ρ‹Ρ… сигналов. Бвязи ΠΌΠ΅ΠΆΠ΄Ρƒ Π½Π΅ΠΉΡ€ΠΎΠ½Π°ΠΌΠΈ ΠΈΠΌΠ΅ΡŽΡ‚ вСса, Π° ΡΠ°ΠΌΠΈ Π½Π΅ΠΉΡ€ΠΎΠ½Ρ‹ — ΠΎΠ΄ΠΈΠ½ ΠΈΠ· Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… стандартных Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² повСдСния, Π²Ρ‹Π±ΠΈΡ€Π°Π΅ΠΌΡ‹ΠΉ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΎΠΌ. Как ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ, ΠΏΠ΅Ρ€Π΅Π΄Π°Ρ‚ΠΎΡ‡Π½Ρ‹Π΅ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ всСх Π½Π΅ΠΉΡ€ΠΎΠ½ΠΎΠ² Π² ΡΠ΅Ρ‚ΠΈ фиксированы, Π° Π²Π΅ΡΠ° ΡΠ²Π»ΡΡŽΡ‚ΡΡ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌΠΈ сСти ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ ΠΈΠ·ΠΌΠ΅Π½ΡΡ‚ΡŒΡΡ. НСкоторыС Π²Ρ…ΠΎΠ΄Ρ‹ Π½Π΅ΠΉΡ€ΠΎΠ½ΠΎΠ² ΠΏΠΎΠΌΠ΅Ρ‡Π΅Π½Ρ‹ ΠΊΠ°ΠΊ внСшниС Π²Ρ…ΠΎΠ΄Ρ‹ сСти, Π° Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π²Ρ‹Ρ…ΠΎΠ΄Ρ‹ — ΠΊΠ°ΠΊ внСшниС Π²Ρ‹Ρ…ΠΎΠ΄Ρ‹ сСти. ΠŸΠ΅Ρ€Π΅Π΄Π°Π²Π°Ρ Π½Π° Π²Ρ…ΠΎΠ΄ сСти ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ сигналов, ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ сигналов Π½Π° Π²Ρ‹Ρ…ΠΎΠ΄Π΅.

ΠžΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ сСти сводится ΠΊ ΠΏΠΎΠ΄Π°Ρ‡Π΅ Π½Π° Π΅Π΅ Π²Ρ…ΠΎΠ΄Ρ‹ ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ ΠΏΠΎΠ΄ΠΎΠ±Ρ€Π°Π½Π½Ρ‹Ρ… сигналов, для ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π·Π°Ρ€Π°Π½Π΅Π΅ извСстСн Ρ‚Ρ€Π΅Π±ΡƒΠ΅ΠΌΡ‹ΠΉ ΠΎΡ‚Π²Π΅Ρ‚, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π΄ΠΎΠ»ΠΆΠ΅Π½ Π±Ρ‹Ρ‚ΡŒ ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½ Π½Π° Π²Ρ‹Ρ…ΠΎΠ΄Π°Ρ… сСти. Π’ ΠΏΡ€ΠΎΡ†Π΅ΡΡΠ΅ обучСния, производится ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚ΠΈΡ€ΠΎΠ²ΠΊΠ° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² сСти Ρ‚Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Ρ‡Ρ‚ΠΎ Π±Ρ‹ ΡΠ΅Ρ‚ΡŒ Π²Ρ‹Π΄Π°Π²Π°Π»Π° ΠΈΠΌΠ΅Π½Π½ΠΎ этот, Π·Π°Ρ€Π°Π½Π΅Π΅ извСстный, ΠΎΡ‚Π²Π΅Ρ‚.

ВСкстовый классификатор Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Ρ… сСтСй — это ΡΠ΅Ρ‚ΡŒ элСмСнтов, ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ ΠΎΠ±Ρ€Π°Π·ΡƒΡŽΡ‚ Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ элСмСнты прСдставлСнныС Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°, Π²Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Π΅ элСмСнты, прСдставлСнныС катСгориями, ΠΈ ΡΠ²ΡΠ·ΠΈ ΠΌΠ΅ΠΆΠ΄Ρƒ элСмСнтами, ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΡΡŽΡ‰ΠΈΠ΅ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ зависимости ΠΈ ΠΏΠΎΠΌΠ΅Ρ‡Π΅Π½Π½Ρ‹Π΅ вСсами.

ΠŸΡ€ΠΎΡΡ‚Π΅ΠΉΡˆΠΈΠΉ Ρ‚ΠΈΠΏ Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Ρ… сСтСй — пСрсСптрон. Π’ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ΅ пСрсСптрона Π²Π½Π°Ρ‡Π°Π»Π΅ для ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ всС вСса ΠΈΠ½ΠΈΡ†ΠΈΠ°Π»ΠΈΠ·ΠΈΡ€ΡƒΡŽΡ‚ΡΡ ΠΎΠ΄Π½ΠΈΠΌ ΠΈ Ρ‚Π΅ΠΌ ΠΆΠ΅ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹ΠΌ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ΠΌ. ПослС классификации ΠΏΠ΅Ρ€Π²ΠΎΠ³ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°, прСдставлСнного вСсами Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ², провСряСтся Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚. Если ΠΎΠ½ ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚Π΅Π½, вСса классификатора ΠΎΡΡ‚Π°ΡŽΡ‚ΡΡ Π½Π΅ΠΈΠ·ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ. Π’ ΠΏΡ€ΠΎΡ‚ΠΈΠ²Π½ΠΎΠΌ случаС вСса классификатора ΠΌΠΎΠ΄ΠΈΡ„ΠΈΡ†ΠΈΡ€ΡƒΡŽΡ‚ΡΡ Π΄ΠΎ Ρ‚Π΅Ρ… ΠΏΠΎΡ€, ΠΏΠΎΠΊΠ° Π½Π΅ Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½ ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚Π½Ρ‹ΠΉ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚. ΠšΠΎΡ€Ρ€Π΅ΠΊΡ†ΠΈΡ происходит ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ: Ссли Π΅ΡΡ‚ΡŒ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ, Ρ‚ΠΎ Π²Π΅ΡΠ° Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹Ρ… Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° (Ρ‚.Π΅. Ρ‚Π΅Ρ…, для ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ…), «ΠΏΡ€ΠΎΠ΄Π²ΠΈΠ³Π°ΡŽΡ‚ся» ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΠ΅ΠΌ ΠΈΡ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΡ Π½Π° ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΡƒΡŽ Ρ„ΠΈΠΊΡΠΈΡ€ΠΎΠ²Π°Π½Π½ΡƒΡŽ Π²Π΅Π»ΠΈΡ‡ΠΈΠ½Ρƒ, Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡƒΡŽ ΡΡ‚Π΅ΠΏΠ΅Π½ΡŒΡŽ обучСния, ΠΈΠ½Π°Ρ‡Π΅ Ρ‚Π΅ ΠΆΠ΅ Π²Π΅ΡΠ° «ΠΏΠΎΠ½ΠΈΠΆΠ°ΡŽΡ‚ся» Π½Π° Ρ‚Ρƒ ΠΆΠ΅ Π²Π΅Π»ΠΈΡ‡ΠΈΠ½Ρƒ.

Π’ Ρ†Π΅Π»ΠΎΠΌ пСрсСптроны способны Π΄ΠΎΡΡ‚ΠΈΠ³Π°Ρ‚ΡŒ достаточно высокого качСства классификации, ΠΎΠ΄Π½Π°ΠΊΠΎ ΠΈΡ… Ρ‚Ρ€ΡƒΠ΄Π½ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡ‚ΡŒ для большого массива Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΏΡ€ΠΈ этом Ρ€Π΅Π·ΠΊΠΎ Π²ΠΎΠ·Ρ€Π°ΡΡ‚Π°ΡŽΡ‚ Π·Π°Ρ‚Ρ€Π°Ρ‚Ρ‹ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… мощностСй Π½Π° ΠΈΡ… ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅.

4.7 ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€Ρ‹ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ². ΠœΠ΅Ρ‚ΠΎΠ΄ k Π±Π»ΠΈΠΆΠ°ΠΉΡˆΠΈΡ… сосСдСй

ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€Ρ‹ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² Π½Π΅ ΠΏΡ‹Ρ‚Π°ΡŽΡ‚ΡΡ Π½Π°ΠΉΡ‚ΠΈ явный ΠΏΡ€ΠΎΡ„Π°ΠΉΠ» для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ, ΠΊΠ°ΠΊ это Π΄Π΅Π»Π°Π΅Ρ‚, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, классификатор Rocchio, Π° ΠΎΡΠ½ΠΎΠ²Ρ‹Π²Π°ΡŽΡ‚ процСсс Π²Ρ‹Π±ΠΎΡ€Π° ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ Π½Π° ΡΡ€Π°Π²Π½Π΅Π½ΠΈΠΈ расстояний ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅ΠΌΡ‹ΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠΌ ΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°ΠΌΠΈ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π³ΠΎ мноТСства. РСшСниС ΠΎ Ρ‚ΠΎΠΌ, ΠΊΠ°ΠΊ ΠΎΠ±ΠΎΠ±Ρ‰ΠΈΡ‚ΡŒ Π²Ρ‹Π²ΠΎΠ΄ Π·Π° ΠΏΡ€Π΅Π΄Π΅Π»Π°ΠΌΠΈ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… Π΄Π°Π½Π½Ρ‹Ρ…, откладываСтся Π΄ΠΎ Ρ‚Π΅Ρ… ΠΏΠΎΡ€, ΠΏΠΎΠΊΠ° Π² ΡΠΈΡΡ‚Π΅ΠΌΡƒ Π½Π΅ ΠΏΠΎΡΡ‚ΡƒΠΏΠΈΡ‚ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚, для ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ Π½Π°Π΄ΠΎ Ρ€Π΅ΡˆΠΈΡ‚ΡŒ Π·Π°Π΄Π°Ρ‡Ρƒ классификации. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ Ρ‚Π°ΠΊΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π΅Ρ‰Π΅ Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ «Π»Π΅Π½ΠΈΠ²Ρ‹ΠΌΠΈ» ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠΌΠΈΡΡ систСмами.

НаиболСС распространСнным Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ΠΎΠΌ «Π»Π΅Π½ΠΈΠ²ΠΎΠΉ» классификации являСтся ΠΌΠ΅Ρ‚ΠΎΠ΄ — (k nearest neighbors, k Π±Π»ΠΈΠΆΠ°ΠΉΡˆΠΈΡ… сосСдСй). Алгоритм ΠΌΠ΅Ρ‚ΠΎΠ΄Π° состоит ΠΈΠ· Ρ‚Ρ€Π΅Ρ… ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… шагов:

Β· ВычисляСтся расстояниС ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅ΠΌΡ‹ΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠΌ ΠΈ Π²ΡΠ΅ΠΌΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°ΠΌΠΈ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π³ΠΎ мноТСства. Для этих Ρ†Π΅Π»Π΅ΠΉ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ использована любая функция сходства (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€ косинус ΡƒΠ³Π»Π° ΠΌΠ΅ΠΆΠ΄Ρƒ Π²Π΅ΠΊΡ‚ΠΎΡ€Π°ΠΌΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²)

Β· Π”Π°Π»Π΅Π΅ Π²Ρ‹Π±ΠΈΡ€Π°ΡŽΡ‚ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², расстояниС ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π΄ΠΎ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅ΠΌΠΎΠ³ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° минимально. ΠžΠ±Ρ‹Ρ‡Π½ΠΎ Π²Ρ‹Π±ΠΈΡ€Π°ΡŽΡ‚ .

Β· Π”ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρƒ присваиваСтся Ρ‚Π° ΠΊΠ°Ρ‚Сгория, ΠΊ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²ΠΎ ΠΈΠ· Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²

Ряд Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… экспСримСнтов ΠΏΠΎΠΊΠ°Π·Π°Π», Ρ‡Ρ‚ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄ Π±Π»ΠΈΠΆΠ°ΠΉΡˆΠΈΡ… сосСдСй достаточно эффСктивСн. Однако Π΅Π³ΠΎ сущСствСнным нСдостатком являСтся низкая ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ выполнСния, ΠΈΠ·-Π·Π° нСобходимости ΡΡ€Π°Π²Π½ΠΈΠ²Π°Ρ‚ΡŒ тСстовый Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ с ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠΌΠΈ Π΄Π°Π½Π½Ρ‹ΠΌΠΈ. ΠšΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ классификатора Π½Π°ΠΏΡ€ΡΠΌΡƒΡŽ зависит ΠΎΡ‚ Π²Ρ‹Π±ΠΎΡ€Π° ΠΌΠ΅Ρ‚ΠΎΠ΄Π° расчСта сходства ΠΌΠ΅ΠΆΠ΄Ρƒ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°ΠΌΠΈ.

5. ΠžΡ†Π΅Π½ΠΊΠ° качСства классификации

5.1 ΠžΡ†Π΅Π½ΠΊΠ° автоматичСской классификации Π² Ρ‚радициях ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ поиска

ΠŸΠ΅Ρ€Π΅Π΄ Π»ΡŽΠ±Ρ‹ΠΌ исслСдоватСлСм Π² ΠΎΠ±Π»Π°ΡΡ‚ΠΈ тСкстовой классификации Ρ€Π°Π½ΠΎ ΠΈΠ»ΠΈ ΠΏΠΎΠ·Π΄Π½ΠΎ Π²ΡΡ‚Π°ΡŽΡ‚ вопросы: ΠΊΠ°ΠΊΠΎΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ построСния классификаторов являСтся Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ эффСктивным, ΠΊΠ°ΠΊΠΎΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΡ‚ΡŒ ΠΊ ΠΏΠΎΡΡ‚Π°Π²Π»Π΅Π½Π½ΠΎΠΉ Π·Π°Π΄Π°Ρ‡Π΅? ΠžΡ‚Π²Π΅Ρ‚ΠΈΡ‚ΡŒ Π½Π° ΡΡ‚ΠΈ вопросы — Π·Π°Π΄Π°Ρ‡Π° Π½Π΅Ρ‚Ρ€ΠΈΠ²ΠΈΠ°Π»ΡŒΠ½Π°Ρ, ΠΏΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ сущСствуСт ряд трудностСй Π½Π° ΠΏΡƒΡ‚ΠΈ получСния ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΠΉ ΠΎΡ†Π΅Π½ΠΊΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² классификации. Π­Ρ‚ΠΈ трудности связаны Π² ΠΏΠ΅Ρ€Π²ΡƒΡŽ ΠΎΡ‡Π΅Ρ€Π΅Π΄ΡŒ со ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌΠΈ трСбованиями: Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ тСстирования Π² ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²Ρ‹Ρ… условиях, Π° ΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ. Π½Π° ΠΎΠ΄Π½ΠΈΡ… ΠΈ Ρ‚Π΅Ρ… ΠΆΠ΅ стандартных коллСкциях Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΈ Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊ, Π½Π° ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π·Π°Ρ€Π°Π½Π΅Π΅ извСстСн ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚Π½Ρ‹ΠΉ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ классификации, ΠΈ ΠΏΡ€ΠΈ условии наличия сравнимых ΠΌΠ΅Ρ€ эффСктивности выполнСния ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ², Π½Π΅ Π³ΠΎΠ²ΠΎΡ€Ρ ΡƒΠΆΠ΅ ΠΎ Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΌΠΎΠΆΠ΅Ρ‚ Π½Π΅ ΠΎΠΏΡ€Π°Π²Π΄Π°Ρ‚ΡŒ ΠΎΠΆΠΈΠ΄Π°Π½ΠΈΠΉ Π°Π²Ρ‚ΠΎΡ€ΠΎΠ² Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΈΠ·-Π·Π° ошибок Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ[3].

Π’ Π½Π°ΡΡ‚оящСС врСмя проводятся Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΠΎ ΡΠΎΠ·Π΄Π°Π½ΠΈΡŽ общСдоступных ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΉ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ². ΠŸΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠΌ ΠΌΠΎΠΆΠ΅Ρ‚ ΡΠ»ΡƒΠΆΠΈΡ‚ΡŒ «Reuters», состоящая ΠΈΠ· ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²Π° новостных статСй, ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ°Ρ‰ΠΈΡ… катСгориям экономичСской Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠΈ[3].

Вторая ваТная ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ° ΠΎΡ†Π΅Π½ΠΊΠΈ эффСктивности построСнного классификатора — Π²Ρ‹Π±ΠΎΡ€ ΠΌΠ΅Ρ€ эффСктивности[3]:

Β· ΠŸΠΎΠ»Π½ΠΎΡ‚Π° (recall) — вычисляСтся ΠΊΠ°ΠΊ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ количСства ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚Π½Ρ‹Ρ… ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… прСдсказаний ΠΊ ΠΎΠ±Ρ‰Π΅ΠΌΡƒ числу ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ²

Β· Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ (precision) — вычисляСтся ΠΊΠ°ΠΊ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ количСства ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚Π½Ρ‹Ρ… ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… прСдсказаний ΠΊ ΠΎΠ±Ρ‰Π΅ΠΌΡƒ числу ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… прСдсказаний

Β· ΠΠΊΠΊΡƒΡ€Π°Ρ‚Π½ΠΎΡΡ‚ΡŒ (accuracy) — вычисляСтся ΠΊΠ°ΠΊ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ принятых систСмой Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ ΠΊ ΠΎΠ±Ρ‰Π΅ΠΌΡƒ числу Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ

Β· Ошибка (error) — вычисляСтся ΠΊΠ°ΠΊ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ Π½Π΅ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ принятых систСмой Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ ΠΊ ΠΎΠ±Ρ‰Π΅ΠΌΡƒ числу Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ Π’Π°ΠΆΠ½Ρ‹ΠΌ вопросом построСния ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ Π² Π·Π°Π΄Π°Ρ‡Π΅ классификации являСтся ΠΌΠ΅Ρ‚ΠΎΠ΄ усрСднСния Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ². Π’ ΡΠ»ΡƒΡ‡Π°Π΅ построСния усрСднСнной ΠΏΠΎ ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²Ρƒ Π·Π°Π΄Π°Π½ΠΈΠΉ Ρ‚ΠΎΠΉ ΠΈΠ»ΠΈ ΠΈΠ½ΠΎΠΉ мноТСствСнной ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹ Π΄Π²Π΅ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ дСйствий[3]:

1. Π‘Π½Π°Ρ‡Π°Π»Π° Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚ΡŒ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎ, ΠΈ Π·Π°Ρ‚Π΅ΠΌ ΠΈΡ… ΡƒΡΡ€Π΅Π΄Π½ΠΈΡ‚ΡŒ. Π­Ρ‚ΠΎΡ‚ способ Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ микроусрСднСниСм.

2. ΠŸΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ прСдсказания для всСх ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ ΠΈ ΡƒΠΆΠ΅ Π½Π° ΠΈΡ… ΠΎΡΠ½ΠΎΠ²Π΅ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚ΡŒ ΠΈΡΠΊΠΎΠΌΡƒΡŽ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΡƒ. Π­Ρ‚ΠΎΡ‚ способ Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ макроусрСднСниСм.

5.2 ΠžΡ†Π΅Π½ΠΊΠ° автоматичСской классификации с Ρ‚ΠΎΡ‡ΠΊΠΈ зрСния особСнностСй Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ

Π’Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½Ρ‹Π΅ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ поиска Π΄Π°ΡŽΡ‚ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ прСдставлСниС ΠΎ ΡΡ€Π°Π²Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ ΠΎΡ†Π΅Π½ΠΊΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² классификации ΠΈ Ρ‚Π΅ΠΌ Π½Π΅ ΠΌΠ΅Π½Π΅Π΅, Π²ΠΎ-ΠΏΠ΅Ρ€Π²Ρ‹Ρ…, ΠΎΡΡ‚Π°ΡŽΡ‚ΡΡ Π½Π΅ ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΈΠ²Π½Ρ‹ΠΌΠΈ, Π° Π²ΠΎ Π²Ρ‚ΠΎΡ€Ρ‹Ρ…, ΠΎΡ…Π²Π°Ρ‚Ρ‹Π²Π°ΡŽΡ‚ Π΄Π°Π»Π΅ΠΊΠΎ Π½Π΅ Π²ΡΠ΅ аспСкты использования Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ². Π’ Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡Π°Ρ… автоматичСской классификации Π²Ρ‹Π±ΠΎΡ€ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° цСлСсообразно ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΡ‚ΡŒ исходя ΠΈΠ· ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½Ρ‹Ρ… условий Π·Π°Π΄Π°Ρ‡ΠΈ, поэтому Π±Ρ‹Π²Π°ΡŽΡ‚ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹ ΠΈ Π΄Ρ€ΡƒΠ³ΠΈΠ΅ ΠΎΡ†Π΅Π½ΠΊΠΈ выполнСния Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ². Π’ΠΎΡ‚ Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ сущСствСнныС[3]:

Β· Бпособ раздСлСния ΠΎΠ±Ρ€Π°Π·Ρ†ΠΎΠ². Π‘ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²ΠΎ NLP-ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌ (NLP — ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ° СстСствСнного языка) Π½Π΅ ΡΠ²Π»ΡΡŽΡ‚ся Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎ Ρ€Π°Π·Π΄Π΅Π»ΠΈΠΌΡ‹ΠΌΠΈ, это относится ΠΈ ΠΊΠΎ ΠΌΠ½ΠΎΠ³ΠΈΠΌ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠΌ мноТСствам Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² Π² Π·Π°Π΄Π°Ρ‡Π΅ автоматичСской классификации (имССтся Π² Π²ΠΈΠ΄Ρƒ, Ρ‡Ρ‚ΠΎ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ ΠΈ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρ‹ для Π·Π°Π΄Π°Π½Π½ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ Π½Π΅ Ρ€Π°Π·Π΄Π΅Π»ΠΈΠΌΡ‹ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎ). Π’ Ρ‚Π°ΠΊΠΈΡ… Π·Π°Π΄Π°Ρ‡Π°Ρ… Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ ΠΏΡ€Π΅Π΄ΠΏΠΎΡ‡Ρ‚ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄Π°ΠΌΠΈ ΡΠ²Π»ΡΡŽΡ‚ΡΡ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Π΄Π΅Ρ€Π΅Π²ΡŒΠ΅Π², ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΠΏΡ€Π°Π²ΠΈΠ» принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ, способныС Ρ€Π°Π·Π΄Π΅Π»ΠΈΡ‚ΡŒ мноТСство ΠΎΠ±Ρ€Π°Π·Ρ†ΠΎΠ² Π½Π΅Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎ. А Π² ΡΠ»ΡƒΡ‡Π°Π΅ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠ³ΠΎ раздСлСния для Π±ΠΈΠ½Π°Ρ€Π½ΠΎΠΉ классификации ΠΏΡ€Π΅Π΄ΠΏΠΎΡ‡Ρ‚ΠΈΡ‚Π΅Π»ΡŒΠ½Π΅Π΅ ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡ‚ΡŒ Π»ΠΈΠ½Π΅ΠΉΠ½ΡƒΡŽ Ρ€Π΅Π³Ρ€Π΅ΡΡΠΈΡŽ ΠΈΠ»ΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄ Π½Π°ΠΈΠ²Π½ΠΎΠ³ΠΎ классификатора БайСса.

Β· ВрСмя выполнСния. БущСствуСт ряд Π·Π°Π΄Π°Ρ‡, Π² ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… особСнно Π°ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½Ρ‹ΠΌ являСтся врСмя обучСния ΠΈΠ»ΠΈ выполнСния Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° классификации, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Π·Π°Π΄Π°Ρ‡ΠΈ ΠΎΠ½-Π»Π°ΠΉΠ½ классификации ΠΏΡ€ΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ классифицируСтся «Π½Π° Π»Π΅Ρ‚Ρƒ». Π’ΠΎ ΠΌΠ½ΠΎΠ³ΠΈΡ… прилоТСниях особСнно Π²Π°ΠΆΠ½Ρ‹ΠΌ являСтся ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŒ скорости классификации Π½ΠΎΠ²Ρ‹Ρ… ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ².

Β· ВозмоТности ΡƒΡ‡Π΅Ρ‚Π° сСмантики Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² Π½Π° Π΅ΡΡ‚СствСнном языкС. ΠœΠΎΠ΄ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΡ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² прСдставлСния Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΈ Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊ (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, использованиС Π² ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² словосочСтаний вмСсто ΠΎΠ΄ΠΈΠ½ΠΎΡ‡Π½Ρ‹Ρ… слов) ΠΏΠΎΠΌΠΎΠ³Π°ΡŽΡ‚ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Ρ‚ΠΎΡ‡Π½Π΅Π΅ ΠΎΡ‚Ρ€Π°Π·ΠΈΡ‚ΡŒ сСмантику тСкста. Однако Π½Π΅ Π²ΡΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ классификации способны ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Ρ‚ΡŒ ΠΌΠΎΠ΄ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΈ Ρ‚Π°ΠΊΠΎΠ³ΠΎ Ρ€ΠΎΠ΄Π°. НапримСр, Π΄ΠΎΠΏΡƒΡ‰Π΅Π½ΠΈΠ΅ нСзависимости Π½Π° ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ основываСтся классичСский ΠΌΠ΅Ρ‚ΠΎΠ΄ Π½Π°ΠΈΠ²Π½ΠΎΠΉ классификации БайСса, Π½Π΅ ΡΠΎΠΎΡ‚вСтствуСт ΠΏΡ€ΠΈΡ€ΠΎΠ΄Π΅ тСкстовых Π΄Π°Π½Π½Ρ‹Ρ… Π½Π° Π΅ΡΡ‚СствСнном языкС. НСйронныС сСти ΠΏΠΎΡ‚Π΅Π½Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ способны ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°Ρ‚ΡŒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½ΠΎΠΉ ΠΏΡ€ΠΈΡ€ΠΎΠ΄Ρ‹ (слова, словосочСтания, мСтаконструкции, гипСрссылки ΠΈ Ρ‚. Π΄.), ΠΊΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Π΅ сСти ΠΌΠΎΠ³ΡƒΡ‚ нСявно ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°Ρ‚ΡŒ ΡΠΎΠ²ΠΌΠ΅ΡΡ‚Π½ΡƒΡŽ Π°ΡΡΠΎΡ†ΠΈΠ°Ρ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ слов, Ρ‡Ρ‚ΠΎ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ сказываСтся Π½Π° ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΈ. ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ классификации, основанныС Π½Π° Π²Π΅ΠΊΡ‚ΠΎΡ€Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π² ΠΎΠ±Ρ‰Π΅ΠΌ случаС Π½Π΅ ΠΈΠΌΠ΅ΡŽΡ‚ ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½ΠΈΠΉ Π½Π° ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ формирования Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²

Β· Π’Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Π°Ρ ΡΠ»ΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ ΠΈ Π½Π°Π΄Π΅ΠΆΠ½ΠΎΡΡ‚ΡŒ. ΠŸΡ€ΠΈ Π²Ρ‹Π±ΠΎΡ€Π΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Ρ‚Π°ΠΊΠΆΠ΅ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΈΠΌΠ΅Ρ‚ΡŒ прСдставлСниС ΠΎ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… Π·Π°Ρ‚Ρ€Π°Ρ‚Π°Ρ…, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅, Π²ΠΎ-ΠΏΠ΅Ρ€Π²Ρ‹Ρ…, Π·Π°Π»ΠΎΠΆΠ΅Π½Ρ‹ Π² ΡΠ°ΠΌ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ, Π° Π²ΠΎ-Π²Ρ‚ΠΎΡ€Ρ‹Ρ…, ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠ°Π½Ρ‹ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ систСмой, Π½Π° ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚ΡŒΡΡ классификация. Π’Π°ΠΊ Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, нСсмотря Π½Π° Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ ΡΠΈΠΌΠ²ΠΎΠ»ΡŒΠ½Ρ‹Π΅ (нСчислСнныС) Ρ‚Π΅Ρ…Π½ΠΈΠΊΠΈ ΡΠ²Π»ΡΡŽΡ‚ΡΡ ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎ Π½Π°Π΄Π΅ΠΆΠ½Ρ‹ΠΌΠΈ, ΠΈ ΡΠ»Π΅Π³Π°Π½Ρ‚Π½Ρ‹ΠΌΠΈ, Π΄ΠΎΠΊΠ°Π·Π°Π½ΠΎ, Ρ‡Ρ‚ΠΎ Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ Π΄Π°Π½Π½Ρ‹Ρ… ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² являСтся Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ слоТной ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠΎΠΉ для ΠΊΡ€ΡƒΠΏΠ½ΠΎΠΌΠ°ΡΡˆΡ‚Π°Π±Π½Ρ‹Ρ… Π΄Π΅Π»ΠΎΠ²Ρ‹Ρ… ΠΈ ΠΏΡ€ΠΎΠΌΡ‹ΡˆΠ»Π΅Π½Π½Ρ‹Ρ… Π½Π°Π±ΠΎΡ€ΠΎΠ² Π΄Π°Π½Π½Ρ‹Ρ…. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Ρ‚Π°ΠΊΠΈΡ… ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² ΠΊΠ°ΠΊ Ρ€Π°Π·Ρ€Π΅ΡˆΠ°ΡŽΡ‰ΠΈΠ΅ Π΄Π΅Ρ€Π΅Π²ΡŒΡ, являСтся ΠΏΡ€Π΅Π΄ΠΏΠΎΡ‡Ρ‚ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π² Ρ‚Π΅Ρ… случаях, Ссли классификационная ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ° носит слоТный Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Ссли ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ мноТСство Ρ€Π°Π·Π΄Π΅Π»ΠΈΠΌΠΎ Π½Π΅Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎ.

Β· Π‘Π»ΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ. БущСствуСт ΠΌΠ½ΠΎΠ³ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² построСния классификаторов, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΡΡ‡ΠΈΡ‚Π°ΡŽΡ‚ΡΡ ΠΈΡΠΊΠ»ΡŽΡ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ простыми Π² ΠΏΠ»Π°Π½Π΅ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ — ΠΌΠ΅Ρ‚ΠΎΠ΄ Rocchio, Π½Π°ΠΈΠ²Π½Ρ‹ΠΉ классификатор БайСса, пСрсСптрон.

Β· ΠžΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½ΠΈΡ Π½Π° Ρ€Π°Π·ΠΌΠ΅Ρ€ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΈ Ρ‚рСбования ΠΊ Π΅Π΅ ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Ρƒ форматирования. ΠžΡ‡Π΅Π²ΠΈΠ΄Π½ΠΎ, Ρ‡Ρ‚ΠΎ всС ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ обучСния ΡΠ²Π»ΡΡŽΡ‚ΡΡ зависимыми ΠΎΡ‚ Ρ€Π°Π·ΠΌΠ΅Ρ€Π° ΠΈ ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π° ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… Π΄Π°Π½Π½Ρ‹Ρ…, ΠΎΠ΄Π½Π°ΠΊΠΎ ΠΌΠΎΠΆΠ½ΠΎ Π²Ρ‹Π΄Π΅Π»ΠΈΡ‚ΡŒ ΠΈ Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Ρ‚Ρ€Π΅Π±ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ ΠΏΠΎ Π΄Π°Π½Π½ΠΎΠΌΡƒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΡƒ, Ρ‚. Π΅. Ρ‚Π΅, Π½Π° Π°ΠΊΠΊΡƒΡ€Π°Ρ‚Π½ΠΎΡΡ‚ΡŒ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ сущСствСнно влияСт качСство ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π³ΠΎ мноТСства Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ². Π‘Ρ€Π΅Π΄ΠΈ Π½ΠΈΡ… — классификаторы ΠΏΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρƒ Ρ€Π°Π·Ρ€Π΅ΡˆΠ°ΡŽΡ‰ΠΈΡ… Π΄Π΅Ρ€Π΅Π²ΡŒΠ΅Π², для ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½ΠΈΠ΅ снизу Π½Π° Ρ€Π°Π·ΠΌΠ΅Ρ€ ΠΈ ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²ΠΎ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π³ΠΎ мноТСства ΠΏΡ€ΠΎΠ΄ΠΈΠΊΡ‚ΠΎΠ²Π°Π½ΠΎ Ρ‚Π΅ΠΌ ΠΎΠ±ΡΡ‚ΠΎΡΡ‚Π΅Π»ΡŒΡΡ‚Π²ΠΎΠΌ, Ρ‡Ρ‚ΠΎ Ρ‡Π΅ΠΌ мСньшС ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ мноТСство, Ρ‚Π΅ΠΌ Π²Ρ‹ΡˆΠ΅ Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ ΠΏΡ€ΠΈ построСнии классификатора ΠΏΡ€ΠΈΠ½ΡΡ‚ΡŒ ΡΠ»ΡƒΡ‡Π°ΠΉΠ½ΠΎΡΡ‚ΡŒ Π·Π° Π·Π°ΠΊΠΎΠ½ΠΎΠΌΠ΅Ρ€Π½ΠΎΡΡ‚ΡŒ. ΠŸΠΎΡΡ‚Ρ€ΠΎΠ΅Π½ΠΈΠ΅ Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Ρ… сСтСй Ρ‚Π°ΠΊΠΆΠ΅ ΠΎΡ‡Π΅Π½ΡŒ Ρ‚Ρ€Π΅Π±ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ процСсс ΠΏΠΎ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡŽ ΠΊ ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Ρƒ ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€Ρƒ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π³ΠΎ ΠΈ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΎΡ‡Π½ΠΎΠ³ΠΎ мноТСства Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², ΠΏΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Π΅ сСти ΠΎΠ±Π»Π°Π΄Π°ΡŽΡ‚ Π½ΠΈΠ·ΠΊΠΎΠΉ ΡƒΡΡ‚ΠΎΠΉΡ‡ΠΈΠ²ΠΎΡΡ‚ΡŒΡŽ ΠΊ ΡˆΡƒΠΌΡƒ Π² ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅. А Π²ΠΎΡ‚ ΠΌΠ΅Ρ‚ΠΎΠ΄ Rocchio, Π½Π°ΠΎΠ±ΠΎΡ€ΠΎΡ‚, ΠΈΠΌΠ΅Π΅Ρ‚ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ прСимущСство Π² ΡΠ»ΡƒΡ‡Π°Π΅ скудного ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π³ΠΎ мноТСства, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Π΄Π°Π½Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°Π΅Ρ‚ Ρ‚Π°ΠΊ ΠΆΠ΅ ΠΈ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρ‹.

Β· ΠΠ°Π³Π»ΡΠ΄Π½ΠΎΡΡ‚ΡŒ, ΠΈΠ»ΠΈ ΡΠ»ΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΡ€Π΅Ρ‚Π°Ρ†ΠΈΠΈ Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊΠΎΠΌ. НаличиС свойства наглядности, Π»Π΅Π³ΠΊΠΎΠΉ ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΡ€Π΅Ρ‚Π°Ρ†ΠΈΠΈ являСтся достоинством любого Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° ΠΈ Π±Ρ‹Π²Π°Π΅Ρ‚ ΠΏΠΎΠ»Π΅Π·Π½Ρ‹ΠΌ ΠΈ ΠΏΡ€ΠΈ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ½ΠΎΠΉ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄Π°, ΠΈ ΠΏΡ€ΠΈ объяснСнии Ρ€Π°Π±ΠΎΡ‚Ρ‹ классификатора нСспСциалистам Π² Π΄Π°Π½Π½ΠΎΠΉ области. НаиболСС ΠΈΠ½Ρ‚ΡƒΠΈΡ‚ΠΈΠ²Π½ΠΎ понятными Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°ΠΌΠΈ ΡΠ²Π»ΡΡŽΡ‚ΡΡ ΠΌΠ΅Ρ‚ΠΎΠ΄ Ρ€Π°Π·Ρ€Π΅ΡˆΠ°ΡŽΡ‰ΠΈΡ… Π΄Π΅Ρ€Π΅Π²ΡŒΠ΅Π², ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΏΡ€Π°Π²ΠΈΠ» принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ ΠΈ Π½Π°ΠΈΠ²Π½Ρ‹ΠΉ классификатор БайСса.

Π—Π°ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅

Π’ Ρ€Π°ΠΌΠΊΠ°Ρ… курсовой Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π±Ρ‹Π»ΠΈ рассмотрСны ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ автоматичСской классификации Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΈ ΠΎΡΠ½ΠΎΠ²Π½Ρ‹Π΅ этапы построСния ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΡ†ΠΈΡ€ΡƒΡŽΡ‰Π΅ΠΉ систСмы: индСксация Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°, ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ построСния классификаторов Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… Π΄Π°Π½Π½Ρ‹Ρ…, ΠΎΡ†Π΅Π½ΠΊΠ° Ρ€Π°Π±ΠΎΡ‚Ρ‹ классификатора.

автоматичСская классификация Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ поиск

1. Lewis, D.D., An evaluation of phrasal and clustered representations on a text categorization task. In Proceedings of SIGIR-92, 15th ACM International Conference on Researchand Development in Information Retrieval (Kobenhavn, DK, 1992), pp. 37−50., 1992

2. Sebastiani F. Machine Learning in Automated Text Categorization // Proc. ACM Computing Surveys (CSUR). — New York: ACM Press, 2002. — Vol. 34, Issue 1. — 48 p.

3. ПСскова, О. Π’. ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ автоматичСской классификации тСкстовых элСктронных Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² / О. Π’. ПСскова // Научно-тСхничСская информация. БСрия 2: Π˜Π½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹Π΅ процСссы ΠΈ ΡΠΈΡΡ‚Π΅ΠΌΡ‹. — 2006. — № 3. — Π‘.13−20.

ΠŸΠΎΠΊΠ°Π·Π°Ρ‚ΡŒ вСсь тСкст
Π—Π°ΠΏΠΎΠ»Π½ΠΈΡ‚ΡŒ Ρ„ΠΎΡ€ΠΌΡƒ Ρ‚Π΅ΠΊΡƒΡ‰Π΅ΠΉ Ρ€Π°Π±ΠΎΡ‚ΠΎΠΉ