ΠŸΠΎΠΌΠΎΡ‰ΡŒ Π² написании студСнчСских Ρ€Π°Π±ΠΎΡ‚
АнтистрСссовый сСрвис

Π Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΈ ΠΊ Π²Ρ‹Π±ΠΎΡ€Ρƒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²

Π Π΅Ρ„Π΅Ρ€Π°Ρ‚ΠŸΠΎΠΌΠΎΡ‰ΡŒ Π² Π½Π°ΠΏΠΈΡΠ°Π½ΠΈΠΈΠ£Π·Π½Π°Ρ‚ΡŒ ΡΡ‚ΠΎΠΈΠΌΠΎΡΡ‚ΡŒΠΌΠΎΠ΅ΠΉ Ρ€Π°Π±ΠΎΡ‚Ρ‹

ΠžΡ‡Π΅Π²ΠΈΠ΄Π½ΠΎ, Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ Π² Π·Π°Π΄Π°Ρ‡Π΅ ΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½Π½ΠΎ Π½Π΅ ΠΏΠΎΡ…ΠΎΠΆΠΈ Π΄Ρ€ΡƒΠ³ Π½Π° Π΄Ρ€ΡƒΠ³Π°. Π Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠ° ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² {feature engineering) являСтся своСго Ρ€ΠΎΠ΄Π° искусством1, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ даСтся послС достаточно сильного погруТСния Π² Π·Π°Π΄Π°Ρ‡Ρƒ (Ρ‚.Π΅. Π² ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ½ΡƒΡŽ срСду), Π° Ρ‚Π°ΠΊΠΆΠ΅ ΠΏΡ€ΠΈ Π½Π°Π»ΠΈΡ‡ΠΈΠΈ достаточно большого ΠΎΠΏΡ‹Ρ‚Π° Π² Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΈ Π·Π°Π΄Π°Ρ‡ машинного обучСния. И Π²ΡΠ΅ ΠΆΠ΅ ΠΌΠΎΠΆΠ½ΠΎ Π΄Π°Ρ‚ΡŒ нСсколько тСорСтичСских Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΉ ΠΊ Π²Ρ‹Π±ΠΎΡ€Ρƒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² {feature… Π§ΠΈΡ‚Π°Ρ‚ΡŒ Π΅Ρ‰Ρ‘ >

Π Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΈ ΠΊ Π²Ρ‹Π±ΠΎΡ€Ρƒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² (Ρ€Π΅Ρ„Π΅Ρ€Π°Ρ‚, курсовая, Π΄ΠΈΠΏΠ»ΠΎΠΌ, ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ)

ПослС Ρ‚ΠΎΠ³ΠΎ ΠΊΠ°ΠΊ Π±Ρ‹Π» настроСн процСсс сбора ΠΈ Ρ‡ΠΈΡΡ‚ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ…, для Π·Π°Π΄Π°Ρ‡ΠΈ машинного обучСния встаСт вопрос: ΠΊΠ°ΠΊΠΈΠ΅ ΠΆΠ΅ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Π΄Π°Π»Π΅Π΅ ΠΏΡ€ΠΈ составлСнии ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ «ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ — ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ»? Π§Π΅Ρ‚ΠΊΠΈΡ… Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΉ для ΠΎΡ‚Π²Π΅Ρ‚Π° Π½Π° ΡΡ‚ΠΎΡ‚ вопрос Π΄Π°Ρ‚ΡŒ Π½Π΅Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ Π²Ρ‹Π±ΠΎΡ€ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² сильно зависит ΠΎΡ‚ ΠΈΡΡ…ΠΎΠ΄Π½ΠΎΠΉ Π·Π°Π΄Π°Ρ‡ΠΈ. ΠŸΡ€ΠΈΠ²Π΅Π΄Π΅ΠΌ нСсколько ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² Π·Π°Π΄Π°Ρ‡ с Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹ΠΌΠΈ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°ΠΌΠΈ для ΠΈΠ»Π»ΡŽΡΡ‚Ρ€Π°Ρ†ΠΈΠΈ этой ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹.

ΠžΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ исхода Π±ΠΎΠ»Π΅Π·Π½ΠΈ ΠΏΠ°Ρ†ΠΈΠ΅Π½Ρ‚Π°. Π—Π°Π΄Π°Ρ‡Π° Π±ΠΈΠ½Π°Ρ€Π½ΠΎΠΉ классификации — ΠΏΠ°Ρ†ΠΈΠ΅Π½Ρ‚ Π²Ρ‹ΠΆΠΈΠ²Π΅Ρ‚ ΠΈΠ»ΠΈ Π½Π΅ Π²Ρ‹ΠΆΠΈΠ²Π΅Ρ‚ Π² Ρ‚Π΅ΠΊΡƒΡ‰Π΅ΠΌ состоянии. ΠžΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠΌ Π·Π°Π΄Π°Ρ‡ΠΈ являСтся госпитализированный ΠΏΠ°Ρ†ΠΈΠ΅Π½Ρ‚.

ΠŸΡ€ΠΈΠ·Π½Π°ΠΊΠΈ Π² Π·Π°Π΄Π°Ρ‡Π΅:

  • 1) Π±ΡƒΠ»Π΅Π²Ρ‹Π΅ — ΠΏΠΎΠ», Π½Π°Π»ΠΈΡ‡ΠΈΠ΅ Π³ΠΎΠ»ΠΎΠ²Π½ΠΎΠΉ Π±ΠΎΠ»ΠΈ, слабости, Ρ‚ΠΎΡˆΠ½ΠΎΡ‚Ρ‹ ΠΈ Ρ‚. Π΄.;
  • 2) порядковыС — Ρ‚ΡΠΆΠ΅ΡΡ‚ΡŒ состояния, ΠΆΠ΅Π»Ρ‚ΡƒΡˆΠ½ΠΎΡΡ‚ΡŒ ΠΈ Ρ‚. Π΄.;
  • 3) количСствСнныС: Π΄Π°Π²Π»Π΅Π½ΠΈΠ΅, Ρ‚Π΅ΠΌΠΏΠ΅Ρ€Π°Ρ‚ΡƒΡ€Π°, Π΄ΠΎΠ·Ρ‹ ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Π΅ΠΌΡ‹Ρ… ΠΏΡ€Π΅ΠΏΠ°Ρ€Π°Ρ‚ΠΎΠ², содСрТаниС эритроцитов Π² ΠΊΡ€ΠΎΠ²ΠΈ, возраст.

Π—Π°Π΄Π°Ρ‡Π° ранТирования Π΄ΠΎΠΊΡƒΠΌΠ΅Ρ‚ΠΎΠ² — классичСская Π·Π°Π΄Π°Ρ‡Π°, Π²ΠΎΠ·Π½ΠΈΠΊΠ°ΡŽΡ‰Π°Ρ Π² Π±ΠΎΠ»Π΅Π΅-ΠΌΠ΅Π½Π΅Π΅ ΡΠ΅Ρ€ΡŒΠ΅Π·Π½ΠΎΠΉ поисковой систСмС. ΠžΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠΌ Π² Π΄Π°Π½Π½ΠΎΠΉ Π·Π°Π΄Π°Ρ‡Π΅ являСтся ΠΏΠ°Ρ€Π° «Π·Π°ΠΏΡ€ΠΎΡ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Ρ — Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚».

ΠŸΡ€ΠΈΠ·Π½Π°ΠΊΠΈ Π² Π·Π°Π΄Π°Ρ‡Π΅:

  • 1) количСствСнныС — срСдняя частота появлСния слов запроса Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅, срСднСС расстояниС ΠΌΠ΅ΠΆΠ΄Ρƒ словами ΠΈΠ· Π·Π°ΠΏΡ€ΠΎΡΠ° Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅, количСство ссылок ΠΈΠ· Π΄Ρ€ΡƒΠ³ΠΈΡ… источников Π½Π° Π΄Π°Π½Π½Ρ‹ΠΉ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚;
  • 2) Π±ΡƒΠ»Π΅Π²Ρ‹ — источник Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° являСтся Π΄ΠΎΠ²Π΅Ρ€Π΅Π½Π½Ρ‹ΠΌ, Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ ΠΏΡ€ΠΈΡˆΠ΅Π» с Π°Π³Ρ€Π΅Π³Π°Ρ‚ΠΎΡ€Π° ΠΈ Ρ‚. ΠΏ.

ΠžΡ‡Π΅Π²ΠΈΠ΄Π½ΠΎ, Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ Π² Π·Π°Π΄Π°Ρ‡Π΅ ΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½Π½ΠΎ Π½Π΅ ΠΏΠΎΡ…ΠΎΠΆΠΈ Π΄Ρ€ΡƒΠ³ Π½Π° Π΄Ρ€ΡƒΠ³Π°. Π Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠ° ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² {feature engineering) являСтся своСго Ρ€ΠΎΠ΄Π° искусством1, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ даСтся послС достаточно сильного погруТСния Π² Π·Π°Π΄Π°Ρ‡Ρƒ (Ρ‚.Π΅. Π² ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ½ΡƒΡŽ срСду), Π° Ρ‚Π°ΠΊΠΆΠ΅ ΠΏΡ€ΠΈ Π½Π°Π»ΠΈΡ‡ΠΈΠΈ достаточно большого ΠΎΠΏΡ‹Ρ‚Π° Π² Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΈ Π·Π°Π΄Π°Ρ‡ машинного обучСния. И Π²ΡΠ΅ ΠΆΠ΅ ΠΌΠΎΠΆΠ½ΠΎ Π΄Π°Ρ‚ΡŒ нСсколько тСорСтичСских Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΉ ΠΊ Π²Ρ‹Π±ΠΎΡ€Ρƒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² {feature selection) — этапу, ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΌΡƒ Π·Π° Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΎΠΉ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²:

  • 1) ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ Π±Ρ‹Ρ‚ΡŒ ΠΊΠΎΡ€Ρ€Π΅Π»ΠΈΡ€ΠΎΠ²Π°Π½Ρ‹ с ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠΌ Π² ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅. ΠžΡ‡Π΅Π²ΠΈΠ΄Π½ΠΎ, Ρ‡Ρ‚ΠΎ Ссли ΠΎΡ‚Π²Π΅Ρ‚ Π½ΠΈΠΊΠ°ΠΊ Π½Π΅ Π·Π°Π²ΠΈΡΠΈΡ‚ ΠΎΡ‚ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°, Ρ‚ΠΎ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ этого ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ° Π½Π΅Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΈΠ½ΡΡ‚ΡŒ ΠΊΠ°ΠΊΠΎΠ΅ Π±Ρ‹ Ρ‚ΠΎ Π½ΠΈ Π±Ρ‹Π»ΠΎ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ ΠΏΠΎ Π²Ρ…ΠΎΠ΄Π½ΠΎΠΌΡƒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρƒ Π² Π·Π°Π΄Π°Ρ‡Π΅;
  • 2) ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ Π½Π΅ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ Π±Ρ‹Ρ‚ΡŒ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎ зависимы ΠΌΠ΅ΠΆΠ΄Ρƒ собой.

БущСствуСт нСсколько ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ², ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‰ΠΈΡ… ΠΏΡ€ΠΈΠ½ΡΡ‚ΡŒ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ ΠΎ Ρ‚ΠΎΠΌ, ΠΊΠ°ΠΊΠΎΠ΅ подмноТСство ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² слСдуСт ΠΎΡΡ‚Π°Π²ΠΈΡ‚ΡŒ ΠΏΡ€ΠΈ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΈ Π·Π°Π΄Π°Ρ‡ΠΈ, Π° ΠΊΠ°ΠΊΠΎΠ΅ ΠΈΡΠΊΠ»ΡŽΡ‡ΠΈΡ‚ΡŒ. ВсС эти ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΠ΄Π΅Π»ΠΈΡ‚ΡŒ Π½Π° Ρ‚Ρ€ΠΈ Π³Ρ€ΡƒΠΏΠΏΡ‹: статистичСская Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΡ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ², ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ΠΎΠ±Π΅Ρ€Ρ‚ΠΊΠΈ, встроСнныС ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹.

БтатистичСская Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΡ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² позволяСт Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ ΠΏΠΎ Π·Π½Π°Ρ‡ΠΈΠΌΠΎΡΡ‚ΠΈ, Π·Π° ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ принимаСтся Π²Π΅Π»ΠΈΡ‡ΠΈΠ½Π° коррСляции ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ° ΠΈ ΠΎΡ‚Π²Π΅Ρ‚Π° Π² ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅. Π’ ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π° ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅ΠΌ ΠΎΠ΄ΠΈΠ½ ΠΈΠ· Ρ‚Π°ΠΊΠΈΡ… ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ²: ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ° (information gain). Π”Π°Π½Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ связан с ΠΏΠΎΠ½ΡΡ‚ΠΈΠ΅ΠΌ энтропии[1][2]. Π€ΠΎΡ€ΠΌΡƒΠ»Π° энтропии:

Π Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΈ ΠΊ Π²Ρ‹Π±ΠΎΡ€Ρƒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ².

Π³Π΄Π΅ p (Xj) — Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ пСрСмСнная X ΠΏΡ€ΠΈΠΌΠ΅Ρ‚ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Ρ…Π³ ΠŸΡ€ΠΈ Π½Π°Π»ΠΈΡ‡ΠΈΠΈ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ это Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ считаСтся ΠΊΠ°ΠΊ статистичСская Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ для Π΄Π°Π½Π½ΠΎΠ³ΠΎ значСния, Ρ‚. Π΅. число случаСв X = xi9 Ρ€Π°Π·Π΄Π΅Π»Π΅Π½Π½ΠΎΠ΅ Π½Π° ΠΊΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² Π² Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅. Как извСстно, энтропия Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€ΠΈΠ·ΡƒΠ΅Ρ‚ ΡΡ‚Π΅ΠΏΠ΅Π½ΡŒ равномСрности распрСдСлСния исслСдуСмой Π²Π΅Π»ΠΈΡ‡ΠΈΠ½Ρ‹. Π’ ΡΠ»ΡƒΡ‡Π°Π΅ с ΠΎΡ†Π΅Π½ΠΊΠΎΠΉ полСзности ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ° Π½Π°ΠΌ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΎΡ†Π΅Π½ΠΈΡ‚ΡŒ Ρ‚Π°ΠΊ Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡƒΡŽ ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΡƒΡŽ ΡΠ½Ρ‚Ρ€ΠΎΠΏΠΈΡŽ:

Π Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΈ ΠΊ Π²Ρ‹Π±ΠΎΡ€Ρƒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ².

Π³Π΄Π΅ Y — это пСрСмСнная-ΠΎΡ‚Π²Π΅Ρ‚ Π² Π·Π°Π΄Π°Ρ‡Π΅. Π‘Π°ΠΌΠ° ΠΆΠ΅ ΠΌΠ΅Ρ€Π° ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠΉ полСзности ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ° вычисляСтся ΠΊΠ°ΠΊ Ρ€Π°Π·Π½ΠΎΡΡ‚ΡŒ ΠΌΠ΅ΠΆΠ΄Ρƒ энтропиСй Π£ ΠΈ ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ энтропиСй, рассчитанной ΠΏΠΎ Ρ†Π΅Π»Π΅Π²ΠΎΠΌΡƒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΡƒ:

Π Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΈ ΠΊ Π²Ρ‹Π±ΠΎΡ€Ρƒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ².

ΠŸΠΎΠ½ΡΡ‚ΡŒ смысл Π΄Π°Π½Π½ΠΎΠ³ΠΎ выраТСния совсСм Π½Π΅Ρ‚Ρ€ΡƒΠ΄Π½ΠΎ — Ρ€Π°Π·Π½ΠΈΡ†Π° ΠΌΠ΅ΠΆΠ΄Ρƒ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠΌΠΈ значСниями энтропии (ΠΏΠΎ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ Y ΠΈ ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ энтропиСй) Π±ΡƒΠ΄Π΅Ρ‚ Π³ΠΎΠ²ΠΎΡ€ΠΈΡ‚ΡŒ ΠΎΠ± ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΠΈ стСпСни нСупорядочСнности (равномСрности, нСопрСдСлСнности) ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ Y ΠΏΡ€ΠΈ использовании ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ° X. Π§Π΅ΠΌ большС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ IGy Ρ‚Π΅ΠΌ Π²Ρ‹ΡˆΠ΅ коррСляция ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠΌ ΠΈ ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠΌ. Π’Π°ΠΊ ΠΌΠΎΠΆΠ½ΠΎ ΡƒΠΏΠΎΡ€ΡΠ΄ΠΎΡ‡ΠΈΡ‚ΡŒ всС ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ ΠΏΠΎ ΡƒΠ±Ρ‹Π²Π°Π½ΠΈΡŽ IG ΠΈ Π²Ρ‹Π±Ρ€ΠΎΡΠΈΡ‚ΡŒ Π½Π°ΠΈΠΌΠ΅Π½Π΅Π΅ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ‚ΠΈΠ²Π½Ρ‹Π΅.

БтатистичСскиС ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π»Π΅Π³ΠΊΠΎ вычислимы, ΠΈ ΠΈΡ… Ρ€Π°ΡΡ‡Π΅Ρ‚ выполняСтся быстрСй, Ρ‡Π΅ΠΌ Π²ΠΎ Π²ΡΠ΅Ρ… Π΄Ρ€ΡƒΠ³ΠΈΡ… ΠΌΠ΅Ρ‚ΠΎΠ΄Π°Ρ…, ΠΎΠ΄Π½Π°ΠΊΠΎ эти ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Ρ€Π°ΡΡΠΌΠ°Ρ‚Ρ€ΠΈΠ²Π°ΡŽΡ‚ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ нСзависимо Π΄Ρ€ΡƒΠ³ ΠΎΡ‚ Π΄Ρ€ΡƒΠ³Π°, ΠΈ Π² ΡΠ»ΡƒΡ‡Π°Π΅ Ссли ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ ΠΏΠΎ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ Π½Π΅ ΠΊΠΎΡ€Ρ€Π΅Π»ΠΈΡ€ΡƒΡŽΡ‚ с ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠΌ, Π° Π²ΠΌΠ΅ΡΡ‚Π΅ ΠΊΠΎΡ€Ρ€Π΅Π»ΠΈΡ€ΡƒΡŽΡ‚, статистичСскиС ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Ρ‚Π°ΠΊΡƒΡŽ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡ‚ΡŒ Π½Π΅ ΠΎΠ±Π½Π°Ρ€ΡƒΠΆΠ°Ρ‚.

ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹-ΠΎΠ±Π΅Ρ€Ρ‚ΠΊΠΈ (wrapper method) Π»ΠΈΡˆΠ΅Π½Ρ‹ Ρ‚Π°ΠΊΠΎΠ³ΠΎ нСдостатка ΠΈ Π² ΠΈΡ… основС Π»Π΅ΠΆΠΈΡ‚ ΠΌΠ΅Ρ‚ΠΎΠ΄ выдСлСния Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ подмноТСства ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²[3], обучСния ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° ΡΡ‚ΠΎΠΌ подмноТСствС с ΠΏΠΎΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ пСрСсчСтом ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ качСства ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ. БущСствуСт Π΄Π²Π° класса Ρ‚Π°ΠΊΠΈΡ… ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ²: с ΠΈΡΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅ΠΌ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΈΠ· ΠΈΡΡ…ΠΎΠ΄Π½ΠΎΠ³ΠΎ мноТСства ΠΈ Ρ Π²ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅ΠΌ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ², Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ стартуСт с ΠΏΡƒΡΡ‚ΠΎΠ³ΠΎ мноТСства ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΈ ΠΏΠΎΡΡ‚Π΅ΠΏΠ΅Π½Π½ΠΎ добавляСт Π½ΠΎΠ²Ρ‹Π΅. На ΠΊΠ°ΠΆΠ΄ΠΎΠΌ шагС Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° добавляСтся (ΠΈΠ»ΠΈ удаляСтся) ΠΏΡ€ΠΈΠ·Π½Π°ΠΊ, пСрСсчитываСтся ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ° Π½Π° Ρ‚Сстовой Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅, которая Π½Π΅ ΡƒΡ‡Π°ΡΡ‚Π²ΡƒΠ΅Ρ‚ Π² ΠΏΡ€ΠΎΡ†Π΅ΡΡΠ΅ пСрСобучСния Π½Π° Π½ΠΎΠ²ΠΎΠΌ Π½Π°Π±ΠΎΡ€Π΅ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ², ΠΈ Π² Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ ΠΎΡ‚ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΡ значСния Ρ†Π΅Π»Π΅Π²ΠΎΠΉ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ выбираСтся Ρ‚ΠΎ ΠΈΠ»ΠΈ ΠΈΠ½ΠΎΠ΅ Π½ΠΎΠ²ΠΎΠ΅ подмноТСство ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ². ΠžΡ‡Π΅Π²ΠΈΠ΄Π½ΠΎ, Ρ‡Ρ‚ΠΎ Ρƒ Π΄Π°Π½Π½ΠΎΠ³ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° основной ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠΎΠΉ являСтся Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ вычислСния Π·Π°Π½ΠΈΠΌΠ°ΡŽΡ‚ ΠΌΠ½ΠΎΠ³ΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ.

ΠžΡΠΎΠ±Π΅Π½Π½ΠΎΡΡ‚ΡŒ встроСнных ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ ΠΎΠ½ΠΈ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‚ Π²Π½Π΅Π΄Ρ€ΠΈΡ‚ΡŒ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Π²Ρ‹Π±ΠΎΡ€Π° ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ подмноТСства ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² нСпосрСдствСнно Π² Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ обучСния ΠΌΠΎΠ΄Π΅Π»ΠΈ. Π‘Π°Π·ΠΎΠ²Ρ‹ΠΌ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠΌ Π² Π΄Π°Π½Π½ΠΎΠΉ Π³Ρ€ΡƒΠΏΠΏΠ΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² Π²Ρ‹Π±ΠΎΡ€Π° ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² являСтся ΠΌΠ΅Ρ‚ΠΎΠ΄ рСгуляризации (regularization). Π‘ΡƒΡ‚ΡŒ Π΅Π³ΠΎ Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ Π² Ρ†Π΅Π»Π΅Π²ΡƒΡŽ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ, ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΡƒΠ΅ΠΌΡƒΡŽ ΠΏΡ€ΠΈ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ (см. ΠΏΠ°Ρ€Π°Π³Ρ€Π°Ρ„ 4.3) внСдряСтся Ρ‚Π°ΠΊ Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡ‹ΠΉ рСгуляризатор — функция, нСзависимая ΠΎΡ‚ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ, Π½ΠΎ Π·Π°Π²ΠΈΡΠΈΠΌΠ°Ρ ΠΎΡ‚ Π²Π΅ΡΠΎΠ²Ρ‹Ρ… коэффициСнтов ΠΏΡ€ΠΈ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°Ρ… ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ².

ΠŸΡ€ΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ Ρ‚Π°ΠΊΠΎΠ³ΠΎ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΎΠ½Π°Π»Π° Π±ΡƒΠ΄ΡƒΡ‚ ΠΏΠΎ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΠΈ автоматичСски ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Ρ‹ вСса ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ², Ρ‚Π°ΠΊ Ρ‡Ρ‚ΠΎ бСсполСзный ΠΏΡ€ΠΈΠ·Π½Π°ΠΊ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ Π½ΡƒΠ»Π΅Π²ΠΎΠΉ вСс, Ρ‡Ρ‚ΠΎ эквивалСнтно ΠΈΡΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΡŽ Π΅Π³ΠΎ ΠΈΠ· ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ «ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ — ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ». НапримСр, для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Π·Π°Π΄Π°Ρ‡ΠΈ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ рСгрСссии Π½Π°ΠΌ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΡΡ€Π΅Π΄Π½Π΅ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΈΡ‡Π½ΡƒΡŽ ΠΎΡˆΠΈΠ±ΠΊΡƒ Π½Π° ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ (см. ΠΏΠ°Ρ€Π°Π³Ρ€Π°Ρ„ 5.1). ΠŸΡ€ΠΈ Π²ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠΈ рСгуляризации цСлСвая функция Π±ΡƒΠ΄Π΅Ρ‚ Π²Ρ‹Π³Π»ΡΠ΄Π΅Ρ‚ΡŒ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ:

Π Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΈ ΠΊ Π²Ρ‹Π±ΠΎΡ€Ρƒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ².

Π³Π΄Π΅ А, β€’ | w |2 — рСгуляризатор.

Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, с Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Ρ‚ΠΎΡ‡ΠΊΠΈ зрСния Π±ΠΎΠ»Π΅Π΅ ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ встроСнныС ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ ΠΎΠ½ΠΈ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‚ ΠΎΡ†Π΅Π½ΠΈΡ‚ΡŒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ нСпосрСдствСнно Π² ΠΏΡ€ΠΎΡ†Π΅ΡΡΠ΅ обучСния ΠΌΠΎΠ΄Π΅Π»ΠΈ (Ρ‡Ρ‚ΠΎ ΠΌΡ‹ ΠΈ Ρ‚Π°ΠΊ Π΄Π΅Π»Π°Π΅ΠΌ). Однако этот ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΌΠ΅Π½Π΅Π΅ наглядСн, Ρ‡Π΅ΠΌ всС ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Π΅.

Π’Ρ‹Π±ΠΎΡ€ Ρ‚ΠΎΠ³ΠΎ ΠΈΠ»ΠΈ ΠΈΠ½ΠΎΠ³ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° ΠΎΡ‚Π±ΠΎΡ€Π° ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² зависит ΠΎΡ‚ ΠΏΠΎΡ‚рСбностСй Π·Π°Π΄Π°Ρ‡ΠΈ, ΠΈ Π² ΠΊΠ°ΠΊΠΈΡ…-Ρ‚ΠΎ случаях Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ Π²ΠΈΠ΄Π΅Ρ‚ΡŒ явно лишниС (ΠΈΠ»ΠΈ, Π½Π°ΠΎΠ±ΠΎΡ€ΠΎΡ‚, Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ ΠΏΠΎΠ»Π΅Π·Π½Ρ‹Π΅) ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ для Π°Π½Π°Π»ΠΈΠ·Π° Π·Π°Π΄Π°Ρ‡ΠΈ. Однако Π² Π»ΡŽΠ±ΠΎΠΌ случаС ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ° Π²Ρ‹Π±ΠΎΡ€Π° ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ Π½Π°Π±ΠΎΡ€Π° ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² встаСт Π² Π»ΡŽΠ±ΠΎΠΉ Π·Π°Π΄Π°Ρ‡Π΅ машинного обучСния ΠΊΠ°ΠΊ с Ρ‚ΠΎΡ‡ΠΊΠΈ зрСния избСгания ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌ пСрСобучСния (см. ΠΏΠ°Ρ€Π°Π³Ρ€Π°Ρ„ 4.4), Ρ‚Π°ΠΊ ΠΈ Ρ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Ρ‚ΠΎΡ‡ΠΊΠΈ зрСния — слишком большоС количСство ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ сначала Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚ΡŒ, Π° Π·Π°Ρ‚Π΅ΠΌ ΠΏΠ΅Ρ€Π΅Π΄Π°Ρ‚ΡŒ ΠΈΡ… Π²ΡΠ΅ Π² ΠΌΠΎΠ΄Π΅Π»ΡŒ, врСмСнная Ρ‚Ρ€ΡƒΠ΄ΠΎΠ΅ΠΌΠΊΠΎΡΡ‚ΡŒ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΊΠ°ΠΊ ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎ зависит ΠΎΡ‚ ΠΊΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²Π° ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ².

  • [1] Hsiang-Fu Y. t Hung-Yi L, Hsun-Ping H. Feature Engineering and ClassifierEnsemble for KDD Cup // Proceedings of the KDD Cup 2010 Workshop. 2010.
  • [2] Cm.: Feature Selection Based on Information Theory Filters / W. Dush, J. Biesiada, T. Winiarski [et al. J // Neural Networks and Soft Computing / ed. byL. Rutkowski, J. Kacprzyk. Zakopane: Springer-Vcrlag, 2003.
  • [3] Π‘ΠΌ.: Kohavi R., John G. Wrappers for Feature Subset Selection // ArtificialIntelligence. 1997. № 12.
ΠŸΠΎΠΊΠ°Π·Π°Ρ‚ΡŒ вСсь тСкст
Π—Π°ΠΏΠΎΠ»Π½ΠΈΡ‚ΡŒ Ρ„ΠΎΡ€ΠΌΡƒ Ρ‚Π΅ΠΊΡƒΡ‰Π΅ΠΉ Ρ€Π°Π±ΠΎΡ‚ΠΎΠΉ