ΠŸΠΎΠΌΠΎΡ‰ΡŒ Π² написании студСнчСских Ρ€Π°Π±ΠΎΡ‚
АнтистрСссовый сСрвис

ΠžΡ€Π³Π°Π½ΠΈΠ·Π°Ρ†ΠΈΡ поиска ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ

Π Π΅Ρ„Π΅Ρ€Π°Ρ‚ΠŸΠΎΠΌΠΎΡ‰ΡŒ Π² Π½Π°ΠΏΠΈΡΠ°Π½ΠΈΠΈΠ£Π·Π½Π°Ρ‚ΡŒ ΡΡ‚ΠΎΠΈΠΌΠΎΡΡ‚ΡŒΠΌΠΎΠ΅ΠΉ Ρ€Π°Π±ΠΎΡ‚Ρ‹

НуТно Ρ‚Π°ΠΊΠΆΠ΅ Ρ€Π΅ΡˆΠΈΡ‚ΡŒ вопрос Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ Π΅Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²Π° дистанция, примСнСнная ΠΊ Π½Π΅Π½ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΌ Π²Π΅ΠΊΡ‚ΠΎΡ€Π°ΠΌ, ΠΊΠ°ΠΊ ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ, Π΄Π΅Π»Π°Π΅Ρ‚ любой большой Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ Π½Π΅Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹ΠΌ для Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²Π° запросов, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ запросы ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ ΠΈΠΌΠ΅ΡŽΡ‚ ΠΊΠΎΡ€ΠΎΡ‚ΠΊΡƒΡŽ Π΄Π»ΠΈΠ½Ρƒ. Π”Π»ΠΈΠ½Π½Ρ‹Π΅ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹ Π±ΡƒΠ΄ΡƒΡ‚ ΠΏΠΎΡ…ΠΎΠΆΠΈ Π΄Ρ€ΡƒΠ³ Π½Π° Π΄Ρ€ΡƒΠ³Π° ΠΈΠ·-Π·Π° Π΄Π»ΠΈΠ½Ρ‹, Π° Π½Π΅ ΠΈΠ·-Π·Π° Ρ‚Π΅ΠΌΡ‹. ΠšΠΎΡΠΈΠ½ΡƒΡΠ½ΠΎΠ΅ ΠΏΠΎΠ΄ΠΎΠ±ΠΈΠ΅ — это косинус ΡƒΠ³Π»Π° ΠΌΠ΅ΠΆΠ΄Ρƒ двумя Π²Π΅ΠΊΡ‚ΠΎΡ€Π°ΠΌΠΈ. Оно ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ сходство… Π§ΠΈΡ‚Π°Ρ‚ΡŒ Π΅Ρ‰Ρ‘ >

ΠžΡ€Π³Π°Π½ΠΈΠ·Π°Ρ†ΠΈΡ поиска ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ (Ρ€Π΅Ρ„Π΅Ρ€Π°Ρ‚, курсовая, Π΄ΠΈΠΏΠ»ΠΎΠΌ, ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ)

ΠœΠ˜ΠΠžΠ‘Π ΠΠΠ£ΠšΠ˜ РОББИИ Π€Π΅Π΄Π΅Ρ€Π°Π»ΡŒΠ½ΠΎΠ΅ государствСнноС Π±ΡŽΠ΄ΠΆΠ΅Ρ‚Π½ΠΎΠ΅ ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ ΡƒΡ‡Ρ€Π΅ΠΆΠ΄Π΅Π½ΠΈΠ΅ Π²Ρ‹ΡΡˆΠ΅Π³ΠΎ ΠΏΡ€ΠΎΡ„Π΅ΡΡΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΠ³ΠΎ образования

" Московский государствСнный тСхничСский унивСрситСт Ρ€Π°Π΄ΠΈΠΎΡ‚Π΅Ρ…Π½ΠΈΠΊΠΈ, элСктроники ΠΈ Π°Π²Ρ‚ΠΎΠΌΠ°Ρ‚ΠΈΠΊΠΈ"

Π Π΅Ρ„Π΅Ρ€Π°Ρ‚ Π’Π΅ΠΌΠ°: «ΠžΡ€Π³Π°Π½ΠΈΠ·Π°Ρ†ΠΈΡ поиска ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ»

Москва 2012 Π³.

  • Π’Π²Π΅Π΄Π΅Π½ΠΈΠ΅
  • 1. ИсслСдованиС основных ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ†ΠΈΠΉ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ поиска
  • 2. ИсслСдованиС ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ поиска ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ
    • 2.1 Π‘ΡƒΠ»Π΅Π²Π° модСль
    • 2.2 ВСкторная модСль
      • 2.3 ΠœΠ΅Ρ€Ρ‹ подобия
      • 2.4 ΠžΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ вСса индСксных Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ²
  • 3. ИсслСдованиС ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² ΠΎΡ†Π΅Π½ΠΊΠΈ качСства поиска
    • 3.1 ΠžΡ†Π΅Π½ΠΊΠ° Π½Π΅Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… Π½Π°Π±ΠΎΡ€ΠΎΠ² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π° поиска
  • 4. РСализация Π²Π΅ΠΊΡ‚ΠΎΡ€Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π² ΡΡ€Π΅Π΄Π΅ Matlab
    • 4.1 Ѐункция расчСта Π΅Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²ΠΎΠΉ ΠΌΠ΅Ρ€Ρ‹
    • 4.2 Ѐункция расчСта косинусной ΠΌΠ΅Ρ€Ρ‹
    • 4.3 РасчСт Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… списков Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²
  • 5. РСализация ΠΎΡ†Π΅Π½ΠΎΠΊ качСства поиска Π² ΡΡ€Π΅Π΄Π΅ Matlab
    • 5.1 РасчСт точности, ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹ ΠΈ F-ΠΌΠ΅Ρ€Ρ‹ Π² Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ ΠΎΡ‚ Ρ‡ΠΈΡΠ»Π° Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²
      • 5.2 Листинг ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹
    • 6. РасчСт ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΠΎΠ»ΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠΉ срСднСй точности, ROC-ΠΊΡ€ΠΈΠ²ΠΎΠΉ ΠΈ Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ точности ΠΎΡ‚ ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹
      • 6.1 Ѐункция для расчСта Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ ΠΊΡ€ΠΈΠ²ΠΎΠΉ точности Π² Π·Π°Π΄Π°Π½Π½Ρ‹Ρ… Ρ‚ΠΎΡ‡ΠΊΠ°Ρ…
      • 6.2 Листинг ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹
    • 7. РасчСт срСднСго значСния срСднСй точности
      • 7.1 Листинг ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹
  • Π’Ρ‹Π²ΠΎΠ΄Ρ‹
  • Бписок ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΠΎΠΉ Π»ΠΈΡ‚Π΅Ρ€Π°Ρ‚ΡƒΡ€Ρ‹

Π¦Π΅Π»ΠΈ прохоТдСния производствСнной ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠΈ:

Β· ΠΈΠ·ΡƒΡ‡Π΅Π½ΠΈΠ΅ основных ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ†ΠΈΠΉ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ поиска;

Β· рассмотрСниС Π±Π°Π·ΠΎΠ²Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ поиска ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ;

Β· рассмотрСниС ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² ΠΎΡ†Π΅Π½ΠΊΠΈ качСства поиска ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ;

Β· ΠΏΡ€ΠΈΠΎΠ±Ρ€Π΅Ρ‚Π΅Π½ΠΈΠ΅ практичСских Π½Π°Π²Ρ‹ΠΊΠΎΠ² ΠΏΠΎ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΈΠ·ΡƒΡ‡Π΅Π½Π½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² Π² ΡΡ€Π΅Π΄Π΅ Matlab.

1. ИсслСдованиС основных ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ†ΠΈΠΉ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ поиска

Π˜Π½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹ΠΉ поиск занимаСтся прСдставлСниСм, Ρ…Ρ€Π°Π½Π΅Π½ΠΈΠ΅ΠΌ, ΠΎΡ€Π³Π°Π½ΠΈΠ·Π°Ρ†ΠΈΠ΅ΠΉ ΠΈ ΠΎΠ±Π΅ΡΠΏΠ΅Ρ‡Π΅Π½ΠΈΠ΅ΠΌ доступа ΠΊ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹ΠΌ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌ. ΠŸΡ€Π΅Π΄ΡΡ‚Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΈ ΠΎΡ€Π³Π°Π½ΠΈΠ·Π°Ρ†ΠΈΡ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ ΠΏΡ€Π΅Π΄ΠΎΡΡ‚Π°Π²Π»ΡΡ‚ΡŒ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŽ ΡƒΠ΄ΠΎΠ±Π½Ρ‹ΠΉ доступ ΠΊ ΠΈΠ½Ρ‚Π΅Ρ€Π΅ΡΡƒΡŽΡ‰Π΅ΠΉ Π΅Π³ΠΎ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ. Основной Ρ†Π΅Π»ΡŒΡŽ систСмы Π˜ΠŸ являСтся ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ, которая ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΠΏΠΎΠ»Π΅Π·Π½Π° ΠΈ Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Π° для ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Ρ, с ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ Π΅Π³ΠΎ запроса. Основной Π°ΠΊΡ†Π΅Π½Ρ‚ дСлаСтся Π½Π° Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ поиск ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ — это Π½Π΅ ΠΏΠΎΠΈΡΠΊ Π΄Π°Π½Π½Ρ‹Ρ….

Поиск Π΄Π°Π½Π½Ρ‹Ρ… — это ΠΈΠ·Π²Π»Π΅Ρ‡Π΅Π½ΠΈΠ΅ всСх ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΡƒΠ΄ΠΎΠ²Π»Π΅Ρ‚Π²ΠΎΡ€ΡΡŽΡ‚ Ρ‡Π΅Ρ‚ΠΊΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½Ρ‹ΠΌ условиям, Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½Π½Ρ‹ΠΌ Ρ‡Π΅Ρ€Π΅Π· язык запросов. Π”Π°Π½Π½Ρ‹Π΅ ΠΈΠΌΠ΅ΡŽΡ‚ строго ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΡƒΡŽ структуру ΠΈ ΡΠ΅ΠΌΠ°Π½Ρ‚ΠΈΠΊΡƒ. Π˜ΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ Ρ„ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½Ρ‹Π΅ языки запросов (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, рСгулярныС выраТСния). Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ обязаны Π±Ρ‹Ρ‚ΡŒ Ρ‚ΠΎΡ‡Π½Ρ‹ΠΌΠΈ, ошибки Π½Π΅ Π΄ΠΎΠΏΡƒΡΠΊΠ°ΡŽΡ‚ся. НСт ранТирования ΠΏΠΎ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡŽ ΠΊ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠΉ потрСбности ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Ρ.

Поиск ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ — это Π½Π°Ρ…ΠΎΠΆΠ΄Π΅Π½ΠΈΠ΅ ΠΌΠ°Ρ‚Π΅Ρ€ΠΈΠ°Π»ΠΎΠ² (ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²) нСструктурированной ΠΏΡ€ΠΈΡ€ΠΎΠ΄Ρ‹ (ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ тСкст), ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΡƒΠ΄ΠΎΠ²Π»Π΅Ρ‚Π²ΠΎΡ€ΡΡŽΡ‚ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠΉ потрСбности, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ большиС ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ (ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ хранящиСся Π½Π° ΠΌΠ½ΠΎΠ³ΠΈΡ… ΠΊΠΎΠΌΠΏΡŒΡŽΡ‚Π΅Ρ€Π°Ρ…). Запросы ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ Π½Π΅ ΡΡ‚Ρ€ΡƒΠΊΡ‚ΡƒΡ€ΠΈΡ€ΠΎΠ²Π°Π½Ρ‹ (запросы Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… слов, контСкста, Ρ„Ρ€Π°Π·, запросы Π½Π° Π΅ΡΡ‚СствСнном языкС). Ошибки Π² ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Ρ… Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π°Ρ… допустимы. ΠšΠΎΠ½Ρ†Π΅ΠΏΡ†ΠΈΡ рСлСвантности ΠΏΠΎ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡŽ ΠΊ ΠΏΠΎΡ‚рСбностям ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Ρ Π·Π°Π½ΠΈΠΌΠ°Π΅Ρ‚ Ρ†Π΅Π½Ρ‚Ρ€Π°Π»ΡŒΠ½ΠΎΠ΅ мСсто:

Β· ΠžΡΡƒΡ‰Π΅ΡΡ‚Π²Π»ΡΠ΅Ρ‚ΡΡ Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΏΠΎ Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚ности.

Β· НС ΡΡΠ½Π° «ΡΡ‚Π΅ΠΏΠ΅Π½ΡŒ рСлСвантности», ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Π΄ΠΎΠ²ΠΎΠ»Π΅Π½ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒ. Для систСмы ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ нСизвСстно Ρ‡Ρ‚ΠΎ являСтся для ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Ρ Π±ΠΎΠ»Π΅Π΅ Π²Π°ΠΆΠ½Ρ‹ΠΌ — Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΈΠ»ΠΈ ΠΏΠΎΠ»Π½ΠΎΡ‚Π°.

Β· Π Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ позволяСт ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŽ Π½Π°Ρ‡ΠΈΠ½Π°Ρ‚ΡŒ с Π½Π°Ρ‡Π°Π»Π° Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠ³ΠΎ списка ΠΈ ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚ΡŒ Π΅Π³ΠΎ, ΠΏΠΎΠΊΠ° ΠΎΠ½ Π½Π΅ ΡƒΠ΄ΠΎΠ²Π»Π΅Ρ‚Π²ΠΎΡ€ΠΈΡ‚ свои потрСбности.

МодСль поиска ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π° ΠΊΠ°ΠΊ:

Π³Π΄Π΅

D — Π½Π°Π±ΠΎΡ€ логичСских прСдставлСний для Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² Π² ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ.

Q — Π½Π°Π±ΠΎΡ€ логичСских прСдставлСний для Π½ΡƒΠΆΠ΄ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Ρ (запросов).

— Ρ„ункция ранТирования, ΡΠ²ΡΠ·Ρ‹Π²Π°ΡŽΡ‰Π°Ρ Π΄Π΅ΠΉΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ число с ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»Π΅Π½ΠΈΠ΅ΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° dj Π΄Π»Ρ запроса qi. Π’Π°ΠΊΠΎΠΉ Ρ€Π΅ΠΉΡ‚ΠΈΠ½Π³ опрСдСляСт порядок Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΏΠΎ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡŽ ΠΊ Π·Π°ΠΏΡ€ΠΎΡΡƒ qi.

Π Π΅Π»Π΅Π²Π°Π½Ρ‚Π½ΠΎΡΡ‚ΡŒ:

Β· Π‘ΡƒΠ±ΡŠΠ΅ΠΊΡ‚ΠΈΠ²Π½Π°: Π΄Π²Π° ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Ρ ΠΌΠΎΠ³ΡƒΡ‚ ΠΈΠΌΠ΅Ρ‚ΡŒ ΠΎΠ΄Π½ΠΈ ΠΈ Ρ‚Π΅ ΠΆΠ΅ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹Π΅ потрСбности, Π½ΠΎ ΠΏΠΎ-Ρ€Π°Π·Π½ΠΎΠΌΡƒ ΠΎΡ†Π΅Π½ΠΈΠ²Π°Ρ‚ΡŒ ΠΎΠ΄Π½ΠΈ ΠΈ Ρ‚Π΅ ΠΆΠ΅ Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹Π΅ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹.

Β· Π”ΠΈΠ½Π°ΠΌΠΈΡ‡Π½Π° Π² ΠΏΡ€ΠΎΡΡ‚ранствС ΠΈ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ. НайдСнныС ΠΈ ΠΎΡ‚ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½Π½Ρ‹Π΅ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŽ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹ ΠΌΠΎΠ³ΡƒΡ‚ ΠΏΠΎΠ²Π»ΠΈΡΡ‚ΡŒ Π½Π° Π΅Π³ΠΎ ΠΎΡ†Π΅Π½ΠΊΡƒ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π±ΡƒΠ΄ΡƒΡ‚ ΠΏΠΎΠΊΠ°Π·Π°Π½Ρ‹ ΠΏΠΎΠ·Π΄Π½Π΅Π΅. Π’ Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ ΠΎΡ‚ ΡΠ²ΠΎΠ΅Π³ΠΎ состояния ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΠΎ-Ρ€Π°Π·Π½ΠΎΠΌΡƒ ΠΎΡ†Π΅Π½ΠΈΠ²Π°Ρ‚ΡŒ ΠΎΠ΄ΠΈΠ½ ΠΈ Ρ‚ΠΎΡ‚ ΠΆΠ΅ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ для ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΠΈ Ρ‚ΠΎΠ³ΠΎ ΠΆΠ΅ запроса.

Β· ΠœΠ½ΠΎΠ³ΠΎΠ³Ρ€Π°Π½Π½Π°: Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½ΠΎΡΡ‚ΡŒ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° опрСдСляСтся Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Ρ‚Π΅ΠΌΠΎΠΉ, Π½ΠΎ ΠΈ Π°Π²Ρ‚ΠΎΡ€ΠΈΡ‚Π΅Ρ‚Π½ΠΎΡΡ‚ΡŒΡŽ, ΡΠΏΠ΅Ρ†ΠΈΡ„ΠΈΡ‡Π½ΠΎΡΡ‚ΡŒΡŽ, ΠΏΠΎΠ»Π½ΠΎΡ‚ΠΎΠΉ, Π½ΠΎΠ²ΠΈΠ·Π½ΠΎΠΉ, ΡΡΠ½ΠΎΡΡ‚ΡŒΡŽ ΠΈ Ρ‚. ΠΏ.

Β· НСизвСстна систСмС Π΄ΠΎ ΠΎΡ†Π΅Π½ΠΊΠΈ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Ρ. БистСма ΡƒΠ³Π°Π΄Ρ‹Π²Π°Π΅Ρ‚ Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½ΠΎΡΡ‚ΡŒ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΏΠΎ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡŽ ΠΊ Π΄Π°Π½Π½ΠΎΠΌΡƒ запросу с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ расчСта, которая зависит ΠΎΡ‚ ΠΏΡ€ΠΈΠ½ΡΡ‚ΠΎΠΉ IRM (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Π±ΡƒΠ»Π΅Π²Π°, вСроятностная, вСкторная).

2. ИсслСдованиС ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ поиска ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ

МодСли поиска Π½Π°Π·Π½Π°Ρ‡Π°ΡŽΡ‚ ΠΌΠ΅Ρ€Ρƒ сходства ΠΌΠ΅ΠΆΠ΄Ρƒ запросом ΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠΌ. ΠžΠ±Ρ‰Π°Ρ идСя: Ρ‡Π΅ΠΌ Ρ‡Π°Ρ‰Π΅ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹ находятся ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅ ΠΈ Π² Π·Π°ΠΏΡ€ΠΎΡΠ΅, Ρ‚Π΅ΠΌ Π±ΠΎΠ»Π΅Π΅ Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹ΠΌ считаСтся Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ ΠΏΠΎ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡŽ ΠΊ Π·Π°ΠΏΡ€ΠΎΡΡƒ. БтратСгия поиска — это Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Π΅Ρ‚ запрос q ΠΈ Π½Π°Π±ΠΎΡ€ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² d1, d2,…, dN ΠΈ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΡΠ΅Ρ‚ коэффициСнт подобия SC (q, dj) для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΈΠ· Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² 1? j?N. ΠšΠ»Π°ΡΡΠΈΡ‡Π΅ΡΠΊΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π˜ΠŸ: Π±ΡƒΠ»Π΅Π²Π°, вСроятностная, вСкторная.

ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ прСдставляСтся Π½Π°Π±ΠΎΡ€ΠΎΠΌ ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… слов, Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡ‹Ρ… индСксными Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌΠΈ. Π˜Π½Π΄Π΅ΠΊΡΠ½Ρ‹Π΅ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ для индСксирования ΠΈ ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½ΠΈΡ содСрТимого Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°. Π Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ индСксныС Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹ ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‚ΡΡ ΠΏΠΎ Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚ности, ΠΊΠΎΠ³Π΄Π° ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ для описания содСрТимого Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°. Π­Ρ‚ΠΎΡ‚ эффСкт отраТаСтся Π² Π½Π°Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΈ числовых вСсов ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ индСксному Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρƒ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°.

ΠŸΡƒΡΡ‚ΡŒ ti — индСксный Ρ‚Π΅Ρ€ΠΌΠΈΠ½, dj — Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚, Π° wi, j?0 — вСс, связанный с ΠΏΠ°Ρ€ΠΎΠΉ (ti, dj). wi, j ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΡΠ΅Ρ‚ качСство индСксного Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° для описания смыслового содСрТания Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°. ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ связан с Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠΌ индСксных Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ²:

wi, j=g (dj), Π³Π΄Π΅ g — это функция, которая вычисляСт вСс Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° ti Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅ dj (wi, j=0 ΠΎΠ±ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ ti, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π½Π΅ ΠΏΠΎΡΠ²Π»ΡΠ΅Ρ‚ся Π² dj) ΠΈ M — это количСство индСксных Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ².

ВСса индСксных Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ², ΠΊΠ°ΠΊ ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ, ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°ΡŽΡ‚ΡΡ нСзависимыми Π΄Ρ€ΡƒΠ³ ΠΎΡ‚ Π΄Ρ€ΡƒΠ³Π°. Π­Ρ‚ΠΎ ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ знания ΠΎ Π²Π΅ΡΠ΅ wi, j, связанном с ΠΏΠ°Ρ€ΠΎΠΉ (ti, dj), Π½ΠΈΡ‡Π΅Π³ΠΎ Π½Π΅ Π³ΠΎΠ²ΠΎΡ€ΡΡ‚ Π½Π°ΠΌ ΠΎ Π²Π΅ΡΠ΅ wi+1,j связанном с ΠΏΠ°Ρ€ΠΎΠΉ (ti+1, dj). Π­Ρ‚ΠΎ являСтся ΡƒΠΏΡ€ΠΎΡ‰Π΅Π½ΠΈΠ΅ΠΌ, ΠΏΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ вхоТдСния индСксных Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅ взаимосвязаны. Π‘ΠΎΠ»Π΅Π΅ ΠΏΠΎΠ·Π΄Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π˜ΠŸ (LSI, pLSA, LDA) Π² ΡΠ²Π½ΠΎΠΌ Π²ΠΈΠ΄Π΅ ΠΎΠ±Ρ€Π°Ρ‰Π°ΡŽΡ‚ΡΡ ΠΊ ΠΊΠΎΡ€Ρ€Π΅Π»ΡΡ†ΠΈΠΈ индСксных Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ².

2.1 Π‘ΡƒΠ»Π΅Π²Π° модСль

Π‘ΡƒΠ»Π΅Π²Π° модСль поиска ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ — это простая поисковая модСль, основанная Π½Π° Ρ‚Π΅ΠΎΡ€ΠΈΠΈ мноТСств ΠΈ Π±ΡƒΠ»Π΅Π²ΠΎΠΉ Π°Π»Π³Π΅Π±Ρ€Π΅. Π—Π½Π°Ρ‡ΠΈΠΌΠΎΡΡ‚ΡŒ индСксного Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° прСдставлСна с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Π΄Π²ΠΎΠΈΡ‡Π½ΠΎΠ³ΠΎ вСса:

связан с ΠΏΠ°Ρ€ΠΎΠΉ (ti, dj).

Rdj — с Π½Π°Π±ΠΎΡ€ΠΎΠΌ индСксных Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² для Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°.

Rti — с Π½Π°Π±ΠΎΡ€ΠΎΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² для индСксного Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°.

Запросы ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΡΡŽΡ‚ΡΡ ΠΊΠ°ΠΊ логичСскиС выраТСния Π½Π°Π΄ индСксными Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌΠΈ (ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ логичСскиС ΠΎΠΏΠ΅Ρ€Π°Ρ†ΠΈΠΈ AND, OR ΠΈ NOT). НапримСр, Brutus AND Caesar, NOT Calpurnia. Π Π΅Π»Π΅Π²Π°Π½Ρ‚Π½ΠΎΡΡ‚ΡŒ опрСдСляСтся Π² Π²ΠΈΠ΄Π΅ Π΄Π²ΠΎΠΈΡ‡Π½ΠΎΠ³ΠΎ свойства Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°:

SC (q, dj)=0 ΠΈΠ»ΠΈ SC (q, dj) = 1.

ΠŸΡ€ΠΈΠΌΠ΅Ρ€. ΠŸΡƒΡΡ‚ΡŒ Π΅ΡΡ‚ΡŒ коллСкция ΠΈΠ· Ρ‚Ρ€Π΅Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²:

d1 = [1,1,1]T

d2 = [1,0,0]T

d3 = [0,1,0]T

Π’ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ 3 Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°. ΠœΠ½ΠΎΠΆΠ΅ΡΡ‚Π²Π° Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΡ… Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌ:

Rt1 = {d1, d2}, Rt2 = {d1, d3}, Rt3 = {d1}

Π’ΠΎΠ³Π΄Π° Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π°ΠΌΠΈ запросов Π±ΡƒΠ΄ΡƒΡ‚:

ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ логичСский запрос ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ пСрСписан Π² Π΄ΠΈΠ·ΡŠΡŽΠ½ΠΊΡ‚ΠΈΠ²Π½ΠΎΠΉ Π½ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎΠΉ Ρ„ΠΎΡ€ΠΌΠ΅. НапримСр:

q = ta? (tb? tc) = qdnf = (ta? tb? tc)? (ta? tb? tc)? (ta? tb? tc)

КаТдая Π΄ΠΈΠ·ΡŠΡŽΠ½ΠΊΡ†ΠΈΡ прСдставляСт собой ΠΈΠ΄Π΅Π°Π»ΡŒΠ½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ². Π”ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ удовлСтворяСт запросу, Ссли ΠΎΠ½ ΡΠΎΠ΄Π΅Ρ€ΠΆΠΈΡ‚ся Π² Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°Ρ… Π΄ΠΈΠ·ΡŠΡŽΠ½ΠΊΡ†ΠΈΠΈ:

qdnf = (ta? tb? tc)? (ta? tb? tc)? (ta? tb? tc)

qdnf = (1,1,1)? (1,1,0)? (1,0,0)

SC (q, dj)=

Достоинства Π±ΡƒΠ»Π΅Π²ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ:

Β· ЛогичСскиС выраТСния ΠΈΠΌΠ΅ΡŽΡ‚ Ρ‚ΠΎΡ‡Π½ΡƒΡŽ сСмантику.

Β· Π˜ΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ структурированныС запросы.

Β· Для ΠΎΠΏΡ‹Ρ‚Π½Ρ‹Ρ… ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΉ ΠΎΠ½Π° ΠΈΠ½Ρ‚ΡƒΠΈΡ‚ΠΈΠ²Π½Π°.

Β· ΠŸΡ€ΠΎΡΡ‚ΠΎΠΉ ΠΈ Π°ΠΊΠΊΡƒΡ€Π°Ρ‚Π½Ρ‹ΠΉ Ρ„ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·ΠΌ позволял ΠΏΡ€ΠΈΠ½ΡΡ‚ΡŒ Π΅Π΅ Π²ΠΎ ΠΌΠ½ΠΎΠ³ΠΈΡ… Ρ€Π°Π½Π½ΠΈΡ… коммСрчСских библиографичСских систСмах.

НСдостатки Π±ΡƒΠ»Π΅Π²ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ:

Β· НС ΠΎΡΡƒΡ‰Π΅ΡΡ‚Π²Π»ΡΠ΅Ρ‚ΡΡ Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅. БтратСгия поиска основана Π½Π° Π΄Π²ΠΎΠΈΡ‡Π½ΠΎΠΌ ΠΊΡ€ΠΈΡ‚Π΅Ρ€ΠΈΠΈ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ, Ρ‚. Π΅. Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ прСдполагаСтся Π»ΠΈΠ±ΠΎ Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹ΠΌ, Π»ΠΈΠ±ΠΎ Π½Π΅Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹ΠΌ.

Β· НС ΠΏΡ€ΠΎΡΡ‚ΠΎ пСрСвСсти ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠ΅ Ρ‚Ρ€Π΅Π±ΠΎΠ²Π°Π½ΠΈΠ΅ Π² Π»ΠΎΠ³ΠΈΡ‡Π΅ΡΠΊΠΎΠ΅ Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅.

2.2 ВСкторная модСль

ВСкторная модСль прСдставляСт Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹ ΠΈ Π·Π°ΠΏΡ€ΠΎΡΡ‹ Π² Π²ΠΈΠ΄Π΅ Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² Π² ΠΏΡ€ΠΎΡΡ‚ранствС Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ². Π—Π½Π°Ρ‡ΠΈΠΌΠΎΡΡ‚ΡŒ индСксного Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° прСдставлСна вСщСствСнным вСсом.

wi, j ?0 связан с ΠΏΠ°Ρ€ΠΎΠΉ (ti, dj)

ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ прСдставлСн Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠΌ Π² M-ΠΌΠ΅Ρ€Π½ΠΎΠΌ пространствС, Π³Π΄Π΅ M — это количСство индСксных Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ²

ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ прСдставляСт собой Π΅Π΄ΠΈΠ½ΠΈΡ‡Π½Ρ‹ΠΉ Π²Π΅ΠΊΡ‚ΠΎΡ€

ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ i-ΠΎΠΉ оси. ΠœΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎ Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² ti, i=1,…M Ρ„ΠΎΡ€ΠΌΠΈΡ€ΡƒΡŽΡ‚ каноничСский базис для Π΅Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²Π° пространства M. Π›ΡŽΠ±ΠΎΠΉ Π²Π΅ΠΊΡ‚ΠΎΡ€ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° dj ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ прСдставлСн Π΅Π³ΠΎ Ρ€Π°Π·Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅ΠΌ ΠΏΠΎ ΠΊΠ°Π½ΠΎΠ½ΠΈΡ‡Π΅ΡΠΊΠΎΠΌΡƒ базису (см. Ρ€ΠΈΡ.1):

Рисунок 1. Π’Π΅ΠΊΡ‚ΠΎΡ€Π½ΠΎΠ΅ пространство, ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Π½Π½ΠΎΠ΅ трСмя Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌΠΈ.

Π”ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹, Π±Π»ΠΈΠ·ΠΊΠΈΠ΅ Π΄Ρ€ΡƒΠ³ ΠΊ Π΄Ρ€ΡƒΠ³Ρƒ Π² Π²Π΅ΠΊΡ‚ΠΎΡ€Π½ΠΎΠΌ пространствС, ΠΏΠΎΡ…ΠΎΠΆΠΈ Π΄Ρ€ΡƒΠ³ Π½Π° Π΄Ρ€ΡƒΠ³Π°. Запрос Ρ‚Π°ΠΊ ΠΆΠ΅ прСдставляСтся Π² Π²ΠΈΠ΄Π΅ Π²Π΅ΠΊΡ‚ΠΎΡ€Π°:

МодСль Π²Π΅ΠΊΡ‚ΠΎΡ€Π½ΠΎΠ³ΠΎ пространства вычисляСт сходство SC (q, dj) ΠΌΠ΅ΠΆΠ΄Ρƒ запросом ΠΈ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠΌ ΠΈ ΡΠΎΡΡ‚авляСт Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ список Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ². Она ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Π΅Ρ‚ Π²ΠΎ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‚ условиям запроса лишь частично. Π Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² Π±ΠΎΠ»Π΅Π΅ эффСктивСн (Π»ΡƒΡ‡ΡˆΠ΅ соотвСтствуСт ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠΉ потрСбности ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Ρ), Ρ‡Π΅ΠΌ Π½Π°Π±ΠΎΡ€ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹Ρ… Π±ΡƒΠ»Π΅Π²ΠΎΠΉ модСлью. Π‘ΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‚ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ ΠΌΠ΅Ρ€Ρ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Π½Ρ‹ для ΠΎΡ†Π΅Π½ΠΊΠΈ сходства Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².

2.3 ΠœΠ΅Ρ€Ρ‹ подобия

ΠœΠ΅Ρ€Π° подобия ΠΌΠ΅ΠΆΠ΄Ρƒ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°ΠΌΠΈ Π΄ΠΎΠ»ΠΆΠ½Π° ΠΎΡ‚Π²Π΅Ρ‡Π°Ρ‚ΡŒ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ трСбованиям:

Β· Если d1 рядом с d2, Ρ‚ΠΎ d2 рядом с d1.

Β· Если d1 рядом с d2, Π° d2 рядом с d3, Ρ‚ΠΎ d1 находится Π½Π΅Π΄Π°Π»Π΅ΠΊΠΎ ΠΎΡ‚ d3.

Β· НС ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΠ΅Ρ‚ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² Π±Π»ΠΈΠΆΠ΅ ΠΊ d, Ρ‡Π΅ΠΌ сам d.

ΠŸΡ€ΠΈΠΌΠ΅Ρ€Ρ‹ ΠΌΠ΅Ρ€ подобия:

Β· Π•Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²Π° дистанция.

Β· ΠšΠΎΡΠΈΠ½ΡƒΡΠ½ΠΎΠ΅ ΠΏΠΎΠ΄ΠΎΠ±ΠΈΠ΅.

Β· БкалярноС ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΈΠ΅.

Β· ΠœΠ΅Ρ€Π° Π–Π°ΠΊΠΊΠ°Ρ€Π°.

Β· ΠšΠΎΡΡ„Ρ„ΠΈΡ†ΠΈΠ΅Π½Ρ‚ Дайса.

Β· ΠœΠ΅Ρ€Π° Π¨ΠΈΠΌΠΊΠ΅Π²ΠΈΡ‡Π°-Бимпсона.

Π•Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²Π° дистанция — это Π΄Π»ΠΈΠ½Π° разностного Π²Π΅ΠΊΡ‚ΠΎΡ€Π°:

Она ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΠΏΡ€Π΅ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Π½Π° Π² ΠΊΠΎΡΡ„Ρ„ΠΈΡ†ΠΈΠ΅Π½Ρ‚ подобия Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹ΠΌΠΈ способами:

НуТно Ρ‚Π°ΠΊΠΆΠ΅ Ρ€Π΅ΡˆΠΈΡ‚ΡŒ вопрос Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ Π΅Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²Π° дистанция, примСнСнная ΠΊ Π½Π΅Π½ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΌ Π²Π΅ΠΊΡ‚ΠΎΡ€Π°ΠΌ, ΠΊΠ°ΠΊ ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ, Π΄Π΅Π»Π°Π΅Ρ‚ любой большой Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ Π½Π΅Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹ΠΌ для Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²Π° запросов, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ запросы ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ ΠΈΠΌΠ΅ΡŽΡ‚ ΠΊΠΎΡ€ΠΎΡ‚ΠΊΡƒΡŽ Π΄Π»ΠΈΠ½Ρƒ. Π”Π»ΠΈΠ½Π½Ρ‹Π΅ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹ Π±ΡƒΠ΄ΡƒΡ‚ ΠΏΠΎΡ…ΠΎΠΆΠΈ Π΄Ρ€ΡƒΠ³ Π½Π° Π΄Ρ€ΡƒΠ³Π° ΠΈΠ·-Π·Π° Π΄Π»ΠΈΠ½Ρ‹, Π° Π½Π΅ ΠΈΠ·-Π·Π° Ρ‚Π΅ΠΌΡ‹. ΠšΠΎΡΠΈΠ½ΡƒΡΠ½ΠΎΠ΅ ΠΏΠΎΠ΄ΠΎΠ±ΠΈΠ΅ — это косинус ΡƒΠ³Π»Π° ΠΌΠ΅ΠΆΠ΄Ρƒ двумя Π²Π΅ΠΊΡ‚ΠΎΡ€Π°ΠΌΠΈ. Оно ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ сходство, Π° Π½Π΅ Π΄ΠΈΡΡ‚Π°Π½Ρ†ΠΈΡŽ. Для косинусного подобия Π½Π΅ Π²Ρ‹ΠΏΠΎΠ»Π½ΡΠ΅Ρ‚ся нСравСнство Ρ‚Ρ€Π΅ΡƒΠ³ΠΎΠ»ΡŒΠ½ΠΈΠΊΠ°.

ΠšΠΎΡΠΈΠ½ΡƒΡΠ½Π°Ρ ΠΌΠ΅Ρ€Π° Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·ΡƒΠ΅Ρ‚ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ с ΡƒΡ‡Π΅Ρ‚ΠΎΠΌ Π΄Π»ΠΈΠ½Ρ‹ Π²Π΅ΠΊΡ‚ΠΎΡ€Π° Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°. Для Π΄Π²ΡƒΡ… Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² сходство опрСдСляСтся ΠΈΡ… Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΡΠΌΠΈ. Для Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π½Ρ‹Ρ… Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² косинусноС ΠΏΠΎΠ΄ΠΎΠ±ΠΈΠ΅ Ρ€Π°Π²Π½ΠΎ ΠΈΡ… ΡΠΊΠ°Π»ΡΡ€Π½ΠΎΠΌΡƒ ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΈΡŽ.

ΠœΠ΅Ρ€Ρ‹ подобия ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΡΡŽΡ‚ΡΡ для Π΄Π²ΡƒΡ… ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½Ρ‹Ρ… мноТСств A ΠΈ B:

ΠœΠ΅Ρ€Π° Π–Π°ΠΊΠΊΠ°Ρ€Π°:

ΠšΠΎΡΡ„Ρ„ΠΈΡ†ΠΈΠ΅Π½Ρ‚ Дайса:

ΠœΠ΅Ρ€Π° Π¨ΠΈΠΌΠΊΠ΅Π²ΠΈΡ‡Π°-Бимпсона:

Они ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½Ρ‹ для Π½Π΅Π΄Π²ΠΎΠΈΡ‡Π½Ρ‹Ρ… Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ².

Π Π°ΡΡˆΠΈΡ€Π΅Π½Π½Π°Ρ ΠΌΠ΅Ρ€Π° Π–Π°ΠΊΠΊΠ°Ρ€Π°.

2.4 ΠžΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ вСса индСксных Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ²

Нам Π½ΡƒΠΆΠ½ΠΎ Ρ€Π°ΡΡΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Π΄Π²Π° вопроса. Π’ΠΎ-ΠΏΠ΅Ρ€Π²Ρ‹Ρ…, ΠΏΡ€ΠΈ Π΄Π²ΠΎΠΈΡ‡Π½ΠΎΠΌ Π½Π°Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΈ вСса ΠΏΠΎΡ…ΠΎΠΆΠΈΠ΅ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹ Ρ€Π°ΡΡΠΌΠ°Ρ‚Ρ€ΠΈΠ²Π°ΡŽΡ‚ΡΡ ΠΏΠΎ-Ρ€Π°Π·Π½ΠΎΠΌΡƒ. Π’ΠΎ-Π²Ρ‚ΠΎΡ€Ρ‹Ρ…, нормализация ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ нСдостаточной для компСнсации Ρ€Π°Π·Π½ΠΈΡ†Ρ‹ Π² Π΄Π»ΠΈΠ½Π°Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ². Π‘ΠΎΠ»Π΅Π΅ Π΄Π»ΠΈΠ½Π½Ρ‹ΠΉ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ ΠΈΠΌΠ΅Π΅Ρ‚ большС возмоТностСй ΡΠΎΠ΄Π΅Ρ€ΠΆΠ°Ρ‚ΡŒ Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Π΅ ΠΊ Π·Π°ΠΏΡ€ΠΎΡΡƒ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ вСс индСксных Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² Π΄ΠΎΠ»ΠΆΠ΅Π½ Π±Ρ‹Ρ‚ΡŒ ΠΏΡ€ΠΎΠΏΠΎΡ€Ρ†ΠΈΠΎΠ½Π°Π»Π΅Π½ ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ ΠΈΡ… Π²Π°ΠΆΠ½ΠΎΡΡ‚ΠΈ Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅ ΠΈ Π²ΠΎ Π²ΡΠ΅ΠΉ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².

ВСс wi, j ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ рассчитан ΠΏΠΎ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΉ Ρ„ΠΎΡ€ΠΌΡƒΠ»Π΅:

— Ρ‡Π°ΡΡ‚ΠΎΡ‚Π° Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° ti Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅ dj. ΠžΠ±Π΅ΡΠΏΠ΅Ρ‡ΠΈΠ²Π°Π΅Ρ‚ ΠΌΠ΅Ρ€Ρƒ Ρ‚ΠΎΠ³ΠΎ, ΠΊΠ°ΠΊ Ρ…ΠΎΡ€ΠΎΡˆΠΎ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ описываСт содСрТимоС Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°.

— ΠΎΠ±Ρ€Π°Ρ‚ная частота Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° для Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° ti. Π’Π΅Ρ€ΠΌΠΈΠ½Ρ‹, ΠΏΠΎΡΠ²Π»ΡΡŽΡ‰ΠΈΠ΅ΡΡ Π²ΠΎ ΠΌΠ½ΠΎΠ³ΠΈΡ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ…, Π½Π΅ ΠΎΡ‡Π΅Π½ΡŒ ΠΏΠΎΠ»Π΅Π·Π½Ρ‹ для отличия Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Ρ… ΠΎΡ‚ Π½Π΅Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².

ВСс Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° увСличиваСтся с Ρ€ΠΎΡΡ‚ΠΎΠΌ количСства Π΅Π³ΠΎ Π²Ρ…ΠΎΠΆΠ΄Π΅Π½ΠΈΠΉ Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ ΠΈ Ρ Ρ€Π΅Π΄ΠΊΠΎΡΡ‚ΡŒΡŽ появлСния Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° Π²ΠΎ Π²ΡΠ΅ΠΉ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ.

Частота Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅:

Иногда, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΡ€Π΅Π΄ΠΎΡ‚Π²Ρ€Π°Ρ‚ΠΈΡ‚ΡŒ смСщСниС Π² ΡΡ‚ΠΎΡ€ΠΎΠ½Ρƒ Π±ΠΎΠ»Π΅Π΅ Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², рассчитываСтся ΠΊΠ°ΠΊ:

Π›ΠΈΠ±ΠΎ просто:

ΠžΠ±Ρ€Π°Ρ‚Π½Π°Ρ частота для Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°:

Π³Π΄Π΅ N — количСство Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² Π² ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ, ni — количСство Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², содСрТащих ti.

Π‘Ρ‹Π»ΠΎ ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΎ мноТСство ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΠΉ Π² ΡΡ…Π΅ΠΌΠ΅ tfidf. Π‘Π»Π΅Π΄ΡƒΡŽΡ‰Π°Ρ Ρ„ΠΎΡ€ΠΌΡƒΠ»Π° Π±Ρ‹Π»Π° ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π° Π² ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ Ρ…ΠΎΡ€ΠΎΡˆΠ΅ΠΉ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ:

Достоинства Π²Π΅ΠΊΡ‚ΠΎΡ€Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ:

Β· Π‘Ρ…Π΅ΠΌΠ°, ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΡΡŽΡ‰Π°Ρ вСса Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ², ΠΏΠΎΠ²Ρ‹ΡˆΠ°Π΅Ρ‚ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ поиска ΠΏΠΎ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡŽ ΠΊ Π±ΡƒΠ»Π΅Π²ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Β· БтратСгия частичного соотвСтствия позволяСт Π½Π°Ρ…ΠΎΠ΄ΠΈΡ‚ΡŒ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹, частично ΡƒΠ΄ΠΎΠ²Π»Π΅Ρ‚Π²ΠΎΡ€ΡΡŽΡ‰ΠΈΠ΅ условиям запроса.

Β· Π Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Π΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ поиска ΠΈ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒ ΠΈΡ… Π²Π΅Π»ΠΈΡ‡ΠΈΠ½Ρ‹.

Β· Π“ΠΈΠ±ΠΊΠΎΡΡ‚ΡŒ ΠΈ ΠΈΠ½Ρ‚уитивная гСомСтричСская интСрпрСтация.

НСдостатки Π²Π΅ΠΊΡ‚ΠΎΡ€Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ:

Β· ΠŸΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ ΠΎ Π½Π΅Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌΠΈ.

Β· ΠΠ΅Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ использования структурированных запросов (Π½Π΅Ρ‚ ΠΎΠΏΠ΅Ρ€Π°Ρ‚ΠΎΡ€ΠΎΠ² OR, AND, NOT).

Β· Π’Π΅Ρ€ΠΌΠΈΠ½Ρ‹ ΡΠ²Π»ΡΡŽΡ‚ΡΡ осями (Π΄Π°ΠΆΠ΅ с ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ стСмминга ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒΡΡ Π±ΠΎΠ»Π΅Π΅ 20 000 ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠΉ).

3. ИсслСдованиС ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² ΠΎΡ†Π΅Π½ΠΊΠΈ качСства поиска

ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹ΠΉ Π²Π΅ΠΊΡ‚ΠΎΡ€Π½Ρ‹ΠΉ matlab ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ°

Π“Π»Π°Π²Π½ΠΎΠΉ ΠΌΠ΅Ρ€ΠΎΠΉ качСства поиска являСтся «ΡΡ‡Π°ΡΡ‚ΡŒΠ΅» ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Ρ. Оно зависит ΠΎΡ‚ ΠΌΠ½ΠΎΠ³ΠΈΡ… Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ²:

Β· РСлСвантности Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ².

Β· Π”ΠΈΠ·Π°ΠΉΠ½Π° ΠΌΠ°ΠΊΠ΅Ρ‚Π° интСрфСйса ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Ρ.

Β· Бкорости ΠΎΡ‚ΠΊΠ»ΠΈΠΊΠ°.

Β· Π¦Π΅Π»Π΅Π²ΠΎΠ³ΠΎ прилоТСния:

o Π’Π΅Π±-Π΄Π²ΠΈΠΆΠΎΠΊ: ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒ Π½Π°Ρ…ΠΎΠ΄ΠΈΡ‚ Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ Ρ…ΠΎΡ‡Π΅Ρ‚, ΠΈ Π²ΠΎΠ·Π²Ρ€Π°Ρ‰Π°Π΅Ρ‚ся ΠΊ Π΄Π²ΠΈΠΆΠΊΡƒ.

o Π‘Π°ΠΉΡ‚ ΠΏΡ€ΠΎΠ΄Π°ΠΆΠΈ ΠΎΠ½Π»Π°ΠΉΠ½: ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒ Π½Π°Ρ…ΠΎΠ΄ΠΈΡ‚ Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ Ρ…ΠΎΡ‡Π΅Ρ‚, ΠΈ Π΄Π΅Π»Π°Π΅Ρ‚ ΠΏΠΎΠΊΡƒΠΏΠΊΡƒ.

o Π‘Π°ΠΉΡ‚Ρ‹ прСдприятий, ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΉ, государства, образования: Π·Π°Π±ΠΎΡ‚Π° ΠΎ «ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Ρ» (ΠΊΠ°ΠΊ ΠΌΠ½ΠΎΠ³ΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ ΠΎΠ½ ΡΠΎΡ…раняСт, ΠΊΠΎΠ³Π΄Π° ΠΈΡ‰Π΅Ρ‚ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ).

ΠšΠ°Ρ‡Π΅ΡΡ‚Π²ΠΎ систСмы зависит ΠΎΡ‚ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΠΈ индСксации, скорости поиска, Π²Π΅Π»ΠΈΡ‡ΠΈΠ½Ρ‹ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΠΎΠ³ΠΎ языка запросов, скорости ΠΏΡ€ΠΈ использовании слоТных запросов. Π§Ρ‚ΠΎΠ±Ρ‹ ΠΈΠ·ΠΌΠ΅Ρ€ΠΈΡ‚ΡŒ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ поиска, Π½Π°ΠΌ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹:

Β· тСстовая коллСкция Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² (Π΄ΠΎΠ»ΠΆΠ½Π° ΠΈΠΌΠ΅Ρ‚ΡŒ Ρ€Π°Π·ΡƒΠΌΠ½Ρ‹ΠΉ Ρ€Π°Π·ΠΌΠ΅Ρ€). НСобходимо ΡƒΡΡ€Π΅Π΄Π½ΡΡ‚ΡŒ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ сильно ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‚ΡΡ Π² Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ ΠΎΡ‚ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΈ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹Ρ… потрСбностСй.

Β· тСстовый Π½Π°Π±ΠΎΡ€ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹Ρ… потрСбностСй, Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½Π½Ρ‹ΠΉ Ρ‡Π΅Ρ€Π΅Π· запросы,

Β· Π½Π°Π±ΠΎΡ€ ΠΎΡ†Π΅Π½ΠΎΠΊ рСлСвантности, ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ это Π΄Π²ΠΎΠΈΡ‡Π½ΠΎΠ΅ ΠΎΠ±ΠΎΠ·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΏΠ°Ρ€Ρ‹ запрос-Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚, ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰Π΅Π΅ Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π΅Π½ Π»ΠΈ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚.

Π Π΅Π»Π΅Π²Π°Π½Ρ‚Π½ΠΎΡΡ‚ΡŒ оцСниваСтся ΠΏΠΎ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡŽ ΠΊ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠΉ потрСбности, Π° Π½Π΅ ΠΊ Π·Π°ΠΏΡ€ΠΎΡΡƒ. Π”ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ являСтся Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹ΠΌ, Ссли ΠΎΠ½ ΠΎΡ‚носится ΠΊ ΡƒΠΊΠ°Π·Π°Π½Π½ΠΎΠΉ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠΉ потрСбности, Π° Π½Π΅ ΠΏΡ€ΠΎΡΡ‚ΠΎ содСрТит всС слова ΠΈΠ· Π·Π°ΠΏΡ€ΠΎΡΠ°.

3.1 ΠžΡ†Π΅Π½ΠΊΠ° Π½Π΅Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… Π½Π°Π±ΠΎΡ€ΠΎΠ² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π° поиска

Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ (P): доля Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΈΠ· Π²ΡΠ΅Ρ… Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹Ρ….

P (Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Π΅|Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹Π΅) =

= #(Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹Π΅ Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Π΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹) / #(Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹Π΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹)

ΠŸΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ‚ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ «ΡΡ‚Π΅ΠΏΠ΅Π½ΡŒ надСТности» систСмы. НС ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°Π΅Ρ‚ ΠΎΠ±Ρ‰Π΅Π΅ количСство Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².

ΠŸΠΎΠ»Π½ΠΎΡ‚Π° ®: доля Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹Ρ… Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΈΠ· Π²ΡΠ΅Ρ… Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Ρ… Π² ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ.

P (Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹Π΅|Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Π΅) =

= #(Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹Π΅ Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Π΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹) / #(Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Π΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹)

ΠŸΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ‚ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ «ΡΡ‚Π΅ΠΏΠ΅Π½ΡŒ ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹» систСмы.

Π’Π°Π±Π»ΠΈΡ†Π° 1. ΠžΠ±ΠΎΠ·Π½Π°Ρ‡Π΅Π½ΠΈΡ мноТСств Π² ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅ΠΌΡ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².

Relevant (Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Π΅)

Non-relevant (Π½Π΅Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Π΅)

Retrieved (Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹Π΅)

true positive (TP) (Π²Π΅Ρ€Π½ΠΎ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅)

false positive (FP) (Π»ΠΎΠΆΠ½ΠΎ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅)

Not retrieved (Π½Π΅Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹Π΅)

false negative (FN) (Π»ΠΎΠΆΠ½ΠΎ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅)

true negative (TN) (Π²Π΅Ρ€Π½ΠΎ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅)

Рисунок 2. ГрафичСскоС прСдставлСниС ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅ΠΌΠΎΠΉ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².

Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ — доля ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹Ρ… классификаций.

Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ Π½Π΅ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΈΡ‚ для использования Π² ΠΊΠΎΠ½Ρ‚СкстС Π˜ΠŸ. Π’ΠΎ ΠΌΠ½ΠΎΠ³ΠΈΡ… случаях Π΄Π°Π½Π½Ρ‹Π΅ ΠΊΡ€Π°ΠΉΠ½Π΅ искаТСны, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, 99,9% Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΡΠ²Π»ΡΡŽΡ‚ΡΡ Π½Π΅Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹ΠΌΠΈ. Π’ ΡΡ‚ΠΎΠΌ случаС систСма, настроСнная Π½Π° ΠΌΠ°ΠΊΡΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΡŽ точности Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΠΎΡ‡Ρ‚ΠΈ всСгда ΠΎΠ±ΡŠΡΠ²Π»ΡΡ‚ΡŒ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ Π½Π΅Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹ΠΌ.

МоТно ΠΏΠΎΠ»ΡƒΡ‡Π°Ρ‚ΡŒ Π²Ρ‹ΡΠΎΠΊΡƒΡŽ ΠΏΠΎΠ»Π½ΠΎΡ‚Ρƒ (Π½ΠΎ Π½ΠΈΠ·ΠΊΡƒΡŽ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ), извлСкая всС Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹ для всСх запросов. ΠŸΠΎΠ»Π½ΠΎΡ‚Π° являСтся Π½Π΅ΡƒΠ±Ρ‹Π²Π°ΡŽΡ‰Π΅ΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠ΅ΠΉ ΠΎΡ‚ ΠΊΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²Π° Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ². Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ ΠΏΠ°Π΄Π°Π΅Ρ‚ (Π² Ρ…ΠΎΡ€ΠΎΡˆΠΈΡ… систСмах). Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ вычислСна Π½Π° Ρ€Π°Π·Π½Ρ‹Ρ… уровнях ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹. ΠŸΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΠΈ, ΠΎΡ€ΠΈΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Π΅ Π½Π° Π²Ρ‹ΡΠΎΠΊΡƒΡŽ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ — Π²Π΅Π±-сСрфСры, Π½Π° Π²Ρ‹ΡΠΎΠΊΡƒΡŽ ΠΏΠΎΠ»Π½ΠΎΡ‚Ρƒ — ΠΏΡ€ΠΎΡ„Π΅ΡΡΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Π΅ исслСдоватСли, ΡŽΡ€ΠΈΡΡ‚Ρ‹, Π°Π½Π°Π»ΠΈΡ‚ΠΈΠΊΠΈ.

F-ΠΌΠ΅Ρ€Π° являСтся ΠΊΠΎΠΌΠ±ΠΈΠ½ΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠΉ ΠΌΠ΅Ρ€ΠΎΠΉ, ΠΎΡ†Π΅Π½ΠΈΠ²Π°ΡŽΡ‰Π΅ΠΉ компромисс ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒΡŽ ΠΈ ΠΏΠΎΠ»Π½ΠΎΡ‚ΠΎΠΉ (взвСшСнноС срСднСС гармоничСскоС):

ΠŸΡ€ΠΈ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΈ Π²<1 Π°ΠΊΡ†Π΅Π½Ρ‚ дСлаСтся Π½Π° Ρ‚очности, ΠΏΡ€ΠΈ Π²>1 — Π½Π° ΠΏΠΎΠ»Π½ΠΎΡ‚Π΅.

ΠžΠ±Ρ‹Ρ‡Π½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ сбалансированная F-ΠΌΠ΅Ρ€Π°, Ρ‚. Π΅. Π²=1 ΠΈΠ»ΠΈ Π±=Π…

Когда значСния Π΄Π²ΡƒΡ… чисСл ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‚ΡΡ, срСднСС гармоничСскоС Π±Π»ΠΈΠΆΠ΅ ΠΊ ΠΈΡ… ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΡƒ, Ρ‡Π΅ΠΌ срСднСС арифмСтичСскоС ΠΈΠ»ΠΈ гСомСтричСскоС. НапримСр, Ссли 1 ΠΈΠ· 10 000 Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π΅Π½, ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ ΠΏΠΎΠ»ΡƒΡ‡Π°Ρ‚ΡŒ 100% ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹, извлСкая всС Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹. Π‘Ρ€Π΅Π΄Π½Π΅Π΅ арифмСтичСскоС Π±ΡƒΠ΄Π΅Ρ‚ 50%, Π° Π³Π°Ρ€ΠΌΠΎΠ½ΠΈΡ‡Π΅ΡΠΊΠΎΠ΅ — 0,02%.

ΠŸΠΎΠ»Π½ΠΎΡ‚Π°, Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΈ F-ΠΌΠ΅Ρ€Π° ΡΠ²Π»ΡΡŽΡ‚ΡΡ ΠΌΠ΅Ρ€Π°ΠΌΠΈ, основанными Π½Π° ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²Π°Ρ… (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, нСупорядочСнный Π½Π°Π±ΠΎΡ€ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²). Π’ Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… поисковых систСмах значСния P ΠΈ R ΡΠ²ΡΠ·Π°Π½Ρ‹ с ΠΏΠΎΠ·ΠΈΡ†ΠΈΠ΅ΠΉ Π² Ρ€Π΅ΠΉΡ‚ΠΈΠ½Π³Π΅. ΠžΡ†Π΅Π½ΠΊΠ° производится ΠΏΡƒΡ‚Π΅ΠΌ вычислСния точности, ΠΊΠ°ΠΊ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ΠΎΡ‚ ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹. Если (k+1)-Ρ‹ΠΉ Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹ΠΉ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π΅Π½, Ρ‚ΠΎ R (k+1) > R (k), Π° P (k+1) > P (k). Если (k+1)-Ρ‹ΠΉ Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹ΠΉ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ Π½Π΅Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π΅Π½, Ρ‚ΠΎ R (k+1) = R (k), Π½ΠΎ P (k+1) < P (k). Π§Ρ‚ΠΎΠ±Ρ‹ ΡƒΠ΄Π°Π»ΠΈΡ‚ΡŒ колСбания, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ интСрполированная Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ.

ΠžΠ΄ΠΈΠ½Π½Π°Π΄Ρ†Π°Ρ‚ΠΈΡ‚ΠΎΡ‡Π΅Ρ‡Π½Π°Ρ интСрполированная срСдняя Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ (11-point interpolated average precision). Π˜Π·ΠΌΠ΅Ρ€ΡΠ΅Ρ‚ΡΡ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ Π½Π° 11 уровнях ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹ {0.0, 0.1, 0.2,…, 1.0}, Π·Π°Ρ‚Π΅ΠΌ рассчитываСтся срСднСС арифмСтичСскоС уровня точности.

Π§Ρ‚ΠΎΠ±Ρ‹ Π½Π°ΠΉΡ‚ΠΈ срСднСС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ срСднСй точности (mean average precision (MAP)), вычисляСтся срСдняя Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ (AP) для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ запроса. Π—Π°Ρ‚Π΅ΠΌ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ срСднСй точности получаСтся для Π½Π°Π±ΠΎΡ€Π° ΠΈΠ· ΠΏΠ΅Ρ€Π²Ρ‹Ρ… k Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², ΠΈΠΌΠ΅ΡŽΡ‰ΠΈΡ…ΡΡ послС ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ нахоТдСния Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½ΠΎΠ³ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°. MAP = срСднСС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ AP мноТСства ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹Ρ… потрСбностСй.

— Π·Π°ΠΏΡ€ΠΎΡ?

— Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹, Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Π΅ запросу

— Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ ΠΏΠ΅Ρ€Π²Ρ‹Ρ… k Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹Ρ… Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ².

Для ΠΎΠ΄Π½ΠΎΠΉ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠΉ потрСбности AP связана с ΠΏΠ»ΠΎΡ‰Π°Π΄ΡŒΡŽ ΠΏΠΎΠ΄ Π½Π΅ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΠΎΠ»ΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠΉ ΠΊΡ€ΠΈΠ²ΠΎΠΉ точности/ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹. ΠŸΡ€ΠΈΠΌΠ΅Ρ€:

РасчСт точности для k. ЀиксируСтся k — количСство ΠΈΠ·Π²Π»Π΅ΠΊΠ°Π΅ΠΌΡ‹Ρ… Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ², Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€ k=10. ВычисляСтся Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ для ΠΏΠ΅Ρ€Π²Ρ‹Ρ… k ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ². Достоинство: Π½Π΅ Ρ‚рСбуСтся мноТСства Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² (ΠΏΠΎΠ»Π΅Π·Π½ΠΎ для Π²Π΅Π±-поиска). НСдостаток: ΠΎΠ±Ρ‰Π΅Π΅ количСство Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² сильно влияСт Π½Π° Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ для k. НапримСр, Ссли количСство Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² Ρ€Π°Π²Π½ΠΎ 8, Ρ‚ΠΎ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ для 20 Π±ΡƒΠ΄Π΅Ρ‚ Π½Π΅ Π±ΠΎΠ»Π΅Π΅ 0,4.

R-Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ. Для извСстного Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½ΠΎΠ³ΠΎ мноТСства Ρ€Π°Π·ΠΌΠ΅Ρ€Π° Rel вычисляСтся количСство Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² r ΡΡ€Π΅Π΄ΠΈ ΠΏΠ΅Ρ€Π²Ρ‹Ρ… Rel Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ² поиска. Достоинство: идСальная систСма достигаСт R-Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ = 1,0. НСдостаток: рассматриваСтся Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠ΄Π½Π° Ρ‚ΠΎΡ‡ΠΊΠ° Π½Π° ΠΊΡ€ΠΈΠ²ΠΎΠΉ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ/ΠΏΠΎΠ»Π½ΠΎΡ‚Π°.

ΠžΠΏΠ΅Ρ€Π°Ρ†ΠΈΠΎΠ½Π½Π°Ρ характСристика ΠΏΡ€ΠΈΠ΅ΠΌΠ½ΠΈΠΊΠ° (receiver operating characteristic). ROC-кривая ΠΎΡ‚ΠΎΠ±Ρ€Π°ΠΆΠ°Π΅Ρ‚ Π³Ρ€Π°Ρ„ΠΈΠΊ зависимости Π΄ΠΎΠ»ΠΈ Π²Π΅Ρ€Π½ΠΎ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… классификаций (Ρ‡ΡƒΠ²ΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ) ΠΎΡ‚ Π΄ΠΎΠ»ΠΈ Π»ΠΎΠΆΠ½ΠΎ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… классификаций (1 — ΡΠΏΠ΅Ρ†ΠΈΡ„ΠΈΡ‡Π½ΠΎΡΡ‚ΡŒ).

Доля TP = Ρ‡ΡƒΠ²ΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ = ΠΏΠΎΠ»Π½ΠΎΡ‚Π° = TP / (TP + FN)

Доля FP = 1 — ΡΠΏΠ΅Ρ†ΠΈΡ„ΠΈΡ‡Π½ΠΎΡΡ‚ΡŒ = FP / (FP + TN)

4. РСализация Π²Π΅ΠΊΡ‚ΠΎΡ€Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π² ΡΡ€Π΅Π΄Π΅ Matlab

Π’Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅:

Β· terms — мноТСство Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ²;

Β· docs — мноТСство Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²;

Β· freq — Ρ‚Π°Π±Π»ΠΈΡ†Π° частот Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ².

Π’Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅:

Β· answer_euc — Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ список ΠΏΡ€ΠΈ использовании Π΅Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²ΠΎΠΉ ΠΌΠ΅Ρ€Ρ‹;

Β· answer_cos — Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ список ΠΏΡ€ΠΈ использовании косинусной ΠΌΠ΅Ρ€Ρ‹.

4.1 Ѐункция расчСта Π΅Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²ΠΎΠΉ ΠΌΠ΅Ρ€Ρ‹

function SC = euclideanSM (q, d)

SC = 1/(1+norm (q-d));

4.2 Ѐункция расчСта косинусной ΠΌΠ΅Ρ€Ρ‹

function SC = cosineSM (q, d)

SC = q'*d/(norm (q)*norm (d));

4.3 РасчСт Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… списков Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²

% РасчСт вСсов Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²

N = size (docs, 1); % ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²

M = size (terms, 1); % ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ²

% Частота Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ…

tf = 1 + log (freq);

tf (freq == 0) = 0;

df = zeros (M, 1);

for i = 1: M

df (i) = sum (freq (i:) > 0);

end

idf = log (N./df);

W = zeros (M, N);

for i = 1: M

for j = 1: N

W (i, j) = tf (i, j)*idf (i);

end

end

% Запрос

q = [1;0;0;1]; % РСализация запроса Π² ΡΠ»ΡƒΡ‡Π°Π΅ Ρ‡Π΅Ρ‚Ρ‹Ρ€Π΅Ρ… Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ²

% Нормализация Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ²

for j = 1: N

W (, j) = W (, j)/norm (W (, j));

end

q = q/norm (q);

score_euc = zeros (1,N);

score_cos = zeros (1,N);

for j = 1: N

score_euc (j) = euclideanSM (q, W (, j));

score_cos (j) = cosineSM (q, W (, j));

end

% ВычислСниС Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠ³ΠΎ списка Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²

[ranked_score_euc, i_euc] = sort (score_euc,'descend');

[ranked_score_cos, i_cos] = sort (score_cos,'descend');

% РасчСты для Π²Ρ‹Π²ΠΎΠ΄Π° Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ²

answer_euc = cell (N, 2);

answer_cos = cell (N, 2);

for j = 1: N

%answer_euc{j, 1} = docs{i_euc (j)}; % Π’Ρ‹Π²ΠΎΠ΄ названия Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°

answer_euc{j, 1} = i_euc (j); % Π’Ρ‹Π²ΠΎΠ΄ порядкового Π½ΠΎΠΌΠ΅Ρ€Π° Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°

answer_euc{j, 2} = ranked_score_euc (j);

%answer_cos{j, 1} = docs{i_cos (j)};

answer_cos{j, 1} = i_cos (j);

answer_cos{j, 2} = ranked_score_cos (j);

end

% Π’Ρ‹Π²ΠΎΠ΄ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ²

disp ('Π•Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²Π° ΠΌΠ΅Ρ€Π°:');

answer_euc

disp ('ΠšΠΎΡΠΈΠ½ΡƒΡΠ½Π°Ρ ΠΌΠ΅Ρ€Π°:');

answer_cos

5. РСализация ΠΎΡ†Π΅Π½ΠΎΠΊ качСства поиска Π² ΡΡ€Π΅Π΄Π΅ Matlab

5.1 РасчСт точности, ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹ ΠΈ F-ΠΌΠ΅Ρ€Ρ‹ Π² Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ ΠΎΡ‚ Ρ‡ΠΈΡΠ»Π° Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²

Π’Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅:

Β· список Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²;

Β· relevance — массив, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½ΠΎΡΡ‚ΡŒ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° запросу;

Π’Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅:

Β· precision — массив точности для фиксированного числа ΠΏΠ΅Ρ€Π²Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²;

Β· recall — массив ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹ для фиксированного числа ΠΏΠ΅Ρ€Π²Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²;

Β· f_measure_A — F-ΠΌΠ΅Ρ€Π° для ΠΏΠ΅Ρ€Π²Ρ‹Ρ… 20 Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²;

Β· f_measure_B — F-ΠΌΠ΅Ρ€Π° для ΠΏΠ΅Ρ€Π²Ρ‹Ρ… 50 Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².

5.2 Листинг ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹

numTot = length (relevance);

numStep = round (numTot/10);

precision = zeros (numStep, 1);

recall = zeros (numStep, 1);

numRet = 10:10:numTot;

% РасчСт точности ΠΈ ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹ для фиксированного числа ΠΏΠ΅Ρ€Π²Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²

for j = 1: numStep

TP = 0;

FP = 0;

TN = 0;

FN = 0;

for i = 1: numRet (j)

if relevance (i) == 1

TP = TP + 1;

else

FP = FP + 1;

end

end

for i = numRet (j)+1:numTot

if relevance (i) == 1

FN = FN + 1;

else

TN = TN + 1;

end

end

precision (j) = TP / (TP + FP); % РасчСт точности

recall (j) = TP / (TP + FN); % РасчСт ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹

end

% Π’Ρ‹Π²ΠΎΠ΄ Π³Ρ€Π°Ρ„ΠΈΠΊΠΎΠ² точности ΠΈ ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹

figure

plot (numRet, recall,'b'), hold on, plot (numRet, precision,'r'), hold off

legend ('ΠΏΠΎΠ»Π½ΠΎΡ‚Π°','Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ');

xlabel ('ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²');

% РасчСт F-ΠΌΠ΅Ρ€Ρ‹ для ΠΏΠ΅Ρ€Π²Ρ‹Ρ… 20 ΠΈ 50 Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²

% Π‘Π΅Ρ‚Π° измСняСтся Π² Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½Π΅ [0;5]

beta = 0:0.01:5;

f_measure_A = (beta.^2 + 1)*precision (2)*recall (2)./(precision (2)*beta.^2 + recall (2));

f_measure_B = (beta.^2 + 1)*precision (5)*recall (5)./(precision (5)*beta.^2 + recall (5));

% Π’Ρ‹Π²ΠΎΠ΄ Π³Ρ€Π°Ρ„ΠΈΠΊΠΎΠ² F-ΠΌΠ΅Ρ€

figure

plot (beta, f_measure_A,'b'), hold on, plot (beta, f_measure_B,'r'), hold off

legend ('F-ΠΌΠ΅Ρ€Π° A','F-ΠΌΠ΅Ρ€Π° B');

xlabel ('Beta');

6. РасчСт ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΠΎΠ»ΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠΉ срСднСй точности, ROC-ΠΊΡ€ΠΈΠ²ΠΎΠΉ ΠΈ Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΠΈ точности ΠΎΡ‚ ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹

Π’Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅:

Β· список Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²;

Β· relevance — массив, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½ΠΎΡΡ‚ΡŒ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° запросу;

Π’Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅:

Β· precision — массив точности для фиксированного числа ΠΏΠ΅Ρ€Π²Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²;

Β· recall — массив ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹ для фиксированного числа ΠΏΠ΅Ρ€Π²Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²;

Β· precisionI — интСрполированная Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ;

Β· IAP11 — 11 Ρ‚ΠΎΡ‡Π΅ΠΊ ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΠΎΠ»ΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠΉ срСднСй точности;

Β· fp_rate — доля Π½Π΅Π²Π΅Ρ€Π½ΠΎ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ…;

Β· tp_rate — доля Π²Π΅Ρ€Π½ΠΎ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ….

6.1 Ѐункция для расчСта Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ ΠΊΡ€ΠΈΠ²ΠΎΠΉ точности Π² Π·Π°Π΄Π°Π½Π½Ρ‹Ρ… Ρ‚ΠΎΡ‡ΠΊΠ°Ρ…

function i = nearestPoint (v, n)

x = find (v >= n);

i = x (1);

end

6.2 Листинг ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹

numTot = length (relevance);

precision = zeros (numTot, 1);

precisionI = zeros (numTot, 1);

recall = zeros (numTot, 1);

fp_rate = zeros (numTot, 1);

for numRet = 1: numTot

TP = 0;

FP = 0;

TN = 0;

FN = 0;

for i = 1: numRet

if relevance (i) == 1

TP = TP + 1;

else

FP = FP + 1;

end

end

for i = numRet+1:numTot

if relevance (i) == 1

FN = FN + 1;

else

TN = TN + 1;

end

end

precision (numRet) = TP / (TP + FP);

recall (numRet) = TP / (TP + FN);

% РасчСт Π΄ΠΎΠ»ΠΈ Π»ΠΎΠΆΠ½ΠΎ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²

fp_rate (numRet) = FP / (FP + TN);

end

% РасчСт ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΠΎΠ»ΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠΉ точности

precisionI (end) = precision (end);

for i = numTot-1:-1:1

precisionI (i) = max (precision (i), precisionI (i+1));

end

% РасчСт 11 Ρ‚ΠΎΡ‡Π΅ΠΊ ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΠΎΠ»ΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠΉ срСднСй точности

IAP11 = zeros (11,1);

for i = 1:11

IAP11(i) = precisionI (nearestPoint (recall, 0.1*(i-1)));

end

% Π’Ρ‹Π²ΠΎΠ΄ Π³Ρ€Π°Ρ„ΠΈΠΊΠ° зависимости точности ΠΎΡ‚ ΠΏΠΎΠ»Π½ΠΎΡ‚Ρ‹

figure

plot (recall, precision,'b'), hold on, plot (recall, precisionI,'r')

plot (0:0.1:1,IAP11,'ok'), hold off

ylabel ('Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ')

xlabel ('ΠΏΠΎΠ»Π½ΠΎΡ‚Π°')

legend ('нСинтСрполированная','интСрполированная','IAP_{11}')

% ROC-кривая

tp_rate = recall;

figure

plot (fp_rate, tp_rate,'b')

ylabel ('TP_{доля}')

xlabel ('FP_{доля}')

title ('ROC')

7. РасчСт срСднСго значСния срСднСй точности

Π’Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅:

Β· Q ΡΠΏΠΈΡΠΊΠΎΠ² Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² для (ΠΏΠΎ ΠΎΠ΄Π½ΠΎΠΌΡƒ для запроса);

Β· relevance — Q-ΠΌΠ΅Ρ€Π½Ρ‹ΠΉ массив, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½ΠΎΡΡ‚ΡŒ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° запросу;

Π’Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅:

Β· precision — массив точности для фиксированного числа ΠΏΠ΅Ρ€Π²Ρ‹Ρ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²;

Β· AP — массив срСдних точностСй для запросов;

Β· MAP — срСднСС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ срСднСй точности.

7.1 Листинг ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹

[numTot, Q] = size (relevance);

m = zeros (Q, 1);

AP = zeros (Q, 1);

for j = 1: Q

m (j) = sum (relevance (, j));

precision = zeros (m (j), 1);

index = 0;

TP = 0;

FP = 0;

i = 1;

while index < m (j)

if relevance (i, j) == 1

TP = TP + 1;

index = index + 1;

precision (index) = TP / (TP + FP);

else

FP = FP + 1;

end

i = i + 1;

end

% РасчСт срСднСй точности

AP (j) = mean (precision);

end

% РасчСт срСднСго значСния срСднСй точности

MAP = mean (AP)

Π’Ρ‹Π²ΠΎΠ΄Ρ‹

Π’ΠΎ Π²Ρ€Π΅ΠΌΡ прохоТдСния производствСнной ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠΈ:

Β· ΠΈΠ·ΡƒΡ‡Π΅Π½Ρ‹ основныС ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ†ΠΈΠΈ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ поиска;

Β· рассмотрСны Π±Π°Π·ΠΎΠ²Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ поиска ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ, Π²Ρ‹Π΄Π΅Π»Π΅Π½Ρ‹ ΠΈΡ… ΠΎΡΠ½ΠΎΠ²Π½Ρ‹Π΅ прСимущСства ΠΈ Π½Π΅Π΄ΠΎΡΡ‚Π°Ρ‚ΠΊΠΈ, соотвСтствСнно ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ ΠΌΠΎΠΆΠ½ΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΊΠ°ΠΊΠΈΡ… Π·Π°Π΄Π°Ρ‡ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ… Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π²Ρ‹Π³ΠΎΠ΄Π½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Ρ‚Ρƒ ΠΈΠ»ΠΈ ΠΈΠ½ΡƒΡŽ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΡƒΡŽ модСль;

Β· рассмотрСны ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ ΠΎΡ†Π΅Π½ΠΊΠΈ качСства поиска ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ, ΠΏΠΎΠΊΠ°Π·Π°Π½Ρ‹ основныС случаи ΠΈΡ… ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΡ;

Β· ΠΏΡ€ΠΈΠΎΠ±Ρ€Π΅Ρ‚Π΅Π½Ρ‹ практичСскиС Π½Π°Π²Ρ‹ΠΊΠΈ ΠΏΠΎ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΈΠ·ΡƒΡ‡Π΅Π½Π½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² Π² ΡΡ€Π΅Π΄Π΅ Matlab.

Бписок ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΠΎΠΉ Π»ΠΈΡ‚Π΅Ρ€Π°Ρ‚ΡƒΡ€Ρ‹

Β· R. Baeza-Yates, B. Ribeiro-Nieto, «Modern Information Retrieval», 1999

Β· C.D. Manning, P. Raghavan and H. Schutze, «Introduction to Information Retrieval», Cambridge University Press. 2008

ΠŸΠΎΠΊΠ°Π·Π°Ρ‚ΡŒ вСсь тСкст
Π—Π°ΠΏΠΎΠ»Π½ΠΈΡ‚ΡŒ Ρ„ΠΎΡ€ΠΌΡƒ Ρ‚Π΅ΠΊΡƒΡ‰Π΅ΠΉ Ρ€Π°Π±ΠΎΡ‚ΠΎΠΉ