Разработка математического обеспечения оценки схожести WEB-документов на основе структурно-семантического разбиения
Диссертация
Актуальность работы. Экспоненциальный рост объемов информации, наблюдающийся в последние годы, обуславливает бурное развитие различных методов информационного поиска, под которым понимается выявление в некотором множестве документов, удовлетворяющих заранее определенному условию поиска. Необходимость поиска нужной информации в гигантских массивах данных вызывает потребность в поисковых машинах… Читать ещё >
Список литературы
- Агеев М., Куралепок И., Некрестьянов И. Официальные метрики ромип 2006. — 2006. http://romip.narod.ru/romip2006/appendixametrics. pdf.
- Агеев M., Вершинников И., Доброе Б. Извлечение значимой информации из web-страниц для задач информационного поиска // Материалы конференции Интернет-Математика 2005. — 2005.
- Бодякин В. И., Чистяков А. А. Ассоциативные информационные структуры и модели памяти. — 2004.
- Боровков А. А. Математическая статистика. — М.: Наука, 1984. — С. 472.
- Вятченин Д. А. Нечеткие методы автоматической классификации.— УП Технопринт, 2004.
- Гаршин Д. Моделирование и выбор оптимальных технологических цепочек на базе территориально-распределенных производственных систем // дисс. к.т.н. — 2007.
- Губин М. Модели и методы представления текстового документа в системах информационного поиска // дисс. к.ф.-м.н. — 2005.
- Емельянов В. В., Курейчик В. В., Курейчик В. М. Теория и практика эволюционного моделирования. — М.: Физматлит, 2003.— С. 432.
- Зеленков Ю., Сегалович И. Сравнительный анализ методов определения нечетких дубликатов для web-документов // Труды 9ой Всероссийской научной конференции Электронные библиотеки: перспективные методы и технологии, электронные коллекции. — 2007.
- Кириченко К., Герасимов М. Обзор методов кластеризации текстовых документов // Материалы международной конференции Диалог2001. — 2001. http://www.dialog-21.ru/Archive/2001/volume2/226.htm.
- Кнут Д. Искусство программирования, том 1. Основные алгоритмы.— Вильяме, 2006.
- Косинов Д. Методы формирования информационных запросов к поисковой системе // Современные проблемы прикладной математики и математического моделирования: Материалы конференции. — Воронеж: ВГ-ТА, 2005. С. 123.
- Косинов Д. Особенности поиска обсуждений в информационно-поисковых системах // Информатика: проблемы, методология, технологии: материалы 6-ой регион, науч.-метод. конф.— Воронеж: ВГУ, 2006. С. 203−206.
- Косинов Д. Эффективные методы выявления документов-дубликатов // Кибернетика и высокие технологии 21 века: 7 Международ, науч.-техн. конф., 16−18 мая 2006 г. Т. 2. — Воронеж: 2006. — С. 686−690.
- Косинов Д. Использование статистической информации при выявлении схожих документов // Интернет-математика 2007: сб. работ участников конкурса науч. проектов по информ. поиску.— Екатеринбург: 2007.— С. 84−90.
- Косинов Д. Некоторые методы уточнения сходства документов в интернет-поиске // Информатика: проблемы, методология, технологии: материалы 7-ой регион, науч.-метод. конф., 8−9 февр. 2007 г. — Воронеж: ВГУ, 2007. С. 205−207.
- Косинов Д. Локальные параметры текстов и проблема определения почти-дубликатов // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. — Т. 1. — 2008. С. 83−85.
- Косипов Д., Тюкачев Н. Выделение логических блоков из web-страниц // Вестник Воронежского государственного технического университета. 2008. — Т. 4, № 4. — С. 97−101.
- Левенштейн В. Двоичные коды с исправлением выпадений, вставок и замещений символов // Доклады Академий Наук СССР 163.4:845−848. — 1965.
- Леоненков А. В. Нечеткое моделирование в среде MATLAB и fuzzyTECH.- Спб.: БХВ-Петербург, 2005.
- Мелихов А. Н., Верштейн Л. С., Коровин С. Я. Ситуационные советующие системы с нечеткой логикой. — М.: Наука Физматлит, 1990.
- Митюшкин Ю. ИМокин Б, И., Ротштейн A. Soft Computing: идентификация закономерностей нечёткими базами знаний. — Винница: УШВЕРСУМ-Вшниця, 2002.
- Некрестьянов И. Тематико-ориентированные методы информационного поиска // дисс. к.т.н, — 2000.
- Некрестъянов И., Павлова Е. Обнаружение структурного подобия html-документов // Труды четвертой всероссийской конференция RCDL'2002, том 2, стр. 38−54, Дубна, Россия, 2002. — 2002.
- Непомнящий П., Юрин Д. Построение иерархического дерева детальности изображения через поиск минимальных разрезов графа // Труды 13-ой Международной Конференции по Графике и Компьютерному Зрению. — 2003.
- Нечеткие гибридные системы. Теория и практика / И. 3. Батырщин, А. О. Недосекин, А. А. Стецко и др. — М.: Физматлит, 2007. — С. 208.
- Обзор автоматических детекторов плагиата в программах / Ю. Лифшиц, Д. Антипов, О. Ефтифеева и др. — 2006. http://detector.spb.su/pub/ Sandbox/ReviewAlgorithms/survey.pdf.
- Сабанин В. Р., Смирнов Н. И., Репин А. И. Модифицированный генетический алгоритм для задач оптимизации в управлении // Exponenta Pro. Математика в прилоэюениях. — 2004. — № 3−4.
- Солодухин А. Классификация текстов’на основе приближенных оценок вероятностей классов // Вестник ВГУ. Серия: Системный анализ и информационные технологии. — 2006.
- Тарасова А. Модификация алгоритма кластеризации с-средних на основе использования объемных прототипов и слияния схожих кластеров // Вестник ВГУ. Серия: Системный анализ и информационные технологии. — 2006.
- Устенко А. С. Основы математического моделирования и алгоритмизации. — М., 2000.
- Цыганов Н., Циканин М. Исследование методов поиска дубликатов веб-документов с учетом запроса пользователя // Интернет-математика 2007: сб. работ участников конкурса науч. проектов по информ. поиску. Екатеринбург: 2007. — С. 211−222.
- Штовба С. Д. Введение в теорию нечетких множеств и нечеткую логику. 2003.
- Эффективный способ обнаружения дубликатов web документов с использованием инвертированного индекса / С. Ильинский, М. Кузьмин, А. Мелков, И. Сегалович. — 2004. http://webmastera.org/files/File/ secur/FindClonDoc.pdf.
- Ярушкина Н. Г. Нечеткие нейронные сети в когнитивном моделировании и традиционных задачах искуственного интеллекта. — 2005.
- Baeza-Yates R. A., Ribeiro-Neto В. A. Modern Information Retrieval.— ACM Press / Addison-Wesley, 1999. http://citeseer.ist.psu.edu/ baeza-yates99modern.html.
- Bar-Yossef Z., Rajagopalan S. Template detection via data mining and its applications // WWW '02: Proceedings of the 11th international conference on World Wide Web. New York, NY, USA: ACM, 2002. — Pp. 580−591.
- Bayardo R. J., Ma Y., Srikant R. Scaling up all pairs similarity search // WWW '07: Proceedings of the 16th international conference on World Wide Web. New York, NY, USA: ACM, 2007, — Pp. 131−140.
- Brin S., Davis J., Garcia-Molina H. Copy detection mechanisms for digital documents // SIGMOD '95: Proceedings of the 1995 ACM SIGMOD international conference on Management of data. — New York, NY, USA: ACM Press, 1995. Pp. 398−409.
- Chakrabarti S. Mining the Web: Discovering Knowledge from Hypertext Data. — Morgan-Kauffman, 2002. http://www.cse.iitb.ac.in/~soumen/ mining-the-web/.
- Collection statistics for fast duplicate document detection / A. Chowdhury, O. Frieder, D. Grossman, M. C. McCabe // ACM Trans. Inf. Syst. — 2002. -Vol. 20, no. 2.-Pp. 171−191.
- Crovella M. E., Taqqu M. S., Bestavros A. Heavy-tailed probability distributions in the world wide web. — 1998. — Pp. 3−25.
- Dom-based content extraction of html documents // WWW '03: Proceedings of the 12th international conference on World Wide Web. — New York, NY, USA: ACM, 2003. Pp. 207−214.
- Dugas R. Www unplugged: An html to wml transcoding proxy. — 2003.
- Efficient retrieval of partial documents // TREC-2: Proceedings of the second conference on Text retrieval conference.— Elmsford, NY, USA: Pergamon Press, Inc., 1995. Pp. 361−377.
- Fetterly D., Manasse M., Najork M. the evolution of clusters of near-duplicate web pages.— 2003. http://citeseer.ist.psu.edu/ fetterly03evolution.html.
- Fuller M., Zobel J. Conflation-based comparison of stemming algorithms // Proc. of the Third Australian Document Computing Symposium, Sydney, Australia.— 1998. http://citeseer.ist.psu.edu/ fuller98conflationbased.html.
- Graves S. Automatic extraction of generic web page components, http: // stp.ling.uu.se/exarb/arch/2004graves.pdf.
- Gupta S. Context-based content extraction of html documents: Ph.D. thesis. New York, NY, USA: Columbia University, 2006. — Adviser-Gail E. Kaiser.
- Haas S. W., Grams E. S. Readers, authors, and page structure: A discussion of four questions arising from a content analysis of web pages / / J A SIS. — 2000. Vol. 51, no. 2. — Pp. 181−192.
- Harman D. What we have learned, and not learned, from tree // In: BCS IRSG '2000 Proceedings, 2000, pp 2−20 http://irsg.eu.org/irsg2000online/papers/harman.htm. — 2000.
- Heintze N. Scalable document fingerprinting // 1996 USENIX Workshop on Electronic Commerce. — 1996. — November, http: //citeseer. ist. psu. edu/heintze96scalable.html.
- Hoad T., Zobel J. Methods for identifying versioned and plagiarised documents // Journal of the American Society of Information Science and Technology. 2003. — Vol. 54, no. 3. — Pp. 203−215.
- Hodge V. J., Austin J. An evaluation of phonetic spell checkers, http:// citeseer.ist.psu.edu/463 597.html.
- Holland J. H. Adaptation in Natural and Artificial Systems: An Introductory Analysis with Applications to Biology, Control and Artificial Intelligence. — Cambridge, MA, USA: MIT Press, 1992.
- Jain A. K., Murty M. N., Flynn P. J. Data clustering: a review // ACM Computing Surveys. 1999. — Vol. 31, no. 3. — Pp. 264−323.
- Lin D. An information-theoretic definition of similarity // ICML '98: Proceedings of the Fifteenth International Conference on Machine Learning. — San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1998.— Pp. 296−304.
- Manber U. Finding similar files in a large, file system // WTEC'94: Proceedings of the USENIX Winter 1994 Technical Conference on USENIX Winter 1994 Technical Conference. — Berkeley, CA, USA: USENIX Association, 1994. Pp. 2−2.
- Mifflin H. The psycho-biology of language. — 1935.
- Mooers C. Application of Random Codes to the Gathering of Statistical Information: Ph.D. thesis. — .Cambridge: MIT, 1948.
- Pivoted document length normalization: Tech. rep. / A. Singhal, C. Buckley, M. Mitra, G. Salton. Ithaca, NY, USA: 1995.
- Ponte J. M., Croft W. B. Text segmentation by topic // European Conference on Digital Libraries. — 1997. — Pp. 113−125.
- Porter M. F. An algorithm for suffix stripping. 1997. — Pp. 313−316.
- Purpura S., Hillard D. Automated classification of congressional legislation // dg. o '06: Proceedings of the 2006 international conference on Digital government research. New York, NY, USA: ACM, 2006. — Pp. 219−225.
- Salton G., Allan J., Singhal A. Automatic text decomposition and structuring // Information Processing and Management — 1996. — Vol. 32, no. 2.— Pp. 127−138. http://citeseer.ist.psu.edu/article/ salton94automatic.html.
- Salton G., Wong A., Yang C. S. A vector space model for automatic indexing // Commun. A CM. 1975. — Vol. 18, no. 11. — Pp. 613−620.
- Shaozhi Ye Ruihua Song. Ji-Rong Wen W.-Y. M. A query-dependent duplicate detection approach for large scale search engines // APWeb. — 2004. — Pp. 48−58.
- Syntactic clustering of the web // Selected papers from the sixth international conference on World Wide Web. — Essex, UK: Elsevier Science Publishers Ltd., 1997.-Pp. 1157−1166.
- S. Park D.M. Pennock R. K. Analysis of lexical signatures for finding lost or related documents // Proceedings of the 25th annual international ACM125
- SIGIR conference on Research and development in information retrieval. — 2002.-Pp. 11−18.
- Tree-Report W. Web document retrieval using passage retrieval, connectivity information, and automatic link, http://citeseer.ist.psu.edu/673 713. html.
- Van Rijsbergen C. J. Information Retrieval, 2nd edition. — Dept. of Computer Science, University of Glasgow, 1979. http://citeseer.ist.psu.edu/ vanrij sbergen79information.html.
- W3C. Document object model (dom) level 2 html specification, http: //www. w3.org/TR/D0M-Level-2-HTML/.
- W. Pugh M. H. Detecting duplicate and near-duplicate files / / United States Patent 6 658 423 (December 2, 2003). 2003.
- Ye S., Wen J.-R., Ma W.-Y. A systematic study of parameter correlations in large scale duplicate document detection // PAKDD. — 2006. — Pp. 275−284.
- Zobel J., Bernstein Y. The case of the duplicate documents: Measurement, search, and science // Proceedings of the APWeb Asia Pacific Web Conference / Ed. by X. Zhao, J. Li, H. Shen et al. — China: 2006. Pp. 26−39. — LNCS 3841.