Разработка и исследование метода классификации библиографической текстовой информации
Диссертация
Для автоматизации процесса отслеживания и обработки публикаций на Internet-сайтах, увеличения его эффективности необходимо применение методов интеллектуального анализа и обработки текстовой информации (Text Mining). Одним из важных и наиболее эффективных направлений обработки и анализа текстовой информации является классификация. Классификация текстовой информации заключается в разбиении набора… Читать ещё >
Список литературы
- A. Akkus, Н.А. Guvenir. к Nearest Neighbour Classification on Feature Projections. 1. Proceedings of SDAIR-94, 3rd annual symposium on Document Analysis and Information Retrieval, 1994, pp.126−138.
- C. Chang. Finding Prototypes for Nearest Neighbour Classifiers. IEEE.: IEEE Transactions on Computers, Volume C-23, Number 11, 1974, pp. 11 791 184
- C. Papadimitriou, J.L. Bently. A Worst-Case Analysis of Nearest Neighbor Searching by Projection. Automata Languages and Programming, Volume 85, 1980, pp. 470−482.
- D. Lewis, M. Ringuette. A Comparison of Two Learning Algorithms for Text Categorization. In Proceedings of SDAIR-94 3rd Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, 1994, pp. 81−93
- D. Wettschereck. A Hybrid Nearest-Neighbour and Nearest-Hyperrectangle Algorithm. Machine Learning, 9, 1995, pp.5−28.
- E. Han, G. Karypis, V. Kumar. Text Categorization Using Weight Adjusted k-Nearest Neighbour Classification. Proceedings of PAKDD-01, 5th Pacific-Asia Conference on Knowledge Discovery and Data Mining (Hong Kong, CN, 2001), pp. 53−65.
- E. Han, G. Karypis. Centroid-Based Document Classification: Analysis and Experimental Results. University of Minnesota, Minneapolis, Technical report: #00−017, 2000, pp. 1−15.
- E. Wiener, J.O. Pedersen, A.S. Weigend. A neural network approach to topic sorting. In Proceedings of SDAIR-95, 4th annual symposium on Document Analysis and Information Retrieval, 1995, pp.317−332.
- F. Sebastiani. A Tutorial on Automated Text Categorization. In A. Amandi and
- R. Zunino Eds., Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intelligence (Buenos Aires, AR, 1999), pp. 7−35.
- G.L. Ritter, H.B. Woodruff, S.R. Lowiy, T.L. Isenhour. An Algorithm for a Selective Nearest Neighbour Decision Rule. IEEE. IEEE Transactions on Information Theory, volume IT-21, Number 6, 1975, pp. 665−669.
- H. Neimann, R. Goppert. An Efficient branch-and-bound nearest neighbour classifier. Pattern Recognition Letters, Volume 7, 1988, pp. 67−72.
- K. Aas, L. Eikvil. Text Categorisation: A Survey. Technical report, Norwegian Computer Center, 1999.
- M.A. Wani. SAFARI: A Structured Approach for Automatic Rule Induction. IEEE. IEEE Transactions on Systems, Man and Cybernetics. Volume 31, Number 4, 2001, pp 650−657.
- S. Berchtold, B. Ertl, D. Keim, H.P. Kriegel, T. Seidl. Fast Nearest Neighbour Search in High-dimensional Space. In Proceedings of 14th conference on data engineering, 1998, pp.121−130
- T. Joachims. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. ECML-98, 1998, pp. 137−142.
- V. Lashkia, S. Aleshin. Test Feature Classifiers: Performance and Applications. IEEE. IEEE Transactions on Systems, Man and Cybernetics. Volume 31, Number 4, 2001, pp 643−649.
- Y. Jung, H. Park, D.Z. Du. An Efficient Term-Weighting Scheme for Information Retrieval. In Proceedings of ICCPOL-99, 18th International Conference on Computer Processing of Oriental Languages (Tokushima, JP, 1999), pp. 153−158.
- Y. Yang, C. Chute. An Applications of Least Squares Fit Mapping to Text Information Retrieval. Proceedings of the 16th Annual Information ACM SIGIR Computer Science on Research and Development in Information Retrieval, 1993, pp. 281−290.
- Y. Yang, C.G. Ghute. An Example-Based mapping method for text categorization and retrieval. ACM Transactions on Information Systems. Volume 12, Number 3, 1994, pp.252−277.
- Y. Yang, J.O. Pedersen. A Comprehensive Study on Feature Selection in Text Categorization. In Proceedings of ICML-97, 14th International Conference on Machine Learning, 1997, pp. 412−420.
- Y. Yang, S. Slattery, R. Ghani. A Study of Approaches to Hypertext Categorization. Journal of Intelligent Information Systems, 18. 2002, pp. 1−25.
- Y. Yang, X. Liu. A re-examination of text categorization methods. Proceedings of SIGIR-99, 22nd ACM International Conference on Research and Development in Information Retrieval (Berkeley, US, 1999), pp. 42−49. ACM Press, New York, US.
- Y. Yang. An Evaluation of Statistical Approaches to Text Categorization. Kluwer Academic Publishers, Information Retrieval, 1(1−2), pp. 69−90, 1999.
- Y. Yang, J. P. Pedersen. Feature Selection in Statistical Learning of TextiL m
- Categorization. In the 14 International Conference of Machine Learning, pp. 412−420, 1997.
- Victor Fresno, Angela Ribero. An Analytical Approaches to Concept Extraction in HTML Environments. Journal of Intelligent Information Systems, Volume 22, Number 3, 2004, pp. 213−236. Kluwer Academic Publishers.
- Darmendra S. Modha, W. Scott Spangler. Feature Weighting in k-Means Clustering. Machine Learning, volume 52, Number 3,2003, pp. 217−236.
- Рэй Э. Изучаем XML. СПб.: Символ-плюс. 2001.
- Спенсер YI.XML. Проектирование и реализация. М.: Лори. 2001.
- Кэй. М. XSLT. Справочник программиста (2-е издание). СПб.: Символ-плюс. 2002.
- S. Cost, S. Salzberg. A Weighted Nearest Neighbor Algorithm for Learning with Symbolic Features. Machine Learning, 10(1), 1993.
- Peter E. Hart. The condensed nearest neighbor rule. IEEE Transactions on Information Theory, IT-14:515−516, May 1968.
- Gates, G.W. The Reduced Nearest Neighbour Rule. IEEE Transactions on1. formation Theory 18, pp. 431−433.
- T. Roos. Dynamic Vorony Diagrams. Ph. D. Thesis. University of Wurz-burg. 1991.
- Б. Дюран, П. Оделл. Кластерный анализ. М.: Статистика, 1977
- В.В. Корнеев, А. Ф. Гареев, С. В. Васютин, В. В. Райх. Базы данных. Интеллектуальная обработка информации. — М.: Нолидж, 2001.
- В.Д. Байков. Интернет: Поиск информации и продвижение сайтов. — СПб.: БХВ-Петербург, 2000.
- Т Ault, Y. Yang. kNN, Rocchio and Metrics for Information Filtering. In Proceedings of the TREC-10.
- И.В. Некрасов., В. О. Толчеев. Разработка программного комплекса для классификации текстовых документов. Международная конференция «Информационные средства и технологии» том 2. М. Станкин, 2002, стр. 160−163.
- И.В. Некрасов., В. О. Толчеев. Современные средства поиска, обработки и анализа текстовой информации. Вестник МЭИ. М. МЭИ, 2002, стр. 52−55.
- И.В. Некрасов., В. О. Толчеев. Информационно-поисковая система для обработки научно-технческой информации. Международная конференция «Информационные средства и технологии» том 1. М. Станкин, 2001, стр. 114−117.
- И.В. Некрасов., В. О. Толчеев. Модифицированный метод ближайшего соседа с использованием опорных точек для классификации текстовых документов. Вестник МЭИ. М. МЭИ, 2004, стр. 76−81.
- И.В. Некрасов., В. О. Толчеев. О выборе опорных точек в модифицированном методе ближайшего соседа. Международная конференция «Информационные средства и технологии» том 2. М. Станкин, 2003, стр. 202 204.
- И.В. Некрасов., В. О. Толчеев. Разработка алгоритма модифицированного метода ближайшего соседа. Международная конференция «Информационные средства и технологии» том 2. М. Станкин, 2003, стр. 198 201.
- И.В. Некрасов., В. О. Толчеев. Методика модификации запросов в информационно-поисковой системе LAS. Международная конференция «Информационные средства и технологии» том 1. М. Станкин, 2001, стр. 118 121.
- И.И. Елисеева, В. О. Рукавишников. Группировка, корреляция, распознавание образов. М.: Статистика, 1977
- С.А. Айвазян, В. М. Бухштабер, И. С. Енюков, Л. Д. Мешалкин. Классификация и снижение размерности. — М.: Финансы и статистика, 1989
- Солтон Дж. Динамические библиотечно-информационные системы. -М.: Мир, 1979.
- С. Н. Papadimitriou, J.L. Bentley. A Worst-Case Analysis of Nearest Neighbor Searching by Projections. Lecture Notes in Computer Science, V. 85, Automata Languages and Programming, 1980, Springer.
- H. Heimann, R. Goppert. An Efficient Branch-and-Bound Nearest Neighbour Classifier. Elsevier Science. Pattern Recognition Letters, V. 7, 1988.67. www.yahoo.com
- А. А. Дорофеюк. Алгоритмы автоматической классификации. Автоматика и телемеханика, № 12, стр. 78−113, 1971.
- Milkov, N. Nicolov, and N. Nikolov Eds., Proceedings of RANLP-97, 2nd International Conference on Recent Advances in Natural Language Processing (Tzigov Chark, BL, 1997).
- И.Н. Архиреева, В. П. Бородюк, Ю. Е. Голяс, В. Г. Киреева. Факторный аналнз в задачах обработки экспериментальных данных. Учебное пособие. М.: МЭИ, 1994.
- D. W. Aha, D. Kiber, М. К. Albert. Case-Based Learning algorithms. Machine Learning, 6, pp. 37−66, 1991.
- D. W. Aha (Ed). Lazy Learning. Kluwer Academic Publishers, 1997.
- S. Salzberg. A Nearest Hyperrectangle Learning Methods. Machine Learning, 6, pp. 277−309, 1991.
- Quinlan J.R. Induction of decision trees. Machine Learning, 1(1) pp. 81 106. 1986.
- Apte C., Damerau F., Weiss S. Text mining with decision rules and decision trees. In Proceedings of the Conference on Automated Learning and Discovery, Workshop 6: Learning from Text and the Web. 1998.
- А. И. Галушкин. Теория нейронных сетей. М.: ИПРЖР, 2000.
- Финн В. К. Правдоподобные рассуждения в интеллектуальных системах типа ДСМ. Итоги науки и техники. Сер. Информатика т. 15. М.: ВИНИТИ, стр. 54−101, 1991.
- Финн В. К. Об интеллектуальных системах типа ДСМ для наук о жизни и социальном поведении. Научно-техническая информация. Серия 2: Информационные процессы и системы. № 6, стр. 1−4, 2002.
- Панкратова Е. С., Панкратов Д. В., Финн В. К., Шабанова И. П. Научно-техническая информация. Серия 2: Информационные процессы и системы. № 6, стр. 22−26,2002.
- Елисеева И. И., Рукавишников О. В. Группировка, корреляция, распознавание образов. М.: Статистика, 1977.
- Breimann L. Bagging Predictions. Machine Learning, V. 24, pp. 123−140, 1996.
- Freund Y, Shapire R. E. Experiments with a new Boosting Algorithm. In Proc. 13th Int Conf. On Machine Learning, pp. 148−156, 1996.
- Martinez A.F., Gruian F. Document Classification for Computer Science Related Articles. 2002.
- Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: Издательство института математики. 1999.
- Айвазян С. А., Мхитарян B.C. Теория вероятностей и прикладная статистика. Том 1. М.: ЮНИТИ. 2001.
- Реброва М.П., Автоматическая классификация в системах обработки информации: Поиск документов. М.: Радио и связь. 1983.
- Дуда P., Харт П. Распознавание образов и анализ сцен. М.: Мир. 1976.
- Вапник В.Н., Червоненкис А. Я. Теория распознавания образов. М.: Наука. 1974.92. protege.stanford.edu