Исследование и разработка методов и программных средств классификации текстовых документов
Диссертация
Классификация текстов — сортировка текстовых документов по заранее определенным категориям — один из способов структурирования данных. Методы классификации текстовых документов лежат на стыке двух областей — информационного поиска и машинного обучения. Общие части двух этих подходов — способы представления документов и способы оценки качества классификации текстов, а различия состоят только… Читать ещё >
Список литературы
- Айвазян С.А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Классификация и снижение размерности М.: Финансы и статистика, 1989
- Амосов A.A., Дубинский Ю. А., Копченова Н. В. Вычислительные методы для инженеров. М.: Изд-во МЭИ, 2003
- Антонов A.C. Параллельное программирование с использованием технологии MPI. -M.: Изд-во МГУ, 2004.-71 с.
- Бредихин Р.Н. Об одном подходе к распознаванию оптических образов текстов // Вестник МЭИ, 2005, № 2, с. 134−141
- Вагин В.П., Головина Е. Ю., Загорянская A.A., Фомина М. В. Достоверный и правдоподобный вывод в интеллектуальных системах М.: ФИЗМАТЛИТ, 2004.
- Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979.
- Вапник В. Н., Червоненкис А. Я. Теория распознавания образов. -М.: Наука, 1974
- Воеводин В.В., Воеводин Вл.В Параллельные вычисления СПб.: БХВ-Петербург, 2002
- Воронцов К.В. Машинное обучение. Курс лекций (machinelearning.ru)
- Губин М.В., Морозов А. Б. Влияние морфологического анализа на качество информационного поиска // Труды RCDL-2006, стр. 224 228, 2006
- Гулин В. В. Сравнительный анализ методов классификации текстовых документов // Вестник Московского энергетического института, № б, -С.100−108, 2011
- Гулин В.В. Исследование метода градиентного бустинга на «невнимательных «деревьях решений в задаче классификации текстовых документов // Вестник МЭИ, № 6, 124−131, 2012.
- Гулин В. В. Методы снижения размерности признакового описания документов в задаче классификации текстов. Вестник МЭИ № 2 2013. — С. 115−121.
- Гулин В.В. Объект интеллектуальной собственности свидетельство об офицальной регистрации программы для ЭВМ № 2 013 612 097. Система лингвистического анализа текстовых документов «МогрЬАпа1угег" — Москва, 2013, 1с.
- Гулин В.В. Объект интеллектуальной собственности свидетельство об офицальной регистрации программы для ЭВМ № 2 013 612 095. Библиотека алгоритмов машинного обучения «МЫлЬгагу" — Москва, 2013, 1с.
- Деммель Дэю. Вычислительная линейная алгебра. Теория и приложения -М.: Изд-во Мир, 2001
- Журавлев Ю.И. Об алгебраических методах в задачах распознавания и классификации // Распознавание, классификация, прогноз. — 1988. Т. 1. — С. 9−16.
- Журавле в Ю. И., Рязанов В. В., Сепъко О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006.
- Кудрявцев В.В., Андреев А. Е. Теория тестового распознавания. Интеллектуальные системы. 2006. Т. 10. Вып. 1−4. С. 95−166.
- Лифшиц Ю. Курс «Алгоритмы для Интернета», http://yury.name/internet/
- Мерков A.B. Распознавание образов: Введение в методы статистического обучения М.: Едиториал УРСС, 2011.
- Тихонов А.Н., Арсении В. Я. Методы решения некорректных задач. М.: Наука, 1986.
- Фролов A.B. Принцип конечной топологии распознавания топологических форм // Известия РАН. Теория и системы управления, 2010, № 1, 68−76
- Чегис А.И., Яблонский С. В. Логические способы контроля работы электрических схем // Тр. математического ин-та им. Стеклова, 1958. Т. 51. с. 270−360.
- Aho A., Corasick M. Efficient string matching: An aid to bibliographic search // Communications of the ACM 18 (6), Pp. 333−340, 1975
- Baeza- Yates R., Navarro G. Integrating Contents and Structure in Text Retrieval // ACM SIGMOD Record, Vol. 25, 1996, No. 1, pp. 67−79.
- Bartlett P., Shawe-Taylor J. Generalization performance of support vector machines and other pattern classifiers // Advances in Kernel Methods. MIT Press, Cambridge, USA, 1999. — Pp. 43−54
- Baum L., Petrie T. Statistical Inference for Probabilistic Functions of Finite State Markov Chains // The Annals of Mathematical Statistics 37 (6): 1554−1563, 1966
- Bishop C. Pattern Recognition and Machine Learning // Springer, 2006
- Bonnans J., Gilbert J., and etc. Numerical optimization: Theoretical and practical aspects // Universitext (Second revised ed. of translation of 1997 French ed.). Berlin: Springer-Verlag. pp. xiv+490, 2006.
- Bottou L. Stochastic Learning // Advanced Lectures on Machine Learning, 146−168, Edited by Olivier Bousquet and Ulrike von Luxburg, Lecture Notes in Artificial Intelligence, LNAI 3176, Springer Verlag, Berlin, 2004
- Bramer M. Pre-pruning Classification Trees to Reduce Ovcrfitting in Noisy Domains // Intelligent Data Engineering and Automated Learning — IDEAL Lecture Notes in Computer Science Volume 2412, pp 7−12, 2002
- Breiman L. Bagging predictors // Machine Learning 24, 123−140, 1996
- Breiman L., Friedman J. Classification and regression trees // Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software, 1984.
- Buttcher C., Clarke G., Cormack G. Information Retrieval: Implementing and Evaluating Search Engines // MIT Press, 2010
- Cambazoglu B., Zaragoza H., Chapelle 0. Early exit optimizations for additive machine learned ranking systems // Proceeding WSDM '10 Proceedings of the third ACM international conference on Web search and data mining pp. 411−420, 2010
- Cavnar W., Trenkle J. N-Gram-Based text categorization // In Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval, 1994
- Chandra R., Menon R., Dagum L., Kohr D., May dan D., McDonald J. Parallel Programming in OpenMP // Morgan Kaufmann, 2000.
- Cohen /., Tian Q., Zhou X., Huang T. Feature selection using principal feature analysis // Proceedings of the 15th international conference on Multimedia, pages 301−304, 2007
- Cormen TLeiserson C., Rivest R., Stein C. Introduction to Algorithms (3rd cd.) // MIT Press and McGraw-Hill, 2009
- Cortes C., Vapnik V. Support-vector // Machine Learning, 1995, Vol. 20, no. 3. Pp. 273−297.
- Croft B., Metzler D. Strohman T. Search Engines: Information retrieval in practice // Addison Wesley, 2010
- Dean J., Ghemawat S. Map Reduce: Simplified Processing on Large Clusters // OSDI'04: Sixth Symposium on Operating System Design and Implementation, San Francisco, CA, December, 2004
- Freund Y., Schapire R. A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting // Journal of Computer and System Science, no. 55. 1997
- Friedman J. H. Stochastic gradient boosting // Computational Statistics and Data Analysis, 38:367−378, 1999
- Friedman J. H. Greedy function approximation: A gradient boosting machine // Annals of Statistics, 29: 1189−1232, 2001
- Frolov A., Jako E., Mezey P. Logical models of molecular shapes and their families // Mathematical Chemistry, 2001. No.30(4). Nov. pp.389−409.
- Frolov A., Jako E.- Mezey P. Metric properties of factor space of molecular shapes // Mathematical Chemistry, 2001. No.30(4). Nov. pp. 411−428.
- George H., Langley J. Estimating Continuous Distributions in Baycsian Classifiers // Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence, pp. 338−345, Morgan Kaufmann, San Mateo, 1995
- Gerber R., Bik A., Smith K., Tian X. The sofware optimization cookbook (second edition) // Intel Press, 2010
- Gusfield D. Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology // Cambridge University Press, 1997
- Harris, Zellig Distributional Structure // Word 10 (2/3): 146−62, 1954
- Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction // Springer Series in Statistics, 2009
- Haykin S. Neural networks and learning machines (3rd edition) // Prentice Hall. 2009
- Ho, Tin The Random Subspace Method for Constructing Decision Forest // Transactions on Pattern Analysis and Machine Intelligence, 1998
- Intel 64 and IA-32 Architectures Software Developer’s Manual. Volume 1: Basic Architecture, 2011
- Joachims T. Text Categorization with Suport Vector Machines: Learning with Many Relevant Features // Proceeding ECML '98 Proceedings of the 10th European Conference on Machine Learning, pp. 137−142, 1998
- Jolliffe I. Principal Component Analysis // Springer Series in Statistics, 2010
- Jurafsky D., Martin J. Speach and language processing (second edition) // Prentice Hall, 2008
- Kohavi R. A study of cross-validation and bootstrap for accuracy estimation and model selection // Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence 2 (12): 1137−1143.(Morgan Kaufmann, San Mateo, CA), 1995
- Kohavi R., Li C. Oblivious decision trees graphs and top down pruning. //In Proceedings of the 14th international joint conference on Artificial intelligence Volume 2, pages 1071−1077, San Francisco, CA, USA, 1995. Morgan Kaufmann Publishers Inc.
- Kohonen T. Self-organizing maps (Third extended edition) // Springer, 2001
- Krishnakumar A. TEXT CATEGORIZATION Building a kNN classifier for the Rcuters-21 578 collection, 2006
- Kweku-Muata, Osei-Bryson Post-pruning in decision tree induction using multiple performance measures // Computers and Operations Research, 34, pp. 3331−3345, 2007
- Lafferty J., McCallum A., Pereira F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data // Proc. 18th International Conf. on Machine Learning. Morgan Kaufmann. pp. 282−289, 2001
- LeCun Y., Bottou L., Orr G. B., Muller K. Efficient BackProp // Neural Networks: tricks of the trade. Springer, 1998
- Lovins J. Development of a stemming algorithm. Translation and Computational Linguistics 11(1):22−31. 33, 527, 1968
- Mackay D. Information theory, inference, and learning algorithms. Cambridge, 2007.
- Manning C., Raghavan P., Schutze H. Introduction to information retrieval // Cambridge University Press, 2008
- Manning D., Schutze H. Foundations of statistical natural language processing // MIT Press, 1999
- Marsland S. Machine Learning: An Algorithmic Perspective // Chapman & Hall/CRC Machine Learning & Pattern Recognition, 2009
- Mezey P.G. Shape in Chemistry: An Introduction to Molecular Shape Topology // N.Y.: John k Sons, 1993
- Mitchell T. Machine learning // McGraw-Hill, 1997
- Paice C. Another stemmer. SIGIR Forum 24(3):56−61. 33, 528, 1990
- Parlett B. The Symmetric Eigenvalue Problem // Prentice Hall, Englewood Cliffs, NJ, 1980
- Pearson, K. On Lines and Planes of Closest Fit to Systems of Points in Space // Philosophical Magazine 2 (11): 559−572, 1901
- Peng H., Long F., Ding C. Feature selection based on mutual information: criteria of max-depcndency, max-rclcvance, and min-redundency // IEEE Transactions on pattern analysis and machine intelligence, vol. 27, no. 8, 2005
- Porter M. An algorithm for suffix stripping. Program 14(3): 130−137. 33, 529, 1980
- Quinlan J.R. C4.5: Programs for Machine Learning. // Morgan Kaufmann Publishers, 1993
- Quinlan J. R. Induction of Decision Trees, Machine Learning 1 // Kluwcr Academic Publishers, pp. 81−106, 1986
- Richardson M., Prakash A., Brill E. Beyond PageRank: machine learning for static ranking // Proceeding WWW '06 Proceedings of the 15th international conference on World Wide Web, pp. 707−715, 2006
- Salton G., McGill M. Introduction to modern information retrieval // McGraw-Hill, 1983
- Salton G., Wong A., Yang C. A Vector Space Model for Automatic Indexing // Communications of the ACM, vol. 18, nr. 11, pages 613−620, 1975
- Schapire R. The Strength of Weak Learnability. Machine Learning (Boston, MA: Kluwer Academic Publishers), pp. 197−227, 1990
- Scott S., Matwin S. Feature engineering for text classification // Proceedings of ICML-99, 16th International Conference on Machine Learning, 1999
- Sebastiani F. Machine Learning in Automated Text Categorization, // ACM Computing Surveys, Vol. 34, No. 1, March 2002, pp. 1−47
- Shawe-Taylor J., Cristianini N. Robust bounds on generalization from the margin distribution: Tech. Rep. NC2-TR-1998−029: Royal Holloway, University of London, 1998.
- Shen D. Learning-based Web query understanding // Thesis (Ph.D.)-Hong Kong University of Science and Technology, 2007
- Steinhaus H. Sur la division des corps materiels en parties. Bull. Acad. Polon. Sei., CI. Ill vol IV: 801−804, 195 699. van Rijsbergen C. J. Information Retrieval (2nd ed.). Butterworth, 1979
- Vapnik V. The Nature of Statistical Learning Theory // SpringerVerlag, 1995.
- Vapnik V., Chapelle O. Bounds on error expectation for support vector machines // Neural Computation. 2000. — Vol. 12, no. 9. — Pp. 20 132 036.