Помощь в написании студенческих работ
Антистрессовый сервис

Выбор инструмента для получения данных

РефератПомощь в написанииУзнать стоимостьмоей работы

SAX (англ. Simple API for XML) — способ последовательного чтения и/или записи HTML/XML-файлов. В ходе последовательного чтения SAX-парсер сообщает вызвавшему приложению о встреченных элементах разметки, а программист в своюочередь описывает нужную обработку данных событий. Для получения данных парсеры взаимодействуют с разметкой документов, написанной на языке разметки HTML (либо XML). Существует… Читать ещё >

Выбор инструмента для получения данных (реферат, курсовая, диплом, контрольная)

Для получения данных парсеры взаимодействуют с разметкой документов, написанной на языке разметки HTML (либо XML). Существует 2 вида парсеров:

  • 1) SAX (англ. Simple API for XML) — способ последовательного чтения и/или записи HTML/XML-файлов. В ходе последовательного чтения SAX-парсер сообщает вызвавшему приложению о встреченных элементах разметки, а программист в своюочередь описывает нужную обработку данных событий.
  • 2) DOM (англ. Document Object Model) позволяет представить любой документ известной структуры в виде дерева узлов, каждый узел которого представляет собой элемент, атрибут или иной объект. Узлы связаны между собой отношениями «родитель — потомок». DOM — парсеры сначала загружают весь документ разметки, а на выходе представляют дерево, из которого можно получить доступ к содержимому документа.

Что такое Jsoup

Jsoup это open-source Java библиотека для работы с реальным HTML. Она обеспечивает очень удобный API для извлечения и манипулирования данными, используя лучшие DOM, CSS, и JQuery-подобные методы. Jsoup реализует WHATWG HTML5 спецификацию, и разбирает HTML в ту же модель DOM, как это делают современные браузер вроде Chrome и Firefox. Вот некоторые из полезных функций Jsoup библиотеки:

Jsoup может очистить и разобрать HTML из URL, файла или строки.

Jsoup может найти и извлечь данные используя обход DOM или CSS селекторы.

Jsoup позволяет манипулировать HTML элементами, атрибутами и текстом.

" Аккуратный" HTML на выходе: при разборе HTML-текста библиотека исправляет ошибки наподобие незакрытых тегов.

Jsoup предназначен для работы с различными видами HTML существующими в реальном мире, включая должным образом подтвержденный HTML c неполным неподтвержденным набором тэгов. Одно из основных преимуществ Jsoup это его надежность. С помощью него очень просто разобрать HTML, все что Вам нужно это вызвать статический метод Jsoup. parse () и передать в него Вашу HTML строку. Jsoup предоставляет несколько перегруженных методов parse () для чтения HTML из строки, файла, из базового URI, из URL и из InputStream. Вы также можете указать кодировку, для корректного чтения HTML файла.

Показать весь текст
Заполнить форму текущей работой