getText("//body") почему очишает HTML форматирование?
#1
Отправлено 30 сентября 2009 - 16:13
есть задача - извлечь HTML текст загруженной страницы, но getText("//body") очишает HTML форматирование, возвращает только plaintext
Как получить исходный код загруженной страницы?
#2
Отправлено 01 октября 2009 - 06:47
Всем привет,
есть задача - извлечь HTML текст загруженной страницы, но getText("//body") очишает HTML форматирование, возвращает только plaintext
Как получить исходный код загруженной страницы?
По-моему, в ДжаваДоках мелькал метод getHTMLSource().
#3
Отправлено 01 октября 2009 - 08:49
Да, именно этот метод. getText не извлекает HTML, он работает именно на извлечение текста, так как в первую очередь расчитан на извлечение текста тех же ссылок и прочих элеаментов, которые еще внутри себя могут содержать разные дополнительные элементы.Всем привет,
есть задача - извлечь HTML текст загруженной страницы, но getText("//body") очишает HTML форматирование, возвращает только plaintext
Как получить исходный код загруженной страницы?
По-моему, в ДжаваДоках мелькал метод getHTMLSource().
#4
Отправлено 01 октября 2009 - 11:14
Интересно... а как получить именно HTML содержимое ("//body") ну или какого-нить элемента внутри (form, div...)???Да, именно этот метод. getText не извлекает HTML, он работает именно на извлечение текста, так как в первую очередь расчитан на извлечение текста тех же ссылок и прочих элеаментов, которые еще внутри себя могут содержать разные дополнительные элементы.Всем привет,
есть задача - извлечь HTML текст загруженной страницы, но getText("//body") очишает HTML форматирование, возвращает только plaintext
Как получить исходный код загруженной страницы?
По-моему, в ДжаваДоках мелькал метод getHTMLSource().
Для меня логично было бы иметь метод на подобии: getHTMLCode("//body")...
Про Тестинг
#5
Отправлено 01 октября 2009 - 11:45
В DHTML у каждого элемента есть свойство innerHTML, вот через него можно иолучить именно HTML внутри указанного элемента. То есть нужно делать JScript-вызовы. Основное ограничение - нужно знать name или id объекта. А дельше - просто вызов getEval методаИнтересно... а как получить именно HTML содержимое ("//body") ну или какого-нить элемента внутри (form, div...)???Да, именно этот метод. getText не извлекает HTML, он работает именно на извлечение текста, так как в первую очередь расчитан на извлечение текста тех же ссылок и прочих элеаментов, которые еще внутри себя могут содержать разные дополнительные элементы.Всем привет,
есть задача - извлечь HTML текст загруженной страницы, но getText("//body") очишает HTML форматирование, возвращает только plaintext
Как получить исходный код загруженной страницы?
По-моему, в ДжаваДоках мелькал метод getHTMLSource().
Для меня логично было бы иметь метод на подобии: getHTMLCode("//body")...
#6
Отправлено 02 октября 2009 - 08:37
getHtmlSource
java.lang.String getHtmlSource()
Returns the entire HTML source between the opening and closing "html" tags.
Returns:
the entire HTML source
Количество пользователей, читающих эту тему: 0
0 пользователей, 0 гостей, 0 анонимных