Просмотр новых публикаций

getText("//body") почему очишает HTML форматирование?

Автор encaps, 30 сен 2009 16:13

Авторизуйтесь для ответа в теме

Сообщений в теме: 5

#1 encaps

Новый участник

Members
1 сообщений

Отправлено 30 сентября 2009 - 16:13

Всем привет,
есть задача - извлечь HTML текст загруженной страницы, но getText("//body") очишает HTML форматирование, возвращает только plaintext
Как получить исходный код загруженной страницы?

0

Наверх

#2 NLord

Активный участник

Members
108 сообщений

Отправлено 01 октября 2009 - 06:47

Всем привет,
есть задача - извлечь HTML текст загруженной страницы, но getText("//body") очишает HTML форматирование, возвращает только plaintext
Как получить исходный код загруженной страницы?

По-моему, в ДжаваДоках мелькал метод getHTMLSource().

0

Наверх

#3 KaNoN

АЦЦКИЙ СОТОНА

Members
1 260 сообщений

ФИО:Колесник Николай
Город:Днепропетровск > Киев > Лондон

Отправлено 01 октября 2009 - 08:49

Всем привет,
есть задача - извлечь HTML текст загруженной страницы, но getText("//body") очишает HTML форматирование, возвращает только plaintext
Как получить исходный код загруженной страницы?

По-моему, в ДжаваДоках мелькал метод getHTMLSource().

Да, именно этот метод. getText не извлекает HTML, он работает именно на извлечение текста, так как в первую очередь расчитан на извлечение текста тех же ссылок и прочих элеаментов, которые еще внутри себя могут содержать разные дополнительные элементы.

0

Наверх

#4 Boltick

Специалист

Members
596 сообщений

ФИО:Алексей
Город:планета Земля

Отправлено 01 октября 2009 - 11:14

Всем привет,
есть задача - извлечь HTML текст загруженной страницы, но getText("//body") очишает HTML форматирование, возвращает только plaintext
Как получить исходный код загруженной страницы?

По-моему, в ДжаваДоках мелькал метод getHTMLSource().
Да, именно этот метод. getText не извлекает HTML, он работает именно на извлечение текста, так как в первую очередь расчитан на извлечение текста тех же ссылок и прочих элеаментов, которые еще внутри себя могут содержать разные дополнительные элементы.

Интересно... а как получить именно HTML содержимое ("//body") ну или какого-нить элемента внутри (form, div...)???
Для меня логично было бы иметь метод на подобии: getHTMLCode("//body")...

0

Алексей Булат
Про Тестинг

Наверх

#5 KaNoN

АЦЦКИЙ СОТОНА

Members
1 260 сообщений

ФИО:Колесник Николай
Город:Днепропетровск > Киев > Лондон

Отправлено 01 октября 2009 - 11:45

Всем привет,
есть задача - извлечь HTML текст загруженной страницы, но getText("//body") очишает HTML форматирование, возвращает только plaintext
Как получить исходный код загруженной страницы?

По-моему, в ДжаваДоках мелькал метод getHTMLSource().
Да, именно этот метод. getText не извлекает HTML, он работает именно на извлечение текста, так как в первую очередь расчитан на извлечение текста тех же ссылок и прочих элеаментов, которые еще внутри себя могут содержать разные дополнительные элементы.
Интересно... а как получить именно HTML содержимое ("//body") ну или какого-нить элемента внутри (form, div...)???
Для меня логично было бы иметь метод на подобии: getHTMLCode("//body")...

В DHTML у каждого элемента есть свойство innerHTML, вот через него можно иолучить именно HTML внутри указанного элемента. То есть нужно делать JScript-вызовы. Основное ограничение - нужно знать name или id объекта. А дельше - просто вызов getEval метода

0

Наверх

#6 NLord

Активный участник

Members
108 сообщений

Отправлено 02 октября 2009 - 08:37

http://release.selen...0.9.0/doc/java/

getHtmlSource

java.lang.String getHtmlSource()

Returns the entire HTML source between the opening and closing "html" tags.

Returns:
the entire HTML source

0

Наверх

Обратно в Selenium - Functional Testing

Количество пользователей, читающих эту тему: 1

0 пользователей, 1 гостей, 0 анонимных

Реклама на портале