Перейти к содержимому

Фотография

getText("//body") почему очишает HTML форматирование?


  • Авторизуйтесь для ответа в теме
Сообщений в теме: 5

#1 encaps

encaps

    Новый участник

  • Members
  • Pip
  • 1 сообщений

Отправлено 30 сентября 2009 - 16:13

Всем привет,
есть задача - извлечь HTML текст загруженной страницы, но getText("//body") очишает HTML форматирование, возвращает только plaintext
Как получить исходный код загруженной страницы?
  • 0

#2 NLord

NLord

    Активный участник

  • Members
  • PipPip
  • 108 сообщений

Отправлено 01 октября 2009 - 06:47

Всем привет,
есть задача - извлечь HTML текст загруженной страницы, но getText("//body") очишает HTML форматирование, возвращает только plaintext
Как получить исходный код загруженной страницы?



По-моему, в ДжаваДоках мелькал метод getHTMLSource().
  • 0

#3 KaNoN

KaNoN

    АЦЦКИЙ СОТОНА

  • Members
  • PipPipPipPipPipPip
  • 1 260 сообщений
  • ФИО:Колесник Николай
  • Город:Днепропетровск > Киев > Лондон

Отправлено 01 октября 2009 - 08:49

Всем привет,
есть задача - извлечь HTML текст загруженной страницы, но getText("//body") очишает HTML форматирование, возвращает только plaintext
Как получить исходный код загруженной страницы?



По-моему, в ДжаваДоках мелькал метод getHTMLSource().

Да, именно этот метод. getText не извлекает HTML, он работает именно на извлечение текста, так как в первую очередь расчитан на извлечение текста тех же ссылок и прочих элеаментов, которые еще внутри себя могут содержать разные дополнительные элементы.
  • 0

#4 Boltick

Boltick

    Специалист

  • Members
  • PipPipPipPipPip
  • 596 сообщений
  • ФИО:Алексей
  • Город:планета Земля

Отправлено 01 октября 2009 - 11:14

Всем привет,
есть задача - извлечь HTML текст загруженной страницы, но getText("//body") очишает HTML форматирование, возвращает только plaintext
Как получить исходный код загруженной страницы?



По-моему, в ДжаваДоках мелькал метод getHTMLSource().

Да, именно этот метод. getText не извлекает HTML, он работает именно на извлечение текста, так как в первую очередь расчитан на извлечение текста тех же ссылок и прочих элеаментов, которые еще внутри себя могут содержать разные дополнительные элементы.

Интересно... а как получить именно HTML содержимое ("//body") ну или какого-нить элемента внутри (form, div...)???
Для меня логично было бы иметь метод на подобии: getHTMLCode("//body")...
  • 0
Алексей Булат
Про Тестинг

#5 KaNoN

KaNoN

    АЦЦКИЙ СОТОНА

  • Members
  • PipPipPipPipPipPip
  • 1 260 сообщений
  • ФИО:Колесник Николай
  • Город:Днепропетровск > Киев > Лондон

Отправлено 01 октября 2009 - 11:45

Всем привет,
есть задача - извлечь HTML текст загруженной страницы, но getText("//body") очишает HTML форматирование, возвращает только plaintext
Как получить исходный код загруженной страницы?



По-моему, в ДжаваДоках мелькал метод getHTMLSource().

Да, именно этот метод. getText не извлекает HTML, он работает именно на извлечение текста, так как в первую очередь расчитан на извлечение текста тех же ссылок и прочих элеаментов, которые еще внутри себя могут содержать разные дополнительные элементы.

Интересно... а как получить именно HTML содержимое ("//body") ну или какого-нить элемента внутри (form, div...)???
Для меня логично было бы иметь метод на подобии: getHTMLCode("//body")...

В DHTML у каждого элемента есть свойство innerHTML, вот через него можно иолучить именно HTML внутри указанного элемента. То есть нужно делать JScript-вызовы. Основное ограничение - нужно знать name или id объекта. А дельше - просто вызов getEval метода
  • 0

#6 NLord

NLord

    Активный участник

  • Members
  • PipPip
  • 108 сообщений

Отправлено 02 октября 2009 - 08:37

http://release.selen...0.9.0/doc/java/

getHtmlSource

java.lang.String getHtmlSource()

Returns the entire HTML source between the opening and closing "html" tags.

Returns:
the entire HTML source
  • 0


Количество пользователей, читающих эту тему: 0

0 пользователей, 0 гостей, 0 анонимных