Как оптимально перевести текст из doc в xml?
От: Calachik  
Дата: 03.02.06 07:26
Оценка:
Добрый день,

я впервые пользуюсь этим форумом, поэтому, прошу извинить, если нарушу какие-то правила
Также я только начинаю осваивать xml и Docbook, поэтому вопросы могут быть сформулированы не совсем корректно.

У меня задача минимум — загнать очень большие тексты из ворда (до 500 страниц) в формат xml. Цель — дальнейшая работа с этими текстами в Dokbook, чтобы представлять их в формате html, chm, pdf согласно нашему желанию. Тексты в ворде имеют сложную структуру, оформлены с помощью стилей, много таблиц и рисунков.

Задача максимум — изначальное оформление и хранение всей документации в формате xml.

Под документацией я имею в виду документацию на офрмление АС (традиционный состав согласно Гостам 19 и 34)
Возникают вопросы:
1. Есть ли какой-то удобный инструмент для конвертирования текста из формата doc в формат xml с сохранением логической структуры (заголовки разных уровней, маркированные и нумерованные списки) и с нормальными тегами (не те которые выдает Ворд при сохранение из него в вордовский xml)
2. Права ли я, что с рисунками мы ничего не делаем, а просто сохраняем их отдельными файлами и затем вставляем ссылки на них в xml?
3. Как поступить с таблицами — если в дальнейшем мы хотим иметь возможность вытаскивать из них информацию — т.е. вариант сохранить таблицы как картинки не устраивает.
4. Те кто работают в Dokbook — в чем у вас народ пишет свои кусочки текста для документа? И как вы потом собираете все воедино. И есть ли возможность отслеживания версий и различий между ними для документации.
6. Я читала про инструмент Wiki — но так и не поняла — для чего его удобно использовать.
5. Никто не знает в Е-бурге есть курсы для техписов?
6. Если кто-то прослушал курсы для техписов — то помгло ли это вам?

Заранее спасибо
Re: Как оптимально перевести текст из doc в xml?
От: stele Россия www.stele.su
Дата: 03.02.06 09:05
Оценка:
здесь и здесь посмотри. Названия другие, но цели и задачи похожие.
... <<My edition based on RSDN@Home 1.2.0 alpha rev. 619>>
В задаче спрашивается:
Сколько вытечет портвейна из открытого бассейна?
Re: Как оптимально перевести текст из doc в xml?
От: Jax Россия  
Дата: 03.02.06 09:30
Оценка:
Здравствуйте, Calachik, Вы писали:

C>Задача максимум — изначальное оформление и хранение всей документации в формате xml.


C>Возникают вопросы:

C>1. Есть ли какой-то удобный инструмент для конвертирования текста из формата doc в формат xml с сохранением логической структуры (заголовки разных уровней, маркированные и нумерованные списки) и с нормальными тегами (не те которые выдает Ворд при сохранение из него в вордовский xml)

Раньше была какая-то утилита переводящая из doc в fictionbook, а для fictionbook есть XSL трасформация в DocBook. Сейчас посмотрел в инете, наткнулся на такую ссылку, по ней вышел на Convert Word to DocBook and XML, возможно в эту сторону и стоит копать.

C>2. Права ли я, что с рисунками мы ничего не делаем, а просто сохраняем их отдельными файлами и затем вставляем ссылки на них в xml?


Да. В docbook есть что-то типа тега image с атрибутом src.

C>3. Как поступить с таблицами — если в дальнейшем мы хотим иметь возможность вытаскивать из них информацию — т.е. вариант сохранить таблицы как картинки не устраивает.


В docbook есть полный аналог таблиц html (Таблицы). Трудности могут быть только в переводе из Doc в DocBook XML.

C>4. Те кто работают в Dokbook — в чем у вас народ пишет свои кусочки текста для документа? И как вы потом собираете все воедино. И есть ли возможность отслеживания версий и различий между ними для документации.


Писал используя XSMSpy, но можно пользоваться любым XML редактором. Кусочкм собирались воедино с использованием XSL, XPath и XInclude (эту технологию не все трансформаторы поддерживают, правда инфа 2 летней давности ).

C>6. Я читала про инструмент Wiki — но так и не поняла — для чего его удобно использовать.


Не знаком достаточно, что бы что-то говорить об этой технологии...

C>5. Никто не знает в Е-бурге есть курсы для техписов?


Знаю форум в инете здесь.

Ну и ссылки на сайты:
DocBook. Официальный сайт
DocBook. Документация на русском языке
Re[2]: Как оптимально перевести текст из doc в xml?
От: Calachik  
Дата: 03.02.06 09:42
Оценка:
Здравствуйте, Jax, Вы писали:

Jax>Раньше была какая-то утилита переводящая из doc в fictionbook, а для fictionbook есть XSL трасформация в DocBook. Сейчас посмотрел в инете, наткнулся на такую ссылку, по ней вышел на Convert Word to DocBook and XML, возможно в эту сторону и стоит копать.


Спасибо, посмотрю

Jax>В docbook есть полный аналог таблиц html (Таблицы). Трудности могут быть только в переводе из Doc в DocBook XML.

Угу и я хотела знать как обойти эти трудности. Может кто-то нашел технологию перевода таблиц

Jax>Писал используя XSMSpy, но можно пользоваться любым XML редактором. Кусочкм собирались воедино с использованием XSL, XPath и XInclude (эту технологию не все трансформаторы поддерживают, правда инфа 2 летней давности ).

Мы все юзаем AltovaXml — но мне он кажется неудобным (или я просто к нему не привыкла). Какие инструменты WYSIWG вы можете посоветовать.

Jax>Знаю форум в инете здесь.

Я тож его знаю
Jax>Ну и ссылки на сайты:
Jax>DocBook. Официальный сайт
Jax>DocBook. Документация на русском языке
Ага именно эту докумнтацию я сейчас читаю
Re[3]: Как оптимально перевести текст из doc в xml?
От: Jax Россия  
Дата: 03.02.06 10:00
Оценка:
Здравствуйте, Calachik, Вы писали:

Jax>>В docbook есть полный аналог таблиц html (Таблицы). Трудности могут быть только в переводе из Doc в DocBook XML.

C>Угу и я хотела знать как обойти эти трудности. Может кто-то нашел технологию перевода таблиц

Ну на возможные трудности надо смотреть уже выбрав ПО для транформации из doc в dcobook.

Jax>>Писал используя XSMSpy, но можно пользоваться любым XML редактором. Кусочкм собирались воедино с использованием XSL, XPath и XInclude (эту технологию не все трансформаторы поддерживают, правда инфа 2 летней давности ).

C>Мы все юзаем AltovaXml — но мне он кажется неудобным (или я просто к нему не привыкла). Какие инструменты WYSIWG вы можете посоветовать.

Тьфу, хотел написать XMLSpy, а написал какую-то бредятину Другие не ипользовал так что тут я не советчик. Можно в форуме XML/SOAP задать этот вопрос, перед этим поискав по форумам ответ (по-моему уже были такие вопросы).
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.