Есть много-много Doc-файлов в которых некоторые слова помечены некоторым образом (например выделены синим). Надо создать базу этих выделенных слов, чтобы потом по ним искать файлы.
Как вытащить из Ворда эти форматированные слова?
Здравствуйте, koguro, Вы писали:
K>Есть много-много Doc-файлов в которых некоторые слова помечены некоторым образом (например выделены синим). Надо создать базу этих выделенных слов, чтобы потом по ним искать файлы. K>Как вытащить из Ворда эти форматированные слова?
В COM-модели ворда у документа(Document) есть коллекция Words,у каждого элемента которой есть свойство Font, у которого есть свойство Color.
Еще есть метод Find, по идее он должен работать быстрее. В нем можно указать формат для поиска.
Здравствуйте, Stewe, Вы писали:
S>В COM-модели ворда у документа(Document) есть коллекция Words,у каждого элемента которой есть свойство Font, у которого есть свойство Color. S>Еще есть метод Find, по идее он должен работать быстрее. В нем можно указать формат для поиска.
А можно как-нибудь без COM'а обойтись.
... << RSDN@Home 1.1.3 beta 2 >>
Re[3]: Обработка DOC
От:
Аноним
Дата:
20.04.04 14:05
Оценка:
Здравствуйте, koguro, Вы писали:
K>Здравствуйте, Stewe, Вы писали:
S>>В COM-модели ворда у документа(Document) есть коллекция Words,у каждого элемента которой есть свойство Font, у которого есть свойство Color. S>>Еще есть метод Find, по идее он должен работать быстрее. В нем можно указать формат для поиска.
K>А можно как-нибудь без COM'а обойтись.
А чем еще можно ковырять Doc-файлы?
Здравствуйте, koguro, Вы писали:
S>>В COM-модели ворда у документа(Document) есть коллекция Words,у каждого элемента которой есть свойство Font, у которого есть свойство Color. S>>Еще есть метод Find, по идее он должен работать быстрее. В нем можно указать формат для поиска.
K>А можно как-нибудь без COM'а обойтись.
Если Office 2003, то сохранить документ в XML — данная схема является открытой
Если у Вас нет паранойи, то это еще не значит, что они за Вами не следят.
Здравствуйте, Stewe, Вы писали:
S>Здравствуйте, koguro, Вы писали:
K>>Есть много-много Doc-файлов в которых некоторые слова помечены некоторым образом (например выделены синим). Надо создать базу этих выделенных слов, чтобы потом по ним искать файлы. K>>Как вытащить из Ворда эти форматированные слова?
S>В COM-модели ворда у документа(Document) есть коллекция Words,у каждого элемента которой есть свойство Font, у которого есть свойство Color. S>Еще есть метод Find, по идее он должен работать быстрее. В нем можно указать формат для поиска.
Лучше делать через Find ( выставить проперть Find.Font.Color ) — для файла в несколько метров обойти коллекцию Words займет около часа, а Find работает мгновенно.
Опыт — это такая вещь, которая появляется сразу после того, как была нужна...
Сохрани файл в RTF-формат, прочитай через RichTextBox.LoadFile(), а дальше методами RichTextBox нужно пользоваться. Есть там какие-то методы для определения цвета и таких разных параметров каждого символа или слова. Правда, придётся копаться в документации.
Здравствуйте, koguro, Вы писали:
S>>В COM-модели ворда у документа(Document) есть коллекция Words,у каждого элемента которой есть свойство Font, у которого есть свойство Color. S>>Еще есть метод Find, по идее он должен работать быстрее. В нем можно указать формат для поиска.
K>А можно как-нибудь без COM'а обойтись.
Можно — написать макрос на VBA в редакторе VB, вызываемом из ворда.
Но это по сути то же самое — используются те же объекты, свойства и т.п.