Re: Подскажите, как в тексте вычленить параграфы и списки
От: Кодт Россия  
Дата: 25.10.13 15:44
Оценка:
Здравствуйте, Marty, Вы писали:

M>Я попробовал считать мат ожидание и дисперсию, но что-то не очень. Во-первых , нужна ли мне дисперсия или СКО, которое вроде просто корень из D?

M>D от 0 до 1500-2000 получется, "физический смысл" величины от меня ускользает. Во-вторых, колдовство с M и D не особо помогает. Что тут еще можно попробовать?

Можно отталкиваться от прагматического смысла: M±3s — интервал, в который попадают 99.7% значений, если они распределены нормально.

M>This distribution includes the following debuggers:
M>    --- список, чаще других детектится как параграф, так как по средней длине строк похож на параграф
M>    KD        - Command-line kernel debugger
M>    NTSD      - Command-line user-mode debugger
M>    CDB       - Command-line user-mode debugger (variant of NTSD)
M>    WinDbg    - GUI kernel debugger
      |         | |
      +---------+-+- границы колонок таблицы

M>    AgeStore     - Removes old or unwanted files from the downstream store 
M>                   used by a symbol server or source server
M>    DBH          - DbgHelp shell
M>    GFlags       - Global Flags Editor
M>    Breakin      - Utility to force a breakin in another process being 
M>                   debugged
M>    Remote       - Remote Command Line
M>    Kill         - Task Killing Utility
M>    List         - File List Utility
M>    LogViewer    - Display API logs created with the .logext extension from
M>                   the debugger
      |            | |
      +------------+-+- границы колонок таблицы


Это не список, а таблица.
Характерный признак таблицы — отбивка пробелами и табами, так, что у смежных строк есть одинаково расположенные начала слов, не только первых, но и в середине.
Можно отслеживать начала слов, а можно просто выявлять отбивку.
Перекуём баги на фичи!
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.