Re[2]: Подскажите, как в тексте вычленить параграфы и списки

Здравствуйте, Кодт, Вы писали:

К>Здравствуйте, Marty, Вы писали:

M>>Я попробовал считать мат ожидание и дисперсию, но что-то не очень. Во-первых , нужна ли мне дисперсия или СКО, которое вроде просто корень из D?
M>>D от 0 до 1500-2000 получется, "физический смысл" величины от меня ускользает. Во-вторых, колдовство с M и D не особо помогает. Что тут еще можно попробовать?

К>Можно отталкиваться от прагматического смысла: M±3s — интервал, в который попадают 99.7% значений, если они распределены нормально.
Сложно сказать, в разных текстах по разному. Некоторые выровнены по ширине, там проще всего, некоторые — нет.

К>Это не список, а таблица.
К>Характерный признак таблицы — отбивка пробелами и табами, так, что у смежных строк есть одинаково расположенные начала слов, не только первых, но и в середине.
Ну, в данному случае имхо это все же список, список определений, а отбивка — для удобочитаемости, хотя в данном случае да, это похоже на таблицу из двух колонок.
Но это частный случай. Список определений может быть оформатирован и как-то так:

    KD - Command-line kernel debugger
    NTSD  - Command-line user-mode debugger
    CDB  - Command-line user-mode debugger (variant of NTSD)
    WinDbg - GUI kernel debugger

    AgeStore - Removes old or unwanted files from the downstream store 
      used by a symbol server or source server
    DBH - DbgHelp shell
    GFlags - Global Flags Editor
    Breakin - Utility to force a breakin in another process being 
      debugged

К>Можно отслеживать начала слов, а можно просто выявлять отбивку.
Кстати да, можно как-то посчитать частоту попадания начал слов на позиции в строке, тут явно должна быть закономерность, только не соображу, как и что посчитать

Детектить таблицы в тексте тоже мысль

От:	Marty	https://www.youtube.com/channel/UChp5PpQ6T4-93HbNF-8vSYg
Дата:	25.10.13 19:40
Оценка: