Информация об изменениях

Сообщение Re[3]: Попробую вангануть на 20 лет от 24.02.2026 7:26

Изменено 24.02.2026 7:44 TheBeginner

Re[3]: Попробую вангануть на 20 лет
Здравствуйте, Miroff, Вы писали:

M>Полный RFC822 compliant регексп для валидации емейла не влезает в экран. https://pdw.ex-parrot.com/Mail-RFC822-Address.html


M>Если вместо валидации делать поиск, регексп будет примерно втрое длиннее. Даже без учёта того, что люди шифруют емейлы от ботов. Регекспы это быстрое решение 80 процентов задачи. Как только начинаешь на них решать оставшиеся 20 процентов, регекспы разваливаются под собственным весом


Самое главное, что его никто не спросил, нужно ли ему искать "шифрованные" емейлы. Это раз. Во вторых — если мы возьмём готовую небольшую и быструю NER (тamed entity recognition) модель то не факт что получим лучшие результаты на таких адресах если ее не учили на них. На самом деле поиск таких даже "зашифрованных" простых меток это regexp + правила + небольшие словари. Это десятки строк кода, но адепты "нейронки для всего" как раз и убивают работку программиста. И в будущем все будет только хуже, вот что я хотел сказать.
Re[3]: Попробую вангануть на 20 лет
Здравствуйте, Miroff, Вы писали:

M>Полный RFC822 compliant регексп для валидации емейла не влезает в экран. https://pdw.ex-parrot.com/Mail-RFC822-Address.html


M>Если вместо валидации делать поиск, регексп будет примерно втрое длиннее. Даже без учёта того, что люди шифруют емейлы от ботов. Регекспы это быстрое решение 80 процентов задачи. Как только начинаешь на них решать оставшиеся 20 процентов, регекспы разваливаются под собственным весом


Самое главное, что его никто не спросил, нужно ли ему искать "шифрованные" емейлы. Это раз. Во вторых — если мы возьмём готовую небольшую и быструю NER (тamed entity recognition) модель то не факт что получим лучшие результаты на таких адресах если ее не учили на них. На самом деле поиск таких даже "зашифрованных" простых меток это regexp + правила + небольшие словари. Это десятки строк кода, но адепты "нейронки для всего" как раз и убивают работку программиста. И в будущем все будет только хуже, вот что я хотел сказать.

Кстати я не против нейронок, но помимо тяжеловесных трансформеров есть и обычные свёртки и lstm-crf и много чего ещё что может использоваться вместе с кодом и давать быстроту и точность.