Фильтр мата
От: Keith  
Дата: 20.03.11 11:39
Оценка:
Подскажите как эффективнее сделать фильтр мата — чтобы поменьше ему уделять ручного внимания, но и качество фильтрации было одно из лучших. В распоряжении есть СУБД с полнотекстовым поиском.
Как я понял — варианта по сути два:
1. Список запрещенных слов и список исключений для тупого сравнения слов целиком
2. Нечеткий поиск
Первый наверняка довольно затратен по ведению, второй скорее всего будет промахиваться в случаях типа "три рубля" или "подстрахуй", что в принципе можно вылечить одним списком исключений.
Не хочется изобретать велосипед.
... << RSDN@Home 1.1.4 stable SR1 rev. 568>>
Re: Фильтр мата
От: goto Россия  
Дата: 22.03.11 12:18
Оценка:
Помню, обсуждалось где-то. Трудно, потому что особо одаренные могут использовать (частичный) транслит, заменять буквы похожими цифрами, комбинациями символов (например, ")(" вместо "Х"), частичное "запикивание" и т.д.
Re: Фильтр мата
От: hotdox  
Дата: 22.03.11 20:50
Оценка: 2 (1)
Здравствуйте, Keith, Вы писали:

K>Подскажите как эффективнее сделать фильтр мата — чтобы поменьше ему уделять ручного внимания, но и качество фильтрации было одно из лучших. В распоряжении есть СУБД с полнотекстовым поиском.

Я бы взял whitelist слов с морфологией и т.д. и т.п. (например здесь) и blacklist корней. Если слово содержит корень и не из белого списка, то это мат.
Re[2]: Фильтр мата
От: neokoder  
Дата: 23.03.11 09:20
Оценка:
H>Я бы взял whitelist слов с морфологией и т.д. и т.п. (например здесь) и blacklist корней. Если слово содержит корень и не из белого списка, то это мат.

Точно так же делал свой. Вот мысли у умных людей сходятся! Однако загвоздка была с базой whitelist слов с морфологией. Не так то просто её сделать.
Re[3]: Фильтр мата
От: Keith  
Дата: 31.03.11 17:51
Оценка:
Здравствуйте, neokoder, Вы писали:

H>>Я бы взял whitelist слов с морфологией и т.д. и т.п. (например здесь) и blacklist корней. Если слово содержит корень и не из белого списка, то это мат.


N>Точно так же делал свой. Вот мысли у умных людей сходятся! Однако загвоздка была с базой whitelist слов с морфологией. Не так то просто её сделать.


А у вас, случайно нет готовой?
... << RSDN@Home 1.1.4 stable SR1 rev. 568>>
Re[2]: Фильтр мата
От: Keith  
Дата: 31.03.11 17:51
Оценка:
Здравствуйте, goto, Вы писали:

G>Помню, обсуждалось где-то. Трудно, потому что особо одаренные могут использовать (частичный) транслит, заменять буквы похожими цифрами, комбинациями символов (например, ")(" вместо "Х"), частичное "запикивание" и т.д.


Маппинг для букв можно сделать или найти готовый — я видел где-то.
... << RSDN@Home 1.1.4 stable SR1 rev. 568>>
Re[2]: Фильтр мата
От: Аноним  
Дата: 31.03.11 23:10
Оценка:
H>Я бы взял whitelist слов с морфологией и т.д. и т.п. (например здесь) и blacklist корней. Если слово содержит корень и не из белого списка, то это мат.

Да ладно.Вы серьёзно чтоли так где-то делали?И никто не смеялся?.

Наша кам**нда по парикмах*рскаму искусству.
Re[3]: Фильтр мата
От: Аноним  
Дата: 31.03.11 23:38
Оценка:
Здравствуйте, neokoder, Вы писали:

H>>Я бы взял whitelist слов с морфологией и т.д. и т.п. (например здесь) и blacklist корней. Если слово содержит корень и не из белого списка, то это мат.


N>Точно так же делал свой. Вот мысли у умных людей сходятся! Однако загвоздка была с базой whitelist слов с морфологией. Не так то просто её сделать.


Плохо это. Выхолостили текст только так. (Если речь про запикивание постов или подобное).
Кто вам разрешил так с языком обращаться? Шучу конечно,
но на самом деле whitelist это несколько унизительно для приличного человека.
Для нормального поста на форуме не годится такое (не ну может если это форум программеров ,то потянет, их не жалко, а вот остальным неприятно может быть).

Зах*рмазоховский,х*рсонесский,шумах*р, х*лиганьщина, х*литили, ком*ндировчные и т.д.
Re[4]: Фильтр мата
От: achp  
Дата: 01.04.11 04:18
Оценка:
Здравствуйте, Аноним, Вы писали:

А>Зах*рмазоховский,х*рсонесский,шумах*р, х*лиганьщина, х*литили, ком*ндировчные и т.д.


"Хер", кстати,- это не мат, это название буквы кириллического алфавита.
Re[2]: Фильтр мата
От: Трурль  
Дата: 01.04.11 06:30
Оценка:
Здравствуйте, hotdox, Вы писали:

H>Если слово содержит корень и не из белого списка, то это мат.


Интересно, какой корень надо запикивать в слове "потребляют"?
Re[2]: Фильтр мата
От: Аноним  
Дата: 01.04.11 15:30
Оценка: 2 (1)
Здравствуйте, hotdox, Вы писали:

H>Здравствуйте, Keith, Вы писали:


K>>Подскажите как эффективнее сделать фильтр мата — чтобы поменьше ему уделять ручного внимания, но и качество фильтрации было одно из лучших. В распоряжении есть СУБД с полнотекстовым поиском.

H>Я бы взял whitelist слов с морфологией и т.д. и т.п. (например здесь) и blacklist корней. Если слово содержит корень и не из белого списка, то это мат.

Кстати в livejournal похоже нечто такое же используется. Запикивание для списков и рейтингов(списки постов когда первая строчка поста видна). Я не особо вникал, но в глаза просто сразу бросается. Как это пропустили мне неведомо(возможно пользователи редко обращаются туда).

выглядит примерно так (копирую что увидел):
571    быстроква! belonika 457 
Вот такой вот замечательный "м***ариновский" вид у меня из окна в восемь утра. Жанна в Лондоне. И ей тут просто прекрасно. Сегодня …

b_nemtsov
Накануне Дня Дурака, к хору кремлевских пропаг*****в, обличающих оппозицию, присоединился С.Митрохин.


забанили остроумный неологизм пропагандоны, и уж совсем безобидный мандариновский. и заметны такие косяки в общем списке(не скажешь, что редкость).

Чёрный список лучше.
Re: Фильтр мата
От: anonim12345  
Дата: 03.04.11 17:51
Оценка: +2 -1
Не надо такое делать. Мат это часть нашего великого языка. Говорить матом хорошо и правильно, без этого зачастую невозможно объяснить очевидные вещи.
Re[2]: Фильтр мата
От: Keith  
Дата: 04.04.11 19:53
Оценка:
Здравствуйте, anonim12345, Вы писали:

A>Не надо такое делать. Мат это часть нашего великого языка. Говорить матом хорошо и правильно, без этого зачастую невозможно объяснить очевидные вещи.


Даже если проект посещают школьники? А как к этому их мамы отнесутся?
... << RSDN@Home 1.1.4 stable SR1 rev. 568>>
Re[4]: Фильтр мата
От: Аноним  
Дата: 05.04.11 11:20
Оценка:
Здравствуйте, Keith, Вы писали:

K>Здравствуйте, neokoder, Вы писали:


H>>>Я бы взял whitelist слов с морфологией и т.д. и т.п. (например здесь) и blacklist корней.

K> А у вас, случайно нет готовой?

На том сайте куда я ссылку поставил http://lemmatizer.org/download/turglem-russian-0.2.tar.gz
Re[3]: Фильтр мата
От: hotdox  
Дата: 05.04.11 11:22
Оценка:
Здравствуйте, Аноним, Вы писали:


А>Да ладно.Вы серьёзно чтоли так где-то делали?И никто не смеялся?.

Нет не делал, но если бы делал, то так

А>Наша кам**нда по парикмах*рскаму искусству.

Ну Spell-checking по левенштейну никто не отменял
Re[4]: Фильтр мата
От: hotdox  
Дата: 05.04.11 11:23
Оценка:
Здравствуйте, Аноним, Вы писали:

А>Здравствуйте, neokoder, Вы писали:


H>>>Я бы взял whitelist слов с морфологией и т.д. и т.п. (например здесь) и blacklist корней. Если слово содержит корень и не из белого списка, то это мат.


N>>Точно так же делал свой. Вот мысли у умных людей сходятся! Однако загвоздка была с базой whitelist слов с морфологией. Не так то просто её сделать.


А>Плохо это. Выхолостили текст только так. (Если речь про запикивание постов или подобное).

А>Кто вам разрешил так с языком обращаться? Шучу конечно,
А>но на самом деле whitelist это несколько унизительно для приличного человека.
А>Для нормального поста на форуме не годится такое (не ну может если это форум программеров ,то потянет, их не жалко, а вот остальным неприятно может быть).

А>Зах*рмазоховский,х*рсонесский,шумах*р, х*лиганьщина, х*литили, ком*ндировчные и т.д.

Ну whitelist на то и whitelist, чтоб его пополнять
Re[3]: Фильтр мата
От: blackhearted Украина  
Дата: 05.04.11 12:32
Оценка:
Здравствуйте, Keith, Вы писали:

K>Здравствуйте, anonim12345, Вы писали:


A>>Не надо такое делать. Мат это часть нашего великого языка. Говорить матом хорошо и правильно, без этого зачастую невозможно объяснить очевидные вещи.


K> Даже если проект посещают школьники? А как к этому их мамы отнесутся?


ты думаешь, что школьники не знают мата?
Re[5]: Фильтр мата
От: Аноним  
Дата: 06.04.11 03:53
Оценка:
Здравствуйте, hotdox, Вы писали:

H>Ну whitelist на то и whitelist, чтоб его пополнять

В условии задачи сказано "поменьше ручного внимания".
Re[4]: Фильтр мата
От: Keith  
Дата: 09.04.11 14:26
Оценка:
Здравствуйте, blackhearted, Вы писали:

A>>>Не надо такое делать. Мат это часть нашего великого языка. Говорить матом хорошо и правильно, без этого зачастую невозможно объяснить очевидные вещи.


K>> Даже если проект посещают школьники? А как к этому их мамы отнесутся?

B>ты думаешь, что школьники не знают мата?

Я уверен, что они его знают, но не уверен, что мамы будут рабы что их дети читают мат на детском сайте.
... << RSDN@Home 1.1.4 stable SR1 rev. 568>>
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.