Как лучше?
Oct. 24th, 2016 04:16 amНапряжённо думаю над приличествующим историческому моменту алертом фильтра мата. Сейчас же нельзя матом то у нас, ога.
Мелькнула даже мысль сделать пачку алертов и рандомно выбирать. Как-то так вот, например:



Напряжённо думаю над приличествующим историческому моменту алертом фильтра мата. Сейчас же нельзя матом то у нас, ога.
Мелькнула даже мысль сделать пачку алертов и рандомно выбирать. Как-то так вот, например:



no subject
Date: 2016-10-24 01:24 am (UTC)Ну и т.д. В гугле где-то есть файл с матерными словами всех языков, для типа фильтрации. Не знаю, почему я его не бекапнул.
no subject
Date: 2016-10-24 02:18 am (UTC)У меня сделано только для русского, но с учётом изобретательности всяких неуравновешенных. На несколько сотен байт регэксп ловит почти всё в разных транслитерациях, с очень редкими ложноположительными срабатываниями (типа хлебать), которые я предварительно вырезаю. И вот эти немногочисленные исключения я и храню словарём.
В который я и добавлю этих патриархов )
no subject
Date: 2016-10-24 02:24 am (UTC)Словом ерунда можно почти всё заменять:
Хуерга какая-то => Ерунда какая-то.
Дебилы, бля => Глупые люди, вот.
...это была страшная поебень... => ...это была страшная ерунда...
no subject
Date: 2016-10-24 02:36 am (UTC)no subject
Date: 2016-10-24 04:07 am (UTC)Сделай словарик эфемизмов, и как только твой регексп ловит мат, ищи его тем же регекспом в словарике (он всегда должен найтись, а если нет - это похоже на материал для дебага, шли лог разработчикам). Потом показываешь контекстный кусок из словарика (скажем 3 строки, +1 сверху и +1 снизу), выделяя жёлтым матное слово, с кнопками, чтобы развернуть весь словарик целиком.
no subject
Date: 2016-10-24 09:08 am (UTC)no subject
Date: 2016-10-24 04:45 pm (UTC)Так не получится, я же не слова ищу, см выше коммент для juan_gandi.
> выделяя жёлтым матное слово
Для этого всё равно надо точно локализовать лексемы. Мат может быть не одним словом (содержать пробелы внутри).