ermouth: (Default)
[personal profile] ermouth

Напряжённо думаю над приличествующим историческому моменту алертом фильтра мата. Сейчас же нельзя матом то у нас, ога.

Мелькнула даже мысль сделать пачку алертов и рандомно выбирать. Как-то так вот, например:

Снимок экрана 2016-10-24 в 3.59.45

Снимок экрана 2016-10-24 в 4.09.59

Снимок экрана 2016-10-24 в 4.07.10

Date: 2016-10-24 01:24 am (UTC)
From: [identity profile] juan-gandhi.livejournal.com
Первым патриархом был Хуй Нэн, а вторым - Хуй Кэ. Потом эту традицию похерили.

Ну и т.д. В гугле где-то есть файл с матерными словами всех языков, для типа фильтрации. Не знаю, почему я его не бекапнул.

Date: 2016-10-24 02:18 am (UTC)
From: [identity profile] ermouth.livejournal.com
Словарь – это очень много, чтобы тащить на клиент. Его можно в DFA переделать, но всё равно много и плохо работает. То-есть бля оно словит, а вот 6ля уже нет, или x y й латиницей набранный с пробелами.

У меня сделано только для русского, но с учётом изобретательности всяких неуравновешенных. На несколько сотен байт регэксп ловит почти всё в разных транслитерациях, с очень редкими ложноположительными срабатываниями (типа хлебать), которые я предварительно вырезаю. И вот эти немногочисленные исключения я и храню словарём.

В который я и добавлю этих патриархов )

Date: 2016-10-24 02:24 am (UTC)
From: [identity profile] morfizm.livejournal.com
Лучше, конечно, предлагать перевод.
Словом ерунда можно почти всё заменять:

Хуерга какая-то => Ерунда какая-то.
Дебилы, бля => Глупые люди, вот.
...это была страшная поебень... => ...это была страшная ерунда...

Date: 2016-10-24 02:36 am (UTC)
From: [identity profile] ermouth.livejournal.com
Это значительно сложнее, потому что надо а) точно локализовать лексемы, б) делать разбор их морфологии, что сразу пахнет разбором предложения. Дофига движухи и чуть менее чем всегда мёртвого кода/данных.

Date: 2016-10-24 04:07 am (UTC)
From: [identity profile] morfizm.livejournal.com
Новая идея.

Сделай словарик эфемизмов, и как только твой регексп ловит мат, ищи его тем же регекспом в словарике (он всегда должен найтись, а если нет - это похоже на материал для дебага, шли лог разработчикам). Потом показываешь контекстный кусок из словарика (скажем 3 строки, +1 сверху и +1 снизу), выделяя жёлтым матное слово, с кнопками, чтобы развернуть весь словарик целиком.

Date: 2016-10-24 04:45 pm (UTC)
From: [identity profile] ermouth.livejournal.com
> он всегда должен найтись

Так не получится, я же не слова ищу, см выше коммент для juan_gandi.

> выделяя жёлтым матное слово

Для этого всё равно надо точно локализовать лексемы. Мат может быть не одним словом (содержать пробелы внутри).

Date: 2016-10-24 09:08 am (UTC)
From: [identity profile] archaicos.livejournal.com
Задача для храбрых. :)

Profile

ermouth: (Default)
ermouth

November 2021

S M T W T F S
 123456
78910111213
14151617181920
21 222324252627
282930    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 2nd, 2026 02:13 am
Powered by Dreamwidth Studios