Есть такой прекрасный совершенно сайтег http://www.nature.com/encode/ – там про геном: куча разложенных научных работ на тему.
Я совсем давно этим всем последний раз интересовался и днём сегодня полез посмотреть. И на несколько часов зачитался.
Там интересно всё даже чисто визуально. Скажем, вот такие картинки:
Это вот отсюда, механика выявления паттернов генома, если коротко.
Интересно в этой картинке то, что я буквально недавно рисовал похожую схемку, только совсем в другой области. Схемка не сохранилась и была вдвое примерно ниже, но…
Первый раз задача была разобрать описания товаров базе, это несколько месяцев назад. А второй раз – выделить из списка в 2,5 тысячи тэгов с орфографическими ошибками и сокращениями смысловые ядра.
Это в процессе переноса данных из старой версии CRM в новый выяснилось, что с тэгами у меня там кромешный ад. Прекрасное там конечно я увидел местами, “хлебобулизд” – это просто гимн мощи русского языка.
В результате осталось 250 тэгов. Хлебобулизд превратился нопрмер в “хлеб, еда”.
И механика фильтрации и выделения паттернов в обоих случаях прекрасно обрисовывается очень похожей схемкой. Готовим начальный словарь, формируем разные представления входного потока, формируем промежуточные фильтры, развешиваем по представлениям, немножко их учим, а потом они нам порождают функции фильтрации, которые уже идут в продакшен.
Меня просто поразила аналогия визуальная. Геном значит. Я искал в этих текстах геном.
Это очень странно.
no subject
Date: 2012-09-09 06:04 am (UTC)