Геном

Sep. 9th, 2012 04:51 am
ermouth: (Default)
[personal profile] ermouth

Есть такой прекрасный совершенно сайтег http://www.nature.com/encode/ – там про геном: куча разложенных научных работ на тему.

Я совсем давно этим всем последний раз интересовался и днём сегодня полез посмотреть. И на несколько часов зачитался.

Там интересно всё даже чисто визуально. Скажем, вот такие картинки:

gb-2012-13-9-r48-1-l

Это вот отсюда, механика выявления паттернов генома, если коротко.

Интересно в этой картинке то, что я буквально недавно рисовал похожую схемку, только совсем в другой области. Схемка не сохранилась и была вдвое примерно ниже, но…

Первый раз задача была разобрать описания товаров базе, это несколько месяцев назад. А второй раз – выделить из списка в 2,5 тысячи тэгов с орфографическими ошибками и сокращениями смысловые ядра.

Это в процессе переноса данных из старой версии CRM в новый выяснилось, что с тэгами у меня там кромешный ад. Прекрасное там конечно я увидел местами, “хлебобулизд” – это просто гимн мощи русского языка.

В результате осталось 250 тэгов. Хлебобулизд превратился нопрмер в “хлеб, еда”.

И механика фильтрации и выделения паттернов в обоих случаях прекрасно обрисовывается очень похожей схемкой. Готовим начальный словарь, формируем разные представления входного потока, формируем промежуточные фильтры, развешиваем по представлениям, немножко их учим, а потом они нам порождают функции фильтрации, которые уже идут в продакшен.

Меня просто поразила аналогия визуальная. Геном значит. Я искал в этих текстах геном.

Это очень странно.

This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

Profile

ermouth: (Default)
ermouth

November 2021

S M T W T F S
 123456
78910111213
14151617181920
21 222324252627
282930    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 1st, 2026 09:40 am
Powered by Dreamwidth Studios