Поучаствовали в Koding Virtual Hackathon, составом из двух человек. Был и третий – но отвалился в первый же день (сильно нас подставив своей ленью и нытьём).
Экспириенс в целом потрясающий. Оказалось, что я до сих пор могу не спать двое суток – и при этом вполне себе делать дело. То, что мы за два дня накодили, выглядит вот так:
Основная сложность – написать парсер, который бы “разбирал” HTML, полученный с внешних линков, и превращал его в более-менее плоскую структуру. Это заняло примерно 7 часов, и не сказал бы, что получилось идеально – но на большее не хватило времени. Тем не менее, парсер справляется даже с такими ужасами, как разметка TOS’a Linkedin или Facebook.
Много чего не успели – потому что объём работ я расчитал на троих – но в целом не позор, и то ладно ) Любопытно было и то, что примерно через 30-35 часов начался жестокий тупняк и я полтора часа протупил на дебаге, выискивая нелепейшую ошибку. 10 лет назад у меня тупняк наступал на третьи сутки, ога. Старею.
Ну, и отдельным абзацем: @carpogoryanin, ты монстр, реально! Спасибо!
no subject
Date: 2014-12-08 10:18 pm (UTC)И тут есть timezone advantage: я что-то делаю вечером, иду спать, вы продолжаете своим вечером, потом я подхватываю и т.п.
no subject
Date: 2014-12-08 10:58 pm (UTC)В следующий раз – думаю, он будет – я приглашения разошлю частным образом.
no subject
Date: 2014-12-09 09:42 am (UTC)no subject
Date: 2014-12-09 09:53 am (UTC)no subject
Date: 2014-12-10 08:27 am (UTC)no subject
Date: 2014-12-10 08:40 am (UTC)no subject
Date: 2014-12-10 01:42 pm (UTC)no subject
Date: 2014-12-10 02:04 pm (UTC)Я когда над этим поразмышлял, пришёл к выводу, что эту задачу надо переводить:
а) из букв в цифры
б) из экспертного поля в социальное
в) из пояснений в аннотации.
Хотя, несомненно, задача автоматического аннотирования с указанием допустимого итогового подмножества языка будет решена. Но точно не врамках хакатона – такая штука должна ворочать огромным корпусом «живой» речевой и текстуальной информации, обновляемой в реальном времени. То-есть, грубо говоря, она должна понимать что подростку можно сказать «Это отстой», а вот бабульке – нельзя.
no subject
Date: 2014-12-10 02:14 pm (UTC)no subject
Date: 2014-12-10 02:26 pm (UTC)Эти тексты между собой очень даже непохожи – это я знаю совершенно точно, потому что я хуеву гору их прочёл снизу доверху. Аннотированных кстати полно, и вменяемых-читаемых – тоже.
В самом деле, там чисто технических проблем с выборкой-парсом немеряно. Начать с того, что эти тосы бывает у компаний лежат все для всех стран по одному урлу, но отдаются разные. То-есть облако во франкфурте получит ФБ тос для дойчей.
Ну и даже структура у них – это просто ад. У гугла нет тега body в этих доках, а у эпла все заголовки – просто абзацы. Где-то маркированные списки это списки, а где-то просто оформление. И это ещё совсем цветочки. А уж про речевые паттерны – там просто туши свет.
Насчёт монстра, что не окупится – это ты зря. У гугла как раз примерно такой монстр и есть – и вполне окупается )