ermouth: (Default)
[personal profile] ermouth

Поучаствовали в Koding Virtual Hackathon, составом из двух человек. Был и третий – но отвалился в первый же день (сильно нас подставив своей ленью и нытьём).

Экспириенс в целом потрясающий. Оказалось, что я до сих пор могу не спать двое суток – и при этом вполне себе делать дело. То, что мы за два дня накодили, выглядит вот так:

Снимок экрана 2014-12-08 в 22.17.40

Снимок экрана 2014-12-08 в 22.14.32

Основная сложность – написать парсер, который бы “разбирал” HTML, полученный с внешних линков, и превращал его в более-менее плоскую структуру. Это заняло примерно 7 часов, и не сказал бы, что получилось идеально – но на большее не хватило времени. Тем не менее, парсер справляется даже с такими ужасами, как разметка TOS’a Linkedin или Facebook.

Много чего не успели – потому что объём работ я расчитал на троих – но в целом не позор, и то ладно ) Любопытно было и то, что примерно через 30-35 часов начался жестокий тупняк и я полтора часа протупил на дебаге, выискивая нелепейшую ошибку. 10 лет назад у меня тупняк наступал на третьи сутки, ога. Старею.

Ну, и отдельным абзацем: @carpogoryanin, ты монстр, реально! Спасибо!

Date: 2014-12-08 10:18 pm (UTC)
From: [identity profile] morfizm.livejournal.com
В следующий раз пиши пост заранее. В данный конкретный раз я не смог бы заджойниться, т.к. сильно занят, но вообще теоретически мог бы.

И тут есть timezone advantage: я что-то делаю вечером, иду спать, вы продолжаете своим вечером, потом я подхватываю и т.п.

Date: 2014-12-08 10:58 pm (UTC)
From: [identity profile] ermouth.livejournal.com
Я посмотрел сколько из Арх-ска собиралось участвовать и сколько хотя бы заапплаилось. И решил нкому на хвост не наступать и всё сделать под одеялом.

В следующий раз – думаю, он будет – я приглашения разошлю частным образом.

Date: 2014-12-09 09:42 am (UTC)
From: [identity profile] 802-11.livejournal.com
Лайк с плюсом — лайк за тему, плюс за котяток.)

Date: 2014-12-09 09:53 am (UTC)
From: [identity profile] ermouth.livejournal.com
Пасип ) Котятки есчо на фотобанке куплены, да.

Date: 2014-12-10 08:27 am (UTC)
From: [identity profile] grayscaler.livejournal.com
Честно говоря, так и не понял, что это :) Чтобы юзеры прилепляли котяток к TOS сервисов, которыми пользуются? Чтобы авторы сервисов прилепляли котяток к своим TOS?

Date: 2014-12-10 08:40 am (UTC)
From: [identity profile] ermouth.livejournal.com
ага, поабзацно только и с короткими комментами. чтобы сразу видно, что как.

Date: 2014-12-10 01:42 pm (UTC)
From: [identity profile] grayscaler.livejournal.com
Ясно. А прикольно было бы сделать интеллектуальный саммарайзер TOS, чтобы извлекал только существенное для юзера и на человеческом языке, без этих многоэтажных юридических формулировок.

Date: 2014-12-10 02:04 pm (UTC)
From: [identity profile] ermouth.livejournal.com
Есть довольно много попыток, все они в той или иной степени ущербны. Причина довольно проста – «человеческий язык» весьма расплывчатое понятие. Граница, где данный конкретный юзер начинает терять смысл повествования, для каждого юзера своя.

Я когда над этим поразмышлял, пришёл к выводу, что эту задачу надо переводить:
а) из букв в цифры
б) из экспертного поля в социальное
в) из пояснений в аннотации.

Хотя, несомненно, задача автоматического аннотирования с указанием допустимого итогового подмножества языка будет решена. Но точно не врамках хакатона – такая штука должна ворочать огромным корпусом «живой» речевой и текстуальной информации, обновляемой в реальном времени. То-есть, грубо говоря, она должна понимать что подростку можно сказать «Это отстой», а вот бабульке – нельзя.

Date: 2014-12-10 02:14 pm (UTC)
From: [identity profile] grayscaler.livejournal.com
Такой монстр никогда не окупится :) Для хакатона достаточно было бы выцеплять характерные (или наоборот, нехарактерные) фразы, в конце-концов эти тексты обычно страшно похожи между собой, так что получалась бы некая сводка "Можно использовать в коммерческом продукте", "Можно показывать по ТВ", "Необходимо письменное согласие" и т.д.

Date: 2014-12-10 02:26 pm (UTC)
From: [identity profile] ermouth.livejournal.com
Нет, недостаточно. Я это проработал. Даже больше тебе скажу, получается полная херня )

Эти тексты между собой очень даже непохожи – это я знаю совершенно точно, потому что я хуеву гору их прочёл снизу доверху. Аннотированных кстати полно, и вменяемых-читаемых – тоже.

В самом деле, там чисто технических проблем с выборкой-парсом немеряно. Начать с того, что эти тосы бывает у компаний лежат все для всех стран по одному урлу, но отдаются разные. То-есть облако во франкфурте получит ФБ тос для дойчей.

Ну и даже структура у них – это просто ад. У гугла нет тега body в этих доках, а у эпла все заголовки – просто абзацы. Где-то маркированные списки это списки, а где-то просто оформление. И это ещё совсем цветочки. А уж про речевые паттерны – там просто туши свет.

Насчёт монстра, что не окупится – это ты зря. У гугла как раз примерно такой монстр и есть – и вполне окупается )

Profile

ermouth: (Default)
ermouth

November 2021

S M T W T F S
 123456
78910111213
14151617181920
21 222324252627
282930    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 2nd, 2026 11:40 pm
Powered by Dreamwidth Studios