ermouth: (Default)
[personal profile] ermouth
10 словосочетаний, 
которые используются в русском чаще всего

Новый год
Последний год
Последнее время
Последний раз
Последний день
Человек хочет
Стать большим
Хороший человек
Стать человеком
Хорошо знать

(я) методика: взят синопсис корпуса литературного русского языка отсюда, выделены самые кассовые слова (существительные, прилагательные, глаголы), сделано 300 запросов в Яндекс по их парам через этот автомат, результат обобщен.

Кстати, Новый год встречается в русском чаще, чем последние четыре члена этого списка, вместе взятые.

Что-то слово "последний" очень популярно, а? С чего бы?

Date: 2006-07-12 04:09 am (UTC)
From: [identity profile] ex-neo-is-fl156.livejournal.com
Врут!
Самая частая пара слов - это debug build
(ладно, про access violation вежливло промолчим)

Итак,

...Средняя длина русского слова составляет 5.28 символа...

...Итак, был взят 1 000 000 слов из разных текстов, и проведён анализ...

Ну пусть на странице, по-минимуму, 2000 символов без пробелов. 2000/5.28 = 378.8 слов на странице. В средней книге 200 страниц. 200*378.8 = 75760.

1'000'000 / 75'760 = 13.19 книг.

13 книг! :) Ну и где доказательство, что это была репрезентативная выборка???
Интересно, какие же это были книги :)))

Date: 2006-07-12 05:14 am (UTC)
From: [identity profile] pitty.livejournal.com
Вы такой умный! ;)

Date: 2006-07-12 05:24 am (UTC)
From: [identity profile] ex-neo-is-fl156.livejournal.com
Многозначительно промолчу в ответ ;)

Date: 2006-07-12 06:47 am (UTC)
From: [identity profile] bodry-yar.livejournal.com
А я знаю продолжение этой фразы:
"Вам череп не жмет?" :)

Date: 2006-07-12 06:51 am (UTC)
From: [identity profile] pitty.livejournal.com
прошу всех обратить внимание! Я этого не говорил :)))

ЗЫ нужно тебе диск отдать, все забываю :)

Date: 2006-07-12 07:05 am (UTC)
From: [identity profile] ermouth.livejournal.com
Дима, этого вполне достаточно.

Date: 2006-07-12 07:11 am (UTC)
From: [identity profile] ermouth.livejournal.com
целиком книги брать нет никакого смысла. ты ж учил статистику :)

Date: 2006-07-12 07:42 am (UTC)
From: [identity profile] ex-neo-is-fl156.livejournal.com
Я учил статистику (правда, если честно, я в ней не силён - у нас был всего один обязательный курс, на который я почти не ходил, а из предметов по выбору я её не выбирал, т.к. я предпочитал дискретку).

Из знаний статистики помню один очень важный элемент - результаты никуда не годны без доказательства статистической значимости результатов. В данном случае этот шаг (доказательство статистической значимости) является основным (по трудоёмкости).

К тому же - ты либо бери весь язык (а тогда за что убирать разговорный язык, жаргон, интернет-терминологию, математику?), либо чётко оговори, какую часть языка ты берёшь. Напр., "литературный начала и середины 20-го века, жизненные истории и короткие популярные очерки о политике"

Date: 2006-07-12 09:02 am (UTC)
From: [identity profile] ex-neo-is-fl156.livejournal.com
Я к тому, что я целиком согласен, что из книги может взять некоторый кусок. Но даже если брать из каждой книги по 1 странице, получится 2600 книг. Это всё равно очень, очень мало, и становится важно, какие именно книги выбраны.

Date: 2006-07-12 09:37 am (UTC)
From: [identity profile] ermouth.livejournal.com
то, что выбор источников непроизвольный -- очевидно.

про корпус русского языка читай ruscorpora.ru

плюс синопсис, который я скачал, не содержит, скажем, слова хуй -- которое точно входит в первые 5000.

я вообще этим всем заморочался в рамках создания машины, которая оценивает эмоциональную окраску текста. кое-какие наработки у меня есть, теперь к ним прибавилось немножко :)
From: [identity profile] ex-neo-is-fl156.livejournal.com
"Новый год" (http://www.yandex.ru/yandsearch?text=%22%CD%EE%E2%FB%E9+%E3%EE%E4%22&stype=www)

Результат поиска: страниц — 9 138 881, сайтов — не менее 5 689, в каталоге — 8
Запросов за месяц: новый — 411 696, год — 475 838. Купить эти слова.

"Забыли пароль" (http://www.yandex.ru/yandsearch?text=%22%C7%E0%E1%FB%EB%E8+%EF%E0%F0%EE%EB%FC%22&stype=www)

Результат поиска: страниц — 56 104 095, сайтов — не менее 73 418
Запросов за месяц: забыли — 20 689, пароль — 194 264. Купить эти слова.


К тому же этот контрпример ещё и показывает, что самая популярная пара слов совсем не обязательно состоит из самых популярных отдельных слов.
From: [identity profile] ermouth.livejournal.com
Дима, я не про сеть говорю, а про вообще язык :)

Слово "хуй" тут тоже не встречается :)

Date: 2006-07-12 04:32 am (UTC)
From: [identity profile] ex-neo-is-fl156.livejournal.com
А вот доказательство, что по отдельным словам у них тоже "косяки".
Самое первое частое существительное из их списка - "человек".

Человек (http://www.yandex.ru/yandsearch?text=%F7%E5%EB%EE%E2%E5%EA&stype=www)

Результат поиска: страниц — 136 107 040, сайтов — не менее 60 884, в каталоге — 498
Запросов за месяц: человек — 255 634. Купить это слово.


Форум (http://www.yandex.ru/yandsearch?text=%F4%EE%F0%F3%EC&stype=www)

Результат поиска: страниц — 243 977 245, сайтов — не менее 27 109, в каталоге — 6 577
Запросов за месяц: форум — 709 687. Купить это слово.

Date: 2006-07-12 07:08 am (UTC)
From: [identity profile] ermouth.livejournal.com
тот-же контраргумент -- не надо путать божий дар с яичницей. сеть -- это еще не все.

я внятный синопсис уже с полмесяца ищу -- как раз для того, чтобы отфильтровать перекосы нтернет-фразеологии.

вот, нашел теперь.

Profile

ermouth: (Default)
ermouth

November 2021

S M T W T F S
 123456
78910111213
14151617181920
21 222324252627
282930    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 13th, 2025 07:16 am
Powered by Dreamwidth Studios