понедельник, 09 октября 2006
В общем я занялась рассмотрением своего языка - хотела вычислить, насколько он беден, насколько он сложен, и какие конкретно у него есть проблемы.
Как полигон я взяла кусок своего рассказа - семь тысяч слов, и провела анализ.
АНАЛИЗ
Проблемы начались на самом старте. Ну ворд, конечно, предлагает некоторые виды статистики, например, можно узнать, сколько в среднем букв в слове, сколько предложений в абзаце и слов в предложении, но это не так интересно, мне хотелось выяснить частоты слов, а для этого весь текст мне надо было разбить на слова по строкам. А такой функции я за час не нашла ни в Ворде ни в Экселе. Особенно обидно с Экселем. Они предоставляют функцию разбития текста на слова по ячейкам, но только по столбцам, а не по строкам, зато сортировать потом они согласны только по строкам, а не по столбцам. Ну не сволочи, а? Кроме того в Экселе всего лишь 256 столбцов, а у меня семь тысяч слов - беда.
Ответ на задачу лежал на поверхности, но без подсказки многоуважаемого Хиуса не обошлось.
Вы посмотрите, какой изащный алгоритм - копируем текст в блокнот, а потом просто используем функцию "Заменить на" - и заменяем пробелы на <br>. Правда происходит это долго - около пятнадцати минут, но в итоге все слова, после открытия блокнота в эксплозере стоят на своей строчечке. Далее все просто - копируем этот столбик в Эксель, сортируем по алфавиту, и получаем интереснейшие данные.
Вот например, знаете ли вы, что даже у гениального мастера слова Татьяны Толстой из тысячи слов сто пятьдесят приходятся на один и тот же десяток? (вся выборка, которую я сделала у Толстой составляет 11 тысяч слов) На первом месте стоит... угадайте, какое самое главное слово в русском (да, пожалуй, и не только русском) языке? Правильно, это союз "и" У Толстой на тысячу слов приходится по 41 "и", у меня в произведении "Эпителий" - 38,6 союзов "и" на тысячу. На втором же месте у меня оказалась частица "Не" - 24 слова на тысячу, а у Толстой - предлог "В" - 29 слов. При этом у меня сиих предлогов лишь девятнадцать, а у нее данных частиц лишь 17,5
Кстати, по числу первых десяти слов на тысячу я ее опережаю всего лишь на два-три слова. Еще одна интересная цифра - почти половина слов текста приходится на сотню одних и тех же терминов. Если быть точнее - 422 на тысячу. Всего же на семь тысяч слов моего текста уникальных слов - около полутора тысяч, а уникальных корней, пожалуй, не намного больше пятисот - вот так )))
Однако мне интереснее всего были мусорные слова, которые попадаются в тексте. Под мусорными я понимаю такие слова, которые имеют значительно бОльшую относительную частоту, чем у Толстой, но при этом тематически эта разница не обусловлена. Поясню. Слов "Платформа" у меня в тексте 22 штуки, а у Толстой - 0, но это и понятно, просто она не писала о платформах, слово "я" у меня на седьмом месте, а у Толстой на шестнадцатом - это тоже понятно, ведь мой рассказ от первого лица, а у нее все вперемешку - я делала подборку разных статей и рассказов, намешала коктейльчик.
А вот с момощью дорогого сердцу Мерфанефа я обнаружила действительно мусорное слово: "свой" - я корчевала его, Мерфанеф корчевал его, в итоге их численность сократилась в два раза, но все равно у меня в тексте их четыре с половиной на тысячу, а у Толстой лишь 4,2 (хотя уже видно, что разница приемлема). Мусорным можно назвать слово "вот" - у меня их пять на тысячу, а у Толстой - 2,3 (впрочем у меня много разговорных эпизодов, а герои часто используют в разговорах это слово, но все же не настолько) слово "уже" встречается у меня почти шесть раз на тысячу, а Толстая не добирает и до двух.
Есть еще более тонкий анализ. Ну, например слово "очень" у Толстой используется семь раз, а у меня девять раз, ну и что, не так уж и много, на двадцати с лишним страницах текста использовать слово "очень". Но надо проверить число слов "весьма", "значительно", "неизмеримо", "несоизмеримо", "ошеломляюще". И что мы видим? Ни одного синонима этим девяти "очень" не встречается. Ага, звоночек! И так с каждым частым словом - видим слово, ищем синонимы, и уравниваем частоту всех синонимов - и будет вам Щастье!
Бедноту языка, товарищи, надо исправлять! )))
А в дополнение еще одна справка. У Толстой на тысячу слов приходится:
запятых 154
точек 56
тире 27,5
качычек 18,6
девисов 14
двоеточий 12
вопросов 7,8
восклицательных знаков 6,8
скобок 5,7
многоточий 5,4
точек с запятой 4,5
А весь этот анализ с выкидвыванием и заменой это уже больше похоже на путь к программам по написанию романов))
ха-ха-ха-ха )))) сразу же вспомнила одну очень забавную хохму у одного юмориста, не помню, кого:
"Мы поем душой, а душа нот не знает" ))))))))))))))))))))))))))))))))))))))))))))))
Я к тому, что каким бы ты ни был одаренным музыкантом с рождения, каким бы поразительным слухом ни обладал, пока ты не выучишь ноты, ты никто.
Видишь ли, как верно заметил один писатель, литература, это искусство и наука одновременно. Моя любимая Толстая по этому поводу сказала еще точнее, она преподает в Америке писательское искусство, она так сказала: "Я учу студентов, как надо писать, точнее я учу их, как писать не надо, ибо научить писать невозможно" - так вот с одной стороны ты сейчас прав - без талланта, без вдохновения, без дара научить писать невозможно, но вот научить, как писать не надо - можно. От речевых, стиллистических ошибок не застрахован никто, ни Чехов ни Толстой ни Пелевин, но их можно нейтрализовать, устранить, именно поэтому каждое произведение проходит сильный гребень редакции, но перед этим писатель должен быть и сам себе редактором.
ха-ха-ха-ха )))) сразу же вспомнила одну очень забавную хохму у одного юмориста, не помню, кого:
"Мы поем душой, а душа нот не знает" ))))))))))))))))))))))))))))))))))))))))))))))
Я к тому, что каким бы ты ни был одаренным музыкантом с рождения, каким бы поразительным слухом ни обладал, пока ты не выучишь ноты, ты никто.
В данном случае "знание нот" это знание алфавита, на этом вся техника и останавливается.
так вот с одной стороны ты сейчас прав - без талланта, без вдохновения, без дара научить писать невозможно, но вот научить, как писать не надо - можно.
ты знаеш, оставь это дело редактору это его занятие.
От тебя требуется написать а редактировать уже будет редактор.
Потом, кому к чёрту надо считать сколько у тебя в тексте повторяющихся слов и т.д.
Читателю нужно удовольствие получить, всё остальное его мало интересует.
Вдохновение, красота, полёт фантазии вот что требуется от писателя.
Неожиданные повороты т.д.
А если ты будёш циклится на этой словосчиталке то у тебя мало творчества выйдёт)))
ууу..... мда... Не хочу делать вид разбирающейся в литературе, но ты даже не представляешь, насколько ты глубоко заблуждаешься... Впрочем в каких-то видах ты прав, например чтобы достичь литературного успеха Дарьи Донцовой, в филологии действительно достаточно знание алфавита плюс пару десятков литнегров и бойкую фантазию, но если ты хочешь написать что-то действительно относящееся к литературе, ты должен соблюдать тысячу правил. Поговори, к примеру, с Мерфанефом, он в этом разбирается. Попробуй написать пол странички рассказика, а потом посчитай число ошибок, каждая из которых достаточна, чтобы забраковать твой рассказ, как литературную сивуху.
ты знаеш, оставь это дело редактору это его занятие.
От тебя требуется написать а редактировать уже будет редактор.
Да, но редактор жить хочет, он не будет стреляться, он просто швырнет твой шедевр в корзину, даже не поняв, что за стеной стиллистических коряг и литературных несуразиц скрывается что-то стоящее.
Есть такой писатель, Макин, у него есть роман - страниц на четыреста, а в этом романе есть фраза: "отсвет улыбки оживил его суровое лицо". И что тут? Скажи, что плохого? Все буквы на месте, алфавит выучен в совершенстве - но вот за эту фразу Макина чуть не убили. Причем заметь, не редактора, а именно Макина. Про эту фразу сказано: "ножом по стеклу". Нет, если ты хочешь, чтобы тебя прочитали, изволь исправить хотя бы те ошибки, которые можешь, ну а что не сможешь, исправит редактор. Вот так. "Делай хорошо, а плохо - оно само получится"
Читателю нужно удовольствие получить, всё остальное его мало интересует.
а в этом и дело, подсознательно приятнее читать богатый язык, чем бедный. Разумеется не тем красен жанр, и это не должно быть центральной целью автора, но если слишком много одних и тех же слов - читать уже неприятно.
А если ты будёш циклится на этой словосчиталке то у тебя мало творчества выйдёт)))
а я и не циклюсь ))) я сначала пишу, как душа поведет, ну а потом приглаживаю
Я даже скачивал себе на компьютер, но потом вроде бы удалил.
Ну, я считаю что в письме главно полёт фатазии, вдохновение, умение писателя разбудить фантазию у читателя.
А всё остальное, так, второстепенно.
Никто не сознательно ни подсознательно не будет искать у тебя повторений(если конечно они не через слово).
Легкочитаемость, доступность вот что еще надо.
А то натыкаеш "синонимов", что у читателя мозги от такого попухнут и читать он не станет.