прямоугольнички с точечками в пять часов утраА дело опять в математике. Теперь в теории вероятности.
Проблема, решение которой явилось для меня такой радостью, была обнаружена мною еще несколько лет назад, когда я читала всякие источники по химической эволюции, где рассматривались вероятности спонтанного образования тех или иных биологически ванных соединений.
Часто можно было встретить такие расчеты, как например:
Молекула белка состоит из 100 аминокислотных остатков 20-ти видов. Все очень просто, нужная комбинация – одна из 20^100 возможных, т. е. ее вероятность 1/20^100 = 1/ (2^100*10^100) = 1/10^130 (исходя из приближения 2^10 = 10^3)
Замечательно, пока все бесспорно, если не углубляться в подробности энантиомеров и других возможных форм аминокислот.
Но какие далее следуют расчеты – чтобы получить вероятность этого образования хотя бы в одном случае из числа случаев (попыток) спонтанной сборки, число этих попыток и вероятность для одной попытки перемножают. Например если число различных комбинаций равно миллиону, то получается вероятность – 10^-124, изменение, в реальности не имеющее никакого смысла, но в принципе правильное, так оно примерно и будет. Но если мы, допустим, представим себе, что комплексов мономеров 10^50, причем за время попыток они собирались по 10^16 раз (сколько-то там тысяч раз в секунду, сколько-то там сотен миллионов лет), то число попыток составит 10^66. Допустим, нужный нам белок хоть и состоит из ста аминокислот, функциональных при различных последовательностях, скажем, нам удовлетворяет 10^65 последовательностей. Т. е. вероятность образования функционального елка – 10^-65. Так что же это получается, при данном раскладе вероятность образования нашего белка равна 10???
Я, конечно, давно понимала, что тут действуют какие-то другие формулы, а старый способ умножения вероятности на число попыток все же допустим, но когда число их значительно ниже вероятности в минус первой степени.
На более простом примере приходим к следующему вопросу: можно сказать, что вероятность выпадения 12-ти очков хотя бы один раз за два выбрасывания пары костей примерно равна 1/18, а чему равна эта вероятность при тридцати семи выбрасываниях?
Неоднократно я вспоминала эту дилемму, пыталась понять, в чем ошибка, пыталась представить себе какие-то ситуации, где это более очевидно, наглядно, легко разложимо по полочкам.
Однако каждый раз я наталкивалась на то на то, что у меня есть куда более важные дела, и забрасывала этот вопрос.
Более серьезно я с ним подралась после того, как однажды, в поисках совсем других вещей в учебнике высшей математики (пытаясь найти там что-нибудь по той самой задаче по быкам черной и красной масти, возникшей на генетике, о которой я уже рассуждала) наткнулась на следующую задачу:
В книгах 1000 страниц, по которым в случайном порядке «распределены» 100 опечаток, какова вероятность того, что на случайно выбранной странице окажется не менее четырех опечаток?
Меня сразу смутило, что такая, казалось бы, легкая задача оказалась расположена среди каких-то жутких формул. Казалось, какие тут формулы?!
Раз есть сразу четыре ошибки, т. е. события, совершающиеся одновременно в одном случае, то их вероятности (а вероятность каждой, понятно, 1/10 (это потом оказалось очевидным, что это вовсе не вероятность, а частота, и их нельзя путать)) перемножаются по закону алгебры вероятностей. Вот и получается 10^-4!
Все было бы прекрасно, но в ответе оказалось 4*10^-6! Дело в том, что тогда я даже забыла о вышеописанных головоломках с киданием костей, когда получалась вероятность большая, чем единица, и недоумевала – ну что может быть в моих расчетах неправильного?
Самое обидное – что поди разберись – формула, которую использует учебник для этой задачи, страшна, как предсмертная агония, там еще какие-то серьезные функции из высшей математики, так что же, чтобы решить эту смехотворную задачку, надо использовать анализ, или что там еще… тензорное исчисление???
Откуда берется эта формула, там, разумеется, не написано, вот как раз как в предыдущей теме – вот вам формула, а откуда она получается – сами думайте, короче я в тот же день и забыла даже очертания этой формулы, но твердо решила, что, раз уж в учебнике не пишут, откуда берется их решение, я сама решу эту задачу про опечатки, ведь, в конце концов, тут надо всего лишь понять, как эти чертовы сто ошибок посеяны на этой гадкой книжице!
Начало было положено, когда я стояла через несколько дней после обнаружения задачи на станции Серпуховская, и ждала поезда до дома.
Я еще раз задала себе вопрос – ну почему при увеличении числа ошибок вероятности просто не перемножаются, зачем тут сложные мат формулы?
- Ну правда, вероятность одной ошибки - 1/10, значит и у другой – та же, вот и получается, что при совместном наступлении….
- Стоп, - осенило меня, - а почему это вероятность второй 1/10?! Что то в памяти блещут какие-то формулы про события уже наступившие – а здесь как раз такой случай!
Сначала ошибок было 100 на 1000 страниц. Вероятность, что на случайно выбранной будет какая-то из них, понятно, 100 / 1000, но если она уже тут – это событие наступившее, то при дальнейшем распределении в нашем распоряжении будут уже не 100, а 99, значит и вероятность 99/1000, а потом 98/1000 и 97/1000 – так их и надо перемножать!
(да, а то получается какая-то бездонная бочка – вероятность не менее четырех ошибок при простом перемножении получается 10^-4, а вероятность не менее ста одной ошибки на одной странице – 10^-101, но у нас вообще нет 101-й ошибки!)
Тут я схватила свой карманный компьютер и перемножила числа…. Нет, все равно не получается, собственно, это было видно и без калькулятора, все числа уж очень близки к старой 1/10, а разница между ответами была аж в 2,5 раза (я тогда так считала, потому что просто не обратила внимание на точное число нулей в ответе)
Да, до решения проблемы было еще так далеко…
Через недели две, сидя в автобусе и пытаясь прочитать книжку, я опять вспомнила вредную задачу, взяла листочек и снова вступила в бой.
Этот вечер, плавно перетекший в ночь, когда я уже была дома, стал для меня очень значительным, я бы сказала, переломным в чем то.
Я подошла к вопросу совсем иначе и стала докапываться до истины с самого начала
Слава Богу, у меня хватило умственной свободы отречься от вероятности одной любой ошибки и я дала ошибками лица.
Теперь это уже были не ошибки, это были просто точечки в десяти маленьких прямоугольничках на тетрадном листке.
И сейчас помню подробный ход своих скитаний среди этих точке, теперь это кажется даже забавно, по-ребячески:
- Какова вероятность, что в наугад выбранном прямоугольнике окажется точка а?
- Ну здесь бесспорно: 1/10
- Какова вероятность, что в произвольно выбранной точке будет b?
- Понятно, что тоже 10^-1
- Надо ничего не забыть, все продумать, все учесть. А вот какова вероятность, что точки а не будет?
- 1 – 1/10 = 9/10, пока сомнений не возникает.
Постепенно бумага испещрялась важными и незначимыми подробностями, домысливаниями, которые помогали представить ход распределения яснее. Постепенно записи обрастали обозначениями, здесь перемешивались мои воспоминания из курса зачатков теории вероятностей, данной нам Федькиной три года назад со своими выдуманными обозначениями, вот как было поначалу: Р(ав) = 10^-1, Р(не а) = 9*10^-1…
Но как важно оказалось следующее мое обозначение, которое и поставило меня на путь истинный, после которого решение задачи было уже делом времени: Р (т-ко а) (вероятность, что в выбранном квадратике будет только точка а)
В случае двух точке (далее этот случай я обозначала индексами, здесь не Ворд, и верхний индекс я буду обозначать, как степень числа, через крышку, нижний же индекс я привыкла с давних пор обозначать через точку, получается следующее обозначение: Р (т-ко а)^2.10 обозначает, что верхний индекс – два, нижний – десять, все выражение гласит: вероятность выпадения только точки а в выбранном из десяти прямоугольников, в которых есть две точки).
Р (т-ко а)^2.10 = Р (а)*Р (не b) = 0,09
Р (а+b) = Р (а)*Р (b) = 10^-2
Пока все легко, но пора вводить точку с, и все сильно усложняется :
Р (т-ко с)^3.10 = (1 – Р (не с)) *Р (не а) *Р (не b) (что тождественно Р (с) *Р (не а) *Р (не b), сначала я рассуждала, что «только с» слагается из отсутствия прочих точек и исключения отсутствия с, но проще – отсутствие прочих и ПРИСУТСТВИЕ с)
Второе переломное обозначение, которое я для себя изобрела - использовать здесь перевернутую А – any – теперь мне уже пора было отходить от поименного обозначения точек, так как я уже на их примере уяснила все те ошибки, что совершала прежде, пора было освобождаться от обозначений
(однако должна заметить, что это все было не так скоро, прежде чем прийти к этому я блуждала еще в таких потемках, что мама не горюй:
Р (а // b)^2.10 (// - или в моей старой системе пиктографии) = 0,18;
Р (0) = 1 - Р (а // b) = 0,82;
Р (т-ко (а+b) )^3.10 = Р (а+b) * Р (не с) = 0,01*0,9 = 0,009;
Р (а+b+с)^3.10 = 1/1000;
И проч. К этому времени обозначения у меня уже реформировались, «т-ко» стало просто «т», «не» превратилось просто в зачеркивание буквы, но зачеркивание буквы я буду здесь заменять знаком из булевой алгебры: не а = а’, any я не могу обозначать перевернутым А, буду обозначать обыкновенным)
Самое легкое выражение с новым знаком any было:
Р(т1А)^3.10 = Р(та) + Р(тb) + Р(тс) = 3Р(тх)!
Далее сложнее:
Р(т2А)^3.10 = Р(т(а+b)) + Р(т(а+c)) + Р(т(b+c)) = 0.027 (эта формула уже чуточку приближала меня к той мысли, что надо будет использовать комбинаторику)
При этом вероятность непоявления ни одной точки выражается так:
Р(0)^3.10 = 1 - Р(т1А) - Р(т2А) - Р(^) (в моей старой пиктографии слово «все» обозначается просто крышечкой) = 1 – 0,243 – 0,027 – 0,001 = 0,729
Ну и полный отказ от имен точек:
Формула (1): Р(тх)^4.10 = Р(х)*(1-Р(х))^4-1
Все очень просто – наличие только одной конкретной точки (не зависимо от ее обозначения, но не любой, не путать х с А), это одновременное присутствие ее и отсутствие остальных точек, а вероятность отсутствия всех точек, кроме выбранной, равна вероятности полного отсутствия точек в том случае, когда этих точек на одну меньше, в нашем случае это: Р(0)^3.10, поэтому:
Так как Р(0)^3.10 = Р(а’) * P(b’) * P(c’), a Р(а’) = P(b’) = P(c’) = P(x’), то получается:
Р(0)^3.10 равно P(x’) в третьей степени, а так как P(x’) = 1 - P(x), то Р(0)^3.10 = (1-Р(х))^3, а так как Р(тх)^4.10 = Р(х) * Р(0)^3.10, то и получается формула №1.
Чтобы унифицировать формулу, я заменила в первом варианте в показателе степени цифру три на 4-1., показывая, что значение этой степени на единицу меньше значения верхнего индекса, то есть числа точек.
Теперь мы начинаем заменять не только буквы, но и цифры:
р – число клеток, в более общем смысле я это понимала, как число вариантов для распределения объектов или указаний.
n – число точек, то есть этих самых объектов и указаний, формулировка обобщения, конечно, корявая, но я о нем совершенно не задумывалась, интуитивно я понимала, какого приложение этих p и n, и никакие формулировки мне не были нужны.
Итак, снова унифицируем, отходим от частностей:
P (0)^n.p = (1 – P(x))^n-1;
Что на основании этой формулы мы уже можем сказать?
А у нас теперь есть ответ, какова же вероятность того, что хотя бы один раз из тридцати семи выбрасываний у нас выпадет 12 очков! Вот он, тот парадокс, когда вероятность выпадения двенадцати оказалась больше единицы (37/36) ну а на самом деле?
Нам надо выяснить вероятность хотя бы одного выпадения, это значит, что нам просто надо исключить из единицы вероятность нуля выпадений, то есть:
Р (хоть1А) = 1 - P (0)^n.p, где n = 37 (всего тридцать семь подкидываний), P = 36 (всего раскладов)
Р (хоть1А) = 1 - P (0)^37.36 = 0,637!
Вот так, а говорили 37/36!
Другие обобщения:
P (x).p = 1/p = p^-1 (значение не зависит от n)
P (^)^n.p = p^-n
P (тx)^n.p = P (x).p * (1 - P (x).p)^n-1 = 1/p(1 - 1/p)^n-1
P (т1A)^n.p = n P (тx)^n.p = n * 1/p(1 - 1/p)^n-1
Вот!!! Вот по-настоящему общая формула для вероятности одного из случаев без учета, какая именно опечатка попадется! Эта формула говорит, какова вероятность того, что в случайно выбранном прямоугольнике из p мы поймаем одну точку, причем только одну!
Но дальше еще интереснее! Чему равно Р (т2А) ?!
P (т(y+x))^n.p = P (x).p * P (y).p * P (0)^n-2.p, т. к. P (x).p = P (y).p =>
P (т(y+x))^n.p = (1/p^2) (1 - 1/p)^n-2
(может возникнуть путаница из-за того, что у меня знак «^» используется сразу в трех случаях, поясняю: если крышечка стоит за скобкой аргумента вероятности, значит обозначается верхний индекс при этой вероятности, если крышечка стоит за алгебраической скобкой, значит это показатель степени (эта путаница возникла не по моей вине, и то и другое обозначают в номенклатуре как верхний индекс), если же крышечка стоит внутри скобки аргумента вероятности, значит это пиктограмма слова «все», которая возникла у меня уже давно)
А сколько всего таких комбинаций (х + у)? Понятное дело, что без комбинаторики нам не обойтись, разумеется формул я не помнила, поэтому пришлось самой методом долбления ее выводить:
n = 0 - > (x+y) – пустое множество
n = 1 - > (x+y) – пустое множество
n = 2 - > (x+y) – 1: (a + b)
n = 3 - > (x+y) – 3: (a + b); (a + c); (b + c)
n = 4 - > (x+y) – 6: =//=; (a + d); (b + d); (c + d);
n = 5 - > (x+y) – 10: =//=; (a + e); (b + e); (c + e); (d + e);
И так далее…
Стало понятно, что имеем дело с С^2.n
Отсюда:
P (т2A)^n.p = С^2.n * P (т(x+у))^n.p = С^2.n * (1/p^2) (1 - 1/p)^n-2
Пришла, пришла та торжественная минута ввести последнюю букву, устранить последнюю частность, и наши формулы превращаются в одну фундаментальную и универсальную: осталось уничтожить цифру два, цифру, равную числу точек, попавших в выбранный нами прямоугольник. Очевидно, что двойка, стоящая в верхнем индексе у числа комбинаций без повторений (кажется так С называется), также определяется числом нужных точек, ведь С – число их комбинаций. Показатель степени при первом 1/р также есть число точек, которые надо увидеть в выбранной клеточке (ведь этот показатель появился от перемножения одинаковых P (x).p и P (y).p, и при добавлении каждой новой точки добавляется и множитель, и возрастает на единицу показатель степени), ну и конечно же показатель степени при скобке также содержит число точек, именно на это число данный показатель меньше, чем n; показатель степени при скобки говорит нам о числе точек, которые не попали в прямоугольник, а их число, понятное дело равно общему числу за вычетом числа попавших.
Наступило время дать окончательную формулу, пора подвести итоги.
Какова же вероятность, что при распределении n точек по р клеточкам в наудачу выбранной клеточке окажется k точек, не важно каких?
__________________________________________________________
Р (тkA)^n.p = C^k.n p^-k (1-p^-1)^n-k
__________________________________________________________
Р (тkA)^n.p = C^k.n p^-k (1-p^-1)^n-k
__________________________________________________________
А как поживает наша родная задачка про опечатки в книге? Вот мы ее сейчас формулой!
Р (>3A)^100.1000 = ? p = 1000; n = 100; k = 0; 1; 2; 3
P (0) = 1*1*(0,999)^100 = 0,90479215
Р (т1A) = C^1.100 * 1/1000*(0,999)^99 = 100*0,001*0,905… = 0,09056978
Р (т2A) = C^2.100 * 1000^-2*(0,999)^98 = 99*50*10^-6*0,906… = 0,00448769
Р (т3A) = 98*33*50*10^-9*0,907… = 0,00014674
Очень показательна следующая закономерность: при росте числа опечаток возможные их сочетания быстро возрастают: 1 (нет опечаток), 100, 4450, 145000…, зато вероятность обнаружить именно это сочетание падает гораздо быстрее, вероятности же не обнаружить все остальные ошибки с самого начала велика, и ее изменения не заметны (не заметны относительные изменения, но пренебрегать ими нельзя, так как их абсолютное значение может в сотни раз превышать значение искомой вероятности, именно поэтому было так важно оставлять очень много значащих цифр после запятой в первом действии)
Итак:
Р (>3A)^100.1000 = 1 - P (0) - Р (т1A) - Р (т2A) - Р (т3A) = 0,00000364.
Да вот теперь ответ должен быть правильный, теперь сходится с данным в задаче ответом, который был равен 0,000004 (округление от моего значения)
Но пришла пора все таки выяснить, что же у них за формула страшная была использована, по которой получили ответ они.
Когда я впервые столкнулась с задачей, я мельком взглянула на нее, но сразу закрыла книжку, когда увидела ее сложность, теперь хочется сравнить ее со своей, в том ли направлении я шла. Ведь Если моя формула верна, но эти две формулы должны быть если не идентичны, то должны вытекать друг из друга…
О ужас!!! Тут что-то невообразимое, это совсем не то, это что-то принципиально другое!
Р.m = ((0,1)^m/m!)e^-0,1
Выведена эта гадость из формулы Пуассона:
Р (Х = m) = ((а)^m/m!)e^-а
Где, как расплывчато писали в учебнике, а, в одном из случаев есть предел отношения общего числа точек на интервале (0; N) к числу точек, размещающихся случайно по этому интервалу n, при стремлении общего числа и n к бесконечности (ой, все наоборот, короче:
а = lim(n/N) при N, n -> беск)
Проще говоря, это частота встречаемости точек на интервале, в нашем случае интервал образован 1000 страниц, а распределяются в нем 100 ошибок: N = 1000, N = 100, A = 0,1.
m – это число точек, попавших в выбранный нами отрезок интервала, удовлетворяющий условию искомой вероятности. В нашем случае надо найти Р.m при m > 3.
В ту знаменательную ночь я не стала вникать глубоко в это чертово распределение Пуассона, когда я вновь увидела неперово число, я поняла – тут совсем высшая математика, и пока голова мне еще нужна, лучше не трогать бяку руками, когда за дело принимаются всякие е, Рi и проч., сразу видно – не для меня, поэтому я решила просто подсчитать сама, то ли получается по этой формуле, чтобы понять, является ли их ответ 0,000004 просто округлением моего ответа (0,00000364), или же наши ответы разные, и их совпадение – лишь частный случай, и моя формула недопустима. Итак:
Р(0) = е^-0,1 = 0,90483742
О ужас!!! Несовпадение моего ответа для нуля и ответа в их формуле уже в четвертом знаке!!! Ничего себе ошибочка, подумала я, ведь первая значащая цифра искомой нами вероятности только в шестом! Да это никуда не годится!
Р (1) = 0,1е^-0,1 = 0,09048374
Р (2) = 0,01*0,5 е^-0,1 = 0,00452419
Р (3) = 0,001/6 е^-0,1 = 0,00015081
Вот, и когда я эти числа начала вычитать из первого, я начала кое-что понимать, если в первой цифре ошибка была аж в четвертом знаке, то вторая цифра эту ошибку реверсировала, причем она не только поменяла знак, но и уменьшила абсолютное значение, третья и четвертая цифры делали то же самое, цифра Пуассона как бы качалась вокруг моей цифры, каждый раз приближаясь к ней, как качели приближаются к точке равновесия, сокращая амплитуду своих колебаний вокруг этой точки…
Но все же полностью погрешность не нивелировалась:
Р (>3) = 0,00000385, в то время как у меня ответ получился 0,00000364
Да, цифры, конечно, похожи, но я точно знаю, что выводя свою родную формулу я нигде, с начала и до последней буквы не сделала ни одного упрощения, ни одного округления, ни одного устремления, моя формула предусматривает точность до миллионного знака и далее.
Сейчас это кажется очевидным, но повторяю, я тогда не вникала ни в суть формулы, ни в ее определение, и не знала самого главного – что это предел при N стремящемся к бесконечности, поэтому получалось, что либо правильна одна формула, либо другая…. Честное слово, так хотелось надеяться, что ошибочна формула Пуассона, но это смешно.
Через минуту все встало на свои места, стоило только перевернуть страницу и вот она, моя родная формула, МОЯ ФОРМУЛА
Только фамилия, правда, там стояла не Абрамова, а другая, это было распределение Бернулли:
P.m,n = C^m.n p^m q^n-m
Нет, ну до чего ж похожи! Прям глаз не оторвать, ах, как похожи!
Только вместо k здесь m, а р здесь имеет другое значение, разумеется более универсальное, чем у меня, ведь когда я говорю, что у меня 10 клеточек я уже подразумеваю, что удовлетворяет только одна выбранная нами клеточка, т. е. я рассматривала у себя всегда лишь вероятность попадания в одну конкретную клеточку из произвольного их числа, а ведь может попасться задача, где нам удовлетворяет несколько клеточек! р у Бернулли, это отношение удовлетворяющих нам клеточек к их общему числу, то есть как в классике, вероятность удовлетворяющего исхода. В случае с моими клеточками р = 1/10, в случае с выпадением 12 очков при выбрасывании двух костей р = 1/36, но если бы я задалась вопросом, про, например, 9 очков, у меня возникли бы трудности при использовании моей формулы, потому как мое р так и остается равным 36, и получается какая-то пакость, у Бернулли же все просто, р = 4/36 = 1/9… ну в принципе если бы я столкнулась с этой проблемой в ту ночь лично, я бы легко это дело исправила без помощи Бернулли, поэтому не буду принимать это близко к сердцу.
А вот число q действительно очень удобно, я сама думала, как бы сделать так, чтобы не было вот этих бяк с единицей, из которой вычитают единицу на число, а оказалось все так просто, надо ввести число, обратное р (ну тогда, понятное дело, мои попытки были обречены, ведь мое р было другим)
Так или иначе, несмотря на эти мелкие несоответствия было ясно, что моя формула – не плод воспаленного за ночь воображения, что это действительно формула, причем формула, имеющая важные приложения, но остался открытым вопрос – почему же моя (пардон, уже ясно, Бернулли) формула не действует в случае страниц? Почему вместо нее использовали этого Пуассона с его неперовыми бяками, почему мой ответ близок к ответу, но не правилен?
Последняя точка в этом вопросе была поставлена вскоре, примерно тогда, когда я посмотрела на часы, время плавно приближалось к пяти утра…
Да это была грандиозная эпопея, и я таки добилась своего – на той же странице оказалась задача, на которую мне сразу стоило обратить внимание, не надо было решать ее, она сама является решением моей головоломки (напоминаю, в определение распределения Пуассона я так и не вникла):
888. Показать, что биноминальное распределение обращается в пределе в распределение Пуассона, если n –> 0, p –> 0, np = a
Yes! Yahoo! Cool! Great! Perfect! Wow! Wonderful! Super!
Штоб я з-з-з-з-здох! Я это сделала, моя родная, взращенная мною формула и есть истинное распределение, пуассоновская же – лишь приближение, удобное, но являющееся компромиссом. Мой ответ верен, я решила эту задачу сама, с самого начала, с пресловутых клеточек на бумаге, с поименования точечек. Целый месяц и даже больше эта задача не сдавалась, держала оборону, она считала себя чем-то высшим, она надеялась, что это не по мне, но с самого начала ее шансы были равны нулю! За тебя взялась Абрамова, ха!!!
Нет, ну правда, это до того приятно, такая гордость за себя родную – ведь я была практически в условиях Бернулли! Конечно, он радовался победе в восемнадцатом веке, когда теория вероятности только зарождалась, но он-то – великий ученый, математик, представитель великой династии гениев Бернулли и он наверняка не один год витал в своих абстракциях прежде чем дошел до этой формулы, а кто же я – биолог недоучка с натянутой тройкой по математике в школе, копошащийся в своей биохимии и имеющий для математики минимальную базу и ночку бессонницы в придачу… Но мы еще посмотрим…