Имя материала: Математика в экономике

Автор: Юдин С.В.

4. теория вероятностей и математическая статистика 4.1. задачи теории вероятностей задача 4.1. задача о лотерейных билетах.

В партии из 19 лотерейных билетов 9 выигрышных. Куплено 12 билетов. Какова вероятность, что среди них 7 выигрышных?

Решение. Здесь используется гипергеометрическое распределение.

Вероятность того, что при покупке n билетов из партии объемом N, в которой имеется D выигрышных, мы получим d выигрышей? rin—d

^D^N-D ных, равна р = .

 

Здесь   С™ =  '-                  -   биномиальный  коэффициент, а

т(п - т)

п=1 • 2 •... • (п -1) • п, причем 0!= 1!= 1.

Для расчетов воспользуемся программой Maxima.

Биномиальный коэффициент вычисляется при помощи функции binomial(n,7w), где n, m имеют тот же смысл, что и выше.

Вводим команду:

(\%i5)    "binomial(9,7)*binomial(10,5)/binomial(19,12]

756

(\%o5)

41ээ

Приводим к десятичному виду:

 

(\%ІЄ)    float (\%) ;

(\%o6) 0.18004286734937

Ответ: /9 = 0.18

Задача 4.2. Задача о днях рождения.

Сколько человек должно быть в группе, чтобы вероятность совпадения дней рождения хотя бы у двух человек превышала 0,5?

Решение. Найдем дополнительную вероятность, т.е. вероятность того, что ни у какой пары студентов нет совпадающих дней рождения.

Пусть в группе n студентов. Всего количество размещений k

 

дней рождения по 365 дням года равно г - Ъ65п.

Первый человек в группе может иметь = 365 вариантов дня рождения. 2-ой, для того, чтобы его день рождения не совпал с днем рождения первого, может иметь т2 = 365 -1 = 364 варианта дня рождения, і-й человек может иметь rrij =365- {-1 варианта дня рождения.

Всего вариантов выбора разных дней рождения у n человек имеется

n

т = Ц <65- і-1"

т

і=1

Вероятность равна р = — или

r

Подпись: n
Подпись: =п
i=1V
n Г

р = П

i=1

365- і-1 365 k

365

'1-І 1

Нам нужно решить следующее неравенство относительно n:

п

z=lV

365

 

J

2

При этом нас будет интересовать наибольшее приближение к числу /4.

Для решения этого неравенства снова используем программу Maxima.

К сожалению, напрямую решить это неравенство нам не удастся (необходимо составлять хоть и небольшую, но программу, что выходит за рамки данной книги).

Тем не менее, можно применить универсальный метод последовательного приближения.

Определим функцию:

)   а (n) : =product (1- /365,і, 1, n) ;

( 1

365

Эта функция считает необходимую нам вероятность. Вычислим эту вероятность при нескольких значениях параметра n - количестве студентов в группе.

(\%І2)   а (50)rfloat; (\%о2) 0.029626420422012

Очень мало.

(\%ІЗ)   а (10),float; (\%оЗ) 0.88305182228892

Наоборот, очень много. Делим, далее, интервалы пополам.

(\%І4)    а (30) т float; (\%о4) 0.29368375728073

(\%І5)    а (20)тfloat; (\%о5)    0.58В5ЄІЄІЄ4І942

(\%ІЄ)   а (2 5 ) г float; (\%о6) 0.43130029603054

(\%І7)    а (23) г float; (\%о7) 0.49270276567601

Похоже, ближе уже не подобраться. Попробуем число 22:

(\%І9)   а (22 ) г float; (\%о9) 0.52430469233745

Перебор.

Итак, мы получили, что при 23 студентах в группе вероятность того, что хотя бы у двух из них совпадут дни рождения, превысит 0,5.

Ответ: 23 человека

 

Задача 4.3. Задача об отказах. Распределение Пуассона.

В цехе имеется n=100 станков. Количество отказов к за смену подчиняется закону Пуассона с параметром А,=0.34. Найти вероятность того, что количество станков, находящихся в ремонте удовлетворяет неравенству 3 < к < 5.

Решение. Закон Пуассона: вероятность к отказов равна

 

 

Рк

^к к!

Зададим функцию:

Вероятность того, что mi <к<т^, равна

Задача 4.4. Нормальное распределение.

Известно, что средняя выручка торговой точки имеет нормальное распределение с математическим ожиданием MX=125000 руб. и дисперсией DX=(25000 руб.) . Найти вероятность того, что выручка в некоторый день превзойдет 140000 руб.

Решение. Для решения используем нормальную функцию распределения, которая имеет вид:

Подпись: х0
Подпись: JexpПодпись: оо

x-MX
Подпись:
1

F (хо ) = P{&< хо ) = ■

л/2тга

 

Если сделать замену t (x-MX )2

dx.

2&

 

x0- MX

и to= —          , то получим:

 

 

F ( x0 ) =

1

v27i

t о

Iexp

 

 

2

 

dt = O(to) - интеграл Лапласа.

В данном случае, нам необходимо найти вероятность того, что случайная величина больше некоторой границы:

 

Р = 1

1

v27ia

x0

I exp

 

2

(x-MX )2

2

 

dx

Найдем эту вероятность с помощью программы Maxima и электронных таблиц Gnumeric. 1). Maxima

Вычислим вспомогательный параметр t, как показано выше:

(14 0000-12 5000}/2 5000,

Используя функцию integrate, вычислим вероятность того, что случайная величина будет ограничена сверху:

ощник по формула

Рис. 4.4. Результаты расчетов

Ответ: искомая вероятность равна 0.274.

106

4.2. Задачи математической статистики Задача 4.5. Расчет доверительных интервалов.

Дана выборка объемом n=48 значений недельного оборота отделения банка (в млн.руб.). Вычислить среднее значение Хср, среднее квадратическое отклонение S. Оценить математическое ожидание MX и дисперсию DX генеральной совокупности. Доверительная вероятность равна 0.95.

Исходные данные:

18,587 20,653 16,264 16,997 16,046 18,804 22,564 20,557 16,279 21,706 18,074 19,637 20,640 18,668 16,481 18,930 22,414 21,574 22,536 18,754 22,741 18,507 21,135 22,347 19,507 23,115 22,447 21,590 18,738 16,642 22,545 19,112 16,163 21,955 17,981 18,589 17,923 16,986 22,610 18,926 19,907 22,603 22,828 17,414 19,131 22,328 16,406 16,974 Решение.

Введем исходные данные в электронные таблицы Gnumeric в первый столбец. В качестве десятичного разделителя эта программа, по умолчанию использует запятую.

После ввода всех чисел найдем основные статистические характеристики выборки. Для этого последовательно выбираем пункты меню: «Сервис»==>«Статистический анализ»==> «Описательные статистики» (см. рис. 4.5).

Появляется панель ввода данных (рис. 4.6). При нажатии на кнопку слева в строке ввода происходит выход в текущий лист рабочей книги и манипулятором «Мышь» следует выделить ячейки с исходными данными (рис. 4.7). Можно также явно указать диапазон ячеек.

 

После ввода диапазона ячеек с данными следует указать место для вывода таблицы с результатами расчета. Автор рекомендует выбирать тот же рабочий лист, следует указывать ячейку, правее и ниже которой нет никаких нужных данных (рис. 4.8).

X

 

S

S

tk,a-r<MX<x + tka-j=

что показано на рис. 4.13.

 

™ *Книга1.gnumeric : Gnumeric

Файл   Правка   Вид   Вставка   Формат   Сервис  Данные Справка

QBSIIII^QI!II^t#  ■ I * ї № л

Sans

- [ЙГ] -   В @

 

В 24

 

D

1

1S..5S7

2

16,279

3

22.4 14

4

19,507

5

16,163

6

19,907

7

20,653

8

21,706

9

21,574

10

23,115

11

21,5 55

12

22,603

13

16,264

14

18,074

15

22,536

Столбец 1

Среднее

Стандартная ошибка

Медиана        

Мода

Стандартное отклонение

19,652395833333зГ 0,33086530519756 19,1215

#N/A 2,29232981678432 5,25477598891844

Эксцесс

-1.376296513706ЇІГ

Асимметрия

0..0004S03795071S

Диапазон

7,069 Г

Минимум

16,046

Максимум

23,115

 

Сумма

943,315

 

 

Количество

4S

 

 

 

 

 

Рис. 4.9. Таблица с результатами расчета.

110

ятности: щ

1 + СС =0,975; а2 = -^ = 0,025.

2 "2 Найдем квантили распределения Пирсона:

XI2: Дх2<Хі2) = <*і; 12 - Р(Х2 <12) = ы2

Для этого используем функцию R.QCHISQ (рис. 4.14).

Ввод ее параметров показан на рис. 4.15. Т.к. необходимо вычислить значения для двух вероятностей, то и процедуру следует повторить два раза. Полученные числа находятся в ячейках D20, D21

(рис. 4.16).

Далее, по формуле —— < DX <

вычислим доверитель-

Іомощник по формула

 

В

 

Справка

Отменить

ОК

Рис. 4.15. Ввод параметров функции распределения Пирсона

Рис. 4.16. Результаты расчета доверительного интервала дисперсии jc = 19,652; 5-2,292; S2 =5,255; 18,987<MX<20,318; 3,786 <DX< 8,650

 

Задача 4.6. Проверка гипотезы о равенстве средних

Рассмотрим два набора данных об индексе Нью-Йоркской биржи (NYSE), взятые за два несмежных интервала времени (эти данные имеются в базе данных примеров программы Gretl (см. раздел 6). Они представлены на рис. 4.17.

Рис. 4.17. Две выборки значений индекса NYSE. Необходимо проверить гипотезу о равенстве математических ожиданий этих выборок.

Для проверки гипотезы последовательно выбираем пункты меню «Сервис» ==>«Статистический анализ» ==>«Два средних» ==>«Равные выборки: Т-тест» (если выборки имеют разные объемы, то выбираем другие пункты, как показано на рис. 4.18).

оыиирла.

Подпись: I
)'/ ит ,
1Э.01.: 19 ш :
Два средних

Две дисперсии: F-тесг.,

1

Равные выборки: Т-тесг... Неравные выборки, равные дисперсии: Т-тест... Неравные выборки, неравные дисперсии: Т-тест... Известные дисперсии: Z-тест...

Рис. 4.19. Ввод исходных данных в панель

В первой строке ввода указываем диапазон адресов ячеек, в которых находятся значения первой выборки, а во второй - второй выборки. Если выборки имеют заголовки (метки), и мы их включаем в диапазоны адресов, то следует поставить галочку в окошко «Метки».

По умолчанию, доверительный уровень равен 0,05, а результаты расчета выводятся на новый рабочий лист. Это вполне устраивает большинство пользователей, поэтому нажимаем кнопку «ОК».

На рис. 4.20 представлены результаты расчета.

 

 

 

в

С

1

 

№ 1

Ni 2

2

Среднее

520,91

598,2885

3

Известная дисперсия

215,969926

326,30667

4

Наблюдения

20

20

5

Корреляция Пирсона

0,56504 529

 

6

Гнпотетмческое среднее отклонение

0

 

7

Наблюдаемое среднее

 

 

 

отклонение

-77,3785

 

8

Дисперсия отклонений

242,275477

 

9

df

19

 

10

t Stat

-22,23210

 

11

Р (T<=t) одностороннее

2,31Е-015

 

12

t критическое одностороннее

1,72913281

 

13

Р (T<=t) двухстороннее

4,61Е-015

 

14

t критическое двухстороннее

2,09302405

 

15

 

 

 

16

 

С

 

17

 

 

 

Рис. 4.20. Результаты расчета

В строке 6 приведено рассчитанное значение критерия Стью-дента, а в строке 14 - критическое двустороннее значение. Т.к. модуль рассчитанного значения превосходит критическое, то нулевую гипотезу о равенстве средних (математических ожиданий) следует отвергнуть.

 

Задача 4.7. Проверка гипотезы о равенстве дисперсий

По данным задачи 4.6 проверить гипотезу о равенстве дисперсий двух выборок.

Выбираем пункты меню «Сервис» ==>«Статистический анализ» ==>«Две дисперсии» ==>«F-тест».

Появляется панель «Сравнение равенства двух переме...» (рис. 4.21). Здесь мы наблюдаем опечатку или ошибку переводчика.

Вводим адреса переменных каждой выборки, помечаем окошко «Метки» и нажимаем кнопку «ОК». На новом рабочем листе появляются результаты сравнения двух дисперсий (рис. 4.22).

Т.к. рассчитанное значение критерия Фишера равно F=0.662 (ячейка А6), а границы двустороннего критерия Фишера равны 0.396 и 2.526 соответственно (ячейки В12 и С12), т.е. Fe[0.396;2.526], то нулевую гипотезу о равенстве дисперсий отвергнуть нет оснований, следовательно, принимаем ее.

Задача 4.8. Проверка гипотезы о виде закона распределения.

По результатам наблюдения в течение 50 рабочих дней было установлено, что менеджер операционного зала банка обслуживал следующее количество клиентов в день:

12 14 11 7   8 10 17   5   9 13 5   9 13 21 10 14   9 15 17 12

18 14 10 12 12 19   6 20 10 5

15 16 21 14 27 16   9 20 30 5

20 15 17 13 18   9 16 21 11 16

По исходным данным установить:

основные статистические характеристики работы менеджера;

выяснить, подчиняется ли случайное число «количество клиентов за день» нормальному распределению.

Решение. Первый шаг: расчет основных статистик при помощи функции «Описательные статистики», как показано в предыдущем примере. Результаты расчета представлены на рис. 4. 23.

Второй шаг: расчет гистограмм. Под гистограммой понимается численное или графическое представление частот попадания значений случайной величины в заданные интервалы. Обычно предполагается, что ширина всех интервалов одинакова. Относительно количества интервалов, и соответственно, их ширины, существует большое количество допущений. Автор, в свое время, при работе над кандидатской, а затем и докторской, диссертацией, исследовал эту проблему и выяснил, что ни одна из приводимых в руководствах эмпирических формул ничем не обоснована [4]. Анализ с точки зрения теории информации дает основание утверждать, что оптимальное

значение ширины интервала разбиения - среднее квадратическое от-

ВНИМАНИЕ! Здесь, как это, к сожалению, часто бывает в свободно распространяемых программах, имеет место ошибка пере

водчика. В оригинале стоит слово «Bins» - «Карманы». Это тоже не самое удачное название, но, по крайней мере, близко к смыслу.

N =

Макс. - Мин. 30-5

5

= 5.

 

 

 

4.26).

 

Во вкладке «Параметры» указываем тип гистограммы (рис.

Рис. 4.27. Результаты расчета гистограммы

Третий шаг. Расчет критерия Пирсона и проверка распределения на нормальность.

Методика расчета критерия Пирсона требует, чтобы в каждом интервале было не менее 5 попаданий. В нашей гистограмме (рис. 4.27) в 4-м и 5-м интервалах 3 и 2 попадания соответственно. Поэтому их требуется объединить.

Составим новую таблицу на новом рабочем листе (рис. 4.28). Новые границы интервалов представлены в ячейках A2:A7, а частоты - в ячейках В2:В7. Как можно отметить, заголовок «Двоичное» был заменен заголовком «Границы».

Для каждого интервала вычислим теоретическую вероятность по формуле:

1

ы2и S

I exp

xi-1

(x - x )2

2S

 

dx.

 

Здесь 5=5,4923 - среднее квадратическое отклонение (ячейка Dl 1); х = 13,72 - среднее значение (ячейка D10).

Для расчета вероятностей используем функцию normdist (описание см. задачу 4.4). Ввод аргументов показан на рис. 4.29.

Для расчета первой вероятности необходимо одно действие. Для других же, придется по очереди вычислять функцию нормального распределения от каждой границы, а затем вычитать их друг из друга, например:

=normdist(Лист2 !А5;Лист2№$10 ;Лист2 !$D$11;1)-

normdist(Лист2 !А4;Лист2 !$D$10 ;Лист2 !$D$

Вычисленные вероятности представлены в ячейках D3:D6 (рис.

4.28).

Далее, вычисляем теоретические частоты по формуле: fi=50pi. Эти значения представлены в ячейках F3:F6 (рис. 4.28).

 

Вычисляем слагаемые формулы Пирсона: щ = ——, где

fi

gi - эмпирические частоты (значения гистограммы, см. рис. 4.28, ячейки В3:В6). Результаты помещаем в ячейки А15:А18).

Далее складываем полученные значения функцией БиМ(А15:А18). Результат находится в ячейке В19.

Итак, х2=1,4163.

Последнее действие - вычисление критического значения критерия Пирсона.

Число степеней свободы k=m-2-1=4-2-1=1.

Іомощник по формула

 

В

Рис. 4.29. Аргументы функции нормального распределения

Вызываем функцию, обратную функции распределения Пирсона «=r.qcbisq(0,95;1;)» и получаем результат, помещенный в ячейку

D19: 3,8415.

Т.к. рассчитанное значение критерия Пирсона меньше критического, то принимаем гипотезу о нормальности распределения исследуемой случайной величины.

Замечание. На самом деле, при проверке статистических гипотез нельзя говорить, что мы принимаем гипотезу. Следует говорить, что у нас нет оснований ее отвергнуть.

Дело в том, что часто, при проверке нескольких гипотез, возможно по какому-то критерию принять не одну, а две-три гипотезы. Между ними невозможно сделать выбор. Нужно либо применить какой-то другой критерий, либо исходить из соображений, выходящих за рамки математической статистики (а именно, из Ваших профессиональных знаний).

В то же время, если гипотеза отвергается, то она отвергается почти достоверно.

Задача 4.9. Оценка связи между факторами, уравнение регрессии.

На машиностроительных предприятиях было проведено исследование зависимости выработки на одного рабочего в год (в млн. руб.) от условной энерговооруженности (в десятках киловатт на че-

ловека).

Оценить степень связи, построить уравнение регрессии. Исходные данные приведены в таблице:

 

X

Y

X

Y

X

Y

X

Y

X

Y

0.120

2.115

0.013

2.399

0.588

2.826

0.076

2.322

0.106

2.432

0.442

2.597

0.915

3.053

0.528

2.547

0.892

2.941

0.776

3.119

0.888

2.993

0.947

3.203

0.855

3.081

0.254

2.223

0.195

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 |