Основные понятия математической статистики

Лекция 2

Основные понятия математической статистики

Элементыматематической статистики. Случайнаявеличина. Распределение дискретных инепрерывных случайных величин и иххарактеристики: математическое ожидание,дисперсия, среднее квадратичноеотклонение. Примеры различных законовраспределения. Нормальный законраспре­деления.

Генеральнаясовокупность и выборка. Гистограмма.Оценка пара­метров нормальногораспределения по опытным данным.Доверительные ин­тервалы для средних.Интервальная оценка истинного значенияизмеряемой величины. Применениераспределения Стьюдента для определениядоверительных ин­тервалов. Методыобработки медицинских данных.

Теория погрешностей, порядок обработкарезультатов прямых и косвенных измерений.Понятие о корреляционном анализе.

Математическая статистика

Методыматематической статистики позволяютсистематизи­роватьи оценивать экспериментальные данные,которые рассматриваютсякак случайные величины.

§3.1. Основные понятия математической статистики

В главе2 были рассмотрены некоторые понятия изакономерности,которым подчинены массовые случайныеявления. Одной изпрактических задач, связанных с этим,является создание методовотбора данных (статистические данные)из большой сово­купностии их обработки. Такие вопросы рассматриваютсяв математическойстатистике.

Математическаястатистика наукао математическихметодах систематизации и использованиястатистиче­скихданных для решения научных и практическихзадач.

Ма­тематическаястатистика тесно примыкает к теориивероятностей ибазируется на ее понятиях. Однако главнымв математической статистике являетсяне распределение случайных величин, аана­лиз статистических данных ивыяснение, какому распределению онисоответствуют.

Предположим,что необходимо изучить множествообъектов по какому-либопризнаку. Это возможно сделать, либопроведя сплош­ноенаблюдение (исследование, измерение),либо не сплошное, выбо­рочное.

Выборочное,т. е.неполное,обследование может оказатьсяпредпочтительнее по следующим причинам.Во-первых, естест­венно,что обследование части менее трудоемко,чем обследование целого;следовательно, одна из причин —экономическая.

Во-вто­рых,может оказаться и так, что сплошноеобследование просто нереально.Для того чтобы его провести, возможно,нужно унич­тожитьвсю исследуемую технику или загубитьвсе исследуемые биологическиеобъекты.

Так, например, врач, имплантирующийэлектроды в улитку для кохлеарногопротезирования (см. § 6.5), должениметь вероятностные представления орасположении улиткислухового аппарата.

Казалось бы, наиболеедостоверно та­киесведения можно было получить при сплошномпатологоанатомическом вскрытии всехумерших с производством соответствую­щихзамеров. Однако достаточно собратьнужные сведения при выборочныхизмерениях.

Большаястатистическая совокупность, из которойотбирается частьобъектов для исследования, называетсягенеральнойсово­купностью,амножество объектов, отобранных из нее,— выбо­рочнойсовокупностью, иливыборкой.

Свойствообъектов выборки должно соответствоватьсвойству объектовгенеральной совокупности, или, какпринято говорить, выборкадолжна быть представительной(репрезентативной).

Так,например, если целью является изучениесостояния здо­ровьянаселения большого города, то нельзявоспользоваться вы­боркойнаселения, проживающего в одном израйонов города. Ус­ловияпроживания в разных районах могутотличаться (различ­наявлажность, наличие предприятий, жилищныхстроений и т.

п.) и,таким образом, влиять на состояниездоровья. Поэтому выбор­кадолжна представлять случайно отобранныеобъекты.

Если записать в последовательностиизмерений все значения величины хв выборке, то получимпростой статистический ряд. Например,рост мужчин (см): 170, 169, … .

Та­кой ряднеудобен для анализа, так как в нем нетпоследователь­ности возрастания (илиубывания) значений, встречаются ипо­вторяющиесявеличины.

Поэтому целесообразноранжироватьряд,например, в возрастающем порядке значенийи указать их повторяемость.Тогда статистическое распределениевыборки:171, 172, 172, 168,

(3.1)

Здесьxi—наблюдаемые значения признака (варианта);ni—числонаблюдений варианты xi(частота); рi*— относительная частота.

Общее числообъектов в выборке (объемвыборки)

всего kвариант. Статистическоераспределение — этосовокуп­ностьвариант и соответствующих им частот(или относительных частот),т. е. это совокупность данных 1-й и 2-йстроки или 1-й и 3-й строки в (3.1).

Вмедицинской литературе статистическоераспределение, со­стоящееиз вариант и соответствующих им частот,получило на­званиевариационного ряда.

Наряду с дискретным (точечным)статистическим распределе­нием,которое было описано, используютнепрерывное(интер­вальное)статистическое распределение:

(3.2)

Здесьxi-1,xiiйинтервал,в котором заключено количественноезначение признака; ni—сумма частот вариант, попавших в этотинтервал; р*i— сумма относительныхчастот.

Вкачестве примера дискретногостатистического распределения укажеммассы новорожденных мальчиков (кг) ичастоты (табл. 5).

Таблица 5

Общее количество мальчиков (объемвыборки)

(3.3)

Можно это распределение представить икак непрерывное (интер­вальное) (табл.6).

Таблица 6

2,65 — 2,752,75 — 2,852,85 — 2,952,95 — 3,053,05 — 3,15
1278

Длянаглядности статистические распределенияизображают графическив виде полигона и гистограммы.

Полигончастот — ломанаялиния, отрезки которой соединяют точкис координатами 1,п1, (х2;п2),… или для полигонаотносительных частот— с координатами 11*), (х22*), … (рис. 3.1). Рис.3.1 относится к распределению, представленномув табл. 5.

Гистограммачастот —совокупность смежных прямоуголь­ников,построенных на одной прямой линии (рис.3.2), основания прямоугольниководинаковы и равны а,а высоты равны отноше­ниючастоты (или относительной частоты) к а:

(3.4)

Такимобразом, площадь каждого прямоугольникаравна соответ­ственно

Следовательно, площадьгистограммы частот ,а площадьгистограммыотносительных частот

Наиболеераспространенными характеристикамистатистическо­гораспределения являются средние величины:мода, медиана и средняяарифметическая, или выборочная средняя.

Мода (Мо)равна варианте, которойсоответствует наиболь­шаячастота. В распределении массыноворожденных (см. табл. 5) Мо= 3,3кг.

Медиана(Me)равнаварианте, которая расположена в середи­нестатистического распределения. Онаделит статистический (ва­риационный)ряд на две равные части. При четном числевариант замедиану принимают среднее значение издвух центральных ва­риант.В рассмотренном распределении (см. табл.5) Me=3,4 кг.

Выборочнаясредняя в)определяетсякак среднее арифмети­ческоезначение вариант статистического ряда:

(3.5)

(3.6)

Для примера (см. табл. 5)

Для характеристикирассеяния вариант вокруг своего среднегозначения вводят характеристику, называемуювыборочной дисперсией,— среднееарифметическое квадратов отклонениява­риант от их среднегозначения:

(3.7)

Квадратныйкорень из выборочной дисперсии называютвыбороч­нымсредним квадратическим отклонением:

(3.8)

Для примера (см. табл. 5)

Источник: https://studfile.net/preview/5244480/

Лекция 8. Выборочный метод математической статистики — Теория вероятности

Основные понятия математической статистики

 План:

1.      Задачи математической статистики.

2.      Виды выборок.

3.      Способы отбора.

4.      Статистическое распределение выборки.

5.      Эмпирическая функция распределения.

6.      Полигон и гистограмма.

7.      Числовые характеристики вариационного ряда.

8.      Статистические оценки параметровраспределения.

9.      Интервальные оценки параметров распределения.

1.     Задачи и методы математической статистики

Математическая статистика— это раздел математики, посвященный методамсбора, анализа и обработки результатов статистических данных наблюдений длянаучных и практических целей.

Пусть требуетсяизучить совокупность однородных объектов относительно некоторого качественногоили количественного признака, характеризующего эти объекты. Например, еслиимеется партия деталей, то качественным признаком может служить стандартность детали,а количественным- контролируемый размер детали.

Иногда проводятсплошное исследование, т.е. обследуют каждый объект относительно нужногопризнака. На практике сплошное обследование применяется редко. Например, еслисовокупность содержит очень большое число объектов, то провести сплошноеобследование физически невозможно.

Если обследование объекта связано с егоуничтожением или требует больших материальных затрат, то проводить сплошноеобследование не имеет смысла. В таких случаях случайно отбирают из всейсовокупности ограниченное число объектов (выборочную совокупность) и подвергаютих изучению.

Основная задачаматематической статистики заключается в исследовании всей совокупности повыборочным данным в зависимости от поставленной цели, т.е. изучениевероятностных свойств совокупности: закона распределения, числовыххарактеристик и т.д. для принятия управленческих решений в условияхнеопределенности.

2.     Виды выборок

Генеральная совокупность – это совокупность объектов, из которой производится выборка.

Выборочная совокупность (выборка)– это совокупность случайно отобранныхобъектов.

Объем совокупности –это число объектов этой совокупности. Объем генеральной совокупностиобозначается N,выборочной – n.

Пример:

Если из 1000деталей отобрано для обследования 100 деталей, то объем генеральнойсовокупности N =1000, а объем выборки n =100.

При  составлении выборки можно поступить двумяспособами: после того, как объект отобран и над ним произведено наблюдение, онможет быть возвращен либо не возвращен в генеральную совокупность. Т.о. выборкиделятся на повторные и бесповторные.

Повторной называют выборку, при которойотобранный объект (перед отбором следующего) возвращается в генеральнуюсовокупность.

Бесповторной называют выборку, при которой отобранныйобъект в генеральную совокупность не возвращается.

На практике обычнопользуются бесповторным случайным отбором.

Для того, чтобы поданным выборки можно было достаточно уверенно судить об интересующем признакегенеральной совокупности, необходимо, чтобы объекты выборки правильно егопредставляли. Выборка должна правильно представлять пропорции генеральнойсовокупности. Выборка должна быть репрезентативной (представительной).

В силу закона больших чисел можно утверждать,что выборка будет репрезентативной, если ее осуществлять случайно.

Если объемгенеральной совокупности достаточно велик, а выборка составляет лишьнезначительную часть этой совокупности, то различие между повторной ибесповторной выборками стирается; в предельном случае, когда рассматриваетсябесконечная генеральная совокупность, а выборка имеет конечный объем, эторазличие исчезает.

Пример:

В американском журнале«Литературное обозрение» с помощью статистических  методов было проведено исследование прогнозовотносительно исхода предстоящих выборов президента США в 1936 году.Претендентами на этот пост были Ф.Д. Рузвельт и А. М. Ландон.

В качествеисточника для генеральной совокупности исследуемых американцев были взятысправочники телефонных абонентов. Из них случайным образом были выбраны 4миллиона адресов., по которым редакция журнала разослала открытки с просьбойвысказать свое отношение к кандидатам на пост президента.

Обработав результатыопроса, журнал опубликовал социологический прогноз о том, что на предстоящихвыборах с большим перевесом победит Ландон. И … ошибся: победу одержалРузвельт.
Этот пример можно рассматривать, как пример нерепрезентативной выборки.

Дело втом, что в США в первой половине двадцатого века телефоны имела лишь зажиточнаячасть населения, которые поддерживали взгляды Ландона.

3.     Способы отбора

На практикеприменяются различные способы отбора, которые можно разделить на 2 вида:

1. Отбор не требуетрасчленения генеральной совокупности на части (а) простой случайныйбесповторный; б) простой случайный повторный).

2. Отбор, прикотором генеральная совокупность разбивается на части. (а) типичный отбор;б) механический отбор; в) серийныйотбор).

Простым случайнымназывают такой отбор, при котором объекты извлекаются по одному из всейгенеральной совокупности (случайно).

Типичным называют отбор, при котором объектыотбираются не из всей генеральной совокупности, а из каждой ее «типичной»части.

Например, если деталь изготавливают на нескольких станках, то отборпроизводят не из всей совокупности деталей, произведенных всеми станками, а изпродукции каждого станка в отдельности.

Таким отбором пользуются тогда, когдаобследуемый признак заметно колеблется в различных «типичных» частяхгенеральной совокупности.

Механическим называют отбор, при которомгенеральную совокупность «механически» делят на столько групп, сколько объектовдолжно войти в выборку, а из каждой группы отбирают один объект.

Например, еслинужно отобрать 20 % изготовленных станком деталей, то отбирают каждую 5-уюдеталь; если требуется отобрать 5 % деталей- каждую 20-ую и т.д.

Иногда такойотбор может не обеспечивать репрезентативность выборки (если отбирают каждый20-ый обтачиваемый валик, причем сразу же после отбора производится заменарезца, то отобранными окажутся все валики, обточенные затупленными резцами).

Серийным называют отбор, при котором объектыотбирают из генеральной совокупности не по одному, а «сериями», которыеподвергают сплошному обследованию. Например, если изделия изготавливаютсябольшой группой станков-автоматов, то подвергают сплошному обследованиюпродукцию только нескольких станков.

На практике частоприменяют комбинированный отбор, при котором сочетаются указанные выше способы.

4.     Статистическое распределение выборки

Пусть из генеральной совокупности извлечена выборка, причем значение x1–наблюдалось  раз,x2-n2 раз,…  xk — nkраз. n = n1+n2+…+nk– объемвыборки.

Наблюдаемые значения  называются вариантами, апоследовательность вариант, записанных в возрастающем порядке- вариационнымрядом.

Числа наблюдений   называютсячастотами (абсолютными частотами), а их отношения к объему выборки  — относительными частотами или статистическими вероятностями.

Если количествовариант велико или выборка производится из непрерывной генеральнойсовокупности, то вариационный ряд составляется не по отдельным точечнымзначениям, а по интервалам значений генеральной совокупности. Такойвариационный ряд называется интервальным.Длины интервалов при этом должны быть равны.

Статистическимраспределением выборкиназывается перечень вариант и соответствующих им частот или относительныхчастот.

Статистическоераспределение можно задать также в виде последовательности интервалов исоответствующих им частот (суммы частот, попавших в этот интервал значений)

Точечныйвариационный ряд частот может быть представлен таблицей:

xi x1 x2 xk
ni n1 n2 nk

Аналогично можнопредставить точечный вариационный ряд относительных частот.

Причем:

Пример:

Число букв внекотором тексте Х оказалось равным 1000. Первой встретилась  буква «я», второй- буква «и», третьей- буква«а», четвертой- «ю». Затем шли буквы «о», «е», «у», «э», «ы».

Выпишем места,которые они занимают в алфавите, соответственно имеем: 33, 10, 1, 32, 16, 6,21, 31, 29.

После упорядоченияэтих чисел по возрастанию получаем вариационный ряд: 1, 6, 10, 16, 21, 29, 31,32, 33.

Частоты появлениябукв в тексте: «а» — 75, «е» -87, «и»- 75, «о»- 110, «у»- 25, «ы»- 8, «э»- 3,«ю»- 7, «я»- 22.

Составим точечныйвариационный ряд частот:

Пример:

Заданораспределение частот выборки объема n= 20.

Составьте точечныйвариационный ряд относительных частот.

Решение:

Найдемотносительные частоты:

xi2612
wi0,150,50,35

При построении интервальногораспределения существуют правила  выборачисла интервалов или величины каждого интервала. Критерием здесь служитоптимальное соотношение: при увеличении числа интервалов улучшается репрезентативность,но увеличивается объем данных и время на их обработку. Разность xmax — xmin между наибольшим и наименьшим значениямивариант называют размахом выборки.

Для подсчета числаинтервалов kобычно применяют эмпирическую формулу Стреджесса (подразумевая округление доближайшего удобного целого): k= 1 + 3.322 lg n.

Соответственно,величину каждого интервала hможно вычислить по формуле:

5.                     Эмпирическаяфункция распределения

Рассмотрим некоторуювыборку из генеральной совокупности. Пусть известно статистическоераспределение частот количественного признака Х. Введем обозначения: nx– число наблюдений, при которыхнаблюдалось значение признака, меньшее х; n – общее число наблюдений (объемвыборки). Относительная частота события Х

Источник: https://www.sites.google.com/site/teoriaveroyatnosti/teoria/vyborocnyj-metod-matematiceskoj-statistiki

Основные понятия математической статистики

Основные понятия математической статистики

СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ЗАКОНЫ ИХ РАСПРЕДЕЛЕНИЯ.

Случайной называют такую величину, которая принимает значения в зависимости от стечения случайных обстоятельств. Различают дискретныеи случайные непрерывные величины.

Дискретной называют величину, если она принимает счетное множество значений. (Пример: число пациентов на приеме у врача, число букв на странице, число молекул в заданном объеме).

Непрерывнойназывают величину, которая может принимать значения внутри некоторого интервала. (Пример: температура воздуха, масса тела, рост человека и т.д.)

Законом распределения случайной величины называется совокупность возможных значений этой величины и, соответствующих этим значениям, вероятностей (или частот встречаемости).

П р и м е р:

x x1 x2 x3 x4 xn
p р1 р2 р3 р4 pn

или

x x1 x2 x3 x4 xn
m m1 m2 m3 m4 mn

ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН.

Во многих случаях наряду с распределением случайной величины или вместо него информацию об этих величинах могут дать числовые параметры , получившие название числовых характеристик случайной величины. Наиболее употребительные из них:

1.Математическое ожидание (среднее значение) случайной величины есть сумма произведений всех возможных ее значений на вероятности этих значений:

2.Дисперсия случайной величины:

3.Среднее квадратичное отклонение:

Правило “ТРЕХ СИГМ” — если случайная величина распределена по нормальному закону, то отклонение этой величины от среднего значения по абсолютной величине не превосходит утроенного среднего квадратичного отклонения

ЗАОН ГАУССА – НОРМАЛЬНЫЙ ЗАКОН РАСПРЕДЕЛЕНИЯ

Часто встречаются величины, распределенные по нормальному закону (закон Гаусса). особенность: он является предельным законом, к которому приближаются другие законы распределения.

Случайная величина распределена по нормальному закону, если ее плотность вероятности имеет вид:

где

M(X) — математическое ожидание случайной величины;

s — среднее квадратичное отклонение .

График плотности вероятности нормально распределённой величины

Плотность вероятности (функция распределения) показывает, как меняется вероятность, отнесенная к интервалу dx случайной величины, в зависимости от значения самой величины:


Основные понятия математической статистики

Математическая статистика — раздел прикладной математики, непосредственно примыкающий к теории вероятностей.

Основное отличие математической статистики от теории вероятностей состоит в том, что в математической статистике рассматриваются не действия над законами распределения и числовыми характеристиками случайных величин, а приближенные методы отыскания этих законов и числовых характеристик по результатам экспериментов.

Основными понятиями математической статистики являются:

1. Генеральная совокупность;

2. выборка;

3. вариационный ряд;

4. мода;

5. медиана;

6. процентиль,

7. полигон частот,

8. гистограмма.

Генеральная совокупность— большая статистическая совокупность, из которой отбирается часть объектов для исследования

(Пример: все население области, студенты вузов данного города и т.д.)

Выборка (выборочная совокупность) — множество объектов, отобранных из генеральной совокупности.

Вариационный ряд— статистическое распределение, состоящее из вариант (значений случайной величины) и соответствующих им частот.

Пример:

x — значение случайной величины (масса девочек в возрасте 10 лет);

m— частота встречаемости.

Мода – значение случайной величины, которому соответствует наибольшая частота встречаемости. (В приведенном выше примере моде соответствует значение 24 кг, оно встречается чаще других: m = 20).

Медиана – значение случайной величины, которое делит распределение пополам: половина значений расположена правее медианы, половина (не больше) – левее.

Пример:

1, 1, 1, 1, 1. 1, 2, 2, 2, 3, 3, 4, 4, 5, 5, 5, 5, 6, 6, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 9, 9, 9, 10, 10, 10, 10, 10, 10

В примере мы наблюдаем 40 значений случайной величины. Все значения расположены в порядке возрастания с учетом частоты их встречаемости. Видно, что справа от выделенного значения 7 расположены 20 (половина) из 40 значений. Стало быть, 7 – это медиана.

Для характеристики разброса найдем значения, не выше которых оказалось 25 и 75% результатов измерения. Эти величины называются 25-м и 75-м процентилями.

Если медиана делит распределение пополам, то 25-й и 75-й процентили отсекают от него по четвертушке. (Саму медиану, кстати, можно считать 50-м процентилем.

) Как видно из примера, 25-й и 75-й процентили равны соответственно 3 и 8.

Используют дискретное(точечное) статистическое распределение инепрерывное(интервальное) статистическое распределение.

Для наглядности статистические распределения изображают графически в виде полигона частот или — гистограммы.

Полигон частот— ломаная линия, отрезки которой соединяют точки с координатами (x1,m1), (x2,m2), …, или для полигона относительных частот – с координатами (x1,р*1), (x2,р*2), …(Рис.1).

m mi/n f(x)

X x

Рис.1 Рис.2

Гистограмма частот— совокупность смежных прямоугольников, построенных на одной прямой линии (Рис.2), основания прямоугольников одинаковы и равны dx, а высоты равны отношению частоты к dx, или р* к dx (плотность вероятности).

Пример:

х, кг 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0 4,1 4,2 4,3 4,4
m

Полигон частот

Отношение относительной частоты к ширине интервала носит название плотности вероятности f(x)=mi / n dx = p*i / dx

Пример построения гистограммы .

Воспользуемся данными предыдущего примера.

1. Расчет количества классовых интервалов

гдеn — число наблюдений. В нашем случае n = 100. Следовательно :

2. Расчет ширины интервала :

,

3. Составление интервального ряда:

2.7-2.9 2.9-3.1 3.1-3.3 3.3-3.5 3.5-3.7 3.7-3.9 3.9-4.1 4.1-4.3 4.3-4.5
m
f(x) 0.3 0.75 1.25 0.85 0.55 0.6 0.4 0.25 0.05

Гистограмма

Источник: https://megaobuchalka.ru/4/16696.html

Book for ucheba
Добавить комментарий