Статистическая sr модель научного объяснения. Теоретический материал. Связь с математикой

Идея случайного выбора. Прежде чем приступить к описанию статистических гипотез, обсудим еще раз понятие случайного выбора.

Если опустить детали и некоторые (хотя и важные) исключения, можно сказать, что весь статистический анализ основан на идее случайного выбора. Мы принимаем тезис, что имеющиеся данные появились как результат случайного выбора из некоторой генеральной совокупности, нередко - воображаемой. Обычно мы полагаем, что этот случайный выбор произведен природой. Впрочем, во многих задачах эта генеральная совокупность вполне реальна, и выбор из нее произведен активным наблюдателем.

Для краткости будем говорить, что все данные, которые мы собираемся изучить как единое целое, представляют собой одно наблюдение. Природа этого собирательного наблюдения может быть самой разнообразной. Это может быть одно число, последовательность чисел, последовательность символов, числовая таблица и т.д. Обозначим на время это собирательное наблюдение через х. Раз мы считаем х результатом случайного выбора, мы должны указать и ту генеральную совокупность, из которой х был выбран. Это значит, что мы должны указать те значения, которые могли бы появиться вместо реального х. Обозначим эту совокупность через X. Множество Х называют также выборочным пространством, или пространством выборок.

Мы предполагаем далее, что указанный выбор произошел в соответствии с неким распределением вероятностей на множестве X, согласно которому каждый элемент из Х имеет определенные шансы быть выбранным. Если Х - конечное множество, то у каждого его элемента x ; есть положительная вероятность р (х ) быть выбранным. Случайный выбор по такому вероятностному закону легко понимать буквально. Для более сложно устроенных бесконечных множеств Х приходится определять вероятность не для отдельных его точек, а для подмножеств. Случайный выбор одной из бесконечного множества возможностей вообразить труднее, он похож на выбор точки х из отрезка или пространственной области X.

Соотношение между наблюдением х и выборочным пространством X, между элементами которого распределена вероятность, - в точности такое же, как между элементарными исходами и пространством элементарных исходов, с которым имеет дело теория вероятностей. Благодаря этому теория вероятностей становится основой математической статистики, и поэтому, в частности, мы можем применять вероятностные соображения к задаче проверки статистических гипотез.

Прагматическое правило. Ясно, что раз мы приняли вероятностную точку зрения на происхождение наших данных (т.е. считаем, что они получены путем случайного выбора), то все дальнейшие суждения, основанные на этих данных, будут иметь вероятностный характер. Всякое утверждение будет верным лишь с некоторой вероятностью, а с некоторой тоже положительной вероятностью оно может оказаться неверным. Будут ли полезными такие выводы, и можно ли вообще на таком пути получить достоверные результаты?



На оба эти вопроса следует ответить положительно. Во-первых, знание вероятностей событий полезно, так как у исследователя быстро вырабатывается вероятностная интуиция, позволяющая ему оперировать вероятностями, распределениями, математическими ожиданиями и т.п., извлекая из этого пользу. Во-вторых, и чисто вероятностные результаты могут быть вполне убедительными: вывод можно считать практически достоверным, если его вероятность близка к единице.

Можно высказать следующее прагматическое правило, которым руководствуются люди и которое соединяет теорию вероятностей с нашей деятельностью.

Мы считаем практически достоверным событие, вероятность которого близка к 1;

Мы считаем практически невозможным событие, вероятность которого близка к 0.

И мы не только так думаем, но и поступаем в соответствии с этим!

Изложенное прагматическое правило, в строгом смысле, конечно, неверно, поскольку оно не защищает полностью от ошибок. Но ошибки при его использовании будут редки. Правило полезно тем, что дает возможность практически применять вероятностные выводы.

Иногда то же правило высказывают чуть по-другому: в однократном испытании маловероятное событие не происходит (и наоборот - обязательно происходит событие, вероятность которого близка к 1). Слово «однократный» вставлено ради уточнения, ибо в достаточно длинной последовательности независимых повторений опыта упомянутое маловероятное (в одном опыте!) событие встретится почти обязательно. Но это уже совсем другая ситуация.

Остается еще не разъясненным, какую вероятность следует считать малой. На этот вопрос нельзя дать количественного ответа, пригодного во всех случаях. Ответ зависит от того, какой опасностью грозит нам ошибка. Довольно часто - при проверке статистических гипотез, например, о чем см. ниже - полагают малыми вероятности, начиная с 0.01 ¸ 0.05. Другое дело - надежность технических устройств, например, тормозов автомобиля. Здесь недопустимо большой будет вероятность отказа, скажем, 0.001, так как выход из строя тормозов один раз на тысячу торможений повлечет большое число аварий. Поэтому при расчетах надежности нередко требуют, чтобы вероятность безотказной работы была бы порядка 1-10 -6 . Мы не будем обсуждать здесь, насколько реалистичны подобные требования: может ли обеспечить такую точность в расчете вероятности неизбежно приближенная математическая модель и как затем сопоставить расчетные и реальные результаты.

Предупреждения. 1. Следует дать несколько советов, как надо строить статистические модели, притом зачастую в задачах, не имеющих явного статистического характера. Для этого надо присущие обсуждаемой проблеме черты выразить в терминах, относящихся к выборочному пространству и распределению вероятностей. К сожалению, в общих словах этот процесс описать невозможно. Более того, этот процесс является творческим, и его невозможно заучить как, скажем, таблицу умножения. Но ему можно научиться, изучая образцы и примеры и следуя их духу. Мы разберем несколько таких примеров. В дальнейшем мы также будем уделять особое внимание этой стадии статистических исследований.

2. При формализации реальных задач могут возникать весьма разнообразные статистические модели. Однако математической теорией подготовлены средства для исследования лишь ограниченного числа моделей. Для ряда типовых моделей теория разработана очень подробно, и там можно получить ответы на основные вопросы, интересующие исследователя. Некоторую часть таких стандартных моделей, с которыми на практике приходится иметь дело чаще всего, мы обсудим в данной книге. Другие можно найти в более специальных и подробных руководствах и справочниках.

3. Об ограниченности математических средств стоит помнить и при математической формализации эксперимента. Если возможно, надо свести дело к типовой статистической задаче. Эти соображения особенно важны при планировании эксперимента или исследования; при сборе информации, если речь идет о статистическом обследовании; при постановке опытов, если мы говорим об активном эксперименте.

4.1.1. Статистическая модель. При статистическом (стохастическом) моделировании основными объектами моделирования являются случайные события, случайные величины и случайные функции.

При проведении экспериментов исследователь фиксирует появление или не появления интересующих событий, а также осуществляет измерения значений параметров, которые носят случайный характер и по своей сути являются значениями реализации некоторой случайной величины.

Статистическое моделирование дает возможность не проводя реальных экспериментов над исследуемым объектом (что в большинстве случаев требует больших материальных и финансовых затрат) получать соответствующую информацию о появлении или не появлении тех или иных событий происходящих в реальном объекте. о выборочных значениях случайных величин на основе имеющихся вероятностных характеристик моделируемых событий и случайных величин. Данный вид моделирования предполагает проведение предварительного сбора информации о моделируемых показателях и дальнейшей статистической обработки полученных результатов с целью получения обоснованных статистических оценок, требуемых для моделирования вероятностных характеристик.

Стохастические модели применяются в основном в двух случаях:

1) объект моделирования плохо изучен – не имеется достаточно хорошо разработанных количественных закономерностей, описывающих рассматриваемые процессы и явления, а так же нет возможности найти приемлемое аналитическое решение данной проблемы;

2) моделируемый объект изучен достаточно хорошо в детерминированном плане, но без учета случайных факторов, оказывающих влияние на изучаемые процессы и явления.

В первом случае на основе словесного описания исследуемого объекта производится выбор количественных показателей с расчетом их физической размерности состоящих из двух групп. Одна из групп рассматривается в качестве входных величин модели, а другая – выходных величин. Далее, применяя научные теоретические результаты полученные другими исследователями в данной области и возможно применяя ряд необходимых допущений, а так же возможно уже имеемые экспериментальные данные о входных и выходных величинах (например, об их законах распределения) устанавливают детерминированные или стохастические зависимости между входными выходными величинами модели. Совокупность полученных соотношений между входными и выходными величинами (обычно записываются в виде уравнений) называют статистической моделью.

В ходе реализации статистической модели на основе выбранных законов распределения случайных величин и выбранными вероятностями моделируемых событий методами математической статистики определяются выборочные до экспериментальные значения случайных величин и квазиэмпирические последовательности появления или не появления моделируемых событий. Далее, по уравнениям модели определяют соответствующие выборочные значения ее выходных величин. А многократная реализация построенной модели позволяет исследователю построить модельную выборку ее выходных величин, которая вновь подвергается статистическому анализу (корреляционному, регрессивному, дисперсионному, спектральному) с целью получения оценок характеристик выходных параметров модели или проверки выдвигаемых гипотез. На основе полученных результатов делаются заключения по объекту исследования, а также обоснования по практическому применению построенной модели.

Методы статистического моделирования широко применяются при решении задач массового обслуживания, теории оптимизации, теории управления, теоретической физике и т.д.

Теоретической основой метода статистического моделирования на компьютере являются предельные теоремы теории вероятностей.

4.1.2. Неравенство Чебышева . Для неотрицательной функции случайной величины и выполняется неравенство

.

4.1.3. Теорема Бернулли . Если проводятся независимых испытаний, в каждом из которых некоторое событие осуществляется с вероятностью , то относительная чистота появления события ( число благоприятных исходов испытания) при сходится по вероятности к , т.е. при

4.1.4. Теорема Пуассона . Если проводятся независимых испытаний и вероятность осуществления события в том испытании равна , то относительная чистота появления события ( число благоприятных исходов испытания) при сходится по вероятности к среднему из вероятностей , т.е. при

4.1.5. Теорема Чебышева . Если в независимых испытаниях наблюдаются значения случайной величины , то при среднее арифметическое значений случайной величины сходится по вероятности к ее математическому ожиданию , т.е. при

4.1.6. Обобщенная теорема Чебышева . Если независимые случайные величины с математическими ожиданиями и дисперсиями ограниченными сверху одним и тем же числом, то при среднее арифметическое значений случайной величины сходится по вероятности к среднему арифметическому их математических ожиданий

4.1.7. Теорема Маркова .. Теорема Чебышева будет справедлива и для зависимых случайных величин , если

4.1.8. Центральная предельная теорема . Если независимые одинаково распределенные случайные величины с математическое ожидание и дисперсию , то при закон распределения суммы неограниченно приближается к нормальному закону распределения

где функция Лапласа

4.1.9. Теорема Лапласа . Если в каждом из независимых испытаний событие появляется с вероятностью , то

Математическая статистика - раздел математики, разрабатывающий методы регистрации, описания и анализа данных наблюдений и экспериментов с целью построения вероятностных моделей случайных явлений и процессов. В зависимости от математической природы конкретных результатов наблюдений математическая статистика делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы. Математическая статистика объединяет различные методы статистического анализа, базирующиеся на использовании статистических закономерностей или их характеристик.

Историю статистики обычно рассматривают начиная с задачи восстановления зависимостей, с момента разработки К. Гауссом в 1794 г. (по другим данным - в 1795 г.) метода наименьших квадратов. Разработка методов аппроксимации данных и сокращения размерности описания была начата более 100 лет назад, когда К. Пирсон создал метод главных компонент. Позднее были разработаны факторный анализ, различные методы построения (кластер-анализ), анализа и использования (дискриминантный анализ) классификаций (типологий) и др. В начале XX в. теорию математической статистики развивал А. А. Чупров. В теорию случайных процессов значительный вклад внесли А. А. Марков, Е. Е. Слуцкий, А. Н. Колмогоров, А. Я. Хинчин и др. Разработанную в первой трети XX в. теорию анализа данных называют параметрической статистикой, поскольку ее основной объект изучения - это выборки из распределений, описываемых одним или небольшим числом параметров. Наиболее общим является семейство кривых Пирсона, задаваемых четырьмя параметрами. Наиболее популярным было нормальное распределение. Для проверки гипотез использовались критерии Пирсона, Стьюдента, Фишера. Были предложены метод максимального правдоподобия, дисперсионный анализ, сформулированы основные идеи планирования эксперимента.

В 1954 г. академик АН УССР Б. В. Гнеденко дал следующее определение: "Статистика состоит из трех разделов:

  • 1) сбор статистических сведений, т.е. сведений, характеризующих отдельные единицы каких-либо массовых совокупностей;
  • 2) статистическое исследование полученных данных, заключающееся в выяснении тех закономерностей, которые могут быть установлены на основе данных массового наблюдения;
  • 3) разработка приемов статистического наблюдения и анализа статистических данных.

Последний раздел, собственно, и составляет содержание математической статистики".

По степени специфичности методов, сопряженной с погруженностью в конкретные проблемы, выделяют три вида научной и прикладной деятельности в области статистических методов анализа данных:

  • а) разработка и исследование методов общего назначения, без учета специфики области применения;
  • б) разработка и исследование статистических моделей реальных явлений и процессов в соответствии с потребностями той или иной области деятельности;
  • в) применение статистических методов и моделей для статистического анализа конкретных данных.

Наиболее распространенными методами статистического анализа являются:

  • регрессионный анализ (основан на сравнении математических ожиданий);
  • дисперсионный анализ (основан на сравнении дисперсий);
  • корреляционный анализ (учитывает математические ожидания, дисперсии и характеристики связей между событиями или процессами);
  • факторный анализ (статистическая обработка многофакторного эксперимента);
  • ранговая корреляция (сочетание корреляционного и факторного анализов).

При применении различных методов математической статистики статистические закономерности или их характеристики получают различными способами: путем наблюдения и исследования выборок, с помощью приближенных методов, основанных на различных способах преобразования или разбиения выборки в форму вариационного ряда, разбиения выборок на потоки, разрезы, случайные интервалы времени и т.д.

Математическая статистика используется в различных сферах управления.

Термин "статистика" первоначально использовался для описания экономического и политического состояния государства или его части. Например, к 1792 г. относится определение: "статистика описывает состояние государства в настоящее время или в некоторый известный момент в прошлом". И в настоящее время деятельность государственных статистических служб вполне укладывается в это определение. Статистику определяли как отрасль знаний, в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных; изучение количественной стороны массовых общественных явлений в числовой форме.

Слово "статистика" происходит от латинского status - состояние дел. В науку термин "статистика" ввел немецкий ученый Готфрид Ахенвалль в 1746 г., предложив заменить название курса "Государствоведение", преподававшегося в университетах Германии, на "Статистика", положив тем самым начало развитию статистики как науки и учебной дисциплины.

В статистике применяется специальная методология исследования и обработки материалов: массовые статистические наблюдения, метод группировок, средних величин, индексов, балансовый метод, метод графических изображений и другие методы анализа статистических данных.

Развитие вычислительной техники оказало значительное влияние на статистику. Ранее статистические модели были представлены преимущественно линейными моделями. Увеличение быстродействия ЭВМ и разработка соответствующих численных алгоритмов послужили причиной повышенного интереса к нелинейным моделям, таким как искусственные нейронные сети, и привели к разработке сложных статистических моделей, например обобщенной линейной модели и иерархической модели. Получили широкое распространение вычислительные методы, основанные на повторной выборке. В настоящее время развивается вычислительная статистика, существует разнообразное статистическое программное обеспечение общего и специализированного назначения. Статистические методы используются в направлении, называемом "Интеллектуальный анализ данных" (см. гл. 8).

Статистическое моделирование – это численный метод решения математических задач, при котором искомые величины представляют вероятностными характеристиками какого-либо случайного явления. Это явление моделируется, после чего нужные характеристики приближённо определяют путём статистической обработки «наблюдений» модели.

Разработка подобных моделей заключается в выборе метода статистического анализа, планировании процесса получения данных, компоновке данных об экологической системе, алгоритмировании и расчете компьютерными средствами статистических соотношений. Изменение закономерностей развития экологической ситуации требует повторения описанной процедуры, но уже в новом качестве.

Статистическое нахождение математической модели включает в себя выбор вида модели и определение ее параметров. Причем искомая функция может быть как функцией одной независимой переменной (однофакторной), так и многих переменных (многофакторной). Задача выбора вида модели – задача неформальная, т. к. одна и та же зависимость может быть описана с одинаковой погрешностью самыми различными аналитическими выражениями (регрессионными уравнениями). Рациональный выбор вида модели может быть обоснован при учете ряда критериев: компактность (например, описанная одночленом или многочленом), интерпретируемость (возможность придания содержательного смысла коэффициентом модели) и др. Задача расчета параметров выбранной модели зачастую чисто формальная и осуществляется на ЭВМ.

Формируя статистическую гипотезу об определенной экологической системе, необходимо иметь массив разнообразных данных (базу данных), который может быть неоправданно велик. Адекватное представление о системе связано в этом случае с отделением несущественной информации. Сокращению могут подлежать как перечень (тип) данных, так и количество данных. Одним из методов осуществления подобного сжатия экологической информации (без априорных предположений о структуре и динамике наблюдаемой экосистемы) может стать факторный анализ. Сокращение данных проводят методом наименьших квадратов, главных компонент и другими многомерными статистическими методами с использованием в дальнейшем, например, кластерного анализа.

Отметим, что первичная экологическая информация обладает в той или иной степени следующими особенностями:

– многомерностью данных;

– нелинейностью и неоднозначностью взаимосвязей в исследуемой системе;

– погрешностью измерений;

– влиянием неучтенных факторов;

– пространственно-временной динамикой.

При решении первой задачи выбора вида модели полагают, что известны m входных (х 1 , х 2 , ..., х m и n выходных (y 1 , y 2 , ..., y) данных. В этом случае возможны, в частности, следующие две модели в матричной записи:

где X и Y – известные входные (выходные) и выходные (входные) параметры экологического объекта ("черного ящика") в векторной форме записи; А и В – искомые матрицы постоянных коэффициентов модели (параметров модели).

Наряду с указанными моделями рассматривается более общий вид статистического моделирования:

где F – вектор скрытых влияющих факторов; С и D – искомые матрицы коэффициентов.

При решении экологических задач целесообразно использовать и линейные и нелинейные математические модели, т. к. многие экологические закономерности мало исследованы. В результате будут учтены многомерность и нелинейность моделируемых взаимосвязей.

На основе обобщенной модели можно выделить внутренние скрытые факторы изучаемых экологических процессов, которые не известны инженеру-экологу, но их проявление отражается на компонентах векторов X и Y. Эта процедура наиболее целесообразна в случае, когда между величинами X и Y не наблюдается строгой причинно-следственной связи. Обобщенная модель с учетом воздействия скрытых факторов устраняет определенное противоречие между двумя моделями с матрицами А и В, когда фактически две различные модели могли бы быть использованы для описания одного и того же экологического процесса. Это противоречие вызвано противоположным смыслом причинно-следственной зависимости между величинами А и Y (в одном случае X – вход, а Y – выход, а в другом - наоборот). Обобщенная модель с учетом величины F – описывает более сложную систему, из которой обе величины X и Y являются выходными, а па вход действуют скрытые факторы F.

Немаловажным при статистическом моделировании является использование априорных данных, когда еще в процессе решения могут быть установлены некоторые закономерности моделей и сужено их потенциальное количество.

Предположим, необходимо составить модель, с помощью которой за 24 ч можно численно определить плодородие определенного типа почвы с учетом ее температуры Т и влажности W. Ни пшеница, ни яблоня за 24 ч дать урожай не могут. Но для пробного сева можно использовать бактерии с коротким жизненным циклом, а в качестве количественного критерия интенсивности их жизнедеятельности пользоваться количеством Р выделенного СО 2 в единицу времени. Тогда математическая модель исследуемого процесса представляет собой выражение

где P 0 - численный показатель качества почвы.

Кажется, что у нас нет никаких данных о виде функции f(T, W) потому, что у инженера-системотехника нет нужных агрономических знаний. Но это не совсем так. Кто не знает, что при Т≈0°С вода замерзает и, следовательно, СO 2 выделяться не может, а при 80°С происходит пастеризация, т. е. большинство бактерий погибает. Априорных данных уже достаточно для утверждения, что искомая функция имеет квазипараболический характер, близка к нулю при Т=0 и 80°С и имеет экстремум внутри этого интервала температур. Аналогичные рассуждения относительно влажности приводят к фактофиксации максимума экстремума искомой функции при W=20% и приближении ее к нулю при W=0 и 40%. Таким образом, априори определен вид приближенной математической модели, а задачей эксперимента является лишь уточнение характера функции f(T, W) при Т=20 ... 30 и 50 ... 60°С, а также при W=10 ... 15 и 25 ... 30% и более точное установление координат экстремума (что уменьшает объем экспериментальных работ, т. е. объем статистических данных).

Приложение 1. МЕТОДЫ СТАТИСТИЧЕСКОГО АНАЛИЗА И ПРОГНОЗИРОВАНИЯ В БИЗНЕСЕ

2. Математические модели как необходимый инструмент статистического анализа и прогнозирования в бизнесе

Начнем с простого примера демонстрирующего различия чисто статистического, чисто вероятностного и вероятностно-статистического подходов к выработке прогнозного решения. Одновременно на этом примере достаточно прозрачно видна роль математических моделей в технологии формирования прогнозного решения.

Статистический способ принятия решения. Пусть читатель представит себя бизнесменом, наблюдающим за игрой двух его приятелей-бизнесменов (А и В ) в кости. Игра идет по следующим правилам. Производится четыре последовательных бросания игральной кости. Игрок А получает одну денежную единицу от игрока В , если в результате этих четырех бросаний хотя бы один раз выпало шесть очков (назовем этот исход «шесть»), и платит одну денежную единицу игроку В в противном случае (назовем этот исход «не шесть»). После ста туров читатель должен сменить одного из игроков, причем он имеет право выбрать ситуацию, на которую он будет ставить свою денежную единицу в следующей серии туров: за появление хотя бы одной «шестерки» или против. Правильное осуществление этого выбора определяется, естественно, качеством его прогноза по поводу результата игры при ставке на исход «шесть»: если вероятность этого исхода правильно оценивается величиной, превосходящей половину, то игрок должен поставить именно на этот исход. Итак, задача наблюдателя – сделать достоверный прогноз.

Статистический способ решения этой задачи диктуется обычным здравым смыслом и заключается в следующем. Пронаблюдав сто туров игры предыдущих партнеров и подсчитав относительные частоты их выигрыша, казалось бы, естественно поставить на ту ситуацию, которая чаще возникала в процессе игры. Например, было зафиксировано, что в 52 партиях из 100 выиграл игрок В , т.е. в 52 турах из 100 «шестерка» не выпадала ни разу при четырехкратном выбрасывании кости (соответственно в остальных 48 партиях из ста осуществлялся исход «шесть»). Следовательно, делает вывод читатель, применивший статистический способ рассуждения, выгоднее ставить на исход «не шесть», т.е. на тот исход, относительная частота появления которого равна 0,52 (больше половины).

Теоретико-вероятностный способ решения . Этот способ основан на определенной математической модели изучаемого явления: полагая кость правильной (т. е. симметричной), а следовательно, принимая шансы выпадения любой грани кости при одном бросании равными между собой (другими словами, относительная частота, или вероятность, выпадения «единицы» равна относительной частоте выпадения «двойки», «тройки» и т. д. и равна 1/6), можно подсчитать вероятность P {«не шесть»} осуществления ситуации «не шесть», т. е. вероятность события, заключающегося в том, что при четырех последовательных бросаниях игральной кости ни разу не появится «шестерка». Этот расчет основан на следующих фактах, вытекающих из принятых нами предпосылок модели. Вероятность не выбросить шестерку при одном бросании кости складывается из шансов появиться в результате одного бросания «единице», «двойке», «тройке», «четверке»и «пятерке» и, следовательно, составляет (в соответствии с определением вероятности любого события) величину 5/6. Затем используем правило умножения вероятностей, в соответствии с которым вероятность наступления нескольких независимых событий равна произведению вероятностей этих событий. В нашем случае мы рассматриваем факт наступления четырех независимых событий, каждое из которых заключается в невыпадении «шестерки» при одном бросании и имеет вероятность осуществления, равную 5/6. Поэтому

Как видно, вероятность ситуации «не шесть» оказалась меньше половины, следовательно, шансы ситуации «шесть» предпочтительнее (соответствующая вероятность равна: 1-0,482 = 0,518). А значит, читатель, использовавший теоретико-вероятностный способ рассуждения, придет к диаметрально противоположному по сравнению с читателем со статистическим образом мышления решению и будет ставить в игре на ситуацию «шесть».

Вероятностно-статистический (или математико-статистический) способ принятия решения. Этот способ как бы синтезирует инструментарий двух предыдущих, так как при выработке с его помощью окончательного вывода используются и накопленные в результате наблюдения за игрой исходные статистические данные (в виде относительных частот появления ситуаций «шесть» и «не шесть», которые, как мы помним, были равны соответственно 0,48 и 0,52), и теоретико-вероятностные модельные соображения . Однако модель, принимаемая в данном случае, менее жестка, менее ограничена, она как бы настраивается на реальную действительность, используя для этого накопленную статистическую информацию . В частности, эта модель уже не постулирует правильность используемых костей, допуская, что центр тяжести игральной кости может быть и смещен некоторым особым образом. Характер этого смещения (если оно есть) должен как-то проявиться в тех исходных статистических данных, которыми мы располагаем. Однако читатель, владеющий вероятностно-статистическим образом мышления, должен отдавать себе отчет в том, что полученные из этих данных величины относительных частот исходов «шесть» и «не шесть» дают лишь некоторые приближенные оценки истинных (теоретических) шансов той и другой ситуации: ведь подбрасывая, скажем, 10 раз даже идеально симметричную монету, мы можем случайно получить семь выпадений «гербов»; соответственно относительная частота выпадения «герба», подсчитанная по этим результатам испытаний, будет равна 0,7; но это еще не значит, что истинные (теоретические) шансы (вероятности) появления «герба» и другой стороны монеты оцениваются величинами соответственно 0,7 и 0,3, – эти вероятности, как мы знаем, равны 0,5. Точно так же установленная нами в серии из ста игровых туров относительная частота исхода «не шесть» (равная 0,52) может отличаться от истинной (теоретической) вероятности того же события и, значит, может не быть достаточным основанием для выбора этой ситуации в игре!

Получается, что весь вопрос заключается в том, насколько сильно может отличаться наблюденная (в результате осуществления n испытаний) относительная частота интересующего нас события от истинной вероятности появления этого события, и как это отличие, т. е. погрешность , зависит от числа имеющихся в нашем распоряжении наблюдений (интуитивно ясно, что чем дольше мы наблюдали за игрой, т. е. чем больше общее число использованных нами наблюдений, тем больше доверия заслуживают вычисленные нами эмпирические относительные частоты , т. е. тем меньше их отличие от неизвестных нам истинных значений вероятностей ). Ответ на этот вопрос можно получить в нашем случае, если воспользоваться рядом дополнительных модельных соображений : а) предположить, что результат каждого тура никак не зависит от результатов предыдущих туров, а неизвестная нам вероятность осуществления ситуации «не шесть» остается одной и той же на протяжении всех туров игры; б) использовать тот факт, что поведение случайно меняющейся (при повторениях эксперимента) погрешности приближенно описывается законом нормального распределения вероятностей со средним значением, равным нулю, и дисперсией, равной (см. , п. 3.1.5).

Эти соображения, в частности, позволяют оценить абсолютную величину погрешности , заменяя неизвестную величину вероятности интересующего нас события (в нашем случае – исход «не шесть») относительной частотой этого события, зафиксированной в серии из испытаний (в нашем случае , а ). Если же мы смогли численно оценить абсолютную величину возможной погрешности , то естественно применить следующее правило принятия решения: если относительная частота появления исхода «не шесть» больше половины и продолжает превышать 0,5 после вычитания из нее возможной погрешности , то выгоднее ставить на «не шесть»; если относительная частота меньше половины и продолжает быть меньше 0,5 после прибавления к ней возможной погрешности , то выгоднее ставить на «шесть»; в других случаях у наблюдателя нет оснований для статистического вывода о преимуществах того или иного выбора ставки в игре (т. е. надо либо продолжить наблюдения, либо участвовать в игре с произвольным выбором ставки, ожидая, что это не может привести к сколько-нибудь ощутимому выигрышу или проигрышу).

Приближенный подсчет максимально возможной величины этой погрешности, опирающийся на модельное соображение б) (т. е. теорему Муавра-Лапласа, см. и п. 4.3), дает в рассматриваемом примере, что с практической достоверностью, а именно с вероятностью 0,95, справедливо неравенство

Возведение этого неравенства в квадрат и решение получившегося квадратного неравенства относительно неизвестного параметра дает

или, с точностью до величин порядка малости выше, чем ,

В данном случае (при и ) получаем:

Следовательно,

Таким образом, наблюдения за исходами ста партий дают нам основания лишь заключить, что интересующая нас неизвестная величина вероятности исхода «не шесть» на самом деле может быть любым числом из отрезка , т. е. может быть как величиной, меньшей 0,5 (и тогда надо ставить в игре на ситуацию «шесть»), так и величиной, большей 0,5 (и тогда надо ставить в игре на ситуацию «не шесть»).

Иначе говоря, читатель, воспользовавшийся вероятностно-статистическим способом решения задачи и указанными выше модельными предпосылками, должен прийти к следующему «осторожному» выводу: ста партий в качестве исходного статистического материала оказалось недостаточно для вынесения надежного заключения о том, какой из исходов игры является более вероятным . Отсюда решение: либо продолжить роль «зрителя» до тех пор, пока область возможных значений для вероятности , полученная из оценок вида (4), не окажется целиком лежащей левее или правее 0,5, либо вступить в игру, оценивая ее как близкую к «безобидной», т. е. к такой, в которой в длинной серии туров практически останешься «при своих».

Приведенный пример иллюстрирует роль и назначение теоретико-вероятностных и математико-статистических методов, их взаимоотношения. Если теория вероятностей предоставляет исследователю набор математических моделей , предназначенных для описания закономерностей в поведении реальных явлений или систем, функционирование которых происходит под влиянием большого числа взаимодействующих случайных факторов, то средства математической статистики позволяют подбирать среди множества возможных теоретико-вероятностных моделей ту, которая в определенном смысле наилучшим образом соответствует имеющимся в распоряжении исследователя статистическим данным , характеризующим реальное поведение конкретной исследуемой системы.

Математическая модель . Математическая модель – это некоторая математическая конструкция, представляющая собой абстракцию реального мира: в модели интересующие исследователя отношения между реальными элементами заменены подходящими отношениями между элементами математической конструкции (математическими категориями). Эти отношения, как правило, представлены в форме уравнений и (или) неравенств между показателями (переменными), характеризующими функционирование моделируемой реальной системы. Искусство построения математической модели состоит в том, чтобы совместить как можно большую лаконичность в ее математическом описании с достаточной точностью модельного воспроизводства именно тех сторон анализируемой реальности, которые интересуют исследователя.

Выше, анализируя взаимоотношения чисто статистического, чисто теоретико-вероятностного и смешанного – вероятностно-статистического способа рассуждения, мы, в действительности, пользовались простейшими моделями, а именно:

статистической частотной моделью интересующего нас случайного события, заключающегося в том, что в результате четырех последовательных бросаний игральной кости ни разу не выпадет «шестерка»; оценив по предыстории относительную частоту этого события и приняв ее за вероятность появления этого события в будущем ряду испытаний , мы, тем самым, используем модель случайного эксперимента с известной вероятностью его исхода (см. и п. 1.1.3);

теоретико-вероятностной моделью последовательности испытаний Бернулли (см. и п. 3.1.1), которая никак не связана с использованием результатов наблюдений (т. е. со статистикой); для подсчета вероятности интересующего нас события достаточно принятия гипотетического допущения о том, что используемая игральная кость идеально симметрична. Тогда в соответствии с моделью серии независимых испытаний и справедливой, в рамках этой модели, теоремой умножения вероятностей подсчитывается интересующая нас вероятность по формуле ;

вероятностно-статистической моделью , интерпретирующей оцененную в чисто статистическом подходе относительную частоту как некую случайную величину (см. и п. 2.1), поведение которой подчиняется правилам, определяемым так называемой теоремой Муавра–Лапласа; при построении этой модели были использованы как теоретико-вероятностные понятия и правила, так и статистические приемы, основанные на результатах наблюдений.

Обобщая этот пример, можно сказать, что:

вероятностная модель это математическая модель, имитирующая механизм функционирования гипотетического (не конкретного) реального явления (или системы) стохастической природы; в нашем примере гипотетичность относилась к свойствам игральной кости: она должна была быть идеально симметричной;

вероятностно-статистическая модель – э то вероятностная модель, значения отдельных характеристик (параметров) которой оцениваются по результатам наблюдений (исходным статистическим данным), характеризующим функционирование моделируемого конкретного (а не гипотетического) явления (или системы).

Вероятностно-статистическая модель, описывающая механизм функционирования экономической или социально-экономической системы, называется эконометрической .

Прогностические и управленческие модели в бизнесе . Вернемся к задачам статистического анализа механизма функционирования предприятия (фирмы) и связанным с ними прогнозами. Вновь рассматривая «фазовое пространство » этих задач, нетрудно описать общую логическую структуру необходимых для их решения моделей. Эта структура прямо следует из сформулированного выше определения стратегии бизнеса .

Для того чтобы формализовать (т. е. записать в терминах математической модели) задачи оптимального управления и построения прогноза в бизнесе, введем следующие обозначения:

– вектор-столбец результирующих показателей (объем продаж и т. п.);

– вектор-столбец «поведенческих» (управляемых) переменных (вложения в развитие основных фондов, в службы маркетинга и т. п.);

– вектор-столбец так называемых «статусных» переменных, т. е. показателей, характеризующих состояние фирмы (число работников, основные фонды, возраст фирмы и т. п.);

– вектор-столбец гео-социо-экономико-демографичес-ких характеристик внешней среды (показатели общей экономической ситуации, характеристики клиентов и поставщиков и т. п.);

– вектор-столбец случайных регрессионных остатков (подробнее о них ниже).

Тогда система уравнений, на базе которых может осуществляться оптимальное управление предприятием и выполнение необходимых прогнозных расчетов , в самом общем виде может быть представлена в форме:

, (5)

где – некоторая векторнозначная ( -мерная) функция от , структура (значения параметров) которой, вообще говоря, зависит от того, на каких уровнях зафиксированы величины переменных «состояния» фирмы и «внешней среды» .

Тогда базовая проблема статистического анализа и прогнозирования в бизнесе состоит в построении наилучшей (в определенном смысле) оценки для неизвестной функции по имеющейся в распоряжении исследователя исходной статистической информации вида

где – значения соответственно поведенческих, «статусных», внешних и результирующих переменных, характеризующие -й такт времени (или измеренных на -м статистически обследованном предприятии), . Соответственно параметр (объем выборки ) интерпретируется как общая длительность наблюдений за значениями анализируемых переменных на исследуемом предприятии, если наблюдения регистрировались во времени , и как общее число статистически обследованных однотипных предприятий, если наблюдения регистрировались в пространстве (т. е., переходя от одного предприятия к другому). При этом описание функции должно сопровождаться способом расчета гарантированных погрешностей аппроксимации (ошибок прогноза ), т. е. таких векторных ( -мерных) значений и , которые для любых заданных значений и гарантировали бы выполнение неравенств (с вероятностью, не меньшей, чем , где – наперед заданная, достаточно близкая к единице положительная величина) , т.е. соответственно поведенческих (управляемых), «статусных» и переменных внешней среды для момента времени классической модели регрессии, величина тождественно равна нулю (см ).

Некоторые общие сведения о математическом инструментарии решения задач (9) и (10) см. ниже, в п. 4 .

Предыдущая


Что еще почитать