Исследование данных.
Анализ экономического влияния облачных вычислений на создание новых малых и средних предприятий

РефератПомощь в написанииУзнать стоимостьмоей работы

ВULA = 1 594,711 означает, что при увеличении средней скорости загрузки данных на 1 килобит в секунду, количество МСП возрастет на 1 594,711. Полагаю, что здесь работает эффект масштаба: если (в данном случае) произойдет улучшение качества работы Интернета повсеместно, то на глобальном уровне это может вызвать такой шок. Возвращаясь к понятиям облачных технологий, можно сделать вывод, что… Читать ещё >

Исследование данных. Анализ экономического влияния облачных вычислений на создание новых малых и средних предприятий (реферат, курсовая, диплом, контрольная)

Прежде чем приступить к проведению регрессионного анализа, нужно проверить имеющиеся данные на существование явных и неявных ошибок (Приложение 1), а также посмотреть наличие выбросов для каждого регрессора.

Таблица показывает, максимальные, минимальные, а также средние значения переменных, среди которых отсутствуют отрицательные числа, поэтому можно сделать вывод, что ошибки различного рода не выявлены, данные адекватны и соответствуют официальным источникам.

«B целом, для выборки из 37 стран, среднее значение малых и средних предприятий составляет 505 414.21, что является чуть большей цифрой, чем медиана.

После проведения анализа статистических данных, необходимо проверить каждый регрессор на наличие выбросов. В качестве примера на Рис. 6 — 9 приведены гистограммы для переменных: «среднее количество загрузок», «количество МСП», «расходы на ИТ» и «инвестиции в исследования и разработки». Для всех остальных переменных они выглядят схожим образом, не обнаруживая элементов, похожих на выбросы. Их отсутствие позволяет не выставлять ограничения на выборку данных.

Рис. 6 Гистограмма для «среднего количества загрузок»

Рис. 7 Гистограмма для «количества МСП»

Рис. 8 Гистограмма для «расходов на ИКТ»

Гистограмма для «инвестиций в исследования и разработки».

Исследование данных. Анализ экономического влияния облачных вычислений на создание новых малых и средних предприятий.

Рис. 8 Гистограмма для «инвестиций в исследования и разработки»

После того, как мы провели анализ статистических данных, следует построить матрицу корреляций, чтобы выявить зависимость между переменными и проверить их на мультиколлинеарность. Результаты Количество знаков после запятой было сокращено до трёх для упрощения визуального восприятия. (Табл. 3) показывают, что среди переменных есть четыре, которые попарно сильно коррелируют между собой: DLA и DLM (0.9 255 339), LAV и LM (0.899 390).

Для того, чтобы получить релевантные результаты, следует провести несколько экспериментов, исключая тот или иной регрессор из общей модели, и на основе полученных результатов выбрать лучшую регрессию. Главными критериями отбора будут значения R-squared и Adjusted R-squared.

Таблица 3. Корреляционная матрица.


DLA.	DLM.	GDP.	INGR.	LAV.	LM.	MCR.	RD.	SME.	SPEND.	ULA.	ULM.
DLA.	1.000.	0.925.	0.015.	0.362.	— 0.418.	— 0.580.	0.137.	0.412.	— 0.104.	0.427.	— 0.181.	— 0.492.
DLM.	0.925.	1.000.	0.071.	0.341.	— 0.438.	— 0.584.	0.217.	0.441.	— 0.074.	0.509.	— 0.100.	— 0.442.
GDP.	0.015.	0.071.	1.000.	0.097.	0.077.	0.023.	0.693.	0.273.	0.429.	0.241.	— 0.064.	— 0.092.
INGR.	0.362.	0.341.	0.097.	1.000.	— 0.283.	— 0.236.	0.092.	0.654.	— 0.336.	0.139.	0.107.	— 0.299.
LAV.	— 0.418.	— 0.438.	0.077.	— 0.283.	1.000.	0.899.	0.093.	— 0.176.	— 0.044.	— 0.288.	— 0.032.	0.434.
LM.	— 0.580.	— 0.584.	0.023.	— 0.236.	0.899.	1.000.	0.042.	— 0.182.	— 0.066.	— 0.345.	0.030.	0.489.
MCR.	0.137.	0.217.	0.693.	0.092.	0.093.	0.042.	1.000.	0.222.	0.004.	0.286.	— 0.001.	0.143.
RD.	0.412.	0.441.	0.273.	0.654.	— 0.176.	— 0.182.	0.222.	1.000.	0.014.	0.286.	— 0.067.	— 0.343.
SME.	— 0.104.	— 0.074.	0.429.	— 0.336.	— 0.044.	— 0.066.	0.004.	0.014.	1.000.	0.092.	— 0.048.	— 0.015.
SPEND.	0.427.	0.509.	0.241.	0.139.	— 0.288.	— 0.345.	0.286.	0.286.	0.092.	1.000.	— 0.139.	— 0.288.
ULA.	— 0.181.	— 0.100.	— 0.064.	0.107.	— 0.032.	0.030.	— 0.001.	— 0.067.	— 0.048.	— 0.139.	1.000.	0.274.
ULM.	— 0.492.	— 0.442.	— 0.092.	— 0.299.	0.434.	0.489.	0.143.	— 0.343.	— 0.015.	— 0.288.	0.274.	1.000.

1. Выбор лучшей регрессии, исключая коррелирующие регрессоры.

Ниже в сводной Таблице 4 представлены результаты всех проведенных экспериментов. Таким образом наглядно видно, что самая лучшая регрессия является та, где исключены регрессоры DLM, LM. Пусть это и будет наша основная регрессия на этом этапе:

sme = в + вingr*ingr + вmcr*mcr + вgdp*gdp + вdla*dla +.

+ в_ula*ula + в_ulm*ulm + в_lav*lav + в_spend*spend + в_rd*rd (1).

Таблица 4. Сводные результаты экспериментов для выбора наилучшей регрессии.


Объясняемая переменная — количество малых и средний предприятий в стране. Число наблюдений 37.
Независимая переменная.	Оцениваемая модель.
(1).	(2).	(3).	(4).	(5).
константа.	4 596 403**.	4 693 377. **.	4 611 999. **.	4 405 434. **.	4 603 062. **.
группа доходов.	— 1 282 801**.	— 1 262 974.**.	— 1 276 978.**.	— 1 225 838.**.	— 1 278 725.**.
количество микро предприятий.	— 1.3 165**.	— 1.1 911**.	— 1.8 969**.	— 0.999 804**.	— 1.9 684**.
ВВП.	5.65 E-07***.	5.61 E-07***.	5.66 E-07***.	5.53 E-07***.	5.67 E-07***.
средняя скорость скачивания данных.	18 579.93.	12 017.49.	2975.470.	12 607.78.
медиана скорости скачивания данных.	— 10 458.89.	10 480.11.
средняя скорость загрузки данных.	548.5890.	446.0996.	510.9040.	561.5373.	512.8180.
медиана скорости загрузки данных.	1103.203.	1067.177.	1101.541.	1057.736.	1099.756.
средняя скорость времени ожидания отклика.	— 23 413.60.	— 21 556.95.	— 23 375.56.	— 24 335.30.
медиана скорости времени ожидания отклика.	— 2344.684.	— 5626.890.	— 1865.304.	— 36 890.24.
расходы на ИТ.	58 790.70.	51 830.46.	52 456.94.	63 035.39.	52 530.55.
инвестиции в исследования и разработки.	494 050.0.	488 799.3.	487 602.0.	493 216.1.	486 718.7.
Adj. R²	0.399 336.	0,420 928.	0,422 172.	0,434 277.	0,443 553.
F-stat.	3.175 790.	3.616 840.	3.630 228.	4.70 599.	4.188 462.
Probability.	0.8 061.	0,4 041.	0,3 951.	0,2 165.	0,1 797.

Probability (F-st) = 0,001 < 0,05 — значит гипотеза H₀ о том, что регрессия в целом не значима, отвергается на 5%-ом уровне значимости. Коэффициенты, характеризующие аспекты готовности стран к внедрению облачных вычислений, получились незначимые, что говорит о неэффективности модели и необходимости дальнейшего проведения экспериментов. Перед этим необходимо проинтерпретировать полученные значимые коэффициенты.

SME=C (1)+C (2)*UNR+C (3)*INGR+C (4)*MCR+C (5)*GDP+ C (6)*GDPC +C (7)*DLA+C (8)*ULA+C (9)*ULM + C (10)*LAV + C (11)*SPEND + C (12)*RD.

в_INGR = -1 278 725 значит, что переходе страны к более высокому уровню доходов, в стране будет уменьшаться количество малых и средних предприятий на 1 278 725 шт. Этот коэффициент не соответствует заявленным ожиданиям, потому что в жизни ситуация выглядит обратным образом. Чтобы добиться релевантных результатов, попробуем в дальнейших построениях использовать этот коэффициент в квадрате.

в_MCR = -1.9 684 значит, что при увеличении в стране микро предприятия на 1 ед., общее количество МСП будет уменьшаться ~ на 1 ед. Опять-таки ожидания не оправдались, следовательно этот результат не вызывает доверия несмотря на то, что коэффициент получился значимый.

в_GDP = 5.67E-07 значит, что при увеличении ВВП страны на $ 1, количество МСП увеличится на соответствующую величину. Положительная зависимость оправдалась, что и подтверждает теоретическая основа исследования.

Несмотря на то, что в_DLA, в_ULA, в_ULM, в_LAV, в_SPEND, в_RD получились незначимые, было бы нецелесообразно исключить их все из модели, поскольку цель исследования как раз заключалась в том, чтобы проследить влияние данных факторов на вероятность появления новых малых и средних предприятий в стране. Кроме того, в связи с тем, что не все ожидания оправдались, необходимо провести дополнительные тесты и прийти к наилучшему возможному результату.

2) Выбор регрессии, исключая незначимые коэффициенты Табл. 5 показывает процесс отбора новой регрессии, которую добились удалив незначимые переменные. По критериям R² и R²_adj модель выглядит намного лучше и устойчивей. В модели (2) больше значимых регрессоров, что также свидетельствует о том, что модель правильная.

sme = в + в_ingr*ingr + в_mcr*mcr + в_mcr²*mcr² + в_mcr³*mcr³ +.

+ в_gdp*gdp + в_dla*dla + в_ula*ula + в_lav*lav + в_spend*spend + в_rd*rd (2).

Таблица 5. Сводные результаты экспериментов для выбора наилучшей регрессии.


Объясняемая переменная — количество малых и средний предприятий в стране. Число наблюдений 37.
Независимая переменная.	Оцениваемая модель.
(1).	(2).	(3).	(4).	(5).
константа.	4 603 062. **.		3 358 780.	3 302 701**.	3 364 553**.
группа доходов.	— 1 278 725.**.	— 1 316 333.	— 1 312 937***.	— 747 005.3**.	— 744 313.6**.
(группа доходов)^2.	6711.214.
количество микро предприятий.	— 1.9 684**.	— 1.11 725**.	0.346 951.	— 4.401 561***.	— 4.443 667***.
(количество микро предприятий)^2.	— 4.94E-07*.	2.73 E-06***.	2.78 E-06***.
(количество микро предприятий)^3.	— 5.34E-13***.	— 5.42E-13***.
ВВП.	5.67 E-07***.	5.67 E-07***.	8.40 E-07***.	1.14 E-06***.	1.13 E-06***.
средняя скорость скачивания данных.	12 607.78.	12 734.21.	21 073.30.	— 9344.812.	— 11 820.32.
медиана скорости скачивания данных.
средняя скорость загрузки данных.	512.8180.	512.5308.	435.0550.	1503.769.	1594.711 *.
медиана скорости загрузки данных.	1099.756.	1098.927.	1088.128.	181.1884.
средняя скорость времени ожидания отклика.	— 24 335.30.	— 24 301.77.	— 16 446.25.	— 21 267.80*.	— 20 481.58**.
медиана скорости времени ожидания отклика.
расходы на ИТ.	52 530.55.	52 835.16.	103 708.0.	190 754.1.	189 125.7.
инвестиции в исследования и разработки.	486 718.7.	484 511.2.	478 249.6.	63 931.93.	53 383.77.
Adj. R²	0,443 553.	0.422 157.	0.534 486.	0.820 925.	0.826 990.
F-stat.	4.188 462.	3.630 066.	5.133 385.	16.298.	18.20 799.
Probability.	0,1 797.	0.3 952.	0.376.	0.0.	0.0.

2) Выбор регрессии после теста на гетероскедастичность На этом этапе необходимо протестировать модель на гетероскедастичность, чтобы определить, являются ли остатки постоянными (гомоскедастичными) или нет. В случае, если будет выявлена гетероскедастичность, это будет означать, что полученные оценки не являются достаточно оптимальными и не имеют минимальную дисперсию, что означает, что они не являются наиболее эффективными коэффициентами.

Основным способом устранения гетероскедастичности является применение взвешенного метода наименьших квадратов. Для этого воспользуемся тестом Уайта (White-test). Рис. 9 иллюстрирует результаты проведенного теста.

Рис. 9 Тест Уайта

Так как Prob. (F-st) = 0.0000 < 0.05 — значит мы отвергаем нулевую гипотезу H₀ о том, что модель гомоскедастична. В этом случае следует воспользоваться поправками Уайта, чтобы скорректировать стандартные ошибки, так как в гетероскедастичной модели они рассчитываются неверно — это одно из последствий гетероскедастичности.

Таким образом, мы имеем самую релевантную регрессию из всех построенных: критерии R² и R²_adj максимальны, количество значимых регрессоров максимально и объяснимо.

2.3 Интерпретация полученных результатов Итак, среди значимых коэффициентов присутствуют: INGR** — группа доходов стран, MCR* — количество микро предприятий в стране, MCR²* — количество микро предприятий в квадрате, MCR³* — количество микро предприятий в кубе, GDP* — ВВП страны, ULA** — средняя скорость загрузки данных, LAV** — средняя скорость ожидания, SPEND*** — расходы на ИТ. Во многом, ожидания оправдались, значит пришло время проинтерпретировать полученные результаты:

в_INGR = - 744 313,6 говорит о том, что переход страны на новый уровень доходов, количество МСП уменьшится на 744 313,6. На первый взгляд, этот результат может показаться довольно-таки странным. Изначально предполагалось, что чем выше уровень доходов в стране, тем больше МСП внутри нее. Тогда я попробовала ввести параметр GDP², который описывал бы зависимость SME и INGR как параболу, однако регрессия при этом стала хуже и количество значимых коэффициентов стало меньше. В таком случае объяснение результатов необходимо было искать в теории и в имеющихся данных. В выборке было четыре страны с самым большим отрывом по количеству МСП: Китай — 10 231 000, Таиланд — 2 264 525, Япония — 2 218 974 и США — 1 273 241. При этом первые две страны с большим удельным количеством МСП входили в группу стран с доходом ниже среднего, в то время как последние две страны — с высокими доходами. Возможно дальнейший детальный анализ данных мог бы объяснить, почему в регрессии получилась отрицательная зависимость между переменными.

в_MCR = - 4,443 667, что говорит о том, что при увеличении количества микро предприятий на одну единицу, количество МСП будет снижаться на ~ 4,5 ед., хотя изначально предполагалась положительная зависимость. После введения в модель MCR² и MCR³, которые оказались значимыми регрессорами, зависимость стала понятной и ее можно описать функцией кубической параболы. То есть до какого-то момента увеличение количества микро предприятий будет отрицательным образом сказываться на росте МСП, после этого момента ситуация развернется в положительную стороны, но вскоре снова превратиться в отрицательную зависимость.

в_GDP = 1,13Е-06, знак которого в первую очередь говорит о том, что ожидаемая зависимость оправдалась. Действительно, увеличение ВВП в стране положительным образом сказывается на количестве МСП. Возможно, стоило представить данные по ВВП в млрд. долларов, чтобы коэффициент был более наглядным. Поэтому для стран, чья динамика роста ВВП год от года улучшается, можно ожидать стабильный рост количества МСП в ближайшие годы, а вместе с тем и все остальные преимущества, которые следуют за их ростом.

в_ULA = 1 594,711 означает, что при увеличении средней скорости загрузки данных на 1 килобит в секунду, количество МСП возрастет на 1 594,711. Полагаю, что здесь работает эффект масштаба: если (в данном случае) произойдет улучшение качества работы Интернета повсеместно, то на глобальном уровне это может вызвать такой шок. Возвращаясь к понятиям облачных технологий, можно сделать вывод, что в странах, где средняя скорость загрузки данных будет увеличена, распространение технологии облачных вычислений произойдет быстрее.

в_LAV = - 20 481,58 свидетельствует о том, что ожидаемая зависимость оправдалась. Увеличение скорости ожидания отклика на 1 миллисекунду может столь значительным образом сказаться на количестве МСП в стране. Этот результат можно подвергнуть сомнению и провести отдельный анализ восприятия скорости ожидания отклика у малых и средних предприятий. В рамках экономического исследования влияния облачных вычислений полученный результат допустим, так как он в любом случае является предположительным.

в_SPEND = 189 125,7 хорошо иллюстрирует теоретическое предположение о том, что количество инвестиций в ИТ по стране, которые в большинстве своем делаются малыми и средними предприятиями прямо влияют на их количество. Кроме того, ввиду нашего исследование инвестиции в ИТ следует расценивать как инвестиции и в облачные вычисления также, так как в выборке присутствуют только те страны, которые готовы к имплементации этой технологии.

Подводя итог всему вышесказанному, можно сделать следующие выводы:

§ Облачные вычисления действительно положительным образом сказываются на количестве МСП в стране. Большинство регрессоров, отвечающих за «облачную» составляющую модели оказались значимые и оправдали ожидаемый знак зависимости, что может служить доказательством релевантности построенной модели.

Таким образом, гипотеза о том, что даже такое незначительное изменение в сфере информационных технологий, оказывает значительный эффект на создание малых и средних предприятий, может считаться доказанной. Соответственно опираясь на результаты теоретического исследования, а именно алгоритм влияния облачных вычислений, можно считать, что в дальнейшем при увеличении инвестиций в ИТ, средней скорости загрузки данных и уменьшения среднего времени ожидания отклика, макроэкономические показатели улучшатся, а именно увеличится занятость и ВВП страны.

Показать весь текст

Заполнить форму текущей работой