My Notes

統計学とかR(R言語)とかPython3の覚え書きとか走り書きとか。 座右の銘にしたい: All work and no play makes Jack a dull boy.

独立標本t検定(二標本t検定)、t統計量、合併標本分散値をR(R言語)で t.test()や手計算

Rコード

#
# 参考にするデータ、数式、解説は、『統計クイックリファレンス』p.164~167
#




#
# 前提条件
# 2つの独立した母集団
# 全国のサッカー選手、全国のバレエダンサー
# 10人ずつ無作為に選出
#
# 2つの母分散は等しいと仮定する
#




#
# 帰無仮説
# サッカー選手とバレエダンサーの引き締まり具合の差はない
#




# バレエダンサーとサッカー選手の健康指数
df <- data.frame(バレエダンサー = c(89.2, 78.2, 89.3, 88.3, 87.3,
                                90.1, 95.2, 94.3, 78.3, 89.3),
                サッカー選手 = c(79.3, 78.3, 85.3, 79.3, 88.9,
                                91.2, 87.2, 89.2, 93.3, 79.9))

df




バレエダンサー <- df$バレエダンサー
バレエダンサー


サッカー選手 <- df$サッカー選手
サッカー選手




summary(df)




sd(サッカー選手)
sd(バレエダンサー)




# 2つの母分散は等しいと仮定する
t.test(バレエダンサー, サッカー選手, var.equal = TRUE)
# t = 1.0947
# t値は1.0947なので、有意水準 α = 0.05、自由度df = 18の両側t検定の上方棄却値2.101
# よりもt値の絶対値が低い。したがって、帰無仮説は棄却できない。
#
# p-value = 0.2881
# p値もこの値なので、これだけ見ても帰無仮説は棄却できない。
#
# 95%信頼区間
# 95 percent confidence interval:
#  -2.536815  8.056815
#
# t.test()が出した対立仮説
# alternative hypothesis: true difference in means is not equal to 0
# 日本語意味 "平均値における真の差は0ではない"
# または、
# "平均値における真の差は0に等しくない"
#
# 分解すると
# (1. 平均値における, (2. 真の差は、(3. 0ではない。(または、0に等しくない)
# (1. in means, (2. true difference, (3. is not equal to 0
# 怪しい日本語だが、概ねこういう解釈でいいだろう。
#
# つまり、対立仮説は、"差がある"となる。
# "0ではない"や"0に等しくない"ということは、簡単に言えば"差がある"ということだろう。
#




# 以下、手計算
# 独立標本t検定の数式
# t統計量
# t = ((xbar1 - xbar2) - (μ1 - μ2)) / sqrt(sp^2(1/n1 + 1/n2))
#
# 合併標本分散値
# sp^2 = ((n1 - 1)s1^2 + (n2 - 1)s2^2) / n1 + n2 - 2
#
# まず平均と分散を出しておく
mean(サッカー選手)
# [1] 85.19
mean(バレエダンサー)
# [1] 87.95
var(サッカー選手)
# [1] 31.181
var(バレエダンサー)
# [1] 32.38278


# 先に、合併標本分散値
sp2 <- ((10 - 1)*32.38 + (10 - 1)*31.18) / (10 + 10 - 2)
sp2
# [1] 31.78


# t統計量
t = ((87.95 - 85.19) - (0)) / sqrt(31.78*(1/10 + 1/10))
t
round(t, 2)

R Console

> #
> # 参考にするデータ、数式、解説は、『統計クイックリファレンス』p.164~167
> #
> 
> 
> 
> 
> #
> # 前提条件
> # 2つの独立した母集団
> # 全国のサッカー選手、全国のバレエダンサー
> # 10人ずつ無作為に選出
> #
> # 2つの母分散は等しいと仮定する
> #
> 
> 
> 
> 
> #
> # 帰無仮説
> # サッカー選手とバレエダンサーの引き締まり具合の差はない
> #
> 
> 
> 
> 
> # バレエダンサーとサッカー選手の健康指数
> df <- data.frame(バレエダンサー = c(89.2, 78.2, 89.3, 88.3, 87.3,
+                                 90.1, 95.2, 94.3, 78.3, 89.3),
+                 サッカー選手 = c(79.3, 78.3, 85.3, 79.3, 88.9,
+                                 91.2, 87.2, 89.2, 93.3, 79.9))
> 
> df
   バレエダンサー サッカー選手
1            89.2         79.3
2            78.2         78.3
3            89.3         85.3
4            88.3         79.3
5            87.3         88.9
6            90.1         91.2
7            95.2         87.2
8            94.3         89.2
9            78.3         93.3
10           89.3         79.9
> 
> 
> 
> 
> バレエダンサー <- df$バレエダンサー
> バレエダンサー
 [1] 89.2 78.2 89.3 88.3 87.3 90.1 95.2 94.3 78.3 89.3
> 
> 
> サッカー選手 <- df$サッカー選手
> サッカー選手
 [1] 79.3 78.3 85.3 79.3 88.9 91.2 87.2 89.2 93.3 79.9
> 
> 
> 
> 
> summary(df)
 バレエダンサー   サッカー選手  
 Min.   :78.20   Min.   :78.30  
 1st Qu.:87.55   1st Qu.:79.45  
 Median :89.25   Median :86.25  
 Mean   :87.95   Mean   :85.19  
 3rd Qu.:89.90   3rd Qu.:89.12  
 Max.   :95.20   Max.   :93.30  
> 
> 
> 
> 
> sd(サッカー選手)
[1] 5.583995
> sd(バレエダンサー)
[1] 5.690587
> 
> 
> 
> 
> # 2つの母分散は等しいと仮定する
> t.test(バレエダンサー, サッカー選手, var.equal = TRUE)

    Two Sample t-test

data:  バレエダンサー and サッカー選手
t = 1.0947, df = 18, p-value = 0.2881
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2.536815  8.056815
sample estimates:
mean of x mean of y 
    87.95     85.19 

> # t = 1.0947
> # t値は1.0947なので、有意水準 α = 0.05、自由度df = 18の両側t検定の上方棄却値2.101
> # よりもt値の絶対値が低い。したがって、帰無仮説は棄却できない。
> #
> # p-value = 0.2881
> # p値もこの値なので、これだけ見ても帰無仮説は棄却できない。
> #
> # 95%信頼区間
> # 95 percent confidence interval:
> #  -2.536815  8.056815
> #
> # t.test()が出した対立仮説
> # alternative hypothesis: true difference in means is not equal to 0
> # 日本語意味 "平均値における真の差は0ではない"
> # または、
> # "平均値における真の差は0に等しくない"
> #
> # 分解すると
> # (1. 平均値における, (2. 真の差は、(3. 0ではない。(または、0に等しくない)
> # (1. in means, (2. true difference, (3. is not equal to 0
> # 怪しい日本語だが、概ねこういう解釈でいいだろう。
> #
> # つまり、対立仮説は、"差がある"となる。
> # "0ではない"や"0に等しくない"ということは、簡単に言えば"差がある"ということだろう。
> #
> 
> 
> 
> 
> # 以下、手計算
> # 独立標本t検定の数式
> # t統計量
> # t = ((xbar1 - xbar2) - (μ1 - μ2)) / sqrt(sp^2(1/n1 + 1/n2))
> #
> # 合併標本分散値
> # sp^2 = ((n1 - 1)s1^2 + (n2 - 1)s2^2) / n1 + n2 - 2
> #
> # まず平均と分散を出しておく
> mean(サッカー選手)
[1] 85.19
> # [1] 85.19
> mean(バレエダンサー)
[1] 87.95
> # [1] 87.95
> var(サッカー選手)
[1] 31.181
> # [1] 31.181
> var(バレエダンサー)
[1] 32.38278
> # [1] 32.38278
> 
> 
> # 先に、合併標本分散値
> sp2 <- ((10 - 1)*32.38 + (10 - 1)*31.18) / (10 + 10 - 2)
> sp2
[1] 31.78
> # [1] 31.78
> 
> 
> # t統計量
> t = ((87.95 - 85.19) - (0)) / sqrt(31.78*(1/10 + 1/10))
> t
[1] 1.094756
> round(t, 2)
[1] 1.09

参考文献

統計クイックリファレンス 第2版

統計クイックリファレンス 第2版