My Notes

統計学とかR(R言語)とかPython3の覚え書きとか走り書きとか。 座右の銘にしたい: All work and no play makes Jack a dull boy.

統計学

一標本t検定と一標本t検定の信頼区間の計算をR(R言語)で

Rコード # 一標本t検定の計算 # t = (xbar - μ0) / (s / sqrt(n)) # 具体例 # 標本平均10, 標本標準偏差10, 標本数15 t <- (90 - 100) / (10 / sqrt(15)) t # [1] -3.872983 # 自由度15 - 1 = 14 α = 0.05 上方棄却値2.145 # |-3.87|>2.145 で帰無仮説は棄却…

ケンドールの順位相関係数 τ タウ tau

Rコード # ケンドールの順位相関係数 τ(タウ) 十人の新生児の体重と胎盤重量の順位 <- data.frame(赤ちゃん = noquote(LETTERS[1:10]), 新生児の体重の順位 = c(9, 3, 5, 2, 6, 4, 1, 7, 10, 8), 胎盤重量の順位 = c(10, 3, 8, 4, 6, 2, 1, 7, 9, 5)) 十人の…

グッドマン・クラスカルのガンマをR(R言語)で

Rコード # 『統計クイックリファレンス』p.147~148 # グッドマン・クラスカルのガンマ BMIのデータ例 <- data.frame(BMI = c("通常", "肥満"), 通常血圧 = c(25, 10), 前高血圧 = c(15, 10), 高血圧 = c(5, 25)) BMIのデータ例 # ガンマを計算するためのセル…

スピアマンの順位相関係数をR(R言語)で

Rコード # スピアマンの順位相関係数 十人の新生児の体重と胎盤重量の順位 <- data.frame(赤ちゃん = noquote(LETTERS[1:10]), 新生児の体重の順位 = c(9, 3, 5, 2, 6, 4, 1, 7, 10, 8), 胎盤重量の順位 = c(10, 3, 8, 4, 6, 2, 1, 7, 9, 5)) 十人の新生児の…

『統計クイックリファレンス 第2版』第5章 カテゴリデータ p.131~134 カイ二乗値をR(R言語)で

Rコード # カテゴリデータ カイ二乗値 『統計クイックリファレンス』p.131 # # 仮説 # # 帰無仮説 # Ho : xとyは独立である # 対立仮説 # Ha : xとyは独立ではない # 2 * 2表の各セルの観測値と期待値の差を使用する # # 観測値 # 標本やデータ集合内で観測…

いろんなデータの分布をR(R言語)で可視化 ヒストグラムと散布図 日本の主な山

Rコード # 分布 ヒストグラムと散布図 # 使用するデータは、『データブック・オブ・ザ・ワールド 世界各国要覧と最新統計 2016 Vol.28』 # p.5 # 日本の主な山 # 山の名称は、この目的上、必要ないので省略 # 文字化けする場合 par(family = "Osaka") 日本の…

いろんなデータの分布をR(R言語)で可視化 ヒストグラムと散布図 世界の主な火山

Rコード # 分布 ヒストグラムと散布図 # 使用するデータは、『データブック・オブ・ザ・ワールド 世界各国要覧と最新統計 2016 Vol.28』 # p.5 # 世界の主な火山 # 火山の名称は、この目的上、必要ないので省略 # 文字化けする場合 par(family = "Osaka") 世…

『品質管理のための統計手法』の第1章 (分割表(クロス集計表)) p.51~53をR(R言語)で

Rコード # 問1 df <- data.frame(No. = 1:8, 原料納入メーカーx = c("A", "B", "B", "A", "A", "B", "B", "B"), 検査結果y = c("1級品", "2級品", "3級品", "2級品", "1級品", "2級品", "1級品", "3級品")) df summary(df) table(df$原料納入メーカーx, df$…

いろんなデータの分布をR(R言語)で可視化 ヒストグラムと散布図 世界の主な山

Rコード # 分布 ヒストグラムと散布図 # 使用するデータは、『データブック・オブ・ザ・ワールド 世界各国要覧と最新統計 2016 Vol.28』 # p.5 # 世界の主な山 # 山の名称は、この目的上、必要ないので省略 # 文字化けする場合 par(family = "Osaka") 世界の…

『統計クイックリファレンス 第2版』第5章 カテゴリデータ p.127~128 コーエンのカッパ、カッパ係数、カッパをR(R言語)で

Rコード # コーエンのカッパ、カッパ係数、カッパ 二値結果に関する2つの検査の一致度 <- data.frame(my_data = c(50, 10, 10, 30)) 二値結果に関する2つの検査の一致度 # データフレームをマトリクスに変換 mt1 <- as.matrix(二値結果に関する2つの検査の一…

いろんなデータの分布をR(R言語)で可視化 ヒストグラムと散布図 世界の主な海溝

Rコード # 分布 ヒストグラムと散布図 # 使用するデータは、『データブック・オブ・ザ・ワールド 世界各国要覧と最新統計 2016 Vol.28』p.4 # 世界の主な海溝 # 海溝の名称は、この目的上、必要ないので省略 # 文字化けする場合 par(family = "Osaka") 世界…

『品質管理のための統計手法』の第1章 (単回帰分析) p.43~45をR(R言語)で

Rコード # 問1 データ n = 3 対のデータ (1, 2), (2, 5), (3, 5) df <- data.frame(x = c(1, 2, 3), y = c(2, 5, 5)) df # 単回帰直線 m <- lm(y ~ x, data = df) plot(y ~ x, data = df) abline(m) summary(m) # 最小二乗法 z <- lsfit(df$x, df$y) z R Con…

『とある弁当屋の統計技師(データサイエンティスト) --データ分析のはじめかた--』の第1章をR(R言語)で

Rコード # 第1章 p.14~ # 基本的に書籍に載っているところだけ。 # サポートWebサイトや"Ranko"パッケージは使用していない # そもそも、"> install.packages("Ranko") # Warning in install.packages : # package ‘Ranko’ is not available (for R version …

『品質管理のための統計手法』の第1章(散布図と相関係数) p.36~37の問1をR(R言語)で

Rコード # 問1 データ n = 3 対のデータ (1, 2), (2, 5), (3, 5) df <- data.frame(x = c(1, 2, 3), y = c(2, 5, 5)) df plot(df$x, df$y) # 平均 # xの平均 (1 + 2 + 3) / 3 (1 + 2 + 3) / length(df$x) mean(df$x) # yの平均 (2 + 5 + 5) / 3 (2 + 5 + 5) …

『品質管理のための統計手法』の第1章 (標準化、偏差値) p.32~33をR(R言語)で

Rコード # 問1~2は割愛 # 問3 # 標準化 (380 - 320) / 60 (420 - 360) / 40 # 問4 (10 * 1.0) + 50 (10 * 1.5) + 50 # 使用するデータ 1, 3, 5 # 標準化 (1 - 3) / 2 (3 - 3) / 2 (5 - 3) / 2 (-1 + 0 + 1) / 3 # 平方和 (-1 - 0)^2 + (0 - 0)^2 + (1 - 0)^2…

『品質管理のための統計手法』の第1章 p.27~29のヒストグラムの作成をR(R言語)で

Rコード df <- data.frame(n = c(36, 15, 27, 20, 23, 35, 27, 24, 30, 42, 38, 34, 15, 24, 38, 24, 43, 23, 44, 19, 14, 20, 29, 30, 35, 35, 25, 24, 34, 31, 12, 18, 22, 15, 37, 29, 27, 44, 18, 28, 25, 21, 37, 19, 33, 22, 31, 24, 36, 23)) df # 測…

統計学 R(R言語) ggplot2 棒グラフ(bar graph)をplot

Rコード df <- data.frame(山 = c("エベレスト", "ゴドウィンオースチン", "カンチェンジュンガ", "ローツェ", "マカルウ", "富士山"), 標高 = c(8848, 8611, 8586, 8516, 8463, 3776)) df library("ggplot2") # 日本語が文字化けするなら。 theme_set(theme…

統計学 R(R言語) ggplot2 散布図(Scatter plot)をplot

Rコード df <- data.frame(統計テスト1 = c(6, 10, 6, 10, 5, 3, 5, 9, 3, 3, 11, 6, 11, 9, 7, 5, 8, 7, 7, 9), 統計テスト2 = c(10, 13, 8, 15, 8, 6, 9, 10, 7, 3, 18, 14, 18, 11, 12, 5, 7, 12, 7, 7)) df library("ggplot2") # 日本語が文字化けするな…

統計学 R(R言語) ggplot2 ヒストグラム(histogram)をplot

Rコード df <- data.frame(心理学テスト = c(13, 14, 7, 12, 10, 6, 8, 15, 4, 14, 9, 6, 10, 12, 5, 12, 8, 8, 12, 15)) df library("ggplot2") # 日本語が文字化けするなら。 theme_set(theme_grey(base_family = "Osaka")) ggplot(df, aes(x = 心理学テス…

統計学 R(R言語) ggplot2 正規分布と確率密度をplot

Rコード library("ggplot2") rand_norm <- rnorm(100000) rand_density <- dnorm(rand_norm) ggplot(data.frame(x = rand_norm, y = rand_density)) + aes(x = x, y = y) + geom_point() + labs(x = "Random Normal Variables", y = "Density") R Console > …

『品質管理のための統計手法』のp.19~20の問1, 2をR(R言語)で

Rコード # 問1 my_data <- c(1, 3, 5) # 平均 (1 + 3 + 5) / 3 mean(my_data) # 平方和 (1 - 3)^2 + (3 - 3)^2 + (5 - 3)^2 sum((my_data - mean(my_data))^2) # (不偏)分散 8 / (3 - 1) var(my_data) # (不偏)標準偏差 sqrt(8 / (3 - 1)) sqrt(var(my_data)…

『入門 統計学 --検定から多変量解析・実験計画法まで--』のp.54の例題をR(R言語)で

Rコード キュウリの収量 <- data.frame(ポット番号 = 1:15, 栽培法A = c(3063, 2275, 2089, 2855, 2836, 3219, 2817, 2136, 2540, 2263, 2140, 1757, 2499, 2093, 2073), 栽培法B = c(3157, 2707, 3270, 3181, 3633, 3404, 2219, 2730, 3408, 3203, 2938, 32…

『入門 統計学 --検定から多変量解析・実験計画法まで--』の第2章 章末問題 p.41をR(R言語)で

Rコード # 指数表記にならないように設定 options(scipen = 123) # 問1 農家の耕地面積と販売金額 <- data.frame(農家番号 = 1:20, 農産物の販売金額 = c(400, 15, 480, 993, 600, 150, 115, 50, 0, 130, 3000, 500, 200, 55, 2200, 1, 900, 1000, 450, 400)…

『入門 統計学 --検定から多変量解析・実験計画法まで--』のp.39の例題をR(R言語)で

Rコード lambda <- 3 * (1.4 / 365) round(((exp(1)^(-lambda)) * lambda^1) / 1, 5) # 第1版第1刷の書籍通りの0.0015で計算すると答えが合わない ((exp(1)^(-lambda)) * 0.0015^1) / 1 R Console > lambda <- 3 * (1.4 / 365) > round(((exp(1)^(-lambda)) …

『入門 統計学 --検定から多変量解析・実験計画法まで--』のp.36の例題をR(R言語)で

Rコード # 指数表記にならないように設定 options(scipen = 123) # data.frameを作成 キュウリの収量 <- data.frame(ポット番号 = 1:15, 栽培法A = c(3063, 2275, 2089, 2855, 2836, 3219, 2817, 2136, 2540, 2263, 2140, 1757, 2499, 2093, 2073), 栽培法B …

偏差値をR(R言語)で

偏差値の数式 T = ((10(x - μ)) / σ) + 50 Rコード # runif()で0 ~ 100までの擬似乱数(一様乱数)を100個作成しておく # round()で少数を丸める x <- round(runif(100, 0, 100)) x # 不偏標準偏差を使用するなら、単にsd()を使用すればいい # 以下は、標準偏…

標準化(基準化) z値

標準化(基準化) z値 標準化変量 z = (x - μ) / σ 具体例 母集団 ~ N(100, 5^2) の値105のz値 z = (105 - 100) / 5 = 1.00 z値 1.00 Rコード (105 - 100) / 5 # [1] 1 参考文献 統計クイックリファレンス 第2版作者: Sarah Boslaugh,黒川利明,木下哲也,中山智…

『入門 統計学 --検定から多変量解析・実験計画法まで--』の第1章 章末問題 p.22 ~ 23をR(R言語)で

問1 R(R言語)を使用する問題ではないので割愛 問2 a. data.frameを作成 農家の耕地面積と販売金額 <- data.frame(農家番号 = 1:20, 農産物の販売金額 = c(400, 15, 480, 993, 600, 150, 115, 50, 0, 130, 3000, 500, 200, 55, 2200, 1, 900, 1000, 450, 400)…

『入門 統計学 --検定から多変量解析・実験計画法まで--』のp.20 ~ 21の例題をR(R言語)で

data.frameを作成 親子の身長の相関関係 <- data.frame(番号 = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12), 両親の平均身長.cm = c(185.0, 169.1, 166.2, 160.1, 166.6, 172.1, 180.5, 169.1, 170.9, 160.0, 168.2, 175.5), 子の身長.cm = c(183.0, 167.4, 1…

統計学 『統計学入門』(赤本) p.37 分散(variance) R(R言語)

分散(variance)のRコード A <- c(0, 3, 3, 5, 5, 5, 5, 7, 7, 10) (variance_of_A <- sum((A - mean(A))^2) / length(A)) # [1] 6.6 参考文献 統計学入門 (基礎統計学?)作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09…

統計学 『統計学入門』(赤本) p.37 標準偏差(standard deviation) R(R言語)

標準偏差(standard deviation)のRコード A <- c(0, 3, 3, 5, 5, 5, 5, 7, 7, 10) (standard_deviation_of_A <- sqrt(sum((A - mean(A))^2) / length(A))) # [1] 2.569047 参考文献 統計学入門 (基礎統計学?)作者: 東京大学教養学部統計学教室出版社/メーカー…

統計学 『統計学入門』(赤本) p.36 平均偏差(mean deviation) R(R言語)

平均偏差(mean deviation)のRコード A <- c(0, 3, 3, 5, 5, 5, 5, 7, 7, 10) (mean_deviation_of_A <- sum(abs(A - mean(A))) / length(A)) # [1] 1.8 参考文献 統計学入門 (基礎統計学?)作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発…