My Notes

統計学とかR(R言語)とかPython3の覚え書きとか走り書きとか。 座右の銘にしたい: All work and no play makes Jack a dull boy.

『マンガでわかる統計学 回帰分析編』第4章 ロジスティック回帰分析 をR(R言語)で

Rコード # # 『マンガでわかる統計学 回帰分析編』 第4章 ロジスティック回帰分析 # # 水曜or土曜or日曜 1が水曜or土曜or日曜、 0はそれ以外 # ノルンスペシャルの販売状況 1は売れたということ、0は売れなかったということ df <- data.frame(水曜or土曜or日…

R(R言語)で数式をtext()を使用してplot 算術平均(arithmetic mean)の数式

Rコード # 文字化けするなら。 par(family = "Osaka") plot(0, 0, type = "n", xlim = c(0, 3), ylim = c(0, 3), xlab = "", ylab = "") text(1.5, 2.5, expression(bar(x) == frac(x[1] + x[2] + ... + x[n], n)), cex = 3.5) text(1.5, 1.50, "R(R言語)で…

独立標本t検定(二標本t検定)、t統計量、合併標本分散値をR(R言語)で t.test()や手計算

Rコード # # 参考にするデータ、数式、解説は、『統計クイックリファレンス』p.164~167 # # # 前提条件 # 2つの独立した母集団 # 全国のサッカー選手、全国のバレエダンサー # 10人ずつ無作為に選出 # # 2つの母分散は等しいと仮定する # # # 帰無仮説 # サ…

一標本t検定 R(R言語)のt.test()を使用して

Rコード # # 一標本t検定 t.test() # # # 参考にするデータや帰無仮説の立て方や計算式は、『パソコンで簡単! すぐできる生物統計 統計学の考え方から統計ソフトSPSSの使い方まで』第3章 p.50~52 # # 用語について # この書籍では、標本の平均値を"平均値"…

『マンガでわかる統計学 回帰分析編』第3章 重回帰分析 をR(R言語)で

Rコード # # 一ヶ月の売上額が目的変数 # 他は説明変数 # カザミベーカリー <- data.frame(店舗名 = c("夢の丘店", "寺井駅ビル店", "曽根店", "橋本通り店", "桔梗町店", "郵便局前店", "水道町駅前店", "六条駅ビル店", "若葉沿い店", "三里店"), お店の面…

相対度数、累積相対度数をR(R言語)で 手計算とcumsum()

Rコード # # 相対度数、累積相対度数、cumsum() # 使用するデータと計算式は、『ナースのための統計学 第2版」p.19~ # 血圧測定時間_秒 <- data.frame(時間 = c(94, 99, 49, 80, 175, 102, 127, 38, 56, 18, 83, 82, 105, 63, 111, 62, 80, 78, 116, 88, 26,…

『マンガでわかる統計学 回帰分析編』第2章 回帰分析 をR(R言語)で

Rコード # 『マンガでわかる統計学 回帰分析編』第2章 回帰分析 df <- data.frame(最高気温 = c(29, 28, 34, 31, 25, 29, 32, 31, 24, 33, 25, 31, 26, 30), アイスティーの注文数 = c(77, 62, 93, 84, 59, 64, 80, 75, 58, 91, 51, 73, 65, 84)) df 最高気…

『多変量解析がわかる(ファーストブック)』 第2章 回帰分析 単回帰分析をR(R言語)で

Rコード # 目的変量 婚姻率 y # 説明変量 老年人口の割合 x # 回帰方程式 y = a + bx # aを切片、bを単回帰係数(回帰係数) # 47都道府県ごとの婚姻率(人口千人当たりの結婚数)と老年人口の割合(65歳以上の割合) df <- data.frame(都道府県 = c("北海道", "青…

いろんなデータの分布をR(R言語)で可視化 ヒストグラムと密度推定曲線と散布図 日本の主な河川

Rコード # 分布 ヒストグラムと密度推定曲線と散布図 # 使用するデータは、『データブック・オブ・ザ・ワールド 日本各国要覧と最新統計 2016 Vol.28』 # p.6 # 日本の主な河川(の長さ。流域面積ではない) # 日本の主な河川の名称は、この目的上、必要ないの…

『多変量解析がわかる(ファーストブック)』 第1章 多変量解析の準備 をR(R言語)で

Rコードについて 主にデータが記載されているところだけ。 標準偏差 p.21~ Rコード # 標準偏差 p.21~ df <- data.frame(個体番号 = 1:5, x = c(51, 49, 50, 57, 43)) df # 平均 xbar <- sum(df$x) / length(df$x) xbar # 偏差平方和 Q <- sum((df$x - xbar)^…

いろんなデータの分布をR(R言語)で可視化 ヒストグラムと密度推定曲線と散布図 世界の主な河川

Rコード # 分布 ヒストグラムと密度推定曲線と散布図 # 使用するデータは、『データブック・オブ・ザ・ワールド 世界各国要覧と最新統計 2016 Vol.28』 # p.6 # 世界の主な河川(の長さ。流域面積ではない) # 世界の主な河川の名称は、この目的上、必要ないの…

『マンガでわかる統計学 回帰分析編』p48~49 偏差平方和 分散 標準偏差 をR(R言語)で

Rコード # 『マンガでわかる統計学 [回帰分析編]』 # 偏差平方和・分散・標準偏差 p.48~49 カラオケ対決の結果 <- data.frame(みうチームの点数 = c(48, 32, 88, 61, 71), りさチームの点数 = c(67, 55, 61, 63, 54)) カラオケ対決の結果 みうチーム <- カラ…

『悩めるみんなの統計学入門 統計学で必ず押さえたい6つのキーワード』をR(R言語)で

第2章 Rコード # 『悩めるみんなの統計学入門』 # # 個人的に割愛しているところ多々あり。 # 第2章 分散 # p.46~ 三人の練習タイム <- data.frame(吉田 = c(133.2, 127.7, 131.9, 133.5, 126.6), 桜庭 = c(143.8, 128.6, 120.2, 147.8, 122.0), 大江 = c(12…

いろんなデータの分布をR(R言語)で可視化 ヒストグラムと散布図 日本の主な火山

Rコード # 分布 ヒストグラムと散布図 # 使用するデータは、『データブック・オブ・ザ・ワールド 世界各国要覧と最新統計 2016 Vol.28』 # p.5 # 日本の主な火山 # 火山の名称は、この目的上、必要ないので省略 # 文字化けする場合 par(family = "Osaka") 日…

単回帰分析 対応するデータから予測 R(R言語)で

Rコード # 対応するデータからの予測 単回帰分析 新生児体重と胎盤重量 <- data.frame(No = 1:10, 新生児体重x = c(3470, 2550, 2920, 2530, 3280, 2840, 2520, 3350, 3610, 3430), 胎盤重量y = c(760, 490, 580, 520, 550, 480, 400, 560, 590, 530)) 新生…

一標本t検定と一標本t検定の信頼区間の計算をR(R言語)で

Rコード # 一標本t検定の計算 # t = (xbar - μ0) / (s / sqrt(n)) # 具体例 # 標本平均10, 標本標準偏差10, 標本数15 t <- (90 - 100) / (10 / sqrt(15)) t # [1] -3.872983 # 自由度15 - 1 = 14 α = 0.05 上方棄却値2.145 # |-3.87|>2.145 で帰無仮説は棄却…

ケンドールの順位相関係数 τ タウ tau

Rコード # ケンドールの順位相関係数 τ(タウ) 十人の新生児の体重と胎盤重量の順位 <- data.frame(赤ちゃん = noquote(LETTERS[1:10]), 新生児の体重の順位 = c(9, 3, 5, 2, 6, 4, 1, 7, 10, 8), 胎盤重量の順位 = c(10, 3, 8, 4, 6, 2, 1, 7, 9, 5)) 十人の…

グッドマン・クラスカルのガンマをR(R言語)で

Rコード # 『統計クイックリファレンス』p.147~148 # グッドマン・クラスカルのガンマ BMIのデータ例 <- data.frame(BMI = c("通常", "肥満"), 通常血圧 = c(25, 10), 前高血圧 = c(15, 10), 高血圧 = c(5, 25)) BMIのデータ例 # ガンマを計算するためのセル…

スピアマンの順位相関係数をR(R言語)で

Rコード # スピアマンの順位相関係数 十人の新生児の体重と胎盤重量の順位 <- data.frame(赤ちゃん = noquote(LETTERS[1:10]), 新生児の体重の順位 = c(9, 3, 5, 2, 6, 4, 1, 7, 10, 8), 胎盤重量の順位 = c(10, 3, 8, 4, 6, 2, 1, 7, 9, 5)) 十人の新生児の…

『統計クイックリファレンス 第2版』第5章 カテゴリデータ p.131~134 カイ二乗値をR(R言語)で

Rコード # カテゴリデータ カイ二乗値 『統計クイックリファレンス』p.131 # # 仮説 # # 帰無仮説 # Ho : xとyは独立である # 対立仮説 # Ha : xとyは独立ではない # 2 * 2表の各セルの観測値と期待値の差を使用する # # 観測値 # 標本やデータ集合内で観測…

いろんなデータの分布をR(R言語)で可視化 ヒストグラムと散布図 日本の主な山

Rコード # 分布 ヒストグラムと散布図 # 使用するデータは、『データブック・オブ・ザ・ワールド 世界各国要覧と最新統計 2016 Vol.28』 # p.5 # 日本の主な山 # 山の名称は、この目的上、必要ないので省略 # 文字化けする場合 par(family = "Osaka") 日本の…

いろんなデータの分布をR(R言語)で可視化 ヒストグラムと散布図 世界の主な火山

Rコード # 分布 ヒストグラムと散布図 # 使用するデータは、『データブック・オブ・ザ・ワールド 世界各国要覧と最新統計 2016 Vol.28』 # p.5 # 世界の主な火山 # 火山の名称は、この目的上、必要ないので省略 # 文字化けする場合 par(family = "Osaka") 世…

『品質管理のための統計手法』の第1章 (分割表(クロス集計表)) p.51~53をR(R言語)で

Rコード # 問1 df <- data.frame(No. = 1:8, 原料納入メーカーx = c("A", "B", "B", "A", "A", "B", "B", "B"), 検査結果y = c("1級品", "2級品", "3級品", "2級品", "1級品", "2級品", "1級品", "3級品")) df summary(df) table(df$原料納入メーカーx, df$…

いろんなデータの分布をR(R言語)で可視化 ヒストグラムと散布図 世界の主な山

Rコード # 分布 ヒストグラムと散布図 # 使用するデータは、『データブック・オブ・ザ・ワールド 世界各国要覧と最新統計 2016 Vol.28』 # p.5 # 世界の主な山 # 山の名称は、この目的上、必要ないので省略 # 文字化けする場合 par(family = "Osaka") 世界の…

『統計クイックリファレンス 第2版』第5章 カテゴリデータ p.127~128 コーエンのカッパ、カッパ係数、カッパをR(R言語)で

Rコード # コーエンのカッパ、カッパ係数、カッパ 二値結果に関する2つの検査の一致度 <- data.frame(my_data = c(50, 10, 10, 30)) 二値結果に関する2つの検査の一致度 # データフレームをマトリクスに変換 mt1 <- as.matrix(二値結果に関する2つの検査の一…

いろんなデータの分布をR(R言語)で可視化 ヒストグラムと散布図 世界の主な海溝

Rコード # 分布 ヒストグラムと散布図 # 使用するデータは、『データブック・オブ・ザ・ワールド 世界各国要覧と最新統計 2016 Vol.28』p.4 # 世界の主な海溝 # 海溝の名称は、この目的上、必要ないので省略 # 文字化けする場合 par(family = "Osaka") 世界…

『品質管理のための統計手法』の第1章 (単回帰分析) p.43~45をR(R言語)で

Rコード # 問1 データ n = 3 対のデータ (1, 2), (2, 5), (3, 5) df <- data.frame(x = c(1, 2, 3), y = c(2, 5, 5)) df # 単回帰直線 m <- lm(y ~ x, data = df) plot(y ~ x, data = df) abline(m) summary(m) # 最小二乗法 z <- lsfit(df$x, df$y) z R Con…

『とある弁当屋の統計技師(データサイエンティスト) --データ分析のはじめかた--』の第1章をR(R言語)で

Rコード # 第1章 p.14~ # 基本的に書籍に載っているところだけ。 # サポートWebサイトや"Ranko"パッケージは使用していない # そもそも、"> install.packages("Ranko") # Warning in install.packages : # package ‘Ranko’ is not available (for R version …

『品質管理のための統計手法』の第1章(散布図と相関係数) p.36~37の問1をR(R言語)で

Rコード # 問1 データ n = 3 対のデータ (1, 2), (2, 5), (3, 5) df <- data.frame(x = c(1, 2, 3), y = c(2, 5, 5)) df plot(df$x, df$y) # 平均 # xの平均 (1 + 2 + 3) / 3 (1 + 2 + 3) / length(df$x) mean(df$x) # yの平均 (2 + 5 + 5) / 3 (2 + 5 + 5) …

『品質管理のための統計手法』の第1章 (標準化、偏差値) p.32~33をR(R言語)で

Rコード # 問1~2は割愛 # 問3 # 標準化 (380 - 320) / 60 (420 - 360) / 40 # 問4 (10 * 1.0) + 50 (10 * 1.5) + 50 # 使用するデータ 1, 3, 5 # 標準化 (1 - 3) / 2 (3 - 3) / 2 (5 - 3) / 2 (-1 + 0 + 1) / 3 # 平方和 (-1 - 0)^2 + (0 - 0)^2 + (1 - 0)^2…

『品質管理のための統計手法』の第1章 p.27~29のヒストグラムの作成をR(R言語)で

Rコード df <- data.frame(n = c(36, 15, 27, 20, 23, 35, 27, 24, 30, 42, 38, 34, 15, 24, 38, 24, 43, 23, 44, 19, 14, 20, 29, 30, 35, 35, 25, 24, 34, 31, 12, 18, 22, 15, 37, 29, 27, 44, 18, 28, 25, 21, 37, 19, 33, 22, 31, 24, 36, 23)) df # 測…

統計学 R(R言語) ggplot2 棒グラフ(bar graph)をplot

Rコード df <- data.frame(山 = c("エベレスト", "ゴドウィンオースチン", "カンチェンジュンガ", "ローツェ", "マカルウ", "富士山"), 標高 = c(8848, 8611, 8586, 8516, 8463, 3776)) df library("ggplot2") # 日本語が文字化けするなら。 theme_set(theme…

R(R言語) 参考文献

全体を俯瞰するには 改訂3版 R言語逆引きハンドブック作者: 石田基広出版社/メーカー: シーアンドアール研究所発売日: 2016/06/25メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) を見る The R Tips 第3版: データ解析環境Rの基本技・グラフィ…

統計学 R(R言語) ggplot2 散布図(Scatter plot)をplot

Rコード df <- data.frame(統計テスト1 = c(6, 10, 6, 10, 5, 3, 5, 9, 3, 3, 11, 6, 11, 9, 7, 5, 8, 7, 7, 9), 統計テスト2 = c(10, 13, 8, 15, 8, 6, 9, 10, 7, 3, 18, 14, 18, 11, 12, 5, 7, 12, 7, 7)) df library("ggplot2") # 日本語が文字化けするな…

統計学 R(R言語) ggplot2 ヒストグラム(histogram)をplot

Rコード df <- data.frame(心理学テスト = c(13, 14, 7, 12, 10, 6, 8, 15, 4, 14, 9, 6, 10, 12, 5, 12, 8, 8, 12, 15)) df library("ggplot2") # 日本語が文字化けするなら。 theme_set(theme_grey(base_family = "Osaka")) ggplot(df, aes(x = 心理学テス…

統計学 R(R言語) ggplot2 正規分布と確率密度をplot

Rコード library("ggplot2") rand_norm <- rnorm(100000) rand_density <- dnorm(rand_norm) ggplot(data.frame(x = rand_norm, y = rand_density)) + aes(x = x, y = y) + geom_point() + labs(x = "Random Normal Variables", y = "Density") R Console > …

『品質管理のための統計手法』のp.19~20の問1, 2をR(R言語)で

Rコード # 問1 my_data <- c(1, 3, 5) # 平均 (1 + 3 + 5) / 3 mean(my_data) # 平方和 (1 - 3)^2 + (3 - 3)^2 + (5 - 3)^2 sum((my_data - mean(my_data))^2) # (不偏)分散 8 / (3 - 1) var(my_data) # (不偏)標準偏差 sqrt(8 / (3 - 1)) sqrt(var(my_data)…

『入門 統計学 --検定から多変量解析・実験計画法まで--』のp.54の例題をR(R言語)で

Rコード キュウリの収量 <- data.frame(ポット番号 = 1:15, 栽培法A = c(3063, 2275, 2089, 2855, 2836, 3219, 2817, 2136, 2540, 2263, 2140, 1757, 2499, 2093, 2073), 栽培法B = c(3157, 2707, 3270, 3181, 3633, 3404, 2219, 2730, 3408, 3203, 2938, 32…

『入門 統計学 --検定から多変量解析・実験計画法まで--』の第2章 章末問題 p.41をR(R言語)で

Rコード # 指数表記にならないように設定 options(scipen = 123) # 問1 農家の耕地面積と販売金額 <- data.frame(農家番号 = 1:20, 農産物の販売金額 = c(400, 15, 480, 993, 600, 150, 115, 50, 0, 130, 3000, 500, 200, 55, 2200, 1, 900, 1000, 450, 400)…

『入門 統計学 --検定から多変量解析・実験計画法まで--』のp.39の例題をR(R言語)で

Rコード lambda <- 3 * (1.4 / 365) round(((exp(1)^(-lambda)) * lambda^1) / 1, 5) # 第1版第1刷の書籍通りの0.0015で計算すると答えが合わない ((exp(1)^(-lambda)) * 0.0015^1) / 1 R Console > lambda <- 3 * (1.4 / 365) > round(((exp(1)^(-lambda)) …

『入門 統計学 --検定から多変量解析・実験計画法まで--』のp.36の例題をR(R言語)で

Rコード # 指数表記にならないように設定 options(scipen = 123) # data.frameを作成 キュウリの収量 <- data.frame(ポット番号 = 1:15, 栽培法A = c(3063, 2275, 2089, 2855, 2836, 3219, 2817, 2136, 2540, 2263, 2140, 1757, 2499, 2093, 2073), 栽培法B …

偏差値をR(R言語)で

偏差値の数式 T = ((10(x - μ)) / σ) + 50 Rコード # runif()で0 ~ 100までの擬似乱数(一様乱数)を100個作成しておく # round()で少数を丸める x <- round(runif(100, 0, 100)) x # 不偏標準偏差を使用するなら、単にsd()を使用すればいい # 以下は、標準偏…

標準化(基準化) z値

標準化(基準化) z値 標準化変量 z = (x - μ) / σ 具体例 母集団 ~ N(100, 5^2) の値105のz値 z = (105 - 100) / 5 = 1.00 z値 1.00 Rコード (105 - 100) / 5 # [1] 1 参考文献 統計クイックリファレンス 第2版作者: Sarah Boslaugh,黒川利明,木下哲也,中山智…

『入門 統計学 --検定から多変量解析・実験計画法まで--』の第1章 章末問題 p.22 ~ 23をR(R言語)で

問1 R(R言語)を使用する問題ではないので割愛 問2 a. data.frameを作成 農家の耕地面積と販売金額 <- data.frame(農家番号 = 1:20, 農産物の販売金額 = c(400, 15, 480, 993, 600, 150, 115, 50, 0, 130, 3000, 500, 200, 55, 2200, 1, 900, 1000, 450, 400)…

『入門 統計学 --検定から多変量解析・実験計画法まで--』のp.20 ~ 21の例題をR(R言語)で

data.frameを作成 親子の身長の相関関係 <- data.frame(番号 = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12), 両親の平均身長.cm = c(185.0, 169.1, 166.2, 160.1, 166.6, 172.1, 180.5, 169.1, 170.9, 160.0, 168.2, 175.5), 子の身長.cm = c(183.0, 167.4, 1…

統計学 『統計学入門』(赤本) p.37 分散(variance) R(R言語)

分散(variance)のRコード A <- c(0, 3, 3, 5, 5, 5, 5, 7, 7, 10) (variance_of_A <- sum((A - mean(A))^2) / length(A)) # [1] 6.6 参考文献 統計学入門 (基礎統計学?)作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09…

統計学 『統計学入門』(赤本) p.37 標準偏差(standard deviation) R(R言語)

標準偏差(standard deviation)のRコード A <- c(0, 3, 3, 5, 5, 5, 5, 7, 7, 10) (standard_deviation_of_A <- sqrt(sum((A - mean(A))^2) / length(A))) # [1] 2.569047 参考文献 統計学入門 (基礎統計学?)作者: 東京大学教養学部統計学教室出版社/メーカー…

統計学 『統計学入門』(赤本) p.36 平均偏差(mean deviation) R(R言語)

平均偏差(mean deviation)のRコード A <- c(0, 3, 3, 5, 5, 5, 5, 7, 7, 10) (mean_deviation_of_A <- sum(abs(A - mean(A))) / length(A)) # [1] 1.8 参考文献 統計学入門 (基礎統計学?)作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発…