My Notes

統計学とかR(R言語)とかPython3の覚え書きとか走り書きとか。 座右の銘にしたい: All work and no play makes Jack a dull boy.

R(R言語)

R(R言語)で、重回帰分析における予備的解析(1変数ごとの予備的解析、要約統計量、度数、(不偏)標準偏差、データのグラフ化、ヒストグラム、箱ヒゲ図、ドットプロット、幹葉図)

Rコード # # 使用するデータと解説は『SPSSによる回帰分析』p28~33 # # # 重回帰分析における予備的解析 # 1変数ごとの予備的解析 # # # 使用するデータについて # # ある製品の重量y(単位 : mg)と、 # その製品を製造するときの条件x1(熱処理時間 : 秒)、x2…

R(R言語)で、単回帰分析(回帰直線、回帰式、回帰係数、最小二乗法、重相関係数R、回帰式の有意性、回帰式の有効性、寄与率(R2乗値)、残差標準偏差(残差の標準誤差)、母回帰係数の信頼区間(区間推定))

Rコード # # 使用するデータと解説は『SPSSによる回帰分析』p10~ # # # データについて # マンション価格yと占有面積xを20物件について調べた結果 # 物件番号_vec <- c(1:20) # (m2) 占有面積x_vec <-c(65.87, 48.23, 56.76, 64.62, 54.03, 68.44, 47.77, 51…

R(R言語)のshinyで楽しいアプリ作成。ごく初歩から。

始め方 RStudioから install.packages("shiny") RStudioから新規プロジェクトを作成。 New Project -> New Directory -> Shiny Web Application を順に選択。 ディレクト名を付けて、Create Projectをクリック。 ui.Rとserver.Rの2つのファイルが自動的に作…

Rcppで標本分散を求める自作関数を作成する

Rcppコード #include <Rcpp.h> using namespace Rcpp; // [[Rcpp::export]] double rcpp_varp(NumericVector x) { // あまりC++な書き方ではないと思うが、変数に代入していくと値がおかしくなるので...。 // (勉強不足)。 return sum(pow(x - mean(x), 2)) / x.leng</rcpp.h>…

R(R言語)で、主成分分析(寄与率、寄与率の求め方)

Rコード # # R(R言語)で、主成分分析(寄与率、寄与率の求め方) # # # 使用するデータと解説は、『多変量解析がわかる』 第3章 p.81~82 # # 使用するデータ 20人の中学生の5教科のテスト結果 出席番号_vec <- c(1:20) 数学x_vec <- c(71, 34, 58, 41, 69, 64,…

reticulateとPython3で楽しむプログラミング。正の整数の因数を求める。

Python3コード (ファイル(モジュール)名は、factors.py とした)。 #!/usr/bin/env python3 """(docstring 必要ならば書く。) """ def calc_factors(num): """(docstring 必要ならば書く。) """ try: if num <= 0: print('Bless you!') return # 一応、ハマら…

R(R言語)からPython3のファイル(モジュール)を呼び出す。reticulateで楽しむPython3。Python3で楽しむreticulate。リスト内包表記。

Python3コード (テンプレ的なのを作成したが、くどさと雑さが混じって我ながら酷いと思うがとりあえず動く(とりあえず動くんだ(とりあえずは)))。 (ファイル(モジュール)名は、my_py3_script.py こういう名は、とくに実用的にはよくない、と思う(のが普通(だ…

R(R言語)からPython3のビルトイン関数を使う。 九九表から始めるreticulate。

R(とPython3)コード # # R(R言語)からPython3のビルトイン関数を使う。 九九表から始めるreticulate。 # library(reticulate) # py_config() 読み込んだPythonのバージョン確認。 # Python3のビルトイン関数を使用するために。 py <- import_builtins() # Py…

R(R言語)で、主成分分析(主成分の求め方、主成分得点)

Rコード # # R(R言語)で、主成分分析(主成分の求め方、主成分得点) # # # 使用するデータと解説は、『多変量解析がわかる』 第3章 p.77~80 # # 使用するデータ 20人の中学生の5教科のテスト結果 # # 出席番号_vec <- c(1:20) 使用するのはやめた。 数学x_vec …

R(R言語)で、外れ値を考える(相関係数(ピアソン)、散布図、外れ値の除去・削除、相関係数の再確認、順位相関係数(ケンドール、スピアマン)

Rコード # # R(R言語)で、外れ値を考える # # # 使用するデータと解説は、『実践形式で学ぶ SPSSとAmosによる心理・調査データ解析』 # Exercise 1 p.2~9 # # # 書籍通りに従うと、 # 相関係数(ピアソン)、散布図、外れ値の除去・削除、相関係数の再確認、 #…

R(R言語)で、相関係数を求め単回帰分析、それを検討するために散布図、偏相関係数、重回帰分析(疑似相関を考える)

Rコード # # R(R言語)で、相関係数を求め単回帰分析、それを検討するために散布図、偏相関係数、重回帰分析(疑似相関を考える)。 # # # 使用するデータと解説は、『実践形式で学ぶ SPSSとAmosによる心理・調査データ解析』 # Exercise 2 p.10~17 # # # 書籍…

ノンパラメトリック検定 Wilcoxsonの符号つき順位検定(対応あり)をR(R言語)で。wilcox.test()

Rコード # # ノンパラメトリック検定 Wilcoxsonの符号つき順位検定(対応あり) # # # 参考にするデータや帰無仮説の立て方は、 #『パソコンで簡単! すぐできる生物統計 統計学の考え方から統計ソフトSPSSの使い方まで』 # 第8章 p.145~149 # # # 帰無仮説 # …

分散分析 一元配置分散分析(対応なし)をR(R言語)で。 oneway.test(), aov(), anova()

Rコード # # 分散分析 一元配置分散分析(対応なし) # # # 参考にするデータや帰無仮説の立て方は、 #『パソコンで簡単! すぐできる生物統計 統計学の考え方から統計ソフトSPSSの使い方まで』 # 第4章 p.69~70 # # # 帰無仮説 # "グループが同じ平均を持って…

アイスクリーム統計学 第5章 偏相関をR(R言語)で 試しに偏相関係数を計算する関数を作成

Rコード # アイスクリーム統計学 ch05 # # 偏相関 # # 最低気温のデータも含めたすべてのデータ データ番号_vec <- c(1:20) 最高気温_vec <- c(33, 33, 34, 34, 35, 35, 34, 32, 28, 35, 33, 28, 32, 25, 28, 30, 29, 32, 34, 35) 最低気温_vec <- c(22, 26,…

アイスクリーム統計学 第4章 単回帰をR(R言語)で (書籍なら、タイトルは『統計学がわかる 【回帰分析・因子分析編】 (ファーストブック)』

Rコード # アイスクリーム統計学 ch04 # # 単回帰分析 # # 去年の夏のデータ 土日を除いた平日 データ番号 <- c(1:20) 最高気温 <- c(33, 33, 34, 34, 35, 35, 34, 32, 28, 35, 33, 28, 32, 25, 28, 30, 29, 32, 34, 35) 客数 <- c(382, 324, 338, 317, 341,…

アイスクリーム統計学 第3章 無相関検定をR(R言語)で (書籍なら、タイトルは『統計学がわかる 【回帰分析・因子分析編】 (ファーストブック)』

Rコード # アイスクリーム統計学 ch03 # # 無相関検定 # # 標本のデータ 標本_vac <- c(1:20) 年齢_vec <- c(18, 20, 22, 19, 21, 23, 17, 13, 22, 24, 21, 15, 19, 17, 20, 16, 21, 26, 18, 19) 一ヶ月あたりの来店数_vec <- c(8, 8, 7, 6, 6, 5, 7, 3, 6, …

アイスクリーム統計学 第2章 相関係数をR(R言語)で (書籍なら、タイトルは『統計学がわかる 【回帰分析・因子分析編】 (ファーストブック)』

Rコード # アイスクリーム統計学 ch02 # # 手計算は省略 # # この店のデータ 日付_vec1 <- c(1:10) 最高気温_vec1 <- c(29, 29, 30, 32, 33, 32, 31, 26, 28, 31) 客数_vec1 <- c(326, 364, 283, 369, 417, 436, 438, 296, 263, 389) この店のデータ <- data…

アイスクリーム統計学 第1章 散布図と相関をR(R言語)で (書籍なら、タイトルは『統計学がわかる 【回帰分析・因子分析編】 (ファーストブック)』

Rコード # アイスクリーム統計学 ch01 # 別のチェーン店の8月の客数データ 日付_vec <- c(1:14) # c()の中に1:14と書いた方が安定する(と思う) 最高気温_vec <- c(29, 30, 29, 32, 33, 32, 34, 27, 28, 32, 34, 32, 30, 28) 客数_vec <- c(312, 348, 284, 36…

スチューデントのt検定の原始的な理解 「平均についての起こりうる誤差」

Rコード # # スチューデントのt検定の原始的な理解 # 「平均についての起こりうる誤差」 # # # ゴセットは、標本サイズの小さいデータセットから # 平均と標準偏差を調べ、前者を後者で割り、 # 結果をグラフ用紙にプロットして確認していたようだ # # R(R言…

対応のあるt検定 対応のある二標本t検定 をR(R言語)で

Rコード # # 対応のあるt検定 対応のある二標本t検定 # # # 使用するデータや数式や解説は、統計クイックリファレンス』 p.168~170 # # # 帰無仮説 # 2組の標本の平均の差は、0である。 # # 対立仮説 # 2組の標本の平均の差は、0でない。 # # "食事制限とエ…

『マンガでわかる統計学 回帰分析編』第4章 ロジスティック回帰分析 をR(R言語)で

Rコード # # 『マンガでわかる統計学 回帰分析編』 第4章 ロジスティック回帰分析 # # 水曜or土曜or日曜 1が水曜or土曜or日曜、 0はそれ以外 # ノルンスペシャルの販売状況 1は売れたということ、0は売れなかったということ df <- data.frame(水曜or土曜or日…

R(R言語)で数式をtext()を使用してplot 算術平均(arithmetic mean)の数式

Rコード # 文字化けするなら。 par(family = "Osaka") plot(0, 0, type = "n", xlim = c(0, 3), ylim = c(0, 3), xlab = "", ylab = "") text(1.5, 2.5, expression(bar(x) == frac(x[1] + x[2] + ... + x[n], n)), cex = 3.5) text(1.5, 1.50, "R(R言語)で…

独立標本t検定(二標本t検定)、t統計量、合併標本分散値をR(R言語)で t.test()や手計算

Rコード # # 参考にするデータ、数式、解説は、『統計クイックリファレンス』p.164~167 # # # 前提条件 # 2つの独立した母集団 # 全国のサッカー選手、全国のバレエダンサー # 10人ずつ無作為に選出 # # 2つの母分散は等しいと仮定する # # # 帰無仮説 # サ…

一標本t検定 R(R言語)のt.test()を使用して

Rコード # # 一標本t検定 t.test() # # # 参考にするデータや帰無仮説の立て方や計算式は、『パソコンで簡単! すぐできる生物統計 統計学の考え方から統計ソフトSPSSの使い方まで』第3章 p.50~52 # # 用語について # この書籍では、標本の平均値を"平均値"…

『マンガでわかる統計学 回帰分析編』第3章 重回帰分析 をR(R言語)で

Rコード # # 一ヶ月の売上額が目的変数 # 他は説明変数 # カザミベーカリー <- data.frame(店舗名 = c("夢の丘店", "寺井駅ビル店", "曽根店", "橋本通り店", "桔梗町店", "郵便局前店", "水道町駅前店", "六条駅ビル店", "若葉沿い店", "三里店"), お店の面…

相対度数、累積相対度数をR(R言語)で 手計算とcumsum()

Rコード # # 相対度数、累積相対度数、cumsum() # 使用するデータと計算式は、『ナースのための統計学 第2版」p.19~ # 血圧測定時間_秒 <- data.frame(時間 = c(94, 99, 49, 80, 175, 102, 127, 38, 56, 18, 83, 82, 105, 63, 111, 62, 80, 78, 116, 88, 26,…

『マンガでわかる統計学 回帰分析編』第2章 回帰分析 をR(R言語)で

Rコード # 『マンガでわかる統計学 回帰分析編』第2章 回帰分析 df <- data.frame(最高気温 = c(29, 28, 34, 31, 25, 29, 32, 31, 24, 33, 25, 31, 26, 30), アイスティーの注文数 = c(77, 62, 93, 84, 59, 64, 80, 75, 58, 91, 51, 73, 65, 84)) df 最高気…

『多変量解析がわかる(ファーストブック)』 第2章 回帰分析 単回帰分析をR(R言語)で

Rコード # 目的変量 婚姻率 y # 説明変量 老年人口の割合 x # 回帰方程式 y = a + bx # aを切片、bを単回帰係数(回帰係数) # 47都道府県ごとの婚姻率(人口千人当たりの結婚数)と老年人口の割合(65歳以上の割合) df <- data.frame(都道府県 = c("北海道", "青…

いろんなデータの分布をR(R言語)で可視化 ヒストグラムと密度推定曲線と散布図 日本の主な河川

Rコード # 分布 ヒストグラムと密度推定曲線と散布図 # 使用するデータは、『データブック・オブ・ザ・ワールド 日本各国要覧と最新統計 2016 Vol.28』 # p.6 # 日本の主な河川(の長さ。流域面積ではない) # 日本の主な河川の名称は、この目的上、必要ないの…

『多変量解析がわかる(ファーストブック)』 第1章 多変量解析の準備 をR(R言語)で

Rコードについて 主にデータが記載されているところだけ。 標準偏差 p.21~ Rコード # 標準偏差 p.21~ df <- data.frame(個体番号 = 1:5, x = c(51, 49, 50, 57, 43)) df # 平均 xbar <- sum(df$x) / length(df$x) xbar # 偏差平方和 Q <- sum((df$x - xbar)^…

いろんなデータの分布をR(R言語)で可視化 ヒストグラムと密度推定曲線と散布図 世界の主な河川

Rコード # 分布 ヒストグラムと密度推定曲線と散布図 # 使用するデータは、『データブック・オブ・ザ・ワールド 世界各国要覧と最新統計 2016 Vol.28』 # p.6 # 世界の主な河川(の長さ。流域面積ではない) # 世界の主な河川の名称は、この目的上、必要ないの…

『マンガでわかる統計学 回帰分析編』p48~49 偏差平方和 分散 標準偏差 をR(R言語)で

Rコード # 『マンガでわかる統計学 [回帰分析編]』 # 偏差平方和・分散・標準偏差 p.48~49 カラオケ対決の結果 <- data.frame(みうチームの点数 = c(48, 32, 88, 61, 71), りさチームの点数 = c(67, 55, 61, 63, 54)) カラオケ対決の結果 みうチーム <- カラ…

『悩めるみんなの統計学入門 統計学で必ず押さえたい6つのキーワード』をR(R言語)で

第2章 Rコード # 『悩めるみんなの統計学入門』 # # 個人的に割愛しているところ多々あり。 # 第2章 分散 # p.46~ 三人の練習タイム <- data.frame(吉田 = c(133.2, 127.7, 131.9, 133.5, 126.6), 桜庭 = c(143.8, 128.6, 120.2, 147.8, 122.0), 大江 = c(12…

いろんなデータの分布をR(R言語)で可視化 ヒストグラムと散布図 日本の主な火山

Rコード # 分布 ヒストグラムと散布図 # 使用するデータは、『データブック・オブ・ザ・ワールド 世界各国要覧と最新統計 2016 Vol.28』 # p.5 # 日本の主な火山 # 火山の名称は、この目的上、必要ないので省略 # 文字化けする場合 par(family = "Osaka") 日…

単回帰分析 対応するデータから予測 R(R言語)で

Rコード # 対応するデータからの予測 単回帰分析 新生児体重と胎盤重量 <- data.frame(No = 1:10, 新生児体重x = c(3470, 2550, 2920, 2530, 3280, 2840, 2520, 3350, 3610, 3430), 胎盤重量y = c(760, 490, 580, 520, 550, 480, 400, 560, 590, 530)) 新生…

一標本t検定と一標本t検定の信頼区間の計算をR(R言語)で

Rコード # 一標本t検定の計算 # t = (xbar - μ0) / (s / sqrt(n)) # 具体例 # 標本平均10, 標本標準偏差10, 標本数15 t <- (90 - 100) / (10 / sqrt(15)) t # [1] -3.872983 # 自由度15 - 1 = 14 α = 0.05 上方棄却値2.145 # |-3.87|>2.145 で帰無仮説は棄却…

ケンドールの順位相関係数 τ タウ tau

Rコード # ケンドールの順位相関係数 τ(タウ) 十人の新生児の体重と胎盤重量の順位 <- data.frame(赤ちゃん = noquote(LETTERS[1:10]), 新生児の体重の順位 = c(9, 3, 5, 2, 6, 4, 1, 7, 10, 8), 胎盤重量の順位 = c(10, 3, 8, 4, 6, 2, 1, 7, 9, 5)) 十人の…

グッドマン・クラスカルのガンマをR(R言語)で

Rコード # 『統計クイックリファレンス』p.147~148 # グッドマン・クラスカルのガンマ BMIのデータ例 <- data.frame(BMI = c("通常", "肥満"), 通常血圧 = c(25, 10), 前高血圧 = c(15, 10), 高血圧 = c(5, 25)) BMIのデータ例 # ガンマを計算するためのセル…

スピアマンの順位相関係数をR(R言語)で

Rコード # スピアマンの順位相関係数 十人の新生児の体重と胎盤重量の順位 <- data.frame(赤ちゃん = noquote(LETTERS[1:10]), 新生児の体重の順位 = c(9, 3, 5, 2, 6, 4, 1, 7, 10, 8), 胎盤重量の順位 = c(10, 3, 8, 4, 6, 2, 1, 7, 9, 5)) 十人の新生児の…

『統計クイックリファレンス 第2版』第5章 カテゴリデータ p.131~134 カイ二乗値をR(R言語)で

Rコード # カテゴリデータ カイ二乗値 『統計クイックリファレンス』p.131 # # 仮説 # # 帰無仮説 # Ho : xとyは独立である # 対立仮説 # Ha : xとyは独立ではない # 2 * 2表の各セルの観測値と期待値の差を使用する # # 観測値 # 標本やデータ集合内で観測…

いろんなデータの分布をR(R言語)で可視化 ヒストグラムと散布図 日本の主な山

Rコード # 分布 ヒストグラムと散布図 # 使用するデータは、『データブック・オブ・ザ・ワールド 世界各国要覧と最新統計 2016 Vol.28』 # p.5 # 日本の主な山 # 山の名称は、この目的上、必要ないので省略 # 文字化けする場合 par(family = "Osaka") 日本の…

いろんなデータの分布をR(R言語)で可視化 ヒストグラムと散布図 世界の主な火山

Rコード # 分布 ヒストグラムと散布図 # 使用するデータは、『データブック・オブ・ザ・ワールド 世界各国要覧と最新統計 2016 Vol.28』 # p.5 # 世界の主な火山 # 火山の名称は、この目的上、必要ないので省略 # 文字化けする場合 par(family = "Osaka") 世…

『品質管理のための統計手法』の第1章 (分割表(クロス集計表)) p.51~53をR(R言語)で

Rコード # 問1 df <- data.frame(No. = 1:8, 原料納入メーカーx = c("A", "B", "B", "A", "A", "B", "B", "B"), 検査結果y = c("1級品", "2級品", "3級品", "2級品", "1級品", "2級品", "1級品", "3級品")) df summary(df) table(df$原料納入メーカーx, df$…

いろんなデータの分布をR(R言語)で可視化 ヒストグラムと散布図 世界の主な山

Rコード # 分布 ヒストグラムと散布図 # 使用するデータは、『データブック・オブ・ザ・ワールド 世界各国要覧と最新統計 2016 Vol.28』 # p.5 # 世界の主な山 # 山の名称は、この目的上、必要ないので省略 # 文字化けする場合 par(family = "Osaka") 世界の…

『統計クイックリファレンス 第2版』第5章 カテゴリデータ p.127~128 コーエンのカッパ、カッパ係数、カッパをR(R言語)で

Rコード # コーエンのカッパ、カッパ係数、カッパ 二値結果に関する2つの検査の一致度 <- data.frame(my_data = c(50, 10, 10, 30)) 二値結果に関する2つの検査の一致度 # データフレームをマトリクスに変換 mt1 <- as.matrix(二値結果に関する2つの検査の一…

いろんなデータの分布をR(R言語)で可視化 ヒストグラムと散布図 世界の主な海溝

Rコード # 分布 ヒストグラムと散布図 # 使用するデータは、『データブック・オブ・ザ・ワールド 世界各国要覧と最新統計 2016 Vol.28』p.4 # 世界の主な海溝 # 海溝の名称は、この目的上、必要ないので省略 # 文字化けする場合 par(family = "Osaka") 世界…

『品質管理のための統計手法』の第1章 (単回帰分析) p.43~45をR(R言語)で

Rコード # 問1 データ n = 3 対のデータ (1, 2), (2, 5), (3, 5) df <- data.frame(x = c(1, 2, 3), y = c(2, 5, 5)) df # 単回帰直線 m <- lm(y ~ x, data = df) plot(y ~ x, data = df) abline(m) summary(m) # 最小二乗法 z <- lsfit(df$x, df$y) z R Con…

『とある弁当屋の統計技師(データサイエンティスト) --データ分析のはじめかた--』の第1章をR(R言語)で

Rコード # 第1章 p.14~ # 基本的に書籍に載っているところだけ。 # サポートWebサイトや"Ranko"パッケージは使用していない # そもそも、"> install.packages("Ranko") # Warning in install.packages : # package ‘Ranko’ is not available (for R version …

『品質管理のための統計手法』の第1章(散布図と相関係数) p.36~37の問1をR(R言語)で

Rコード # 問1 データ n = 3 対のデータ (1, 2), (2, 5), (3, 5) df <- data.frame(x = c(1, 2, 3), y = c(2, 5, 5)) df plot(df$x, df$y) # 平均 # xの平均 (1 + 2 + 3) / 3 (1 + 2 + 3) / length(df$x) mean(df$x) # yの平均 (2 + 5 + 5) / 3 (2 + 5 + 5) …

『品質管理のための統計手法』の第1章 (標準化、偏差値) p.32~33をR(R言語)で

Rコード # 問1~2は割愛 # 問3 # 標準化 (380 - 320) / 60 (420 - 360) / 40 # 問4 (10 * 1.0) + 50 (10 * 1.5) + 50 # 使用するデータ 1, 3, 5 # 標準化 (1 - 3) / 2 (3 - 3) / 2 (5 - 3) / 2 (-1 + 0 + 1) / 3 # 平方和 (-1 - 0)^2 + (0 - 0)^2 + (1 - 0)^2…