統計学

統計学 参考文献

以下、厳密な分類をしているわけではない。 統計学の一般書 順不同。 統計学を拓いた異才たち―経験則から科学へ進展した一世紀作者: デイヴィッドサルツブルグ,David S. Salsburg,竹内惠行,熊谷悦生出版社/メーカー: 日本経済新聞社発売日: 2006/03/20メディ…

R(R言語)で、質的変数を含んだ回帰分析(層別した散布図が平行にならない場合。交互作用項)。lm(y ~ x1 + x2 + x1*x2, data = df), (y ~ x1 * x2), (y ~ x1:x2), (y ~ (x1 + x2)^2)

Rコード # # 使用するデータと解説は『SPSSによる回帰分析』p83~84 # # # 質的変数を含んだ回帰分析。 # 層別した散布図が平行にならない場合について。 # x1_vec <- c(1.1, 2.1, 3.2, 4.4, 5.2, 3.2, 4.1, 5.2, 6.3, 7.1) x2_fac <- factor(c(rep("A", 5), …

R(R言語)で、重回帰分析(重回帰分析における質的・カテゴリ変数の導入の前提条件。直線の傾きの等さ、または平行について)。

Rコード # # 使用するデータと解説は『SPSSによる回帰分析』p80~81 # # # 重回帰分析における質的・カテゴリ変数の導入の前提条件。 # 質的・カテゴリ変数"A", "B"とx1とyの直線の傾きの等さ、または平行について。 # x1_vec <- c(1.1, 2.1, 3.2, 4.4, 5.2, …

R(R言語)で、重回帰分析(重回帰分析における質的・カテゴリ変数)。lm(), factor()

Rコード # # 使用するデータと解説は『SPSSによる回帰分析』p76~79 # # # 重回帰分析における質的・カテゴリ変数 # # # 使用するデータについて # # 以下のデータにx5(質的・カテゴリ変数"A"と"B")を加えて使用する。 # # ある製品の重量y(単位 : mg)と、 # …

R(R言語)で、ラスパイレス指数 (Laspeyres index)を算出する。(含むちょっとした関数型プログラミング)

Rコード # # 使用する解説とデータは『統計クイックリファレンス』p333~334 # # # ラスパイレス指数 (Laspeyres index) # ラスパイレス指数は基準時期量を重みに用いる。 # あるまとまった商品やサービスのインフレやデフレを測ることができる。 # # ラスパ…

R(R言語)で、単純指数 (simple index number)を算出する。

Rコード # # 使用する解説とデータは『統計クイックリファレンス』p331~332 # # # 単純指数 (simple index number) # # 単純指数を計算する3つのステップ # 1. 対象時期の商品の値段または量を入手する。 # 2. 基準時期を選び、その年の値段や量を入手する。…

R(R言語)で、重回帰分析の基本(回帰式の有意性、回帰式の有効性、自由度調整済み寄与率)

前記事 その1 my-notes.hatenablog.com その2 my-notes.hatenablog.com その3 my-notes.hatenablog.com の続きが以下。 Rコード # # 使用するデータと解説は『SPSSによる回帰分析』p45~ # # # 重回帰分析の基本 # # # 使用するデータについて # # ある製品の…

R(R言語)で、重回帰分析における予備的解析(説明変数ごとの単回帰分析、 符号逆転現象)

前記事 その1 my-notes.hatenablog.com その2 my-notes.hatenablog.com の続きが以下。 Rコード # # 使用するデータと解説は『SPSSによる回帰分析』p34~36 # # # 重回帰分析における予備的解析 # 説明変数ごとの単回帰分析 # # 重回帰分析を実施する前後どち…

R(R言語)で、重回帰分析における予備的解析(2変数ごとの予備的解析、相関係数、相関行列、散布図行列)

前回記事 my-notes.hatenablog.com の続きが以下。 Rコード # # 使用するデータと解説は『SPSSによる回帰分析』p34~36 # # # 重回帰分析における予備的解析 # 2変数ごとの予備的解析 # # 相関行列 # 2つの変数間の関係を数値的に把握するには、相関係数を算…

R(R言語)で、重回帰分析における予備的解析(1変数ごとの予備的解析、要約統計量、度数、(不偏)標準偏差、データのグラフ化、ヒストグラム、箱ヒゲ図、ドットプロット、幹葉図)

Rコード # # 使用するデータと解説は『SPSSによる回帰分析』p28~33 # # # 重回帰分析における予備的解析 # 1変数ごとの予備的解析 # # # 使用するデータについて # # ある製品の重量y(単位 : mg)と、 # その製品を製造するときの条件x1(熱処理時間 : 秒)、x2…

Python3(pandas)で、統計学の基礎を繰り返し。代表値。平均値。資料から直接算出する平均値と度数分布(表)から算出する平均値。

Python3コード #!/usr/bin/env python3 """(docstring) """ # 統計学の基礎を繰り返し。 # # 代表値。 # 平均値。 # 資料から直接算出する平均値と度数分布(表)から算出する平均値。 # # 基礎となる概念や数式の理解のためであるので、 # Python関係のmean()…

R(R言語)で、単回帰分析(回帰直線、回帰式、回帰係数、最小二乗法、重相関係数R、回帰式の有意性、回帰式の有効性、寄与率(R2乗値)、残差標準偏差(残差の標準誤差)、母回帰係数の信頼区間(区間推定))

Rコード # # 使用するデータと解説は『SPSSによる回帰分析』p10~ # # # データについて # マンション価格yと占有面積xを20物件について調べた結果 # 物件番号_vec <- c(1:20) # (m2) 占有面積x_vec <-c(65.87, 48.23, 56.76, 64.62, 54.03, 68.44, 47.77, 51…

統計学 回帰分析 変数の種類の要件

単回帰、重回帰分析 変数の種類について 目的変数(応答変数 response variable, 従属変数 dependent variable)は、量的変数(連続変数)でなくてはならない。 説明変数(explanatory variable, 予測変数 predictor variable, 独立変数 independent variable)は…

Python3(pandas, matplotlib)で、ヒストグラムを作成。matplotlib.pyplot as plt, plt.hist()

Python3コード #!/usr/bin/env python3 """(docstring) """ # 使用したデータは『統計処理ポケットリファレンス』 import matplotlib.pyplot as plt import numpy as np import pandas as pd def main(): """(docstring) """ # matplotlib # macOSやOS Xで文…

Python3(pandas, Scipy, StatsModels)で、要約統計量、相関係数、p値、単回帰分析。statsmodels.formula.api.ols(), statsmodels.formula.api as smf, smf.ols()

Python3コード #!/usr/bin/env python3 """(docstring) """ # 使用したデータは『マンガでわかる統計学 [回帰分析編]』第2章 import matplotlib.pyplot as plt import numpy as np import pandas as pd import scipy as sp from scipy import stats import s…

Python3(pandas, StatsModels)で、単回帰分析。regression.linear_model.OLS()

Python3コード #!/usr/bin/env python3 """(docstring) """ # 使用したデータは『マンガでわかる統計学 [回帰分析編]』第2章 import matplotlib.pyplot as plt import numpy as np import pandas as pd import statsmodels.api as sm # statsmodels.regressi…

Python3(pandas, Scipy)で、差に対するカイ二乗検定。stats.chisquare()

Python3コード #!/usr/bin/env python3 """(docstring) """ # 使用したデータは『すぐできる生物統計』 # # 差に対するカイ二乗検定 # # メンデルの法則に従う遺伝実験で、しわのないえんどう豆としわのあるえんどう豆の # 雑種第1世代(F1)が交雑された。 # …

Python3(matplotlib, pandas, Scipy)で、分散分析。stats.pearsonr()

Python3コード #!/usr/bin/env python3 """(docstring) """ # 使用したデータは『すぐできる生物統計』 # # 相関分析(ピアソンの相関係数) # # 年輩患者の心臓血管の健康状態を調べるため、30人の患者の心拍数と血圧が測定された。 # これらの変数(変量)の間…

Python3(pandas, Scipy)で、一元配置分散分析(ANOVA)。stats.f_oneway()

Python3コード #!/usr/bin/env python3 """(docstring) """ # 使用したデータは『すぐできる生物統計』 # # 一元配置分散分析 # # 2つのグループの魚の体重が互いに有意に違っているかどうか # 帰無仮説 # 2つのグループの魚が同じ平均体重をもっている。 # …

Python3(pandas, Scipy)で、平均、標準偏差、標準誤差、一標本t検定(両側)。stats.ttest_1samp()

Python3コード #!/usr/bin/env python3 """(docstring) """ # 使用したデータは『すぐできる生物統計』 # # 統計学のテストで25人の学生の点数(単位はパーセント)がある。 # これらの点数について、平均値、標準偏差、標準誤差を算定。 # 学生の平均成績は58…

Python3(pandas, Scipy)で、対応のない(対になっていない)2標本t検定(両側)。ウェルチのt検定ではない場合とウェルチのt検定の場合。scipy.stats.ttest_ind()

Python3コード #!/usr/bin/env python3 """(docstring) """ # 使用したデータは『すぐできる生物統計』 # # 対応のない(対になっていない)2標本t検定(両側) # 16匹のオス象と16匹のメス象の体重(単位はトン)は、違った平均体重をもつかどうか。 # # 帰無仮説…

Python3(NumPy, Scipy, pandas)で、対応のある(対の)2標本t検定(両側)。scipy.stats.ttest_rel()

Python3コード #!/usr/bin/env python3 """(docstring) """ # 使用したデータは『すぐできる生物統計』 # # 対応のある(対の)2標本t検定(両側) # 9つの池のpHについて、夜明けと夕暮れに測定された2系列の測定結果 # # 帰無仮説 # pH濃度の差の平均値が0であ…

Python3(pandas, Scipy)で、一標本t検定(両側)。stats.ttest_1samp()

Python3コード #!/usr/bin/env python3 """(docstring) """ # 使用したデータは『すぐできる生物統計』 # # 帰無仮説 # オス象の平均体重は4.50トンである。 # import matplotlib.pyplot as plt import numpy as np import pandas as pd import scipy as sp …

Python3 Scipy(stats.linregress())とscikit-learn(sklearn linear_model.LinearRegression())で単回帰分析。

Python3コード #!/usr/bin/env python3 """使用したデータは『マンガでわかる統計学 [回帰分析編]』第2章 """ # # 結論から先に書いておくと、Scipyのstats.linregressだけでは、 # 主要な値は出せても、プロットするのが辛い。 # プロットするのに適してい…

Python3(matplotlib, NumPy, pandas, Scipy)で、(ピアソンの)相関係数(とp値)と散布図

Python3コード #!/usr/bin/env python3 """使用するデータは『Rによるやさしい統計学』の第3章から。 """ import matplotlib.pyplot as plt import numpy as np import pandas as pd import scipy as sp from scipy import stats def main(): """(docstring)…

Python3(scikit-learn)で単回帰分析

Python3コード #!/usr/bin/env python3 """(docstring) """ # (PEP8に従うなら、importはアルファベット順に)。 import numpy as np import matplotlib.pyplot as plt import pandas as pd from sklearn import linear_model def main(): """(docstring) """…

Python3(Numpy, pandas, Scipy)で、合計、平均、中央値、最頻値、(標本)分散、(標本)標準偏差、標準化(基準化)、偏差値を算出。

Python3コード #!/usr/bin/env python3 """(docstring) 使用したデータは『Rによるやさしい統計学』の第2章。 """ # あまりスマートなimportのやり方ではないと思うが、 # ちょっと明示的に使い分けたいので。 # (あと、PEP8に従いたければ、アルファベット…

Python3 標準ライブラリ巡り statistics

Python3コード #!/usr/bin/env python3 """(docstring) """ import statistics def my_statistics(): """(docstring) doctest >>> my_data = [1, 2, 2, 3] >>> my_mean = statistics.mean(my_data) >>> print('{0} {1}'.format('算術平均', my_mean)) 算術平…

R(R言語)のshinyで楽しいアプリ作成。ごく初歩から。

始め方 RStudioから install.packages("shiny") RStudioから新規プロジェクトを作成。 New Project -> New Directory -> Shiny Web Application を順に選択。 ディレクト名を付けて、Create Projectをクリック。 ui.Rとserver.Rの2つのファイルが自動的に作…

Rcppで標本分散を求める自作関数を作成する

Rcppコード #include <Rcpp.h> using namespace Rcpp; // [[Rcpp::export]] double rcpp_varp(NumericVector x) { // あまりC++な書き方ではないと思うが、変数に代入していくと値がおかしくなるので...。 // (勉強不足)。 return sum(pow(x - mean(x), 2)) / x.leng</rcpp.h>…