2020-01-01から1年間の記事一覧

重回帰分析

はじめに 以前、1個の説明変数を使って関心ある変数を表現する単回帰モデルについて、基本的な概念と推定方法を説明した。 単回帰分析(1)大雑把な説明 - 統計学入門一歩先へ 単回帰分析(2)モデルの定式化と最小二乗法 - 統計学入門一歩先へ 単回帰分析(3)最…

基本的な多重比較法

はじめに 例えば、5種類の異なる薬剤の効果を調べたい状況を考えてみよう。どの薬剤どうしの間に効果の違いがあるかを知るためには、様々なペア間の比較を試したくなる。このような時に統計学的な検定を繰り返し行えば行うほど、どこかのタイミングで本当は…

欠測データのメカニズム(1)大まかな説明

はじめに 研究やビジネスで何らかのデータを収集しようとしたとき、何らかの理由によってデータの一部が得られないこと(欠測(Missing))は日常的に存在する。例えば医学研究であれば、研究への参加者が所定の検査に来なかった・研究への参加を中止した・連…

単回帰分析(3)最尤法による推定

はじめに 前回は、単回帰分析モデルをデータに適合させるために、最適なパラメータを最小二乗法を用いて推定する方法を紹介した。今回は、最尤法(Maximum likelihood method)を用いた推定の話をしたいと思う。 前回少し述べたように、単回帰モデルの数式の中…

単回帰分析(2)モデルの定式化と最小二乗法

はじめに 前回は単回帰分析の大まかなイメージを紹介した。今回は数学的にもう少し整理したいと思う。 最初に言葉でざっくりとまとめると、説明変数で目的変数を表現する単回帰分析とは、 目的変数は正規分布に従うと仮定し、 その期待値を推定する という方…

単回帰分析(1)大雑把な説明

はじめに いわゆる「回帰分析」「回帰モデル」と呼ばれる統計方法のうち、最もシンプルな形式で多くの人に知られていると思われる「単回帰分析(Simple regression)」の話をしていこうと思う。 単回帰分析は、平面上のデータ点が散らばっているところへちょう…

一元配置乱塊法

はじめに 以前、1要因実験データの解析方法である一元配置分散分析を紹介したが、説明を単純にするために局所管理(ブロック化)を行わない完全無作為化実験の場合を考えた。 mstour.hatenablog.com 今回は、ブロック化を考慮した実験である乱塊法(Randomize…

Mantel-Haenszel検定をRで実施する

はじめに 今回は、以前紹介したMantel-Haenszel検定(MH検定)をRで実施する方法を整理していく。 mstour.hatenablog.com前も書いたようにCochran-Mantel-Haenszel(CMH検定)と呼ばれることが多いが、Cochranの検定とMantel-Haenszelの検定とは周辺和の固定…

一元配置分散分析

分散分析(Analysis of variance; ANOVA)はさまざまな統計手法の中でもよく知られた方法であるが、最初のうちはなかなかとっつきづらい分野であるように思う。今回は最もシンプルな状況である一元配置(関心のある因子が1つだけの場合のこと)の分散分析の方…

2値データの解析:(5)リスクの指標

治療の成功や疾患の発現など、関心のあるイベントが起こる確率を「リスク」と表現することがある。試験治療を行うグループと標準治療を行うグループとの間で治療の成功確率を比較するなど、2つのグループ間でのリスクの違いを調べるような場合、結果の要約方…

実験計画法とFisherの3原則

実験計画法(Experimental design)は、関心のある結果(医学研究であれば、症状の改善や生存期間の延長など)と、それに影響を与えると考えられる因子(異なる治療法など)との関係性を明らかにするための実験計画に関する方法論のことをいう。臨床試験や農事…

2値データの解析:(4)Mantel-Haenszel検定

はじめに 以前、Mantel-Haenszel検定についてたまたま関連する論文を読んでいたので記事を書いた。 mstour.hatenablog.com 当時ははっきり言って取り留めなくつらつらと書いただけなので、改めてきちんと説明していこうと思う。 なおこの記事でも触れたよう…

統計学と機械学習に共通する方法:(1)ロジスティック回帰

はじめに 統計学と機械学習、どちらも現代のデータ分析方法としてなくてはならないものだ。そこには共通して使われている手法もたくさんある。一方で、微妙な定義の違い、考え方の違いもあるように感じる。 今回は「ロジスティック回帰」を統計学と機械学習…

カイ二乗検定、Fisherの正確検定をRで実施する

はじめに 今回は、以前紹介した(Pearsonの)カイ二乗検定とFisherの正確検定をRで実施してみることにする。 mstour.hatenablog.com mstour.hatenablog.com 実施例として、分割表の検定について検討したPrescott(2019)[1]に掲載の例(原論文はHeschl et al.(…

ケースコントロール研究とオッズ比

はじめに 今回は「観察研究」(研究を実施する側が、実験条件をコントロールする行為、例えば治療法をランダムに割り当てるなどを行わない研究方法。ある集団の追跡調査を行ったり、過去の病歴を調べたり)における代表的な研究方法の1つである「ケースコン…

感度・特異度の計算や比較をRで実施する

はじめに 今回は、以前書いた感度・特異度に関する記事のRでの実施例を紹介する。 mstour.hatenablog.com 例題として、Alonzo et al.(2002)[1]で引用されている前立腺がんの早期発見に用いる診断法を比較した研究結果(Smith et al.(1997)[2])RACIAL DIFFEREN…

状態空間モデル:(3)推定(平滑化と予測)

はじめに 今回は、以前書いた状態空間モデルの話の続きを書いていきたい。 mstour.hatenablog.com 平滑化(Smoothing) 状態空間モデルのフィルタリングとは、現在までに得られているデータをもとにして、(観測されない)現在の状態を推定するという行為であ…

相関係数をRで計算する

はじめに 以前に相関係数の話をしたが、Rでの計算方法を今回あわせて書いておきたい。 mstour.hatenablog.com Rで計算 相関係数の話で、次のような図を例に出した。 2変数の様々な関係性と相関係数の例(Schober et al.(2018)より引用)今回は同様のデータを…

状態空間モデル:(2)推定(概要とフィルタリングについて)

はじめに 前回、状態空間モデルの概念を簡単に紹介した。今回は、得られたデータに基づいて状態パラメータの「推定」をしたり、将来の観測値の「予測」をしたりする方法を説明する。状態空間モデルの状態の推定について、「フィルタリング」「状態予測」「平…

2値データの解析:(3)割合の信頼区間(1標本)

はじめに 今回は、関心ある事象の発生する割合(例えば疾患の発生割合とか、例えば内閣支持率とか)の信頼区間について話してみたい。1標本割合の信頼区間でよく使われる(よく使われるのは僕の身近なところでの話かもしれないが)、Clopper-Pearsonの信頼区…

RでKaplan-Meier plotを作成する

はじめに がんの治療後の生存期間や、心筋梗塞・脳卒中などの疾患の発生までの期間を記述する方法としてよく用いられるのが「Kaplan-Meier plot」と呼ばれるグラフである。例えば下記の図は、乳がんに対する2つの治療法の生存期間をKaplan-Meier plotで要約…

状態空間モデル:(1)基本概念

はじめに 時系列的に変化するような現象に対する統計手法として、状態空間モデルと呼ばれる方法がある。状態空間モデルは広く応用可能な柔軟な方法であり、規則性のない複雑な構造の時系列データに対しても用いることができるとされている。今回はモデルの基…

最尤推定量の検定

はじめに 線形回帰分析をはじめとする一般化線形モデルにおいて、説明変数が関心ある結果(統計モデルにおける、で表される側。以降では「目的変数」とする)に統計的に有意な影響を与えているかを判断する目安として、いくつかの検定方式がある。今回は比較…

マルコフ連鎖モンテカルロ法(3)マルコフ連鎖について振り返る

はじめに 前回2回は頻用される2つのアルゴリズム、MHアルゴリズムとGibbsサンプラーについて述べた。しかし、まだMCMCのそもそもの前提条件についてを述べていなかった。今回はマルコフ連鎖についての話をまとめる。 マルコフ連鎖 時点にしたがって状態が推…

マルコフ連鎖モンテカルロ法(2)Gibbsサンプラー

はじめに 引き続き、非常に多く利用されるMCMCのアルゴリズムの1つであるGibbsサンプラーについて述べる。 Metropolis-Hastings(MH)アルゴリズムにおいて、多次元の提案分布からサンプリングすることが難しい場合に、サンプリングしたい変数をいくつかのまと…

マルコフ連鎖モンテカルロ法(1)Metropolis-Hastingsアルゴリズム

はじめに ちょっと趣向を変えて、ベイズ統計モデルでの推定に広く用いられているマルコフ連鎖モンテカルロ法(MCMC)について書いていこうと思う。統計解析をする時は、例えばSASという統計ソフトで言えばproc mixedなどのプロシージャ(組み込みのパッケー…

共分散分析と前後差のt検定

はじめに 医学や心理学などでは、ある介入行為の効果を評価するために、ランダム化比較試験によって介入群と対照群とのアウトカム(血圧などの何らかの測定値だったり、質問票の得点など)を比較することがよく行われる。しかし、ランダム化を行ったとしても…

Poisson回帰

はじめに 回帰分析というと、表現したい事象の確率分布(誤差の分布、という言い方をする場合もある)として正規分布を考えるいわゆる線形回帰がよく用いられるが、その他の様々な確率分布にも対応できるように拡張された一般化線形モデルもよく知られている…

2値データの解析:(2)Fisherの正確検定

はじめに 前回は、対応関係のない分割表の基本的な解析方法であるカイ二乗検定を紹介した。今回は、同様な形式のデータに対して用いられるもう一つの方法、Fisherの正確検定について述べる。 Fisherの正確検定(以下、Fisher検定とする)とは、カイ二乗検定…

Cochran-Mantel-Haenszel検定とはいったい何なのか

2020/8/3 追記・細かな修正あり。 「Cochran-Mantel-Haenszel検定」(以下、CMH検定)とよばれる一連の方法について、いまいちよくわかっていない。 何がよくわからないかというと、僕は「Cochranの検定」と「Mantel-Haenszelの検定」は同じように層別化した…