統計学集中講座​ 開催

第21回

統計学集中講座

[大阪会場]

毎日新聞インテシオ

オーバルホール  大会議室

2019年

2月16日(土)・17日(日)

データサイエンスの観点から、ハンズオンで学ぶ 臨床研究のための

多変量解析の理論と使い方の実際

講師  市原清志(山口大学大学院医学系研究科保健学専攻)     

    山下哲平(滋慶医療科学大学院大学  医療管理学研究科)     

         佐藤正一(国際医療福祉大学成田保健医療学部  医学検査学科)

ご 案 内

医学分野の研究は日進月歩で著しい発展を遂げていますが、研究の実施にあたり、その全ての過程(デザイン、データ分析、結果の解釈)で、統計学に関してより深い理解と知識・技術が求められます。一方で、分析技術・情報技術の進歩に伴い、取り扱う情報量が増え、統計処理に先立ち、収集したデータを的確に取捨選択し、正しく読み解くには、データサイエンス(DS)の知識と技術を身につけることが重要な課題となっています。 臨床研究は、大きく実験(確認試験)と調査(探索的解析)に分かれます。前者では、「基礎統計」理論に基づく有意差検定(単変量解析)が、その結果(群間差、条件間差)の判定手段となります。一方、後者では、多くの情報が複雑に交錯しており、単純に群間差・条件間差を調べても、偏った判断になりやすく、常に多変量解析を用いた分析が求められます。同時に、それを的確に使いこなすには、その前処理や結果を解釈する過程で、DSの技術である、データの視覚化、フィルタリング、マッチング、組み換え、層別化、分布調整、極端値対応といった方法論の利用が重要となります。 本統計学講座では、主に調査型の臨床研究に焦点をあて、その統計処理で不可欠となる多変量解析法の理論と使い方を、ノートPCを操作していただきながら多数の数値例で体験的に学習していただきます。そしてその過程で、DSの視点と方法論を具体例で解説し、それが統計処理結果にどのような影響をもたらすかを明快に解説します。 なお、科学論文の作成・査読の過程でよく問題となるのが、データマッチングの方法、観察研究に対するデータ数の設定法、検定の多重性、統計処理結果の記載法、等です。そこで、本講座の最後では、それぞれの意味と対策を具体例で解説します。 この系統的なカリキュラムにより、受講者の皆様が、統計学の最新の知識・技術を身につけ、同時にDSの観点から研究データを的確に読み解き、より良い着想・発見に繋げていただけることを願っています。

講座内容

第1日

午前

第1日

午後

10:00〜10:40

1.研究デザインと偏り

臨床研究を、大きく実験(確認試験)と調査(探索的解析)に分けて整理します。前者は一般に確認段階の研究(治験・比較実験)で、適切な対照を用いて介入効果を計画的に調べ、「偏り」が入りにくく、単純な基本検定(単変量解析)で結果を判定します。これに対し、後者(コホート研究・患者対照研究・横断的研究・症例集積研究)では、綿密に計画しても様々な形で「偏り」が入り込むため、多変量解析の利用が必須となります。統計処理上、「偏り」は「交絡現象」と「交互作用」に大別して扱います。その具体例と、層別化、偏相関分析による対応法を解説します。

 

10:50〜12:40

2.多変量解析に必要なデータの予備分析と視覚化

StatFlex のデータサイエンス支援ツール用いて、多変量解析に向けたデータの加工と視覚化のテクニックを次の観点に分けて解説します。

 

(1) データ分割(群分け・個体分けと視点変更)

(2) データ調整(ダミー変数作成、変数組み換え、べき乗変換登録)

(3) データ絞り込み(行・列フィルター、極端値判定)

(4) 予備集計(カテゴリー集計、一括クロス集計)

(5) データの視覚化(多群重ね合わせ描画、乱数振り分け打点、

      多頁自動割付け印刷、行データ縦表示)

(6) Big data前処理ツールの活用法(行数×列数≧30万で威力を発揮)

13:30〜15:10

3.重回帰分析

多変量解析の中でも頻用される重回帰分析は、特定の目的変数と、複数の説明変数の組合せから回帰式を作成し、変数間の相互関連性を調べたり、目的変数を予測したりする方法です。

(1) 重回帰分析の数理と解釈・偏り補正の機序

(2) 説明変数の取捨選択法と交絡現象・交互作用への対応

(3) ダミー変数の作成法と解釈

(4) 回帰の適合度の判定

(5) 標準偏回帰係数の活用法

 

15:25〜16:00

4.判別特性分析

ある計測値(検査値)の診断的有用性を評価するには、判別すべき群(被験群/疾患群)と対照群の計測値の分布の形状から、その重なりの度合い(判別度)を調べます。

(1) 判別効率を表す指標

    (感度・特異度・的中率、オッズ比・尤度比)とその信頼区間の算出

(2) ROC曲線の作り方と曲線下面積の検定

(3) 感度・特異度曲線に基づくカットオフ値の設定法

 

16:15〜18:00

5.ロジスティック回帰分析

患者・対照研究などで得られた比較すべき2群に着目し、両者の違いに関わる要因を評価する分析法です。一般に、2値型の目的変数(疾患の有無、再発の有無、など任意の特性の有無)と、各種属性や計測値(説明変数)との関連性を定量的に評価できる、応用範囲の広い要因分析法です。

(1) 一変量ロジスティック分析の数理とROC分析との対比

(2) 多変量ロジスティック分析における回帰係数の意味とオッズ比の算出法

(3) 回帰予測値を利用した、複合診断のテクニックと判別能の評価

(4) マッチングされたデータに対する条件付きロジスティック分析法

 

18:00〜18:30

質疑応答

 

 

9:00〜10:50

6.Cox回帰分析と生存曲線・発症要因の解析

a) カプランマイヤー法による生存曲線の作成と有意差検定

さまざまなイベント(生死、発症、治癒、成否)の発生状況が経時的にどのように変化するかを調べるグラフ表示法です。その計算・作図の仕方、生存曲線の差の検定法の実際を演習します。また、単変量解析であるため、その適用に限界のあることを学びます。

 

b) Cox比例ハッザード回帰分析

あるイベントが起こるまでの期間に関係する因子(説明変数)を多変量的に分析する手段です。

(1) 生存曲線におけるハッザードのグラフ上の意味

(2) Cox回帰式の数理と相対リスクの算出、生存曲線との対比

(3) Cox回帰式によるprognostic indexの算出

(4) 予測生存曲線の利用法 

 

11:00〜14:30 (昼休み 12:30〜13:20)

7.多変量解析活用のノウハウ

3つの多変量回帰分析を的確に利用するポイントを、具体例で解説します。

(1) 回帰モデル構築における予測型回帰と検証型回帰の区別

(2) データの分布型の把握と変数変換、極端値への対応

(3) 多重共線性 (multi-collinearity) の判定法と対策

(4) 分析結果の再現性の確認法(クロスバリデーション)

(5) 過剰適合(over-fitting)が起こる条件と対策

(6) オッズ比、相対リスク算出法の工夫

(7) 後ろ向き研究に対するデータ調整法(傾向スコアマッチング)

 

14:45〜16:00

8.科学論文の作成・審査で指摘される統計上の要求事項と対策

(1) 介入研究におけるデータ数の設定法(G*Power利用上の注意点)

(2) 調査研究におけるeffect sizeの意味とデータ数設定の考え方

(3) 多重検定と確率補正の必要性

(4) 調査研究において単変量解析と多変量解析の結果を併記することの是非

(5) 図・表作成における、統計量・検定結果の提示法

(6) 統計処理法に関する英語表現の要点

 

16:00〜16:30

質疑応答

 

第2日

到達目標

■研究デザイン

・介入研究と調査研究で、統計処理法が大きく異なる理由がわかる

・調査研究における「偏り」の原因を理解し対処できる

■データ予備分析

・データの視覚化ツールを活用し、データを見通せる

・データの絞り込み・層別化・変換を的確に行え、最適な統計解析に向け準備できる

■多変量要因分析

・説明変数の取捨選択を、研究目的に応じて適正におこなえる

・ROC曲線による検査の診断的有用性の評価法とその限界がわかる

・多重ロジスティック回帰で調整オッズ比を計算し、診断予測式を利用できる

・カプランマイヤー方式の生存曲線の作成法とその限界がわかる

・Cox回帰を使って調整相対リスクを計算でき、予測生存曲線を利用できる

・多変量解析における過剰適合の現象を理解し、分析結果の再現性を評価できる

■科学論文作成

・統計処理方法を的確に記述できる

・結果を示す図表を適切に示せ、その解釈を明確に記述できる

本講座の

特徴

■受講対象者

主にバイオサイエンス・医療分野の研究者を対象とし、研究のデザイン・データ分析・学会報告や論文作成で、日常的に統計処理のニーズをお持ちの方を対象としています。講義内容は、多変量解析が中心ですが、系統的に解説しますので、それを正式に勉強されている必要はありません。

 

■StatFlex最新版を利用します

本講座では、終始ハンズ・オンの形式で、身近なデータをご自身で操作していただきながら進めていきます。ソフトウェアは、講師らが開発したStatFlex Ver.7 の講習会バージョンを利用します。StatFlexは、1990年の初版以来、一貫してデータの視覚化にこだわった統計ソフトで、沢山のデータ分析支援ツールを備えています。その利用により、研究データの全解析過程(データの取り込み、データの視覚化とその適正の判断、変数変換などの前処理、変数選択の実際、検定結果の解釈、各種予測値の計算、等々)を、沢山の数値例で効率よく学習していただき、「研究データと向き合い・その結果を読み解く技術」を習得していただきます。日常、他の統計ソフトをご利用の方も、多変量解析活用のノウハウ、結果の解釈は全く同じですので、奮ってご参加下さい。もちろん、分析結果は、R, SAS, SPSSなど主要統計ソフトと同じになります。

 

■Windowsノートパソコンをご用意下さい

ご自身のノートパソコン(PC)を持参してください、全員同時に利用できる電源を確保しています。ただ、StatFlexは残念ながらMacには対応していません。Macノートをご利用の場合は、Windowsの仮想環境(Parallels、Virtual Box等)が必要です。Windowsを利用できるPCをお持ちでない場合は、若干数貸し出し可能ですので、申込時にお知らせください。また、データをエクセル形式のファイルとして配布しますので、それを利用できるソフトウェア(Microsoft Office® など)が必要です。

 

■効率的な学習環境を提供します

ゆったりとした座席配置、大きなスクリーンを備えた広い会議室を用意しています。インターネットも常時Wifiでご利用いただけます。コンピュータの操作に不慣れな方にも、講師も含め常時3~5名のスタッフが、個別に演習の操作をサポートして講義を進めてゆきます。このため、制御可能な最大受講者数を70名に設定しています。定員に達し次第募集を締め切りますのでお早めにお申し込みください。

 

■カラー図式で分かりやすく解説

講義用のスライドでは、ほとんど全ての統計理論や数値情報をカラーで図式化したものを使用します。その内容を印刷したテキストは、演習(データファイル)とともに当日配布します。

■統計処理に関する疑問にお答え

本講座では、講義中のQ/Aに加え、休み時間、講義前や終了後の時間を利用して、日常の統計処理に関するあらゆる疑問にお答えしています。進行中の研究で、そのデータ分析の手順や、統計処理結果の解釈に関して疑問をお持ちの場合、研究の概要説明と実際のデータまたはそのモデルを持参ください、個別に回答いたします。

 

■StatFlex講習会バージョンについて

本セミナーでは、最新バージョン(Ver.7)を、統計講習会用に調整した無料バージョン(2ヶ月間有効)を用意しました。

 

■StatFlexのユーザの方、StatFlexを新規購入される方への

   受講料の割引について

StatFlexのユーザは、そのバージョンによらず、1ライセンスにつき1名、割引価格で参加いただけます。バージョン4~6は、いずれも3ライセンスつきですので、ユーザは3名まで割引価格で参加いただけます。また受講後に新規購入された場合には、セミナー参加割引分に相当する金額を値引きして販売いたします(割引適用は受講後2か月以内に限ります)。