StatFlexについて - 開発経緯 -
StatFlexは初版発売後33年10ヶ月を経過しましたが、誰がどのようなプロセスで開発し、また数理ソフトウエアとしての解析結果の検証をどのように行っているかについて、正式に公開してほしいとの要求が、最近ユーザから寄せられました。実際上、その開発を一貫して統括してきましたのは下記の経歴をもつ私、現在山口大学に所属する市原清志です。 StatFlexという大規模なソフトウエアの開発は、大学人として教育・研究に携わる中、副業として行ってきた事業でした。これには、多大な経費が必要で、StatFlexは有料で配布することが必須でした。そこでその制作費は自前で捻出し、販売は知人の会社に依頼する形をとりました。しかし、2003年大学発ベンチャーを立ち上げてはいましたが、副業であるとの意識から、私自身の関与は明確にはしてきませんでした。 幸い、定年後でより自由な立場となり、2018年に株式会社 医学統計研究所を起業していますので、この機会に、StatFlexの開発主体を明確に示し、これまでの開発プロセスを公開し、かつ統計解析結果の検証過程についても、公開することといたしました。これにより、StatFlexをご利用の皆様が、分析いただいた結果を躊躇なく公表していただけるようになることを願っています。 StatFlexの開発過程に関して、もう一つ疑問が出ると思われますのは、私の専門領域は医学、特に臨床検査医学、臨床疫学、臨床内分泌学であり、経歴からはStatFlexの開発に必要な統計学と情報技術の学術的な背景を持たない点です。 実際上、両分野の技術は、洋書を読破し独学で得たものです。その達成には、大学時代に獲得した英語による知識の習得能力が大きく関わっています。1970年山口大学医学部2年生の夏、北米をバスとヒッチハイクで80日間旅行し、米国の高速道路網、超高層ビル群、ショッピングモールのスケールに圧倒されました。そして、日本がそれに対抗するには、まずは英語力を高めるしかないと痛感、そこで医学を最大限洋書で独習すると決め、卒業までにほぼその目標を達成しました。 1975年山口大学卒業後、地元の大阪大学大学院臨床検査診断学に入学しましたが、すぐに統計学が臨床研究に必須であることを知りました。その後2冊の統計学書「Wonnacott TH: Introductory Statistics」「Siegel S: Nonparametric Statistics for Behavioral Science」に出会い、強い感銘を受けました。その後、主要な統計学書を全て英語で読みあさり、統計処理の依頼が入るようになり、学内のセミナーも開催しました。その後1982年からは全国規模の統計学集中講座を開催するまでになりました。 一方、StatFlexの開発に必要なプログラムの技術の習得は、大学院入学直後の1975年、研究室に高価なプログラム電卓(2000ステップ)の試用依頼があったことがきっかけです。それが私のコンピュータとの最初の出会いでしたが、その数冊の分厚い英語解説書を数週内に読破し、何ができるかを理解しました。早速、検査室の業務で必要な回帰直線やロジスティック曲線回帰のプログラムを独自に開発しました。 以上の経緯から、高校では数学が得意であったこともあり、統計学の数理やプログラム技術は、偶然私の思考過程に適合していたため、独学での習得が可能であったと思っています。
開発経緯
1984年~1987年
1986年 4月
1990年 3月
1992年 8月
1993年
1995年 6月
1997年 6月
1999年 9月
2002年 4月
2005年
2009年
2014年
2016年
2019年 1月
大阪大学講師医学部の市原清志が全国規模の統計学集中講座を計9回開催
市原は、使い易い統計処理ソフトウエアがなく、受講者が誤った処理に陥りやすいことに気づく。そこで、自動的にグラフ化できるソフト作成が急務と考え、ビジュアル統計ソフト「StatFlex」の開発構想を作成。(当時)大阪大学医学部マイコンクラブのメンバー岡田氏、西山氏、他、大阪大学基礎工学部情報工学部の上野氏の協力を得て、C言語によるプログラム開発がスタートした。
同年、市原は平行して統計学の教科書の執筆にも着手した。これにより、統計理論を数理的に明確に提示し、検証可能な形で統計計算モジュールを逐次作成した。
市原は基礎統計学書「バイオサイエンスの統計学」を南江堂から出版、それと同時にStatFlex初版を完成させた。
その特徴は、①データを読み込めば自動的にグラフ化。②バイオサイエンスの統計学に掲載した全ての統計処理機能に対応。③主要な多変量解析に対応(重回帰分析機能、ロジスティック回帰分析機能、主成分分析機能、判別分析)、④全ての操作は、操作マウスがない時代であったが、アイコンで示すファンクションキーで簡単に操作可能。⑤多様な統計分析図の作成。⑥統計処理結果の編集・印刷機能、等々であった(StatFlex初版序)。
このビジュアル統計ソフトStatFlexの制作・販売のため株式会社 ViewFlexを立ち上げ、南江堂を通して販売した。いずれも大変好評となり、本はすぐに増刷、ソフトは初年度だけで3000以上のライセンス販売した。
StatFlexの分析結果は、全て「バイオサイエンスの統計学」の例題43, 演習問題30の数値例の結果と合致することを確認した。なお同書は2023年末で累計76,800冊(29刷)発行され、この33年に読者との交信は多数あったが、計算ミスの指摘は一つもなかった。
(抜粋圧縮版)
StatFlex Plus (Ver. 2)をリリース。
開発には、当時のOSであるMS-DOSの機能を最大限活用すると共に、より高度な多変量解析機能を追加すべく、大阪大学基礎工学部の情報工学科の庄野氏が開発に加わった。その改良点は、①多変量解析機能の強化(クラスター分析、Cox回帰、主成分分析、因子分析、2・3レベル枝分かれ分散分析)、②有意差検定機能の強化(生存分析、ROC分析、計数値データの検定、他)、③自動グラフ機能の強化(ROC曲線、生存曲線、樹形図、高精細フォント採用)などであった。このVer. 2.0のリリースで、さらにユーザ数が増えた。この間、統計学集中講座は好評を得、年二回のペースで開催をつづけ、StatFlexの活用法を多数の実例で解説した。
同年、市原は川崎医科大学助教授・検査診断学に異動したが、引き続きStatFlexの保守・開発を統括した。
StatFlex Plus(バージョン2.5相当)をリリース、グラフの高精細化、印刷品質を向上させた。
Windows 3.1の登場により、C言語の拡張版であるC++言語を使った高度なプログラム開発が可能になった。そこで、StatFlex Ver 3.0をマイクロソフト社提供のVisual C++を利用して開発した。しかし、完成間近でWindows95が世に出ることとなり、リリースのタイミングを逸したまま自然消滅する形となった。また1992年以降、バイオ分野の多くの研究者は、MS-DOSからマッキントッシュに移行することとなり、StatFlexの販売実績は明らかに低下した。
市原は川崎医療福祉大学 医療情報学科教授を兼任、同学科の佐藤氏が開発に加わりWindows 95の環境下でのStatFlex for Windowsの開発を着手した。
またC++言語に精通した(当時)大阪大学基礎工学部の藤原氏、越智氏が開発に参加した。
Windows 95/98/NT で動作する StatFlex V4.2 for Windowsを作成、株式会社アーテックから販売した。
改良点は、①Microsoft Officeとのデータ連携、②データシートの操作性の向上、③統計処理機能改良(Visual クロス集計、分布型分析パネルで正規性検定を追加、等々)、④グラフ編集機能改良(Scalableなグラフに対応、描画要素調整オプションを拡充)
Windows98で動作するStatFlex Ver. 5.0 for Windowsを完成、株式会社アーテックから販売した。
改良点は、①Windowsの優れた情報処理環境(マウス、フォント、画像処理、ファイル操作等々)を実現。②グラフ編集機能とその再利用性の向上。③統計処理機能の追加(2・3レベル枝分かれ分散分析、混合デザインANOVA、多変量二群の差の検定、他)④その他(ダミー変数自動作成、クロス集計機能)。 このバージョンのライセンス販売数は数年で4500を実現。
市原は山口大学医学部保健学科に異動。
より高度な情報処理が可能なC#言語によるStatFlexのプログラムの書き換えをスタート。
同時にWindows 8の進化したユーザインターフェースを取り入れたStatFlex Ver 6.0の開発プロジェクトを立ち上げた。このため、C#言語に習熟した、(当時)山口大学知能情報システム工学科(現:知能情報工学科)の山下氏、小宮氏、小柳氏が新たに開発に加わった。その開発会社として、市原は、山口大学発ベンチャーとして有限会社 ユーミットを設立した。
Windows8で、動作するStatFlex Ver. 6が完成、同じく株式会社アーテックから販売。
改良点は、①Windowsの優れた情報処理環境(マウス、フォント、画像処理、ファイル操作等々)を実現。②統計処理パネルの操作性の向上、③統計処理結果をツリー構造で格納・表示し、編集可能に。④グラフ編集機能とその再利用性の向上、⑤ユーザマニュアルのオンライン化、などを実現した。
簡略化した基礎統計の教科書「新版統計学の基礎」を発刊、そこにStatFlexの基礎統計版(多変量解析やグラフ編集機能を除外)を付録として無料配布し、統計学の授業でご利用いただけるようにした。
(抜粋圧縮版)
市原は定年を迎えたが、山口大学大学院特命教授として専門分野の研究は継続した。またより自由な立場となり、新たに株式会社 医学統計研究所を立ち上げた。その年から、統計解析機能の向上とBigData対応を目指し、Windows 10で動作するStatFlex Ver. 7.0 for Windowsの制作を開始した。新機能として、①R統計パッケージを直接利用する機能を構築、新たに条件付きロジスティック回帰分析、多重比較結果の正確P値の算出、汎用的なFisher直接確率法の計算を可能とした。②クロス集計表を、検定機能付きで自在に制御可能に。③大多数の統計処理を、全頁・全群に対し自動一括処理を可能に。④多変量解析結果の解釈を支援する自動グラフ機能の改良。⑤統計処理結果をHTLM形式に対応させ、出力の再利用性を向上。⑥Big Data解析の前処理機能として、データ数無制限で、パラメター毎の分布型や異常値の頻度の視覚化を実現、またサンプリングして統計処理も可能とした。
StatFlex Ver. 7を、上記のスペックで完成させ、医学統計研究所よりリリースし、現在に至る
StatFlexの統計計算機能の検証
■基礎統計:「バイオサイエンスの統計学」例題43、演習問題30の数値例を利用
●独立2群・多群間の差の検定
2標本t、Mann-Whitney U、F検定、一元配置分散分析、Kruskal-Wallis、Bartlett検定
●関連2群・多群間の差の検定
1標本t、符号検定、1標本Wilcoxon検定
●相関と回帰
相関係数の検定、スピアマン順位相関係数の検定、回帰直線係数の検定、
2つの相関係数・2つの回帰直線の差の検定、等確率楕円の通過点の計算、重相関係数
●計数値の検定
2×2分割表(Fisher直接確率法、κ統計量、φ係数、Q係数、McNe-mar検定)、
l×m分割表、母比率、比率の差の検定、χ2適合度検定
●分布型の評価
分布の正規性の評価(正規確率紙法、χ2適合度検定、歪度、尖度)、スミルノフ棄却検定
●統計理論分布について、統計量⇔確率の計算
正規分布、t分布、F分布、χ 2 分布、2項分布、ポアソン分布
■R統計パッケージによる確認 (StatFlex Ver 7.0のマニュアルから抜粋)