Mabuhay!

日々の日記:研究とか留学とかおいしいご飯とか

Spatial RDD 空間回帰不連続デザイン (World Bank Blogsより)

Spatial Regression Discontinuity Design (SRD, Spatial RDD)(空間回帰不連続デザイン)は通常のRDデザイン(RDD)のカットオフ(閾値)を空間としての区切りに置き換え、衛星データなどを利用できる時に計量分析を行える手法だ。

 

今回 Spatial Jumpsという世界銀行のブログ記事を発見したので、日本語訳を本記事として載せることにより理解を深めながらSpatial RDDについて説明していきたいと思う。

なお、元記事のブログでも数学的なお話は触れられていないので、この記事でも触れていない。
より詳細な話を聞きたいのであれば、このスライドが非常に有用であろう。

私自身、修士論文でこの手法を用いるかもしれないので、自分への勉強も兼ねて、有益な英語サイトの日本語バージョンを世に送り出すことは公益になるのではないかという独りよがりの決断によりこの記事は執筆されている。

 

なお通常の回帰不連続デザイン(RDD)については各自調べていいただければと思う。

回帰不連続デザインに関してはこちらの資料が図解的でわかりやすいだろう。

それでは本題に入っていくことにしよう。

 

 インフラ開発の評価

インフラへの投資は開発途上国における経済発展への重要なカギとなる。このため、世銀のインフラへの投資は全体の40パーセントを占めている。

これらの投資による影響を知ることは政策立案のためにも重要なことであるが、実際インパクトを推計するのは難しいんですね。

インフラ投資はたいてい成長が見込まれる場所にその他の投資とセットで補完的に行われるからである。

なので他の投資や、そもそも以前からの傾向としてある経済成長の影響を考慮して個々のプログラムのインパクトを推計するのは非常に難しいのだ。

これはつまり、多くの開発経済学者がいかにインフラ開発プロジェクトの因果効果を推計するかということに腐心してきたことのあらわれでもある。

これまでに多くの解決策が提示されていれ、そのうちの一つがSpatial Jumps (空間的ジャンプ)なのである。

空間回帰不連続デザインとは何か?

単にインフラ整備の前後の結果を比較したり(以前から存在している何らかの経済成長の影響を取り除けていないかもしれない)、新しいインフラ設備を享受している地域とそうでない地域を比較したりすること(そもそも存在している地域間の生産性の差や他の指標と相関してるかもしれない)は、しっかりとしたインフラ投資の因果効果を測れているとは言えないのである。

もっと複雑な話をすると、インフラの発展はインフラ投資へのリターンを守ったり増やしたりするための政府の他の介入と合わさってることも多々あるのである。

一つの解決策としてインフラ投資が行われている場所と行われていない場所の境界線をSpatial discontinuity(空間的不連続)として利用するというのがある。

この記事の最後でも触れる実用例として、ルワンダにおける丘陵灌漑設備という、重力に従って水路の水を流すという仕組みがある。

この灌漑システムの因果効果は二つの理由により図ることができるのだ。

一つ目に、この仕組みは灌漑設備へのアクセスが分断されているということである。

つまり、図において上(というより右?)のプロットは水路が灌漑へアクセスしていない区域で、下(というより左?)のプロットは水路が灌漑にアクセルできている区域を示している。

二つ目にこの状況は、水路が急すぎず、平たん過ぎない、「定まった」傾斜が必要であるということである。(よく考えたら当たり前かもしれないが)

これはつまり、水路を境目として、灌漑にアクセスできている地域と、できていない地域で土地の傾斜が恣意的に変えられておらず、ランダムに土地が割り振られているのとほぼ同じであると考えることができるのだ!

f:id:mm-widen-1997:20200528113814p:plain

この研究デザインの肝は上の図でいい感じにとらえられている。

水路がこの丘陵地帯を二つ(ピンクと紫の部分)に分断しているのがわかるだろう。

ピンクが灌漑にアクセスできている地域で、紫ができていない地域である。

そして、水路から50メートル以内のそれぞれの地域を利用して分析を実際にしていく。

50メートル以内の地域を利用することで、二つの地域の違いを灌漑にアクセスできているかできていないかということだけでし、かなり近い特徴を持った二つを比較することで、農業の生産量や、土地への投資の差が灌漑へのアクセスによる効果であると考えることができるのである。

Spatial RDDRDDはどう比較できるのか?

実際のところこの二つはとても似ている。

RDDに関する詳しい記事はこちらから

RDDを使うとき、研究者の方々は閾値周辺の二群を比較することで因果効果を推定する。

RDDとSpatial RDDは根底にある考えは近いが、いくらかの重要な違いがあるのでここで述べておこう。

  • 推計に与える影響の差
  1. 多面的カットオフ: 通常のRDDはある一つの閾値の前後でデータを分断するが、Spatial RDDは緯度・経度の二つがデータの不連続性を決定する。
  2. Spatial RDDRDDを行う際の仮定(十分なサンプルサイズ、多くの個人がカットオフ周辺に存在している)では成しえない様な十分に粗いレベルでデータの取得が可能である。
  • 推計の解釈への影響の差
  1. 複数の政策: 通常のRDDでは一つの政策変化しかとらえられないが、Spatial RDDは地理的境界をまたいだ複数の政策変更がよくある。 この際政策変更や、トレンドの変化に注意する必要がある。
  2. 地理的スピルオーバー: 通常のRDDでは全体の母集団と比較して閾値周辺にいる個人は相対的にほとんどいないので閾値周辺の他人に与えてしまう影響はかなり小さいといえる。しかしSpatial RDDの場合はそうではなく、地理的に近接している政策対象ではないグループに影響を与えてしまう(スピルオーバー効果)可能性があることに注意する。
  3. "Manipulation (操作)": RDDでよく懸念されることは個人が政策の利益を享受するために恣意的に自己を政策参加者となるようにしてしまうという可能性があり、これを"Manipulation Bias"という。しかし、Spatial RDDは地理的要因に決まるものなのでおそらく恣意的に"Manipulation Bias"は起こりないくいだろう。むろんその他の選択バイアスは起こるかもしれないことは考慮すべきである。
  • 推論に与える差
  1. Spatial RDDにおいて、アウトカムと政策参加に可能かなどは地理的要因との相関を典型的に示している。これを正すためにClustered robus standard errorsなどが使えるだろう。細かい討論はこちらから

空間回帰不連続デザインを行う

これまでいくらかのSpatial RDDを行うためのキーポイントを説明してきたが、それでは一体どのように利用するのか。

  • マッチング: 空間的に近いもの同士をマッチングさせて、政策に参加しているかしていないかの差と、アウトカムの差を回帰することができる。
  • 通常のRDD: 地理的境界で分断し、境界からの距離を分断して回帰分析を行う。これは通常のRDDと直感的に同じなので、RDDの仮定を満たしているとこの方法は有効である。
  • ハイブリッド法(Spatial Fixed Effets): それぞれの個人において、平均のアウトカムやその他のコントロール変数の平均を計算する。そして、それぞれの個人の変数の平均をそれぞれ引く。この手続きがいわゆる"Spatial Fixed Effects"である。そして、平均値を落として値で回帰分析を行う。