国会採掘このサイトについて

このサイトについて

概要

本サイトは国立国会図書館の国会議事録検索システムで収集した議事録データから、使用されている単語を抽出・集計し、発言者ごとにまとめたものです。対象とした議事録データはページ生成時点での直近2年間のものです。掲載しているデータは、単に単語の出現回数を元に集計したものであり、該当単語に関する発言者の主張、発言の根拠、発言の妥当性を示すものではありません。

掲載しているデータは、国会議事録の更新・集計方法の改善などにより、予告なく変更される場合があります。

本サイトの開発・管理は管理者個人が実施しており、あらゆる団体・企業とは一切関係ございません。

また本サイトのデータを用いた際のトラブルに関して、管理者は一切責任を負いませんのでご了承ください。

なぜ作ったのか

このサイトで実現したかったのは以下の3点です。

政治観を排除したデータ提示
事実に基づいたデータ提示
個々の議員へのフォーカス

政治観を排除したデータ提示

我々はネットや雑誌で様々な政治記事を読むことが出来ます。

しかし各記事には当然筆者がおり、文章により何かを述べる以上はその政治観を排除することができません。また政治記事・経済記事はその筆者の主張が根底にあり、議員評もその主張に引っ張られます。それを踏まえると、記事に国会議員の評価が記載されていたとしても、それを鵜呑みにすべきではありません。

では個々人が議員の発言・行動をチェックして評価を下せば良いのかというと、日々の生活がある中でその作業をこなすのは、多くの人にとっては不可能ではないでしょうか。

このような状況を少しでも改善するため、国会採掘というサイトを立ち上げました。

国会採掘では、プログラムを用いて議事録のテキストデータから単語を機械的に抽出しています。そのため単語の抽出段階では管理者(私)の主観も排除できます。（抽出プログラムは管理者個人が書いているのでそこに恣意性が入り込む可能性があるというご指摘はあり得ると思います。それについては抽出の方法を（ほんの概要程度ですが）以下に説明し、抽出結果のサマリー（該当単語の言及回数＆言及者数）を各単語の抜粋ウィンドウで示すことで、透明性と検証可能性を確保しているつもりです。

ただし国会採掘で提示するデータは、議員がよく発言する「単語」とその単語が使われた時の「議事録の抜粋」のみです。これにより「議員がどのような問題に関心を持っているか」は確認できますが、それより一歩踏み込んだ「主張が妥当か」「発言に根拠があるか」「実現可能な政策か」といった発言評価や、ひいては「我々の代理人として行政・立法を任せるべき人物か」といった人物評価は利用者の皆様に行なっていただく必要があります。

事実に基づいたデータ提示

現在メディアやネットでは与野党問わず様々な政党の評価が入り乱れています。

その中には都合の良い部分だけを抜き出すなど国会での実際の発言とかけ離れたものや、事実というより単なるレッテル貼りに過ぎないもの、酷い場合には虚偽の情報もあります。さらに選挙時には候補者は公約を掲げますが、単に耳触りのいい言葉だけを並べている可能性も否定できません。このような問題に対抗するには"事実"を提示し検証していくしかありません。

国会採掘は国会議事録という公式に記録された"事実"のみを用いて単語を抽出します。先ほど述べた通りプログラムを用いて機械的に抽出するため、恣意的な情報の抜き出しが生じる余地がありません。

ただし国会では様々な"事実"が存在します。
国会議員としては質問主意書の提出、議員立法発議、党内での議論や各種調査なども仕事に含まれます。閣僚であれば国会答弁以外に、当然行政府としての実務があります。
国会議員の仕事が多岐に渡るという事実に対して、国会採掘で対象としているのは国会議事録のテキストデータというほんの一部に過ぎません。
そのため国会採掘は国会議員を知るための情報チャネルのひとつとして活用いただければと思います。

個々の議員へのフォーカス

数年ごとにある衆院選・参院選で私が一番困るのが選挙区での投票です。ニュース等で各政党の主張などは知ることが出来ますが、議員個人の仕事ぶりはなかなか知る機会が少ないのではないかと思います。しかしニュースで報道されないだけで、それぞれの議員はその志に従って仕事をされています。また一部の問題については議員連盟を結成し、超党派で活動をされている議員もいます。

議員個人を知らずに選挙に臨むのはあまりにも勿体ないと思います。

政党だけではなく人を見て選択したい、という場合に是非活用していただければと思います。

集計方法

単語の抽出・集計

国会議事録の会話文に対して形態素解析を実施して品詞ごとに分解し、名詞のみを抽出して集計を行なっています。解析用の辞書として独自のユーザー定義辞書を使用しています。ユーザー定義辞書の単語数は現在15,000語程度であり、今後も継続して単語追加する予定です。

議員の所属・役職

議員の院内会派は衆議院・参議院公式サイトのプロフィールページから取得しています。在職中に亡くなられた、もしくは辞職されたなどによりプロフィールページが削除されている議員は会派がNo Dataと表示されます。

役職は首相官邸公式サイトの現行内閣の閣僚等名簿ページから取得しています。また一部発言者については、議事録内のpositionタグから役職を取得しています。

頻出語・特徴語

発言の中で多く出現する単語を「頻出語」、その発言者を特徴付ける単語を「特徴語」と定義しています。

頻出語のスコアは、単語の出現回数を単純に集計したものです。

特徴語のスコアは、各議員の総発言を一文書とみなしてTF-IDF値を計算したものです。TF-IDF値は各議員が該当単語を多く発言するほど高くなり、逆にその他の議員が発言すると低くなります。計算処理時間の都合上、特徴語スコアの計算は5回以上登場する単語に対してのみ行っています。よって発言回数が多い場合でも、発言単語が幅広く分散し、各単語の出現回数が少ない場合は特徴語の数が少なくなる場合があります。

また衆議院議長・参議院議長の発言は、議論ではなく議会運営に関するものが多いため、集計から除外しています。

ワードクラウド

各議員の特徴語をワードクラウド図にして掲載しています。

図中の単語の文字サイズは特徴語スコアに対応しており、スコアが大きいほど文字サイズも大きくなります。図中の単語の配色や配置は、図中に単語を隙間なく詰め込むために調整されたものであり、発言における単語間の関係性を表したものではありません。

管理者への連絡

当サイトへの不具合のご指摘・改善要望等はTwitterアカウント @KokkaiSaikutsu までご連絡ください。

なお個人での管理のため、対応に時間がかかる場合があります。ご了承ください。