2014/06/27

オープンデータ、ビッグデータ

6月18日(水)、日経新聞系列の日経BP社が発行するIT業界向けの週刊誌『日経コンピュータ誌』の記者さんから取材を受けました。

昨秋以来、日経新聞や日刊工業新聞、日本農業新聞といった新聞や、日経情報ストラテジー誌をはじめとした雑誌、各種Webマガジンといったマスコミの取材を受けることが増え、また、それに伴ってでしょう、先日のガートナージャパン様のセミナーのように講演を依頼される機会も急に増えてきました。

昨日(6月26日)の毎日新聞朝刊でも「天気ビッグデータ 活用進む」と題して当社の取り組みを紹介する記事を掲載していただきました。

思ってもいなかったことですが、そのいずれにも共通するキーワードがあって、それが『オープンデータ』と『ビッグデータ』です。

最近のIT用語によく見られるように、この『オープンデータ』や『ビッグデータ』にも様々な用語の定義があり、私はそうした言葉の定義が得意な学者先生ではないので私なりの理解で書かせていただきますが、『オープンデータ』とは、自由に使えて再利用もでき、かつ誰でも再配布できるようなデータのことを指す用語のことです。

また、『ビッグデータ』とは、市販されている代表的なデータベース管理ツールや従来のデータ処理アプリケーションプログラムでは処理することが困難なほど巨大で複雑な構造を持つデータ集合の集積物を表す用語のことです。その技術的な課題としてはデータの収集、取捨選択、保管、検索、共有、転送、解析、可視化が含まれます。

気象庁から気象支援センター経由で我々民間気象情報会社に提供される気象情報(データ)は、まさに『オープンデータ』で『ビッグデータ』であると言えます。

さすがに、誰でも自由に使えて再利用も可能なデータであるかというと、必ずしもそういうわけにはいかず、それを行うには気象庁から予報認可を受ける必要がありますが、我々認可を受けた民間気象情報会社にとっては、間違いなく『オープンデータ』です。

また、そのデータサイズに関しては下図に示す通りですが、データサイズもさることながら、データの更新頻度が高いことが特徴として挙げられます。地上の気象観測装置(アメダス)の観測データは、最短10分毎に入手することが可能であり、気象レーダーの情報は、現在、日本全国1kmメッシュ毎に区切った地点の降雨観測データを、5分間隔で入手することが可能です(Cバンドレーダー)。現在、より詳細なXバンドレーダーの導入が全国で進んでいて、今年度中に気象庁が正式運用する計画にあります。これの運用が開始されると、日本全国250mメッシュ毎に区切った非常に細かい地点の降雨観測データを、5分間隔で入手することも可能となります。その意味で、十分に『ビッグデータ』であると言えます。

14052615sajp

『ビッグデータ』の課題として、データの収集、取捨選択、保管、検索、共有、転送、解析、可視化があると言うことを上記に書きましたが、気象ノウハウに基づいて独自に開発したIT技術を用いてそれらを行い、様々なITシステムで容易に扱えるようにしたのが、弊社の独自局地気象サービス『HalexDream!』です。

独自の局地気象予報サービス『HalexDream!』等を実用化したことで、マスコミからは『オープンデータ』、『ビッグデータ』の具体的な活用事例として注目されている弊社の取り組みですが、実は最初から『オープンデータ』、『ビッグデータ』に取り組んでやろうと勢い込んで取り組んだものではなかったのです。

多くのIT用語と同じように、米国から入ってきた『オープンデータ』、『ビッグデータ』という言葉が日本国内で一般的に使われるようになったのは、ほんのここ1、2年ほどのことです。いっぽう、弊社が現在のシステムの開発に着手したのは今から5年前のこと。当時は誰も『オープンデータ』や『ビッグデータ』なんて言葉は使っていませんでした。

弊社はただ、十分に使いきれなくて、生モノだからという理由で捨てられていた膨大な気象データを“宝の山”と捉え、それをなんとか使えるようにできないか…との思いで、この5年間、取り組んできたに過ぎません。

実は、気象庁から提供される気象情報は、大きく2種類に大別できます。広く一般の方々(主として一般生活者)に向けて提供される「一般報」と呼ばれる極めて基本的な気象情報と、各種産業用途に資するために民間気象情報会社等で加工することを前提に提供される「特定利用報」の2つがそれです。

http://www.halex.co.jp/about/sp/sp-1.html

「一般報」は世の中の皆さんがテレビやラジオ、新聞、インターネットのWebサイト等で目や耳にされる情報で、気象庁が国の広くあまねく公平に…の原則で国の税金で提供される情報であるため、基本的に無料の情報です。

いっぽう、各種産業用途に資するために提供される「特定利用報」は、気象庁から提供されるより詳細な気象情報をもとにして、気象庁から予報認可を受けた民間気象情報会社等である特定の情報利用者向けに加工され、「あなただけの天気情報」として提供される情報のことです。この「特定利用報」は、受益者負担の原則から有料で提供される情報となります。

「一般報」の情報も、「特定利用報」の情報も、情報の大元は一緒で、気象庁が全国に展開している地上観測設備(アメダス)、気象観測レーダー、気象衛星からの観測画像等をもとにスーパーコンピュータで解析され、過去の事例解析や物理法則等に基づくシミュレーションモデルによる数値予報の演算結果をベースにしています。

その数値予報の演算結果を、一般利用者向けに広くあまねく公平に提供するために、気象庁のほうで“一次加工”を行って提供しているのが「一般報」です。この「一般報」はテレビやラジオ、新聞といったマスメディアを介して提供されることを想定されているため(昔はそれしか有効な情報伝達の手段がなかったため)、提供される情報量にはどうしても制限があり、“東京23区”や“千葉県北西部”といった都道府県を幾つかに区切った“予報区分”ごとに一次加工されて、テレビやラジオ局、我々民間気象情報会社に提供されていました。そして、それを受信したテレビやラジオ局、民間気象情報会社では、体裁を整えたり、分かりやすく解説をしたり…ということを主たる事業として行ってきたのです。

しかしながら、そうした事業では“付加価値”というものを乗せにくく、どこでも内容に大差のないコモデティ化した情報であるため、勢い価格競争に陥りやすく、気象情報会社はどこも苦しい経営状況に陥りがちでした。実際、気象情報提供の市場規模は年間300億円程度にとどまっていて、それは気象予報事業が民間に解放された1993年(平成5年)以降、ほとんど変わっておりません。

先日のブログ『日本史の謎は「地形」で解ける』でも、書きましたが、日本列島は北緯25度から45度の温帯に位置して、周囲を海に囲まれた南北に細長い列島です。列島の7割は山岳地帯で、平野の面積は僅か1割に過ぎません。その平野はいずれも沖積平野で、水捌けが悪く、雨が少しでも降れば水浸しになるような土地ばかりです。7割は山岳地帯ということで河川の勾配は急で、山に降った雨は一気に洪水となって海に流れ去り、日照りが少しでも続けば今度は水不足に悩まされます。

日本列島は気候も特徴的です。モンスーン帯の北限に位置するこの列島は、大陸のシベリア高気圧と太平洋高気圧の影響で、北からの寒気と南からの暖気が列島付近の上空でぶつかりあうことから、日本列島の気温、降雨は激しく変化をし続けています。まさに、日本の気候(気象)は休むことなく一年中変化し続けていると言えます。この変化し続ける厳しい気象環境の中で我々日本人は有史以来、暮らしてきたわけです。

しかも、日本列島付近では地球の表面を覆う大きな大陸プレートが幾つも境界面を接しています。このため世界で発生する大地震の約20%はこの日本列島付近で発生し、活火山の10%が日本列島とその周辺に位置しています。歴史を振り返ってみると、日本はほぼ1世紀の間に5回~10回は1,000人以上の死者を出す大規模な地震に襲われています。すなわち、10~20年おきに、日本列島のどこかで、多数の日本人が地震活動による突然の死に見舞われている計算になります。

自然が持つこの理不尽な破壊力はあまりにも強大で、人間の力を遥かに超えています。圧倒的な破壊力を持つ自然の脅威の来襲を前にすると、人間の力なんてあまりにも無力です。日本列島に住む我々日本人はこの激変する気象と、突然襲ってくる理不尽な地震という自然環境を受け入れざるを得なかったわけです。あくまでも、主役は自然であり、人はその自然に歩調を合わせるしかなかったということです。

その一方で、自然は代えがたい豊かな恵みを我々人類に与えてくれるという側面を持ちます。「圧倒的な破壊力を持つ“脅威”」と「代えがたい豊かな“恵み”」、日本人はこの相反する2つの特徴を持つ自然とうまく“調和”することにより、繁栄を得てきたわけです。ここまで自然と真っ正面から向き合ってきた国民は、世界見回しても他に例を見ないのではないか…と私は思っています。

日本のあらゆる業種業態の8割は、なんらかの形で気象の影響を受けていると言われています。その一方で、気象予報事業が民間に解放された1993年(平成5年)以降、気象情報提供の市場規模がずっと年間300億円程度にとどまっていることを上記に書かせていただきました。日本のあらゆる業種業態の8割は、なんらかの形で気象の影響を受けていると言うわりには、この数字は極めて小さいものであると私は捉えています。これは我々民間気象情報会社のこれまでの取り組みに問題があったのではないか、本来やるべき努力や投資を怠ってきたのではないか…と。

その大きな原因として、これまでの民間気象情報提供会社の主たる市場ターゲットが一般生活者中心の「一般報」主体の市場からほとんど外へ広がってこなかったことが最大の原因だと私は分析しています。技術的課題もあったでしょうが、そのための投資もこれまでほとんど打ってこなかった。これにより、受益者負担の対象となる「特定利用報」の市場、「あなたのための天気予報」の市場が、これまでうまく開拓が出来てこなかったのだと。

この「特定利用報」の市場を開拓するためには、気象庁が膨大な量の気象情報(データ)から「一般報」向けの“一次加工”を行って提供しているのと同様に、我々民間気象情報会社のほうで独自に「特定利用報」、すなわち、「あなたのための天気予報」の情報提供に最適な効果的な“一次加工”による素材データを提供する仕組みをまず作り上げることの必要性を強く感じたわけです。その素材データをもとにお客様ごとのニーズに合わせて“二次加工”や“三次加工”を施してご提供するわけです。こうすることにより、気象情報(データ)は単なる情報提供ではなく、お客様が抱える問題や課題を解決する“ソリューション”になり得ると…。

この技術的課題を解決したのが、最近のコンピュータ技術の進歩です。CPUは高速になり、大容量のメモリも随分と安価に手に入るようになってきました。ソフトウェアも同様で、使い勝手のいい様々なツール(ミドルウェア)が世に出て来てきました。それらを見極めた上で、テレビで有名な某予備校の林修先生の言葉ではないですが、「いつやるか? 今でしょ!」ってな感じのノリ で、5年前にこの取り組みをスタートしました。

「一般報」としてテレビやラジオ、Webサイト等で皆さんがご覧になっている気象情報の情報量は、私の感覚で言わせていただくと、気象庁から発表されるありとあらゆる気象データの僅か3%程度に過ぎません。単純にデータのバイト数に換算すると、それより2桁ほど下の極々僅かな量のデータに過ぎません。残りの97%の情報は、気象情報が鮮度が命の“生モノ”の情報であるが故に、使われないままに捨てられてしまっているというのが実態です。この97%の使われないまま捨てられてしまっている情報は、言ってみれば“宝の山”です。この“宝の山”の情報をなんとかして活用したい…という思いが、そもそもの取り組みの発端でした。

弊社HPのトップページにも書かせていただいておりますが、様々なビジネスシーンにおいて、お客様の抱える問題・課題(すなわちニーズ)は、詰まるところ次の3点に集約できると私達は考えています。すなわち、「しっかり守りたい」、「もっと儲けたい」、「無駄を省きたい」の3点です。

このようなお客様の高度なご要求にお応えするためには、従来の一般生活者向けの広くあまねく公平に…を原則とした「一般報」ような漠とした情報ではダメで、そり精緻で精度も鮮度も高い情報と言うものが求められます。その時に重要視したのが、上記の日本列島が有する特殊な地理的特性、気象特性を如何に取り込み、ITシステムに乗りやすい形で提供するか…ということでした。

http://www.halex.co.jp/service/api/technology.html

気象庁では極めて高速のスーパーコンピュータを用いて精緻な「数値予報モデル」というシミュレーションプログラムを走らせて気象予報を行い、その結果を「数値予報データ(GPV)」として提供しているのですが、その「数値予報データ」にも思わぬ落とし穴、課題があります。それは「地理的分解能の課題」と「時間分解能の課題」の2つです。

数値予報モデル(GPV)の格子間隔は5~20kmであり、数値はあくまでも格子内の平均値にすぎない。従って、日本のように地形変化の大きい地域の予報をこれで代用することは難しい…という「地理的分解能の課題」

1時間単位の時系列予報情報の元データは1日4~8回の発表。予報内容と実況にズレが生じ始めた場合、これまでの予報では実況との乖離が大きくなることもある、さらには、数値予報の計算結果を受信した時点で、数値予報に使った観測値の時間から5~6時間が経過している…という「時間分解能の課題」

です。その落とし穴(課題)を埋めるチャレンジを、弊社は独自開発した以下の方法により行っています。

まず、「地理的分解能の課題」に対しては、1kmメッシュ格子のデータへの面展開を行った上で、標高毎の気温等の減率を随時計算して標高補正を行い、その地域ごとのクセ(地域特性)を味付けすることを可能にしました。

次に、「時間分解能の課題」に対しては、最新のアメダスの観測データや気象レーダーによって観測された降雨データ、降水ナウキャスト情報等を活用して30分ごとに同化(実測補正)処理を行うことにより、情報の“鮮度”の確保を可能にしました。直近の未来に関しては、あくまでも“事実”に基づく予想が一番的中確率が高いということは、誰が考えても言えることで、ここでは情報の“鮮度”を重視することにこだわりました。

これに、数値予報データが抱えるもう一つの課題、各格子点毎の予想値のほかに位置・時刻・要素・単位・格子配列などのメタデータを読み取る必要があり、しかも気象庁から配信されるファイルの形式は独自の圧縮形式で、複雑な変換プログラムと専門知識を必要とする…という「データハンドリングの課題」を解決するために、緯度経度をkeyとしたAPI(Application Programming Interface)により情報提供を可能としました。これにより、ファイル形式を意識せずに誰でも簡単に情報を読み取ることが可能になったため、コンピュータ処理が従来に比べて格段に容易になりました。

気象庁から送られてくる数値予報データ(オープンデータ)をベースに、オンラインリアルタイムでこれらビッグデータ処理を施し、気象素材データとして提供を可能にしたのが、弊社オリジナルの気象システム『HalexDream!』です。

http://www.halex.co.jp/service/api.html

『HalexDream!』では、全国1kmメッシュの非常に詳細な粒度で、72時間先までの気象予報を30分毎に更新する(1日48回更新)という他に例を見ないサービスを可能にしました。この『HalexDream!』を武器として、弊社ハレックスは気象情報の新しい市場価値の創出を目指して参ります!!


【追記】
緊急地震速報も気象情報と同様に「一般報」と「特定利用報」に分けられます。緊急地震速報の場合、「特定利用報」は「高度利用報」と呼ばれます。

テレビの緊急地震速報や携帯電話のエリアメールによる緊急地震速報は「一般報」と呼ばれるもので、関東地方と言った広いエリアを対象として、「強い揺れが来ます」といった具合に揺れの注意を促すことに主眼を置いた情報ですが、「高度利用報」のほうは1kmメッシュ毎に「あと何秒後にどのくらいの揺れ(震度)が来るか」といったより詳細な情報までをも提供します。「あと何秒後」と言うのは、その地点に強い揺れが来るまでの残り時間を、“カウントダウン”で表示させることが可能であるということです。

http://www.halex.co.jp/service/earthquake/index-eq.html

この「高度利用報」を用いることにより、工場やオフィス、家庭などで避難行動をとることによる被害軽減はもちろん、緊急地震速報の受信をトリガーとして、列車やエレベーターを自動的に制御して危険回避を行うなど、お客様の課題や実施したいことに合わせて様々な活用方法が可能となります。

弊社の緊急地震速報サービス『なまずきん』はこの「高度利用報」を用いたもので、高い信頼性をご評価いただいており、在京民放テレビキー局をはじめとする全国のテレビ局やラジオ局、電力会社や各種工場などに数多くの導入実績を有しています。

こちらのほうも「推定震度マップ」をはじめ、他社にはない幾つかのサービスラインナップを有しています。こちらのほうも併せてご検討ください。

http://www.halex.co.jp/about/sp/esi-map.html

ちなみに、6月18日(水)に受けた取材は7月下旬に発売される『日経コンピュータ誌』の「ビッグデータ特集(仮称)」の中で取り上げていただけるようです。どういう記事にしていただけるのか、私も楽しみです。

執筆者

株式会社ハレックス代表取締役社長 越智正昭

株式会社ハレックス
代表取締役社長

越智正昭

おちゃめ日記のタグ

おちゃめ日記のアーカイブス

  • ハレックスオフィシャルブログ 燃えさかれ志事(しごと)人!
  • 成介日記
  • 老兵日記