ChatGPT_GIS02_thum.webp

2024.07.04

読了時間:10分

ChatGPTでできる地理情報分析: エリア特性の深堀り

吉田奈央

こんにちは。sodaデータプランナーの吉田です。 前回はChatGPTでできる地理情報分析と題して、名古屋市の人口推移を地図上に可視化し、さらに人口増減率に焦点を当てたレポートを作成しました。

  • 人口増加率の大きいトップ3の地区:東区、中区、緑区
  • 人口減少率の大きいトップ3の地区:港区、南区、北区

このレポートでは、これらの地区について、居住者の年齢層や住環境の魅力度を根拠にエリア特性を考察しています。しかし、ChatGPTの回答にはハルシネーションが発生する可能性があるため、結果をそのまま鵜呑みにするのは問題があります。そこで今回は、以下のデータ項目を追加して分析を行い、レポート内容の検証を行います。

  • 国土数値情報 地価公示データ 2024年(令和6年)版:国土交通省
    土地の魅力度の指標としては、地価公示価格のデータを用いました。地価公示価格とは、日本の不動産市場において、国土交通省が毎年公表する、標準地の価格を指します。これらの価格は、土地の適正な取引価格の指標となるものであり、土地取引の基準や参考として利用されます。公表される価格は、標準的な土地利用に基づく更地としての評価額です。住宅地、商業地、工業地などの用途ごとに価格が設定されます。

さらに、今回はこれら複数のデータを使ってクラスター分析を行い、名古屋市16区をいくつかのグループに分類します。地図上での可視化は直感的な理解に役立ちますが、データが増えてくるとたくさんの結果を見比べる必要があり、全体の評価が煩雑になります。そこでデータ全体を直接クラスターに分けて、それぞれの特徴を考察します。

人口推移の詳細分析

人口ピラミッドの作成

将来推計人口のExcelデータを再度ChatGPTにアップロードし、段階を踏んで各行政区ごとに人口ピラミッドを描画しました。 まずは、前述の人口増加率の大きいトップ3の地区について見ていきましょう。(クリックで画像拡大できます。)

population pyramid_best3_2020_px1200.png

population pyramid_best3_2050_px1200.png

左から、東区、中区、緑区の人口ピラミッドです。また、上が2020年国勢調査時点の実際の人口、下が2050年の推計人口を表しています。 2020年の段階では、同じトップ3の地区でも、その年齢構成比には大きな違いがあることがわかります。特に中区は特徴的で、10代以下の人口が非常に少なく、20代人口が突出して多くなっています。出生数は少ないものの、単身の若者が一時的に流入することで、人口の大幅な減少は免れているという現状が伺えます。都市の中でも中心市街地としての傾向が強く出ています。

一方、緑区はこの中では10代以下の人口がそれなりに多く、40代人口に最もボリュームがあります。ファミリー世帯が中心であると予想されますが、流入の限られる地域では、近年の少子化の傾向もあり、2050年には高齢者の多いつぼ型に近づいていきます。東区はこれらの中間、都市型の年齢構成と言えるかもしれません。出生数と流入数がともに確保できるため、人口が減少傾向にある名古屋市16区の中でも、唯一2050年までの予測が増加を保っていると言えるでしょう。

これに対し、人口減少率の大きいトップ3の地区は、非常に似通った傾向を持っています。

population pyramid_worst3_2020_px1200.png

population pyramid_worst3_2050_px1200.png

左から港区、南区、北区の人口ピラミッドです。2020年の段階では、どの地区も40代後半と70代後半にボリュームがあり、相対的に若年層の人口は少なくなっています。いわゆるつぼ型と呼ばれる形状ですが、2050年にはさらに少子高齢化が進むと予測されています。減少率トップの港区などは、ほぼ逆三角形の形状になってしまいます。

年齢構造の推移グラフを作成

名古屋市の他エリアについても傾向を把握したいので、データを少し要約して分析したいと思います。生産年齢人口は、労働力の中心となる15歳から64歳までの年齢層を指します。高齢化や少子化が進むと、生産年齢人口の割合が減少するため、経済活動や社会保障の健全な運営を支える上で、重要な指標の一つです。

  • 年少人口:0~14歳
  • 生産年齢人口:15歳から64歳
  • 老年人口:65歳以上

ChatGPTに、これらの数値を集計し、時系列の積み上げ棒グラフを作成するよう指示しました。以下がその結果です。

combined_population_trends_2400.png

ここから読み取れることをいくつか挙げてみます。

  • 年少人口の比率は、緑区、名東区、守山区で高くなっている。
  • 東区と中区では、生産年齢人口の増加が見られ、流入の多い地域であることがわかる。
  • 中区と中村区は、ともに中心市街地を含むエリアだが、年齢構成比が異なる。中区は生産年齢人口の比率が非常に高い。
  • 北区、南区、港区は老年人口の比率が高く、生産年齢人口も流出していることから、全体人口の減少幅も大きくなっている。

細かい点を見ていけばキリがないのですが、ここではざっくりとした傾向を捉えつつ、次の分析に移ろうと思います。

地価公示価格の分析

ポイントデータの可視化

次は、地価公示価格のデータを見ていきます。前述のサイトより、愛知県のデータをダウンロードし、必要なShpefileのみをzip圧縮して、ChatGPTにアップロードします。さらに、前回の分析で作成した名古屋市の行政区ポリゴン(国土数値情報 行政区域データ2024年(令和6年)版をもとに加工)も同時にアップロードし、以下の指示を与えました。

- 名古屋市の行政区ポリゴンのShapefileデータをアップロードしました。

- 愛知県の地価ポイントのShapefileデータをアップロードしました。

- 空間検索で名古屋市のポリゴンに含まれる地価ポイントを抽出してください。

- 抽出したポリゴンとポイントを重ねて地図上に可視化してください。

これにより、ジオメトリ情報を使って名古屋市内に含まれる地物のみを選択し、表示することができます。ちなみに今回は、596件のレコードが抽出されました。

空間検索_px600.png

地価公示価格は国土交通省が公表する「標準地」の価格であり、ご覧の通りポイント(地点)の情報です。ポイントデータでヒートマップを作成すると、地図の縮尺によっては密集したポイントが重なり合ってしまい、特徴を捉えにくくなることがあるため、今回は3Dマップを作成しました。

Land_Price_2024_px600.png

名駅地区と栄地区が非常に高い地価を示しています。これら上位のポイントは、土地の利用用途の区分としては「商業地」が多くを占めます。周辺の土地利用状況は、高層の店舗、事務所ビルが建ち並ぶ駅前の中心的商業地域であり、現況は店舗、事務所、百貨店、ホテルとしての利用が多くなっています。次いで金山駅周辺や、地下鉄沿線が高くなっているように見えますが、せっかくなので鉄道データを重ねて確認してみましょう。 前述の鉄道データから、名古屋市営地下鉄の路線のみ抽出して3Dグラフに重ねました。また用途区分による分布の差も確認したいので、「商業地」のみのレコードと、「住宅地」のみのレコードを分けて表示しました(「工業地」はポイント数が少ないため、今回は割愛します)。

combined_land_price_2024_1200.png

青いラインが地下鉄の路線を表しています。左の商業地は中心部と地下鉄の沿線に、右の住宅地は市内全体にポイントが点在しています。商業地の価格はやはり名駅・栄周辺が圧倒的に高く、次いで金山総合駅周辺が高くなっています。また地下鉄東山線沿線の、比較的中心部に近い地域(東区、千種区の一部)にも、比較的地価の高いポイントがあります。価格のレンジを揃えたので少し見にくいかもしれませんが、住宅地も中心部および地下鉄東山線沿線の価格が、他地域より高くなっています。東山線沿線は中心市街地のアクセスがよいことで人気のエリアのため、商業地の価格と連動して住宅地の価格も上昇しているようです。

ポイントデータを行政区別に集計

ここまではポイントデータのまま見てきましたが、今回は最終的に行政区のクラスタリングを行いたいので、行政区ごとに用途区分別の地価公示価格を集計し、平均値を算出しました。

Land_Price_2024_ward_px1200.png

全体として、名古屋市の各行政区では商業地の公示価格が他の用途に比べて高い傾向にあります。特に中村区や中区では商業活動が活発であり、商業地の価格が全用途の平均を大きく上回っています。一方で、住宅地の価格は区によって大きく異なり、居住地域としての魅力も区ごとに差があることが伺えます。例えば中区は住宅地の価格が最も高く、居住地域としても人気があることがわかりますが、中村区は商業地の地価が非常に高いにもかかわらず、住宅地の価格は全体で見ても中程度です。これには、古くからの商業地区である栄エリアに対し、名駅エリアが2000年頃の再開発で急激に商業化が進んだことが影響している可能性があります。工業地はポイント数自体が少なく、データがない行政区も多いことから、この後のクラスター分析の変数からは除外しました。

住環境の充実度に関するデータの集計

前回のレポートでは、住環境の魅力を決める要素として、医療施設や教育機関、都心への交通アクセスなどが挙げられていました。そこで前述のデータを利用し、小売業、医療機関、学校、駅の数を集計しました。医療機関データ学校データ鉄道データについてはポイントデータなので、名古屋市の行政区ポリゴンに含まれるポイントを空間結合で抽出しました。さらに、行政区ポリゴンの面積を計算し、面積当たりの数値を算出することで、データを標準化しました。これにより、各行政区の各種サービスおよびインフラのカバー範囲を把握することができます。結果は以下の通りです。

area_based_facilities_reversed_px1200.png

小売業と医療機関については、中区が突出しており、名古屋市の経済活動の中心地であることを示しています。次いで東区と中村区も高い数値をとっています。一方、学校の分布については、東区が最も高く、幅広い教育機関が存在することを反映しています。次いで中区と中村区が続きますが、小売業や医療機関と比較すると、千種区や昭和区、瑞穂区といった都心の周辺地区の数値も相対的に値が高くなっています。最後に、鉄道駅の分布については、中区が最も高く、次いで東区が続きます。中区は主要な鉄道路線が集中しており、複数路線が乗り入れる金山総合駅など、市内の交通ハブとして機能しています。また東区も、都心へアクセスしやすい路線が集中しています。

全体的に見て、中区、東区、中村区は商業、医療、教育、交通の各分野で充実しています。特に東区は、商業中心地へのアクセスが良好で、医療機関や教育機関が充実しており、商業地と住宅地の利便性を兼ね備えていることが、人口の増加につながっていると考えられます。一方、港区は交通の便が悪く、各分野の施設数が相対的に少ないことから、居住地としての魅力が低く、人口減少率が大きくなっていることが伺えます。

クラスター分析によるエリア特性の深掘り

最後に、k-means法を用いて名古屋市16区のクラスタリングを行います。今回の分析では、人口構造の構成比(年少人口、生産年齢人口、老年人口)、用途別の地価公示価格平均(商業地、住宅地)、住環境のカバー率(小売業、医療機関、学校、鉄道駅)を用いて名古屋市の行政区を5つのクラスターに分類しました。 結果を解釈するため、散布図による可視化を行います。主成分分析を用いてデータを2次元に圧縮し、それぞれのクラスターを異なる色でプロットしました。これにより、クラスター間の関係や分布を直感的に理解することができます。

K-Means Clustering With PCA (5 Clusters)_px1200.png

主成分分析の結果、各主成分が元の特徴量にどのように寄与しているかが明らかになりました。

  • 第1主成分:データセットの分散の73.9%を説明し、以下の変数が強く影響しています。
    • 生産年齢人口比率(0.356402)
    • 地価平均_住宅地(0.361374)
    • 地価平均_商業地(0.293480)
    • 面積当たり小売業数(0.375909)
    • 面積当たり医療機関総計(0.381456)
    • 面積当たり鉄道駅数(0.366810)

  • 第2主成分:データセットの分散の13.4%を説明し、以下の変数が強く影響しています。
    • 老年人口比率(0.718147)
    • 年少人口比率(-0.494351)
    • 生産年齢人口比率(-0.287291)

これらの結果から、第1主成分は都市化の度合いやインフラの充実度を反映していると考えられます。生産年齢人口が多く、地価が高く、商業施設や医療機関、鉄道駅が多い地域が高い値を取ります。また第2主成分は人口構成の違いを反映しており、老年人口が多く、年少人口や生産年齢人口が少ない地域が高い値を取ります。 これらの特徴から、各クラスターに名前をつけると下記のようになります。

clusters_5_named.png

これらの結果から、前回のレポートと今回のクラスタリング結果は多くの点で一致しており、相互に裏付ける情報が得られました。

  • 東区の発展
    東区は「発展中商業地」に分類されており、面積当たりの医療機関や教育機関が多い地域です。これは、これら施設の充実が東区の居住希望者にとって大きな魅力であるという、前回のレポート内容と一致しています。

  • 中区の商業地としての特徴
    中区は「高密度商業地」に分類され、商業施設や医療機関が非常に多く、生産年齢人口比率が高い地域として認識されています。この特性は、商業施設やオフィスビルが多い商業地であり、再開発や住環境の改善によって大幅な人口減少には至っていないという、前回のレポート内容と一致しています。
  • 緑区の安定した人口構造
    緑区は「新興住宅地」に分類され、年少人口比率が高く、地価平均が低いことが確認できます。これも若年層の居住が多く、新しい住宅開発が進んでいるため、人口の安定が見込まれているという、前回のレポート内容と一致しています。
  • 港区、南区、北区の人口減少
    前回のレポートで、港区、南区、北区は高齢化が進んでおり、人口減少が顕著です。今回の結果、これらの区は「低地価住宅地」に分類され、老年人口比率が非常に高く、面積当たりの小売業や医療機関の数、交通インフラが少ないことが確認できます。これも高齢化と人口減少を裏付ける結果となっています。

また、クラスタリングによって新たに特定された地域の特徴も、前回のレポートに基づく知見をさらに深めることができます。

  • 成熟住宅地の特定
    今回の分析で、千種区、西区、昭和区、瑞穂区、熱田区が「成熟住宅地」として特定されました。これらの地区は住宅地としてのバランスが取れており、都市化と住環境の安定が見込まれます。これは前回のレポートにはなかった詳細な区分けです。
  • 発展中商業地の明確化
    今回の分析で、東区と中村区が「発展中商業地」に分類され、特に商業施設や医療機関の密度が高いことが示されました。これは、前回のレポートで東区が人気のある地域として特定されていた点と一致しつつ、その要因について新たな知見を提示しています。
  • 新興住宅地の特定
    中川区、守山区、緑区、名東区、天白区が「新興住宅地」として特定され、これらの地域の若年人口比率の高さが確認されました。これは、新しい住宅開発が進んでいる地域として、前回のレポートにはなかった新しい発見です。

まとめ

今回はChatGPTを使って、前回よりも踏み込んだ分析を行いました。ChatGPTの活用どころとしては、

  • データの整形と各種グラフの作成
  • 空間選択による地物の選択や3Dマップの作成
  • k-means法によるクラスタリングと結果の可視化

などが挙げられます。やはり扱うデータが増えてくると、意図する結果を得るのが難しい場合もあります。こまめにセッションを変えたり、コードや結果を確認したりしながら、タスクを適切に分割し、主体的に分析を進めることが重要だと感じました。

また、今回はオープンデータを利用し、行政区という比較的大きな単位で分析を行いましたが、実務の上ではより細かいデータが必要になる場合が多いと思います。sodaが提供するエリアスコアリングでは、皆さんが保有する実績データと、弊社が保有する町丁目やメッシュ単位のデモグラフィックデータ・サイコグラフィックデータを組み合わせて、エリアのポテンシャルを定量的に評価することができます。自社データをエリアマーケティングに活かしたいけれど、必要な変数が分からない、結果をどうやって解釈したらいいかわからない、といった課題のあるご担当者の方は、ぜひぜひお気軽にお問い合わせください。

それでは。

RELATED POST

2404_embeds_chat.webp
  • Tech Blog
  • 技術説明

2024.04.15

続: おい、AI! おすすめの筋力トレーニングはあるのかい?~RAGを用いたAIチャット~

どうも!sodaエンジニアの國田です。 前回、「AIにおすすめの筋力トレーニングを聞いてみる」というテーマをブログにしました。ブログの内容をChatGPTに要約させてみたところ、以下のような回答が返ってきました。 これは、筋力トレーニングのエクササイズの推奨における潜在変数の利用について論じています...

2403_text_embeds_thum.webp
  • Tech Blog
  • 技術説明

2024.03.13

おい、AI! おすすめの筋力トレーニングはあるのかい? ~テキスト潜在変数を利用したレコメンド~

お久しぶりです!!sodaエンジニアの國田です。 突然ですが、皆さま、最近運動していますか?私たちのようなプログラマーエンジニア職は運動不足になりがちですので、毎日しっかりトレーニングをする必要があります。私の方はどうかと言われますと、週5でジムに通い、己の筋肉の研鑽に励んでいます。(今まで秘密にし...