blog Market Intelligence /marketintelligence/jp/news-insights/blog/message-in-a-word-cloud content esgSubNav

New User / Forgot Password


Looking for more?

Contact Us
In This List

シンプルかつ直感的-自然言語処理におけるWordcloudの活用


シンプルかつ直感的-自然言語処理におけるWordcloudの活用

HIGHLIGHTS

パンデミックから1年が経過した今、COVID-19の期を通じた影響をセクター及び企業レベルでレビューし、今後フォーカスすべき重要なテーマを炙り出すことが2021年のマーケットを見極める上で非常に重要なポイントとなる。

かかるテーマを特定するため、Wordcloudを活用した分析事例を紹介。Wordcloudは「文章中で出現頻度が高い単語を複数選び出し、その頻度に応じた大きさで図示する手法」と定義される。

「コロナウイルス」または「コロナ」は全てのセクターでフォーカスされているかと思いきや、必ずしもそうではない。

2020年は、COVID-19のパンデミックにより世界の経済活動が一斉停止をするという歴史的な年となりました。1年が経過した今、COVID-19の期を通じた影響をセクター及び企業レベルでレビューし、今後フォーカスすべき重要なテーマを炙り出すことが2021年のマーケットを見極める上で非常に重要なポイントとなるでしょう。

かかるテーマを特定するため、本稿ではWordcloudを活用した分析事例をご紹介します。Wordcloudは「文章中で出現頻度が高い単語を複数選び出し、その頻度に応じた大きさで図示する手法」と定義されます1 。その算出結果となる電子画像では、分析対象テキストで出現する単語の頻度に応じて単語の文字サイズ、色、字体、向きを変化させて表示しています。

本稿ではS&Pグローバル・マーケットインテリジェンスのアジア企業議事録データであるScripts Asia Earnings Call Transcripts(決算発表議事録)データセットをもとに、以下の分析手法によりWordcloudを作成しました。

  1. 2020年にScripts Asia社がカバーした日本企業の決算議事録データ2を抽出し、企業のGICSセクター毎にグループ化
  2. 11のGICSセクターのテーマと特徴を最もよく表す単語を強調するために、「私」、「と」、「はい」等のストップ(除外)ワードを適用
  3. Python(オープンソース)のWordcloudパッケージを利用3

上記に基づき算出された各セクターのWordcloud画像を分析すると、いくつかの興味深い結果が得られました。

  • セクターによって頻出単語に偏りがあることを確認。例えば「テナント、土地」等の単語は不動産セクター固有のものであり、他のセクターにはほとんど現れない
  • 「コロナウイルス」または「コロナ」は全てのセクターでフォーカスされているかと思いきや、必ずしもそうではない
  • 一方で「利益、影響、状況」等の単語は全セクターに共通して頻出

上記はあくまで一例に過ぎませんが、Wordcloudを活用したテキスト分析では比較的シンプルなアプローチにより、直感的に理解を得やすい分析を実現することが可能です。ただし、注意点としてWordcloudはあくまで言語処理のプロセスの一環であり、結果の背景にある対象企業或いはセクターの将来的な経済パフォーマンスをそのまま予見するものではありません。将来予測に有効なインサイトを抽出するためにはトランスクリプト自体を読み込むか、特徴抽出と感情分析のための自然言語処理(NLP: Natural Language Processing)を施す必要があります。

S&Pグローバル・マーケット・インテリジェンスのQuantamental Researchチームは自然言語処理–パートI:入門編でより詳細に説明しており、深淵なるNLPの旅における良い出発点となります。

なお、分析対象企業、或いはセクターに関する知見を十分にお持ちのインサイダーの方であれば、Wordcloudの結果を見るだけでも当該企業またはセクターにおけるテーマを直感的に把握することができるかもしれません。

皆様もWordcloudに隠されたテーマを解読してみてはいかがですか?

S&P Global Marketplaceでは、クラウド、フィード、APIソリューションを介してシームレスに利用できる独自のファンダメンタルデータセットと代替データセットを検索できます。

通信サービス

通信サービス:「利益、影響、状況」を除外ワードとした場合

A picture containing text, electronics, circuit

Description automatically generated 

一般消費財・サービス

A picture containing text, electronics, circuit

Description automatically generated

一般消費財・サービス:「利益、影響、状況」を除外ワードとした場合

 

生活必需品

A picture containing text, circuit, electronics

Description automatically generated

生活必需品:「利益、影響、状況」を除外ワードとした場合

金融

A picture containing text, circuit, electronics

Description automatically generated

金融:「利益、影響、状況」を除外ワードとした場合

ヘルスケア

 

ヘルスケア:「利益、影響、状況」を除外ワードとした場合

資本財・サービス

A picture containing text, circuit, electronics

Description automatically generated

資本財・サービス:「利益、影響、状況」を除外ワードとした場合

情報技術

情報技術:「利益、影響、状況」を除外ワードとした場合

素材

A picture containing text, electronics, circuit

Description automatically generated 

素材:「利益、影響、状況」を除外ワードとした場合

不動産

A picture containing text, circuit, electronics

Description automatically generated 

不動産:「利益、影響、状況」を除外ワードとした場合



[1] https://dictionary.goo.ne.jp/word/%E3%83%AF%E3%83%BC%E3%83%89%E3%82%AF%E3%83%A9%E3%82%A6%E3%83%89/ 

[2] Scripts Asia only covers companies that have exclusive agreement for their Earnings Call transcript (including Q&A) to be publicly released. Such that, the coverage will not be 100% of Japan public companies.

[3] http://cedro3.com/ai/word-cloud/

Learn more about Market Intelligence
Request Demo

Learn more about Marketplace

Click Here

Natural Language Processing – Part II: Stock Selection

Click Here