【佐々木先生による解説シリーズ2】テキストデータからの特徴抽出

  • クウォンツ・インデックスの視点
  • 2019年04月
単語の頻度から分かるニュース記事の特徴①
ポイント
  • テキストにおける単語の頻度を数える
  • 形態素解析ツールMeCabなどによる単語の抽出
  • 約3.5%の単語が80%の出現単語をカバー

前回はテキストを単語分割し、単語集合として表現することができれば、単語を特徴としてテキストを数値化することができると説明しました。
今回は数値化されたテキストを用いて、テキストの特徴を捉える簡単な方法について解説します。

テキストにおける単語の頻度を数える

特徴を捉える対象のテキストとして、株式会社QUICKが配信した2017年のニュースヘッドラインを使用します。この中には経済に関連したニュースだけではなく、日経新聞の⼀般的なニュースや財務省の公式発表を速報する記事が含まれています。今回は経済に関連したニューステキストの分析を目的とするため、ニュースヘッドラインの冒頭に「<QUICK>」もしくは「<NQN>」が含まれるニュースヘッドラインを対象としてテキスト分析を⾏います。ニュースヘッドライン1件あたりの⽂字数は数⼗〜百数⼗⽂字で、以下の表のように⻑さの短いタイトルが記載されています。

QUICKニュースヘッドラインの記事例

対象となるニュースヘッドラインの総数は121,093件となり、これをテキスト集合と呼びます。このテキスト集合に含まれる冒頭の「<QUICK>」や「<NQN>」と記号の「☆」や「◇」はニュースタイトルと関係がないので、⽂字のマッチングなどを活用し、タイトルを求めます。
このテキスト集合のニュースヘッドラインすべてについて、形態素解析を⾏い、内容語を抽出します。前回のマーケットレターで解説したように、形態素解析ツールのMeCabと解析用辞書のmecab-ipadic-NEologdを使って、単語と品詞を取り出します。この品詞が名詞、動詞、形容詞である単語を内容語として抽出します。例えば、前ページのニュースヘッドラインから内容語を抽出すると、以下のような単語の集合が得られます。すべてのニュースヘッドラインについて、抽出した内容語を合わせて、ひとつの内容語の集合を作ります。

ニュースヘッドラインから抽出した内容語の集合

これから、この集合に含まれる内容語を数え上げて、内容語の頻度分布を求めましょう。それぞれの内容語の頻度を計算し、最も多く出現する上位25単語の頻度を記載した表と上位40単語をグラフ化したものを次のページに示します。

2017年のニュースヘッドラインにおける頻度の⾼い25単語

最も頻度が多い内容語は記号の「%(品詞は名詞,接尾,助数詞)」でした。ニュースヘッドラインには割引短期国庫債券の利率や東京円⾦利スワップレートの速報値などのように、数多くの数値が存在することが分かります。⼆番目に頻度が多いのが「⼀覧」で、エクイティ・自社株買・決算短信の発表会社⼀覧や5%ルール報告の届出⼀覧などを示す記事のタイトルとして使われています。企業や個人が報告した内容をまとめた記事も多いことが分かります。三番目に頻度の多い「株」は、「ロンドン株」などの株式市場や「株⼆万円台回復」などの株価、「食品株」などの業種をまとめた株式銘柄というように、様々な意味で出現しています。このように、テキスト全体で出現頻度の高い単語を分析すると、全体的な傾向や特徴が⾒えてくることがあります。
次に、上位N 単語の出現頻度の総数が総単語数に対して、どれくらいの割合を占めているのか調べます。このテキスト集合の延べ単語数は1,055,800単語存在します。1位の「%」は全体の約1.94%を占めています。上位10位までの単語は全体の約11.26%を占めます。これが上位948位までの単語までとなると、全体の80%に近い出現頻度数となります。テキスト集合の異なり単語数は27,132語なので、全体の約3.49%の単語が80%の出現単語をカバーしていることになります。

2017年のニュースヘッドラインに対する頻度の⾼い上位40単語のグラフ

佐々木先生プロフィール

佐々木稔(ささきみのる)
徳島県徳島市生まれ. 平成13年徳島大学大学院博士後期課程修了.博士(工学).
平成13年茨城大学工学部情報工学科助手を経て,平成17年より同専任講師.
研究分野は,機械学習や統計的手法による情報検索,自然言語処理等に従事.情報
処理学会,言語処理学会,計量国語学会,電子情報通信学会各会員.

バックナンバー

佐々木先生による解説シリーズ
鈴木教授による解説シリーズ
当資料のお取扱いにおけるご注意
  • 当資料は、ファンドの状況や関連する情報等をお知らせするために大和アセットマネジメントにより作成されたものであり、勧誘を目的としたものではありません。
  • 当資料は、各種の信頼できると考えられる情報源から作成していますが、その正確性・完全性が保証されているものではありません。
  • 当資料の中で記載されている内容、数値、図表、意見等は当資料作成時点のものであり、将来の成果を示唆・保証するものではなく、また今後予告なく変更されることがあります。また、記載する指数・統計資料等の知的所有権、その他の一切の権利はその発行者および許諾者に帰属します。
  • 当資料中における運用実績等は、過去の実績および結果を示したものであり、将来の成果を示唆・保証するものではありません。
  • 当資料の中で個別企業名が記載されている場合、それらはあくまでも参考のために掲載したものであり、各企業の推奨を目的とするものではありません。また、ファンドに今後組み入れることを、示唆・保証するものではありません。