【佐々木先生による解説シリーズ3 】テキストデータからの特徴抽出

  • クウォンツ・インデックスの視点
  • 2019年05月
単語の頻度から分かるニュース記事の特徴②
ポイント
  • テキスト中の単語と頻度の関係を表すジップの法則
  • 語彙の多様性を示す指標タイプ・トークン⽐
  • ニュースヘッドラインテキストは限られた語彙で形成

前回はニュースヘッドラインから出現する単語を抽出し、その頻度を分析すると少数の単語が⼤部分の出現単語をカバーしていることを説明しました。
今回は単語の頻度と頻度順位の関係を表すジップの法則と語彙の多様性を表す指標であるタイプ・トークン⽐について解説します。

テキスト中の単語と頻度の関係を表すジップの法則

日本語や英語などの自然言語では、単語の頻度分布に関してZipf(ジップ、ジフ)の法則があてはまると言われています。Zipfの法則は単語を出現頻度の多い順に並び替えると、単語の出現頻度がその順位のk乗に反比例する傾向があるというものです。経験則ですが、単語の出現頻度だけではなく、ウェブページのアクセス頻度や都市の人口などの様々な現象でもあてはまると言われています。このZipfの法則がニュースヘッドライン1年分のテキスト集合でもあてはまるかどうか検証します。
Zipfの法則は単語の出現頻度をf、その順位をrと置くと、出現頻度fと順位rの関係は以下の式で表されます。この式にあるcは対象とするテキストの⻑さや語彙の種類によって変化する定数を意味します。

テキスト中の単語と頻度の関係を表すジップの法則(数式1)

この式に対して両辺の常用対数を取ると、出現頻度の対数log10fと順位の対数log10rの関係が得られます。
したがって、順位と出現頻度を両対数グラフを使って描画すると傾きが-kの直線になります。

テキスト中の単語と頻度の関係を表すジップの法則(数式2)

この法則は本来k=1で、一般的に両対数グラフの傾きが-1に近い直線になると言われています。しかし、様々なテキストを分析すると、傾きが-1とは異なる値を取ることも確認されています。そのため、本稿では単語の出現頻度fがその順位rのk乗に反⽐例するとし、両対数グラフにおける近似直線の傾きをマイナスkとしています。
さて、前回使用したニュースヘッドラインのテキスト集合に出現する内容語27,132語に対して、出現頻度を高い順に並び変えます。その順位を横軸、出現頻度を縦軸とし、どちらの軸も対数で表した両対数グラフを作成します。この両対数グラフは下に示すグラフになります。

順位 頻度の対数グラフ
(出所)QUICK社のデータを元に茨城⼤学で算出

グラフは直線となるのが理想的なのですが、この例では曲線となっています。Zipfの法則に従っていたとしても、高い順位と低い順位においてグラフは一般的に近似直線からずれると言われています。使用したテキスト集合では、例えば順位が300〜3,000において直線で近似可能だと考えられます。そこで、順位が300と5,000の点を結んだ直線(グラフ中の⻘い点線)をグラフにプロットしました。順位-頻度の曲線とこの直線を⽐較すると近似可能だということが分かります。
Zipfの法則は元々ジェームス・ジョイスの「ユリシーズ」という小説に出現する26万単語を対象として分析をしていました。この分析では対象単語の中には冠詞や前置詞などの高頻度で出現する機能語も使用しています。内容語だけではなく、機能語も含めて出現頻度を求めると、高い順位におけるグラフのずれは改善されるのではないかと考えられます。

テキストにおける語彙の多様性を分析する

語彙の多様性を示す指標として最もシンプルな⽅法は、テキスト集合における延べ単語数Nに対する異なり単語数Vの⽐を求めることとなります。この指標RTTは「タイプ・トークン⽐」と呼ばれ、この値が1に近いほど多くの種類の単語が使われていて、語彙に多様性があるということができます。

ニュースヘッドラインのテキスト集合の延べ単語数Nは1,055,800単語で、異なり単語数Vは27,132
単語ですので、このテキスト集合のタイプ・トークン⽐は

と、約2.57%という低いタイプ・トークン⽐になります。すなわち、ニュースヘッドラインには語彙の多様性がなく、ほとんど同じ一連の単語が使われているということを示しています。このタイプ・トークン⽐がどれほど低いかを検証するために、夏目漱⽯の⻑編小説「こころ」に対して同様にタイプ・トークン⽐を計算してみます。「こころ」においても、名詞、動詞、形容詞の内容語を抽出して、単語の集合を作成します。
この集合に対する延べ単語数Nは43,538単語で、そのうち異なり単語数Vは5,460単語でした。これから、タイプ・トークン⽐を計算すると、

と、約12.54%のタイプ・トークン⽐となります。夏目漱⽯の小説は深みのある単語が多く使われ、語彙⼒を増やすのに有効だと言う⽅もいます。この値とニュースヘッドラインのタイプ・トークン⽐を⽐較することで、ニュースヘッドラインのタイプ・トークン⽐の約2.6%が小さい値であることが分かると思います。
ニュースヘッドラインでタイプ・トークン⽐が小さい値となるのは決まった表現の多さが要因のひとつとして挙げられます。同じパターンで出現する表現が多ければ多いほど、延べ単語数は増加しますが異なり単語数はあまり増加しません。このニュースヘッドラインで、同じパターンで出現する表現を調べてみたところ、数多く出現するパターンとして、下記の表のようなフレーズがありました。この結果を⾒ると、冒頭に「<QUICK>」や「<NQN>」があるニュースヘッドラインは「5%ルール報告」の対象となる銘柄や決算短信を発表した企業を知ることに適していることが分かります。

頻繁に出現するフレーズ
(出所)QUICK社のデータを元に茨城⼤学で算出

佐々木先生プロフィール

佐々木稔(ささきみのる)
徳島県徳島市生まれ. 平成13年徳島大学大学院博士後期課程修了.博士(工学).
平成13年茨城大学工学部情報工学科助手を経て,平成17年より同専任講師.
研究分野は,機械学習や統計的手法による情報検索,自然言語処理等に従事.情報
処理学会,言語処理学会,計量国語学会,電子情報通信学会各会員.

バックナンバー

佐々木先生による解説シリーズ
鈴木教授による解説シリーズ
当資料のお取扱いにおけるご注意
  • 当資料は、ファンドの状況や関連する情報等をお知らせするために大和アセットマネジメントにより作成されたものであり、勧誘を目的としたものではありません。
  • 当資料は、各種の信頼できると考えられる情報源から作成していますが、その正確性・完全性が保証されているものではありません。
  • 当資料の中で記載されている内容、数値、図表、意見等は当資料作成時点のものであり、将来の成果を示唆・保証するものではなく、また今後予告なく変更されることがあります。また、記載する指数・統計資料等の知的所有権、その他の一切の権利はその発行者および許諾者に帰属します。
  • 当資料中における運用実績等は、過去の実績および結果を示したものであり、将来の成果を示唆・保証するものではありません。
  • 当資料の中で個別企業名が記載されている場合、それらはあくまでも参考のために掲載したものであり、各企業の推奨を目的とするものではありません。また、ファンドに今後組み入れることを、示唆・保証するものではありません。