Twitter上のツイートを利用した日本語学習(第二弾)

標準

前回1000万ツイート程を収集した上での日本語学習を実施しましたが、今回は更に倍にして2000万ツイートにしてみましたので、それを詳しくまとめていきます。

準備段階

今回は自作のPHPプログラムを使いまして、2062万4138ツイートを収集しました。前回は1161万2661ツイートでしたので、約2倍です。
これで日本語学習の精度は上がるのだろうか、精度は別問題にしてもどれくらい学習が変わるのか、これを今回は調べていきます。
準備段階は前回までの記事に全て纏まっていますので、そちらを参考にしていただくとして先に進んでいきます。また、このページの最後に実際に使った学習ファイルをダウンロード出来るようにしましたので、ご活用ください。(結構重いです)

ベクトル演算の結果

今回も例のごとく単語のベクトル演算をしてもらいました。参考とするために、前回と同じ演算です。早速見ていきましょう。

yoshipc@ubuntu:~/twitter/word2vec$ ./word-analogy tweets-train.bin
Enter three words (EXIT to break): 現在 地球 未来

Word: 現在  Position in vocabulary: 674

Word: 地球  Position in vocabulary: 3337

Word: 未来  Position in vocabulary: 1570

                                              Word              Distance
------------------------------------------------------------------------
                                            世界		0.603715
                                            人類		0.578384
                                            宇宙		0.550593
                                            現実		0.538544
                                            運命		0.516235
                                   明るい未来		0.514421
                                               空		0.510775
                                         この世		0.501839
                                            僕ら		0.501282
                                      希望の光		0.499918
                                         この街		0.493066
                                               夢		0.492678
                                            人間		0.489397
                                               道		0.489035
                                            太陽		0.487439
                                         きっと		0.486102
                                            永劫		0.480969
                                         セカイ		0.477885
                                         未来へ		0.475911
                                            生命		0.470979
                                            大地		0.469094
                                         生き方		0.466944
                                            叡智		0.463096
                                            きみ		0.462352
                                         侵略者		0.461892
                                            人生		0.459877
                                      君の笑顔		0.453077
                                            虚像		0.451170
                                               心		0.450787
                                            こと		0.447146
                                   大切なもの		0.447091
                                            道標		0.446497
                                         この国		0.446489
                                            遠く		0.445713
                                         大海原		0.445700
                                         地平線		0.445120
                                   ひとりでに		0.444735
                                            キミ		0.444560
                                         未来を		0.444312
                                      彼方から		0.444180


Enter three words (EXIT to break): 恐竜 噴火 人類

Word: 恐竜  Position in vocabulary: 14523

Word: 噴火  Position in vocabulary: 25009

Word: 人類  Position in vocabulary: 4424

                                              Word              Distance
------------------------------------------------------------------------
                                      日本国民		0.504782
                                      国際社会		0.498614
                                   放射能漏れ		0.486438
                                            瓦解		0.485425
                                            収束		0.477185
                                            国民		0.472936
                                      電源喪失		0.471543
                                            人民		0.465190
                                      政権交代		0.464547
                                         未曾有		0.464171
                                      日本民族		0.462117
                                            国家		0.450937
                                            滅亡		0.450119
                                            事象		0.449914
                                メルトダウン		0.447464
                                      われわれ		0.444761
                                            地球		0.444433
                                               瀕		0.441625
                                      日本政府		0.440596
                                            過ち		0.440204
                                   大東亜戦争		0.439783
                                            履行		0.437771
                                      原発事故		0.435660
                                            停戦		0.432246
                                            是認		0.431025
                                      敵国条項		0.430867
                                            直面		0.428798
                                            行使		0.427611
                                         中国軍		0.426728
                                            失政		0.426705
                                      武力行使		0.426567
                                         我が国		0.424916
                                      安倍政権		0.424625
                                      巨大地震		0.423229
                                            暴落		0.422987
                                            存在		0.422820
                                      金融危機		0.421636
                                            戦後		0.420972
                                            事態		0.419899
                                            戦没		0.419073

Enter three words (EXIT to break): 過去 戦争 未来

Word: 過去  Position in vocabulary: 1033

Word: 戦争  Position in vocabulary: 2559

Word: 未来  Position in vocabulary: 1570

                                              Word              Distance
------------------------------------------------------------------------
                                            平和		0.522789
                                            侵略		0.517995
                                            国家		0.517953
                                      民主主義		0.513909
                                            争い		0.508577
                                            独裁		0.508006
                                            恐慌		0.491936
                                            戦い		0.487261
                                            破滅		0.485378
                                      侵略戦争		0.484970
                                            革命		0.484187
                                            秩序		0.481204
                                            滅ぶ		0.479859
                                      日本侵略		0.476639
                                            圧政		0.475845
                                      世界平和		0.475404
                                      資本主義		0.475313
                             第三次世界大戦		0.475173
                                      社会主義		0.474103
                                            支配		0.473573
                                            中露		0.472770
                                            僕ら		0.472601
                                            我々		0.472268
                                   日本の農業		0.472103
                                         私たち		0.470849
                                      共産主義		0.468439
                                   新自由主義		0.466063
                                   ニヒリズム		0.465786
                                               国		0.465224
                                         核戦争		0.465120
                                            滅亡		0.464730
                                            闘い		0.464701
                                   明るい未来		0.464211
                                      保護主義		0.462045
                                            紛争		0.459765
                                            滅び		0.458792
                                            鎖国		0.456679
                                         為政者		0.455943
                                      全体主義		0.455139
                                            反乱		0.454954


Enter three words (EXIT to break): 現在 核戦争 未来 

Word: 現在  Position in vocabulary: 674

Word: 核戦争  Position in vocabulary: 69314

Word: 未来  Position in vocabulary: 1570

                                              Word              Distance
------------------------------------------------------------------------
                                            戦争		0.569488
                                            現実		0.550737
                                      人類滅亡		0.528336
                                            破滅		0.518106
                                      保護主義		0.512427
                                            滅ぶ		0.503720
                                      全体主義		0.494948
                                            運命		0.493296
                                            滅び		0.492078
                                      世界平和		0.489570
                             第三次世界大戦		0.489473
                                      民主主義		0.488292
                                            平和		0.487700
                                      共産主義		0.483427
                             ナショナリズム		0.482726
                                   明るい未来		0.482302
                                      社会主義		0.481790
                                            独裁		0.479569
                                            人類		0.475583
                                      世界恐慌		0.469627
                                            恐慌		0.469290
                                   ファシズム		0.469131
                                ポピュリズム		0.467034
                                            中露		0.466852
                                            侵略		0.466768
                                         未来を		0.466476
                                      独裁国家		0.466271
                                            災い		0.465553
                                            専制		0.464848
                                            滅亡		0.464760
                                            永劫		0.462897
                                            こと		0.462651
                                            無力		0.461402
                                         権力者		0.459051
                                            災厄		0.459035
                                            虚像		0.457459
                                トランプ政権		0.457113
                                      侵略戦争		0.454696
                                            政権		0.454047
                                            それ		0.453413


Enter three words (EXIT to break): 女性 かわいい 男性

Word: 女性  Position in vocabulary: 492

Word: かわいい  Position in vocabulary: 275

Word: 男性  Position in vocabulary: 841

                                              Word              Distance
------------------------------------------------------------------------
                                         可愛い		0.888274
                                      カワイイ		0.761770
                                   かっこいい		0.757136
                                      かわゆい		0.748681
                                   かわいいよ		0.730760
                                      かわいー		0.703242
                                      可愛い〜		0.691793
                                   カッコイイ		0.671846
                                   かわいかっ		0.653079
                                      可愛かっ		0.652575
                                            すき		0.645260
                                   かわいい〜		0.639327
                                      可愛いい		0.631806
                                      可愛いー		0.631314
                                         萌える		0.616470
                                         似合う		0.616324
                                      格好いい		0.607348
                                      かわいく		0.593961
                                   可愛らしい		0.580756
                                   かわいい~		0.576812
                                         可愛く		0.575392
                                      あざとい		0.572130
                                      めんこい		0.571543
                                   かわいいー		0.571391
                                かわいらしい		0.566938
                                         ずるい		0.565993
                                   かわいいっ		0.565969
                                      かわいっ		0.565026
                                   愛くるしい		0.558229
                                      かわいぃ		0.557168
                                   ちっちゃい		0.549026
                                      可愛いっ		0.547052
                                         かわい		0.545649
                                      色っぽい		0.545449
                                   おもしろい		0.543379
                                            可愛		0.543249
                                      かわゆし		0.543152
                                      かわい〜		0.538648
                                      可愛いぃ		0.537529
                                      可愛い~		0.536874

ちょっと良くわからないので、前回の結果と比較してみます。

着色は両方の演算結果に登場した単語です。一見すると1000万ツイート分の結果を濃縮したのが2000万ツイート分の結果という感じな気がします。これを何か数字で傾向を算出出来れば良いのですが、このような分野には疎いものでよくわかりません。何か良い手段が有りましたら、コメントなどでお知らせください。

また、「恐竜 噴火 人類」の演算結果ではなぜか原発系の用語が殆どなくなりました。他にも色々な変化が見られました。やっぱり日本語モデルを2倍にするだけでも変化はあるんですね。次は関連語出力です。

関連語出力

早速見ていきます。

yoshipc@ubuntu:~/twitter/word2vec$ ./distance tweets-train.bin
Enter word or sentence (EXIT to break): トランプ

Word: トランプ  Position in vocabulary: 661

                                              Word       Cosine distance
------------------------------------------------------------------------
                                   トランプ氏		0.843974
                                      ヒラリー		0.814557
                                   クリントン		0.773175
                       ドナルド・トランプ		0.709894
                             トランプ大統領		0.706651
                    ヒラリー・クリントン		0.685431
                       トランプ次期大統領		0.674865
                                         民主党		0.671567
                                   次期大統領		0.660402
                    バーニー・サンダース		0.657438
                                      対立候補		0.646014
                                      アメリカ		0.640917
                          ドゥテルテ大統領		0.636720
                          リベラルメディア		0.635047
                                      極右政党		0.634951
                                      ネオコン		0.632521
                                   アメリカ人		0.632108
                                         共和党		0.631699
                                      副大統領		0.631480
                                            選挙		0.628310
                 エスタブリッシュメント		0.627984
                                      リベラル		0.626295
                          ドナルドトランプ		0.625530
                                         選挙後		0.624006
                                   ウォール街		0.622957
                                クリントン氏		0.621994
                                      選挙結果		0.615811
                                   オハイオ州		0.615090
                                            米国		0.614540
                                         大統領		0.613802
                                         アサド		0.610111
                                   大統領選挙		0.608435
                                         オバマ		0.607592
                                         安倍氏		0.604816
                          反グローバリズム		0.604310
                                   ネタニヤフ		0.602129
                                ポピュリスト		0.601324
                                         選挙戦		0.601310
                                   ドゥテルテ		0.600674
                                         ルペン		0.599487

Enter word or sentence (EXIT to break): ハルヒ

Word: ハルヒ  Position in vocabulary: 23003

                                              Word       Cosine distance
------------------------------------------------------------------------
                                      ストパン		0.645798
                                      けいおん		0.638650
                                      とらドラ		0.636988
                                花咲くいろは		0.632872
                                   らき☆すた		0.628135
                                      シュタゲ		0.627787
                                      ギルクラ		0.617519
                                          TARITARI		0.612508
                                グレンラガン		0.612221
                                      まどマギ		0.610592
                                シンフォギア		0.608070
                                      らきすた		0.606560
                             のんのんびより		0.602893
                                      バカテス		0.602474
                                         SHIROBAKO		0.601572
                                         ギアス		0.596853
                                         化物語		0.596690
                                   けいおん!		0.589731
                             ハヤテのごとく		0.586546
                             リリカルなのは		0.584632
              ウィッチクラフトワークス		0.584533
                                         結界師		0.584402
                                      かんなぎ		0.579284
                                   キルラキル		0.578478
                                      リトバス		0.577740
                          ブラックラグーン		0.577532
                                      ひぐらし		0.572559
                                      バクマン		0.568581
                          エルフェンリート		0.567559
                                      クラナド		0.566878
                          涼宮ハルヒの憂鬱		0.566182
                          アクセルワールド		0.565847
                                      きんモザ		0.565820
                                カブトボーグ		0.563231
                          アルスラーン戦記		0.561105
                                      プリリズ		0.559184
                 ストライクウィッチーズ		0.558513
                     対魔導学園35試験小隊		0.558363
                                      これゾン		0.558080
                                生徒会の一存		0.557798

Enter word or sentence (EXIT to break): Twitter

Word: Twitter  Position in vocabulary: 583

                                              Word       Cosine distance
------------------------------------------------------------------------
                                   ツイッター		0.869226
                                           twitter		0.845602
                                タイムライン		0.690816
                                   ついったー		0.646548
                                          Facebook		0.642719
                                      インスタ		0.632823
                                               SNS		0.613419
                             フェイスブック		0.602303
                             Twitter		0.578967
                             インスタグラム		0.563292
                                          facebook		0.560759
                                              LINE		0.552092
                                   ツィッター		0.539288
                                         Instagram		0.533319
                                      ツイート		0.524300
                                         SNS		0.520925
                                                TL		0.514066
                                         ニコ動		0.505256
                                      ツイッタ		0.496323
                                カカオトーク		0.491717
                                         ネット		0.490409
                                      ネット上		0.486285
                                             Slack		0.485163
                                               sns		0.479989
                                   アカウント		0.478253
                                         カイブ		0.477760
                                プッシュ通知		0.473205
                                         スパム		0.464073
                                            TL		0.459924
                                            GitHub		0.458841
                                            reddit		0.458549
                                            通知		0.456949
                                ツイッター上		0.456893
                                            携帯		0.456676
                                         プロフ		0.454460
                                      スカイプ		0.454132
                                      ブラウザ		0.454094
                                   コメント欄		0.453342
                                            safari		0.452758
                                            Flickr		0.450859

こちらも、結果を見ただけではよく分かりませんので、別にまとめてみます。

サンプル数が2つしか無いのではっきりとしたことは言えませんが、終わった話題(=安定した話題)は1000万と2000万では入れ替わりがそう激しくありませんが、常に変動し続ける話題(=不安定な話題)は変化が大きいです。この不安定な話題の代表が「アニメ」であって、比較を見てからも分かるように安定した話題と比較すれば大きく結果が異なっているのが分かります。

考察

Twitterという常に変動する言葉の辞書を活用することで今回一番良くわかったのは「何の話題がHOTなのか」です。例えば、関連語出力でも顕著に出ましたが、大統領選挙は現在さほど話題にはなっていませんが、アニメは1年中放送しているものなので常に話題が変動していきます。このような変化を大きく影響を受けることがよく分かりました。これからは更に日本語を収集する手段を考えながら精度の高い日本語のモデルを作っていけたらと思います。続編をお楽しみに!(ちなみに1000万ツイート収集するのに低スペックのパソコンでは16日かかりました。2000万で1ヶ月ちょいです。)

日本語モデル(?)の頒布

“tweets-train.zip” をダウンロード tweets-train.zip – 175 回のダウンロード – 462 MB


こちらが2000万ツイート分の日本語モデルです。著作権等は放棄しますが、自作発言、二次配布、商用利用はお控えください。また、予期せぬタイミングで削除に至る可能性も有りますので、その点もご承知おきください。ご利用時になにかコメントいただけると励みになります。よろしくお願いします。

追記(2017/08/11):今日の出来事に触発されたので、もう一回、ツイート長期収集を再開します。

投稿者プロフィール

yoshipc
コンピューター関連を得意としています。PHPが専門です(尚、技量はお察し)。このブログとMastodonのインスタンスを運営・管理しています。よろしくお願いいたします。

Twitter上のツイートを利用した日本語学習(第二弾)」への1件のフィードバック

  1. 雪兎

    とても詳しく調べていてすごいと思いました。 Twitterは僕も好きです。とても面白い内容なので更新が楽しみです。今後も頑張ってください!

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です