Twitter上のツイートを利用した日本語学習

標準

現状

前回作成したプログラムで1000万(正確には1161万2661)ツイートを収集し、人工知能の元になる日本語学習のモデルを作成しました。それを、前々回の手順に基づき、色々と加工して語彙の塊を作ったところまで話は進みます。過去の記事にそこら辺の工程は記してあるので、今回はその結果について考察していきます。

ベクトル演算の結果

前々回の手順と同じ演算をしてみました。結構結果が違うところからかなりの語彙の差が見られます。

yoshipc@ubuntu:~/twitter/word2vec$ ./word-analogy tweets-train.bin											
											
Enter three words (EXIT to break): 現在 地球 未来											
											
Word: 現在 Position in vocabulary: 646											
											
Word: 地球 Position in vocabulary: 3132											
											
Word: 未来 Position in vocabulary: 1494											
											
	Word			Distance							
------------------------------------------------------------------------											
	世界			0.602624							
	人類			0.543273							
	現実			0.514047							
	宇宙			0.512201							
	道標			0.508042							
	この世			0.50619							
	この街			0.491833							
	セカイ			0.489193							
	人生			0.477655							
	人間			0.476668							
	希望の光		0.473739							
	道			0.473478							
	真理			0.469095							
	明るい未来		0.468303							
	素晴らしい世界		0.466917							
	空			0.466508							
	僕ら			0.461174							
	世界平和		0.459152							
	新しい世界		0.455947							
	夢			0.454776							
	彼方			0.453812							
	海へ			0.451184							
	生き物			0.451023							
	この国			0.450765							
	運命			0.449973							
	きっと			0.448351							
	生き方			0.446492							
	叡智			0.445666							
	キミ			0.444632							
	恒星			0.443009							
	海の底			0.442617							
	命			0.441733							
	輪廻転生		0.44141							
	侵略者			0.441408							
	死地			0.44047							
	旅路			0.440278							
	きみ			0.439143							
	公転			0.437911							
	夜空			0.437558							
	君の笑顔		0.434687							
											
Enter three words (EXIT to break): 恐竜 噴火 人類											
											
Word: 恐竜 Position in vocabulary: 15061											
											
Word: 噴火 Position in vocabulary: 22118											
											
Word: 人類 Position in vocabulary: 4781											
											
	Word			Distance							
------------------------------------------------------------------------											
	原発事故		0.532098							
	電源喪失		0.513952							
	福島原発事故		0.464274							
	太平洋戦争		0.46328							
	ラニーニャ現象		0.462596							
	人民			0.4581							
	日本国民		0.45673							
	巨大地震		0.456336							
	金融危機		0.456008							
	国民			0.448911							
	それら			0.446807							
	政権交代		0.445388							
	立証			0.443767							
	滅亡			0.442781							
	放射能漏れ		0.442724							
	災害			0.44182							
	政府			0.440498							
	我が国			0.43956							
	収束			0.438271							
	先の大戦		0.435819							
	大地震			0.435565							
	原子力発電所		0.433285							
	核戦争			0.433225							
	日本国			0.432804							
	暴風			0.430495							
	われわれ		0.429471							
	事象			0.427713							
	内部被曝		0.427674							
	日本軍			0.427604							
	金融経済		0.427537							
	暴落			0.427348							
	領海			0.426493							
	経済成長		0.426488							
	死			0.426103							
	自然災害		0.425942							
	中性子			0.424873							
	植民地支配		0.424667							
	トリチウム		0.421269							
	空爆			0.419897							
	福島第一原発事故	0.419747							
											
Enter three words (EXIT to break): 過去 戦争 未来											
											
Word: 過去 Position in vocabulary: 993											
											
Word: 戦争 Position in vocabulary: 2402											
											
Word: 未来 Position in vocabulary: 1494											
											
	Word			Distance							
------------------------------------------------------------------------											
	国家			0.549469							
	世界平和		0.526436							
	侵略			0.501115							
	アメリカ		0.501084							
	滅亡			0.500169							
	平和			0.493855							
	国			0.493639							
	私たち			0.492099							
	社会主義		0.4897							
	徴兵制			0.487121							
	平和憲法		0.486578							
	繁栄			0.484626							
	徴兵			0.473956							
	自主防衛		0.473593							
	多国籍企業		0.472732							
	軍事力			0.470309							
	この国			0.469006							
	秩序			0.468887							
	変革			0.468756							
	独裁			0.468424							
	軍隊			0.467761							
	民主主義		0.467356							
	滅び			0.466891							
	戦い			0.466708							
	祖国			0.463552							
	抑止力			0.463028							
	将来			0.460826							
	主権			0.457991							
	争い			0.457877							
	滅びる			0.457405							
	現実			0.455699							
	侵略戦争		0.453849							
	超大国			0.453782							
	建国			0.451772							
	紛争			0.450906							
	核戦争			0.450699							
	世界の終わり		0.450622							
	存亡			0.449972							
	社会			0.449561							
	滅ぶ			0.448486							
											
Enter three words (EXIT to break): 現在 核戦争 未来											
											
Word: 現在 Position in vocabulary: 646											
											
Word: 核戦争 Position in vocabulary: 64386											
											
Word: 未来 Position in vocabulary: 1494											
											
	Word			Distance							
------------------------------------------------------------------------											
	現実			0.550296							
	戦争			0.54772							
	滅亡			0.523266							
	それ			0.496773							
	滅びる			0.496528							
	滅ぶ			0.494136							
	ナショナリズム		0.491946							
	第三次世界大戦		0.488057							
	人類			0.484206							
	ヒトラー		0.483821							
	世界平和		0.472263							
	トランプ政権		0.468622							
	抑止力			0.4675							
	グローバル化		0.466767							
	破滅			0.466432							
	戦後日本		0.466088							
	こと			0.465714							
	民主主義		0.45992							
	世界の終わり		0.45799							
	保護主義		0.457665							
	平和			0.454754							
	アメリカ		0.454483							
	社会主義		0.453954							
	この国			0.453771							
	大統領			0.453712							
	存亡			0.452943							
	属国			0.449028							
	変革			0.448101							
	滅び			0.447887							
	死			0.447346							
	人類滅亡		0.446758							
	民衆			0.445977							
	徴兵制			0.445856							
	道義			0.445382							
	祖国			0.444785							
	軍事力			0.444622							
	日米安保		0.443597							
	米軍撤退		0.443395							
	政権			0.443134							
	将来			0.442936							
											
Enter three words (EXIT to break): 女性 かわいい 男性											
											
Word: 女性 Position in vocabulary: 473											
											
Word: かわいい Position in vocabulary: 275											
											
Word: 男性 Position in vocabulary: 791											
											
	Word			Distance							
------------------------------------------------------------------------											
	可愛い			0.87939							
	かっこいい		0.749638							
	かわいいよ		0.717992							
	かわゆい		0.717315							
	カワイイ		0.703926							
	かわいー		0.67568							
	すき			0.639878							
	カッコイイ		0.637353							
	可愛いい		0.635035							
	可愛い〜		0.626606							
	かわいかっ		0.626206							
	可愛かっ		0.622716							
	似合う			0.614752							
	格好いい		0.614094							
	萌える			0.606998							
	可愛らしい		0.588543							
	かわいいっ		0.578027							
	めんこい		0.577494							
	かわいぃ		0.576739							
	かわいい〜		0.569993							
	色っぽい		0.566761							
	かわいく		0.564131							
	大人っぽい		0.562167							
	可愛く			0.560525							
	カワユイ		0.559427							
	可愛いっ		0.558375							
	可愛いー		0.554952							
	おもしろい		0.553673							
	かわいいー		0.55007							
	愛くるしい		0.550066							
	かわいい~		0.54409							
	かわい			0.538456							
	ずるい			0.537333							
	可愛			0.53668							
	可愛い~		0.532784							
	かっこいー		0.5314							
	だいすき		0.527381							
	推せる			0.527268							
	お似合い		0.522254							
	あざとい		0.520163

これが演算結果です。本当にTwitterの語彙を吸い取ったっていう感じの結果ですね。ただ、まだまだ的をいていないと判断できる単語がたくさん有ります。1000万ツイートでも全然足りないんですね。また、大分内容が傾いてしまっているのでこれもなんとか是正したいところです。

関連語出力

次に「○○といえば?」という問いかけに対する答えを見てみます。今回は独自調査です。

										
yoshipc@ubuntu:~/twitter/word2vec$ ./distance tweets-train.bin											
											
Enter word or sentence (EXIT to break): トランプ											
											
Word: トランプ Position in vocablary: 370											
											
	Word			distance							
------------------------------------------------------------------------											
	トランプ氏		0.835056							
	ヒラリー		0.796449							
	クリントン		0.76346							
	ドナルド・トランプ	0.692498							
	トランプ大統領		0.668313							
	民主党			0.654428							
	アメリカ		0.648574							
	選挙			0.626273							
	トランプ次期大統領	0.625419							
	ドナルドトランプ	0.620136							
	共和党			0.616822							
	安倍さん		0.612783							
	エスタブリッシュメント	0.612736							
	バーニー・サンダース	0.60968							
	ヒラリー・クリントン	0.608063							
	対立候補		0.60636							
	アメリカ人		0.60183							
	ネオコン		0.596834							
	リベラル		0.595705							
	クリントン氏		0.595669							
	野沢直子		0.592253							
	副大統領		0.589429							
	上院議員		0.58592							
	ヒトラー		0.584391							
	大統領			0.582424							
	木村太郎		0.581774							
	橋下徹			0.579314							
	選挙結果		0.579113							
	オバマ			0.576084							
	選挙戦			0.57552							
	朴槿恵			0.571346							
	次期大統領		0.570646							
	ドゥテルテ		0.567364							
	政治家			0.567204							
	安倍内閣		0.566789							
	副大統領候補		0.566509							
	米国			0.564193							
	ジュリアーニ		0.563054							
	極右			0.562501							
	ウォール街		0.562185							
											
Enter word or sentence (EXIT to break): ハルヒ											
											
Word: ハルヒ Position in vocablary: 29688											
											
	Word			distance							
------------------------------------------------------------------------											
	らき☆すた		0.654328							
	CLANNAD			0.651727							
	キルラキル		0.649461							
	生徒会の一存		0.643134							
	化物語			0.626379							
	男子高校生の日常	0.624848							
	とらドラ		0.621756							
	シャーマンキング	0.620102							
	ストパン		0.613385							
	シュタゲ		0.610245							
	ギルクラ		0.607969							
	バカテス		0.607291							
	けいおん!		0.604257							
	はがない		0.598865							
	禁書			0.597113							
	ノゲノラ		0.597092							
	生徒会役員共		0.59606							
	リリカルなのは		0.595046							
	あの花			0.59435							
	俺の妹がこんなに可愛いわけがない	0.593053							
	のんのんびより		0.592703							
	ヒカルの碁		0.590836							
	クラナド		0.589519							
	けいおん		0.586876							
	青エク			0.586024							
	らきすた		0.584302							
	ガンダム00		0.583822							
	スケダン		0.581918							
	絶園のテンペスト	0.578972							
	うまるちゃん		0.576911							
	俺妹			0.57667							
	物語シリーズ		0.575383							
	とらドラ!		0.569344							
	寄生獣			0.568773							
	スラダン		0.56851							
	るろ剣			0.568442							
	ゼロの使い魔		0.566373							
	バクマン		0.565495							
	監獄学園		0.564057							
	俺ガイル		0.563473							

ハルヒの結果に一切キャラクターの出力がなく、延々と他のアニメのタイトルを出力しています。うーん、といった感じです。また、アメリカ大統領選挙の時期にツイートを収集したので結構そこら辺の語彙に豊富に見えます。まだまだ語彙に偏りがあることがこちらでも分かりますね。

今後の展望

現在1000万ツイートでもこの語彙力の偏り様なので、現在更に1000万ツイートを収集し、合計で2000万ツイートにしようと再び収集をはじめました。近い内にまた続編を更新するのでお楽しみに。

投稿者プロフィール

yoshipc
コンピューター関連を得意としています。PHPが専門です(尚、技量はお察し)。このブログとMastodonのインスタンスを運営・管理しています。よろしくお願いいたします。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です