4/26 研究メモ

この記事について

ただの研究に関するメモです。

 

連想ゲームについて

色々論文が見つかったのでメモ。

Word2Vecを用いた単語連想ゲームの試行実践とエンターテイメント分野への応答の検討

香川大学の人の論文。刺激語とユーザーが連想した語の距離を、学習させたWord2Vecを用いて計算し、それを得点とするゲームだった。

僕は、刺激語をモデルに入力し、そこから出力した連想語をユーザーに提示し、元となった刺激語をユーザーに答えてもらうタイプの連想ゲームを想定していたので、真逆の実装方法となる。それでも参考になる部分はあった。

この論文では、ゲーム部分にUnity。得点計算にRuby on RailsPythonを使用していた。やはり、ゲーム部分はUnityとかSiv3Dとか使うべきなのかなぁ...。Webアプリとして作成するから、言語とかどうすればいいか判らない。

余談だけど、東北大学の人が辞書を公開してくれてあるらしい。

連想概念辞書およびWikipediaのデータを用いた部分・材料概念の抽出

東京工科大学の人の論文。

https://www.ai-gakkai.or.jp/jsai2014/webprogram/2014/pdf/567.pdf

連想概念辞書とWikipediaを使って、部分概念と材料概念を抽出しようって内容(直球)。そもそも、連想語の上位・下位概念、部分・材料概念について詳しくないので、軽く調べる必要がある。

上位・下位概念は、果物(上位)と林檎(下位)みたいな感じ。部分・材料概念は、人間に対して5本指みたいな感じ。上位・下位概念だけでは、人間と5本指は結び付かないらしい。そりゃ人間を5本指って比喩する文脈は殆どないからね。

連想概念辞書は、連想実験によって人の手で作成されてるから効率が悪い。概念抽出の中でも上位・下位概念は、機械学習によるフィルタリングで良い感じに出来てる研究があるらしい。上位・下位概念の研究は多いけど、部分・材料概念の研究は少ないらしい。

刺激語に関係するWikipediaの記事を参照して、連想概念辞書を使用してX(既存連想語)、ルールを元にY(連想語でない)、残りをZ(連想語候補)に分ける。Xを正例、Yを負例として特徴ベクトルを学習させる。そして学習させたものでZの分類を行う、という方法。ちなみに、連想概念辞書で抽出するのは「部分・材料」に相当する連想語。

簡単に言えば、人の手で作った連想概念辞書を元にして、それをお手本に機械で分類しよう!って仕組み。

精度としては正解率80.0%、そこそこ良いらしい。

Word2Vecと辞書について

google検索をしたら、色々と出てきた。今回は文章の理解とかではなく、単語を連想さえできれば十分なので、大掛かりなモデルを使う必要はないかも。卒研ではBERTで試してみたいけど、まずはWord2Vecで試してやるぞ。

Tensorflow+Word2Vecのチュートリアルを扱ってる記事を見つけた。あの謎の日の丸マークが出るカスサイトである。でも内容は易しいからここから始めてみようと思う。

【TensorFlow】単語ベクトルを作成するword2vecは試してみた? | 侍エンジニア塾ブログ(Samurai Blog) - プログラミング入門者向けサイト

ボスもWord2Vecがいいんじゃない?階層構造を作るなら工夫が必要だけど...って言ってたし、単語オンリーならWord2Vecがお手軽。技術としても少し古いし、Tensorflowのチュートリアルもしっかりしてるっぽい。今日はやる気でないからやらないけど。

対話botと連想について

もし対話botに連想語の概念を組み込むなら、会話部分の対話botはそのままにして、別途単語を出力させる部分を作成するって方式が一番楽かな。楽ではないが。

Transformer系列なら文章中のどこに注目しているか判るから、そこから単語を抽出して、その単語を辞書モデルに入力してあげて連想語を出力させればいいのかな。わからん。

卒研テーマについて

自然言語処理といっても何でもできるわけじゃないらしくて、『連想』をテーマにしないとダメらしい。出資してくれる団体との関係があるとか何とか。だから、今のところ『連想』しかテーマが決まっていない。『連想』+『何かしたのモデル』+『何かしらの検証』になる。あと新規性。これ大事。

できればナウいモデルのBERT、特にALBERTについて研究してみたいけど、今やるべきゲーム製作との関連性は薄くなるかな。Word2Vecで新規性を見出すか、BERTで新規性を見出すか。それとも階層構造を表してみるか。

 

明日は

連想概念辞書について調べるのと、Word2Vecのチュートリアルをやってみる。

f:id:jungrave3:20200419153836j:plain