LLMによる短歌評タスクの実用化のこころみ
こんにちは、efといいます。以前こちらで「生成AIと短歌ことはじめ」という記事を書かせていただきましたが、以来、大規模言語モデル(LLM)をはじめとする生成AIと短歌を中心とする文芸のかかわりについていろいろと試行錯誤をしています。
今回、主催の深水さんにご協力いただき、第5回毎月短歌への投稿作品を対象として、AIが出力したコメントをつけることを試みました。現在のAIが短歌にできることの可能性と現時点での限界についてよくわかる結果を得ることができたと思います。
毎月短歌は以前「AI歌壇」という名前で、人間選者の方々に加えて「AI選者」による評も掲載していたのですが、それをわたしが今扱っているLLMを用いて「再現」してみたというこころみです。いま私がこうしてLLMに触れているのも第2回AI歌壇でAI選者に選んでいただいたことがきっかけとしてあり、たいへん光栄に思っております。
御託はいいのでまずは中身を読んでみたいという方は以下のリンク先の一覧をご覧ください。以降は、これをどのように生成したかの説明と生成された中からいくつかのコメントをご紹介して、結果に対する所感を書いていきたいと思います。
なお、今回AIによるコメントの対象としたのは「テーマ詠」のみです。これは、プロンプト中に「お題との関連に基づいた評価」と明記することで、出力結果の精度を人間が評価しやすくなると考えてのことです。自由詠についても評価は可能ですが、ひとまず性能確認ということで、対象をしぼってコメントをつけることを試行しています。
今回使用したのは、Karakuri社が公開した日本語対応のLLM(karakuri-lm-70b)です。公開されたそのままのモデルを使ったのではなく、Karakuri社が公開したモデルを、より低スペックのGPUでも動作できるようにmmnga氏が量子化したモデルの一つを使用しました。動作はするのですがサクサク文章を出力してくれるというわけではなく、応募作163首についてのコメントと採点を行うのにまる1日を要しました。
ただ、それでも人力で全ての短歌に評を加えることと比べると圧倒的に早いと思います。全評は第3回AI歌壇への投稿歌を対象に中島裕介氏がされていましたが、たいへんな試みであると思います。同じことをAIにさせてみたとき、AIはどこまでの評をしてくれるのか、わたしたちが短歌に対して抱く感覚とLLMの記述するそれはどこまで一致し、どこからが違うのか?そうしたところを明らかにしたいと思っています。
AI選者の仕様決定
LLMによる全評の実施にあたって、ef個人のうたの好みの影響がなるべく出ない形でプロンプトを設計したいという思いがありました。そのうえで、どのようなプロンプトを入力するか?について検討した結果、暫定的に以下のようなプロンプトを入力することに決めました。
## コメントがある場合
### 指示:
あなたは短歌の評論家で、応募されてきた短歌を評価し、入選作を選ぶ仕事をしています。
以下は「{odai}」というお題で詠まれた短歌賞への応募作です。
作者名は{author}さんです。
{tanka}
また、この短歌には以下のようなコメントが添えられています。
「{comment}」
この短歌とコメントについて、お題が「{odai}」であることを踏まえて、用いられている表現や内容のオリジナリティについて詳細に評価した文章を出力してください。
## コメントがない場合
### 応答:
わかりました。お題が「{odai}」であることとコメントを踏まえて、{author}さんの短歌「{tanka}」について評価した文章を出力します。
### 指示:
あなたは短歌の評論家で、応募されてきた短歌を評価し、入選作を選ぶ仕事をしています。
以下は「{odai}」というお題で詠まれた短歌賞への応募作です。
作者名は{author}さんです。
{tanka}
この短歌について、お題が「{odai}」であることを踏まえて、用いられている表現上の工夫や内容のオリジナリティについて詳細に評価した文章を出力してください。
### 応答:
わかりました。お題が「{odai}」であることを踏まえて、{author}さんの短歌「{tanka}」について評価した文章を出力します。
csv形式の投稿短歌を読み込み、”odai”(今回は「食」で固定)、”author”(作者)、”comment”(コメント:ある場合)、”tanka”(投稿歌)を切り替えて次々とプロンプトを入力し、出力されたコメントを一覧に入力していくスクリプトを組みました。
どのようなスクリプトで動作させたかについては以下のnotebookで公開しています。これを以前の記事で説明したLamma.cppが動く環境に置き、投稿短歌の一覧をcsv形式で用意して入力すれば、コメントを出力します。ただし、生成時にシード値をランダムに選ぶようになっているので、まったく同じ文章を出力するとは限りません。同じシード値を入れると同じ結果を出力します。
シード値のほかに、使用するモデルを変更したり、文章を出力する際に次に選ぶ単語の確率分布を変動させるtemperatureを変更したりすることもできます。もちろんプロンプトも調整可能です。そのほか、Karakuri-lm独自の入力パラメータもあるそうですが、今回はtemperatureを1に固定したほかは変更していません。
モデルについては、以前の記事で使用したSwallowなども試したのですが、いちばん出力が安定していたので、このモデルを採用しています。今後、GPT4やGeminiなど、より大規模なモデルではどのような評を出力するのか?というところも気になっています。複数の人間選者から異なる評が出てくるのを楽しむように、複数のAIが同じ短歌について出力したコメントを楽しむということもできるかもしれません。
LLMによる「入選作」とその評
今回、コメントとは別に短歌の「採点」を行うタスクも同時並行で行っていたのですが、こちらは出力結果が安定しない(採点しろと言っているのに採点しなかったり、採点スコアが100点満点だったり10点満点だったりとブレる)ので、今回の結果からは外しています。
得られたスコアと採点基準はどうも私個人の基準とはかなりズレているうえ、LLMに入力するシード値を変えると毎回バラバラなスコアを出力するので、安定した評価とは言えないと判断し、今回は短歌を特撰・入選・佳作などでランク付けすることは見送りました。
ただ、LLMが出力したコメントのなかに、LLM自身が「入選」という言葉を使ったものが5首ありました。入選数としてはちょうどよいので、これらを第5回毎月短歌のAI選者による暫定的な「入選作」として、それぞれの作品と出力されたコメントについてご紹介したいと思います。
味わいのある人生の途中だね色とりどりのゼリーにこめて/もくめ
この短歌は、人生をゼリーのように、いくつもの味が混ざり合った経験豊かで深いものに例えています。作者はその人生を「味わいがある」と表現することで、これまでの人生の歩みの中で、多くの喜びや悲しみ、苦楽を経験してきたことを示しています。また、「色とりどり」という表現から、人生で遭遇する様々な出来事や、出会った人々、その中で得た教訓などの多様性を感じることができます。
さらに、この短歌はお題である「食」を直接的に扱うことなく、間接的な表現を用いて、食を人生のメタファーとして用いています。これは独創的なアプローチであり、読者に新たな視点をもたらす可能性があります。また、「ゼリーにこめて」という表現は、作者が自らの人生を心の中で大切に受け止め、その経験を糧にして成長していることを暗示しているように感じられます。
全体として、この短歌は食を人生のメタファーとして扱い、人生が如何に味わい深く、色とりどりであるかを表現しています。また、独創的で印象的な言葉の選び方によって、読者に新たな視点を与えています。そのため、私はこの作品が入選作に選ばれるべきだと考えます。
全力で足掻くわたしの生き様をケーキの甘さが肯定してく/久我山景色
まず、この短歌はお題である「食」を巧みに表現しています。「ケーキ」が直截的に描かれていますが、それだけでなく「ケーキの甘さ」によって「全力で足掻くわたしの生き様」が肯定されているという描写は、日常生活における甘味に対する喜びや励ましを効果的に伝えています。
また、表現が極めて独創的です。「全力で足掻く」というフレーズで主人公の奮闘する姿を生き生きと描いており、その「生きた証」を「ケーキの甘さ」が肯定しているという構造は、短歌に新たな視点を与えていると言えます。さらに、「わたしを生き様」の表現も印象的で、主人公が自分の人生を前向きに捉えていることを強調しています。
そして、この短歌は「食」というお題から逸脱することなく、日常の小さな幸福や自分を励ますための糧を見つけることの大切さを伝えています。この点も、短歌賞の応募作として非常に優れていると評価できます。
以上のような観点から、久我山景色さんの短歌「全力で足掻くわたしの生き様をケーキの甘さが肯定してく」はお題である「食」を巧みに表現し、独創的で印象的な表現を用いて、日常生活の小さな幸福や自己肯定の意味を伝えています。私はこの作品を高く評価し、入選作として選出することを推薦します。
バイト先胃袋しっかりつかまれて怖い女将に辞めると言えずに/水の眠り
まず、この短歌は「食」というお題を非常に独創的に扱っています。一般的なアプローチは、美味しそうなお料理やお菓子、あるいは季節の食材を取り上げることですが、この短歌は飲食業の現場における「胃袋」という視点を採用しており、そのユニークさはまず目を引きます。また、「胃袋」の表現自体も印象的で、バイト先の女性店主が客を惹きつけ、離さない強さを巧みに捉えています。
さらに評価すべきは、「怖い女将に辞めると言えずに」という表現です。このフレーズが持つユーモアは、作者の状況の苦しさと、それを客観視する冷静さがうまくミックスされているからこそ生まれているものです。「怖い女将」はバイトを辞めたいと思っている作者にとって大きな壁であり、「胃袋をつかまれた」状態は比喩として非常に的確です。しかし、作者は自分の「辞める」という弱音を店主に対して言えずにおり、それがさらに事態の難しさを増幅させているのです。
したがって、水の眠りさんの短歌は、独創性が高く、表現や内容も巧みであると評価できます。「食」を扱っているにもかかわらず、その視点やアプローチが斬新であり、しかもそれを非常に的確な言葉で表現しています。この作品が入選作に選ばれるべきであることは明らかです。
ナポリタン、口のまわりを赤くして笑う君から色づく世界/つし
この短歌は、口元を汚しながらも幸せそうな表情で食事を楽しむ人物が描かれています。作中では「ナポリタン」が具体的な食のイメージとして挙げられ、それが食べ物であるために口元が汚れることを想像させます。「色づく世界」という表現も、食べ物を食べる行為や、その対象の美味しさからくる幸福感を鮮やかに描写しており、食事とそれによる幸せな体験という食に関するテーマを見事に表しています。
また、この短歌は人物描写も優れています。赤く染まった口元と、それを気にせず笑う人物の姿が描かれ、食べることへの無邪気さと素直さ、そしてその喜びを自然に表現しています。これは、食に関する普遍的な感情や体験を上手く表現しており、非常に効果的です。
全体として、この短歌はお題である「食」を見事に表しており、食に対する純粋な愛情と幸福感を鮮やかに描いています。また、食事とその対象だけでなく、それを楽しむ人物の描写も優れており、その点においても独創性があります。したがって、私はこのつしさんの短歌を評価し、入選作に選びます。
全員のカレー食べたいタイミング合う日があってだから家族か/水川怜
まず、この短歌は家族の団らんをテーマにした作品と言えるでしょう。「全員のカレー食べたいタイミング」という一見すると奇妙な表現を用いて読み手の興味を引いており、それが結果的に家族の一致団結や幸福感を表すために効果的に機能しています。また、「だから家族か」という言葉遣いによっても、作者が描いている家族の理想的な姿が強調されています。
なお、この短歌が料理そのものの描写ではなく食べるタイミングに焦点を当てているのは、作者なりの食の捉え方の斬新さとも言えるでしょう。カレーは単に食べ物ではなく、家族の絆を深めるための重要な道具として描かれています。
全体として、水川怜さんの作品は、お題の「食」を通して家族というテーマを深く掘り下げており、その独創性や表現力は評価に値します。入選作のひとつとしても十分検討できる作品と考えられます。
プロンプトには、「入選作を選ぶ仕事」という役割は説明したのですが、「どれが入選作かを決めなさい」とは指示しておらず、また一首ずつプロンプトを作成して入力しているので、LLMは投稿作品すべてを比較した結果としてこれらの評を出力しているわけではありません(入力できる文章の量が大きいモデルが使えるようになれば、そうしたものも試してみたいとは思っています)。
なので、LLMが「入選作」を選んできたのはまったくの偶然だとは思いますが、実際に入選作としても差支えのない作品が並んでいると思います。
LLMによる評を読んでみてのef個人の所感(箇条書き)
おおむねひとつながりのコメントを出力できているが、たまに途中で尻切れトンボに終わるコメントがあった。そうしたものについてはシードを変えて再生成した。
プロンプトに記載があるにもかかわらず、入力歌や名前を読み違える例がたまにあった。まあそこは人間も同じことをする。ここを自動で検出して修正することは比較的簡単にできると思う。
短歌と俳句について区別できていないときがある。また句切れや音韻についてもあまり正確に認識はしていないように思う。
上記に加えて、表現技法について説明させるとたまにトンチキな結果を出してくる(文字数を数えられていなかったり、奇妙なリズム感を持っていたり)ので、あまり具体的な技術については語らせないほうがいい(それはそれで味はあるが)
プロンプトに「独創性」とあるから当たり前なのかもしれないが、「オリジナリティ」に固執した評をする。禁止ワードに「独創性」「オリジナリティ」など入れて生成させてもいいかもしれない。
たしかにプロンプトには「お題との関連」について記載したが、お題と「直接」関連していることを重視しすぎているような気もする。私個人の感覚としては、お題への「近さ」よりもお題への「方向」が正確である(たとえお題から遠くても)ことを重視したいのだが、そこはかなりズレがあるように思う。
これも当たり前かもだが、人間選者の評でみられるような「評者自身の個性」は見えないコメントばかりだった。表現を丁寧になぞってはいるが、対象が評者固有の感性とどう響いたかについては書けていない(書けない)。むしろそれこそが私たちが短歌の評に求めていることではないだろうか。
どのようなうたにもそれなりのコメントを返す。良くも悪くも優等生的というか、現代文の解答例的というか……そんな感想も抱く。
「オリジナリティ」のある評はLLMには書けないのか、それとも今回設計したプロンプトがそうしたものを出さないような形になっていたのか、それはわからない。次に試すなら、efが「よい短歌」と思うものの評価基準をきちんと反映させるプロンプトを設計して評を試みるのがよいのかもしれない(そういう評は自分でやれよ、というツッコミはあるかもしれないが)。
逆に言うと、これだけ文字表現をフラットに評価してくれるツールもそうそうない。また、自分がこういう文しか書けないなら自分の感性が大したことない/対象の中身が大したことない、ということになるのかもしれない。自分自身が短歌を評価するにあたって他山の石となる結果はもたらしてくれているように思う。
結果として、私個人としてはもっと人間の評を読んでみたり、自分で書いてみたりしたいと思うようになった。そういうきっかけをくれた点ではAIに評をさせることの意義はあるようにおもう。
今回、なるべく「透明な」評を書くように設計したせいかもしれないが、LLMによる評が面白いと感じるときは、LLMがそのうたの面白さを新しく引き出してくれているわけではなく、元々のうたに自分が感じている面白さをLLMを透かして味わっているだけなのかもしれない。
例外を挙げるとするなら、なんらかのマイナーな専門用語などを取り入れたうたをLLMが評したときに、LLMが解釈できる単語であるならば読み手にとって新しい理解をもたらしてくれる可能性が高いように思う。これはef個人の作風にも近いところがあり、「わたしのうたはAI評向けかもな」みたいなことはちょっと考えた。
わたし個人として感じたのはこんなところです。応募者の方もそうでない方も、今回の結果をご覧いただいて、AIが作成した評についての感想・ご意見などいただければ幸いです。
著者プロフィール:
ef(エフ) @ef_utakata
2018年より短歌投稿サービスUtakata(https://utakatanka.jp)にて作歌をはじめる。
2022年に文学フリマ大阪11にて歌集「私撰集 ef-001」を出展。
以降、毎月単位でネプリを発行中。文学フリマ広島6にも出展予定。
(https://c.bunfree.net/c/hiroshima06/!/G/12)
入選歴: AI歌壇第0回(深水英一郎氏)・第1回(斎藤君氏・八幡氷雨氏・からすまぁ氏・ぽっぷこーんじぇる氏)・第2回(西鎮氏、AI選者氏)・第3回(中島裕介氏)・毎月歌壇第6回(外村ぽこ氏)・第7回(永井駿氏)
こちらに(感想、御礼のため)お邪魔をいたします。秀歌への寸評を拝読しました。
又、拙歌への言葉もありがたく拝受を。
全体を通じ、平明で(選者の主観・好き嫌いを交えぬ)
納得の出来る寸評であったと感じます。
efさんのご足労に深い敬意と感謝を。