日本語特化生成AI「ELYZA-japanese-Llama-2-70b」とは?特徴・使い方を解説
ChatGPTは自然な文章で会話ができるAIとして、創作活動やビジネスシーンで活用されています。
しかし、出力された日本語のテキストに違和感を感じる場合も少なくありません。
本記事では、日本語に特化した生成AI「ELYZA-japanese-Llama-2-70b」について解説します。
ELYZA-japanese-Llama-2-70bとは?
ELYZA LLM for JPの概要
ChatGPTなどの海外で開発された生成AIは、主に英語を中心に学習したモデルが多く、出力された日本語の言葉遣いや語彙に違和感を覚えることも少なくありません。
ELYZA-japanese-Llama-2-70bは、日本語の表現やニュアンスを理解し、より自然な会話ができるよう設計された大規模言語モデル(LLM)です。
株式会社ELYZAが開発する「ELYZA LLM for JP」シリーズの最新モデルで、InstagramやFacebookを運営するMeta社が開発した言語生成AI「Llama 2」をベースに、日本語による追加事前学習が行われています。
LLMとは、大量のテキストデータから言語のパターンを学習し、さまざまな自然言語処理タスクを高い精度で行う人工知能(AI)技術です。
文章生成や翻訳など、様々なタスクに応用されており、ChatGPTもLLMの一種です。
株式会社ELYZAとは?
株式会社ELYZAは、東京大学 松尾研究室発のAIスタートアップで、AI分野の研究開発とAIのリサーチ&ソリューションサービスの提供を行う企業です。
2024年3月18日に、KDDIとELYZAが資本業務提携をすることが発表されました。
KDDIグループから数十億円を投じられ、株式の53.4%を取得されているため、ELYZAはKDDIの連結子会社になります。
ELYZA-japanese-Llama-2-70bの性能評価
国内の大規模言語モデルの中で最高の性能
ELYZA-japanese-Llama-2-70bは、 ELYZA Tasks 100 を用いたブラインド性能評価で、公開されている日本語のLLMの性能を大きく上回っています。
ELYZA Tasks 100とは
- LLMの指示に従う能力や、ユーザーの役に立つ回答を返す能力を測ることを目的とした日本語のベンチマークデータセット
- 評価には、対象のテキストに紐づくモデル名を隠し、シャッフルした状態でのブラインド性能評価を採用
OpenAI社の「GPT-3.5 Turbo」シリーズやAnthoropic 社の「Claude 2」シリーズをはじめとするグローバルモデルの性能に比肩することがわかります。
Japanese MT-Benchでもグローバルモデルと遜色ない性能であることが、以下の表から確認できます。
Japanese MT-Benchtとは
- Stability AI社が提供しているベンチマークデータセット
- LLMの対話性能を測るため、8つのカテゴリに分かれた80件の対話から応答の適切さを評価
ELYZA-japanese-Llama-2-70bは「Gemini 1.0 Pro」や「GPT-3.5 Turbo (1106)」を総合スコア (平均) で上回る結果となっています。
特に人文学や科学技術に関する知識、執筆カテゴリでは、総合スコア首位のOpenAI社である「GPT-4 (0613) 」 とも同等のスコアになっています。
ただし、数学やコーディングのタスクにおいては、「Gemini 1.0 Pro」や「GPT-3.5 Turbo (1106)」と比べると、低いスコアになっています。これらの分野の能力向上が今後の課題となりそうです。
ELYZA-japanese-Llama-2-70bの使い方
ELYZA-Japanese-Llama-2-70bをベースにした対話型AIサービス「ELYZA LLM for JP」がデモ版として一般公開されています。
このサービスでは、自然な対話と様々なタスクの実行が可能です。
上記のリンク、もしくはこちらからELYZA LLM for JPにアクセスすると下記の画面が表示されます。
アカウントの登録は必要ありません。
利用規約に同意することで、サービスの利用を開始できます。
ELYZA-japanese-Llama-2-70bの使用例
ELYZA LLM for JPでは、いくつかのサンプルプロンプトが用意されているので、情報抽出、対話要約+感情分析、ひっかけ問題の順に試してみました。
情報抽出
以下のプロンプトを実行してみました。
””””””””””””
指示:
Appleに関する表をもとに、次の質問に答えなさい。
質問:
AppleはMacintoshを発表してから何年後にiPhoneを発表しましたか?
表:
| 年 | イベント |
|---|---|
| 1976年 | スティーブ・ジョブズとスティーブ・ウォズニアックによりAppleが創設され、初の製品であるApple Iが発表されます。|
| 1977年 | Apple IIが発表され、パーソナル用コンピュータメインストリームとして成功します。|
| 1980年 | Appleは公開企業となり、初回株式公開(IPO)後に創業者たちは多くの富を得ます。|
| 1984年 | AppleはMacintoshを発表、これは初めてのマウス操作のユーザーインターフェースを備えたパーソナルコンピュータです。|
| 1985年 | スティーブ・ジョブズはAppleを離れ、新たな企業NeXTを設立します。|
| 1997年 | Appleは財政的な困難から抜け出すために、スティーブ・ジョブズをCEOとして再び雇いました。その後、Microsoftとのパートナーシップを結びます。|
| 2001年 | Appleはデジタル音楽市場に参入し、iPodとiTunesを発表します。|
| 2007年 | AppleはiPhoneを発表、モバイル市場に参入します。その後の数年間で、iPhoneは会社の収益の大部分を占めるようになります。|
| 2010年 | Appleはタブレット市場に参入し、iPadを発表します。|
| 2011年 | スティーブ・ジョブズがCEOを辞任し、ティム・クックがCEOになります。数ヶ月後、ジョブズが亡くなります。|
| 2015年 | AppleはApple Watchを発表し、ウェアラブルデバイス市場に参入します。
|
””””””””””””
出力結果は以下のようになりました。
””””””””””””
承知いたしました。与えられた表より、AppleがMacintoshを発表してから何年後にiPhoneを発表したかを算出します。
表の情報より、AppleがMacintoshを発表したのは1984年であることがわかります。また、iPhoneを発表したのは2007年であることもわかります。
そのため、AppleがMacintoshを発表してからiPhoneを発表するまでの年数は、2007年 - 1984年 = 23年となります。
””””””””””””
「AppleはMacintoshを発表してから何年後にiPhoneを発表しましたか?」の質問に対してELYZA-japanese-Llama-2-70bが表から導き出した答えは23年。
正解です。
対話要約+感情分析
以下のプロンプトを実行してみました。
””””””””””””
###指示
与えられた文章から、以下のフォーマットで情報を抽出してください
また、カスタマーの感情についてもわかることを教えて下さい。
###フォーマット
■ カスタマーの要望
[write me]
■ オペレーターの対応
[write me]
■カスタマーの感情
[write me]
###入力
オペレータ: 大変お待たせしいたしました。カスタマーセンターの金親と申します。
カスタマー: はいすいませんちょっとお尋ねしたいんですけど、オンラインストアで買ったら送料いくらかかるか教えてください。
オペレータ: はい、かしこまりました。オンラインストアでの送料についてのお問い合わせですね。
カスタマー: はい。
オペレータ: はい、オンラインストアの場合は送料は450円となります。
カスタマー: はい。
カスタマー: なるほど。
カスタマー: 予約欲しいんですか。
オペレータ: はい。
カスタマー: 送料かかりたくないんですけど、はいです。
オペレータ: はい。
オペレータ: そうなりますと、1回のご注文で商品代金合計が4990円以上の場合は送料無料で承っております。
カスタマー: 4990円ですか今合計金額2000円ぐらいなんですけど、
カスタマー: なんか送料払うのもったいないんですよね。
オペレータ: そうしますと、
オペレータ: はい。そうしますと、お近くの店舗でも受け取り可能となっておりまして、その場合は送料無料となります。
カスタマー: なるほど。
カスタマー: わかりました店舗受け取りにしようかな。
オペレータ: かしこまりました。
カスタマー: はいすいませんありがとうございます。
オペレータ: はい。何か他にご不明な点などございますでしょうか?
カスタマー: 大丈夫ですよ。ありがとうございます。
オペレータ: かしこまりました。本日はカスタマーセンター金親が承りました。
カスタマー: はい。ありがとうございます。
オペレータ: 失礼いたします。
カスタマー: 失礼します。
””””””””””””
出力結果は以下のようになりました。
””””””””””””
-
承知いたしました。与えられた文章から、以下のフォーマットで情報を抽出し、カスタマーの感情についてもわかることを教えます。
■ カスタマーの要望
-
オンラインストアで買った場合、送料がいくらかかるかを知りたい
-
送料を払いたくないので、送料がかからない方法を知りたい
■ オペレーターの対応
-
オンラインストアの送料は450円であると説明
-
商品代金合計が4990円以上の場合は送料が無料であると説明
-
お近くの店舗で受け取る場合は送料が無料であると説明
■カスタマーの感情
-
送料を払いたくないという気持ち
-
オペレーターからの説明に感謝している
-
与えられた指示通り、 カスタマーの要望、オペレーターの対応、カスタマーの感情を抽出してくれました。
特に、カスタマーの感情をしっかりと抽出している点には目を見張るものがあります。
ひっかけ問題
以下のプロンプトを実行してみました。
””””””””””””
東京は坂が多いと言われています。では登り坂と下り坂、どちらが多いでしょう?
””””””””””””
出力結果は以下のようになりました。
””””””””””””
これは引っかけ問題だと思いますが、一般的には登り坂と下り坂の数は等しくなると考えられます。
ある坂を登がったら、必ずそれを下ることになります。
したがって、東京であっても登り坂と下り坂の数は同じだといえるでしょう。
””””””””””””
ひっかけ問題にひっかかるどころか、こちらがひっかけ問題を意図して質問したことを汲み取って回答してくれました。
ELYZA LLM for JPの回答のとおり、答えは「同じ」です。
まとめ|精度が高く、今後の活用に期待できる
日本語に特化した生成AI「ELYZA-japanese-Llama-2-70b」を紹介しました。
このモデルは、日本語の認知、処理能力において、国内のモデルだけでなくChatGPT-3.5 Turboなどの海外の生成AIに比肩する高い精度を実現しています。
ELYZA-japanese-Llama-2-70bは、高度な対話システムや自動翻訳ツール、創作支援ツールなど、様々な分野での活用が期待されています。
ELYZA LLM for JPシリーズの更なる発展に期待が高まります。
出典:https://elyza.ai/lp/elyza-llm-for-jp