生成AIとは｜意味や解説

2023.12.27公開 /2024.02.06更新

最近話題の生成AIにご興味を持たれている方も多いと思います。
AIという言葉は日常生活に浸透しつつありますが、生成AIについてはあまり聞き馴染みがない方が多いかもしれません。
本記事では、生成AIについて詳しく解説していきます。

コンテンツ [表示]

生成AIとは｜解説と特徴

生成AIは、新しいデータやコンテンツを生成することができる人工知能（AI）の技術のことを指します。
生成的人工知能やジェネレーティブAI、ジェネラティブAIと呼ばれることもあります。

生成AIIの特徴は、膨大なデータを学習していることです。それにより、まるで人間が作ったかのような新しいデータやコンテンツを生成することができます。
例えば画像、テキスト、音声、動画などを生成できます。多岐にわたるデータやコンテンツの生成が可能です。

高度な技術や専門的な知識がなくても、新しいデータやコンテンツを作り出せることから、昨今耳目を集めるようになりました。

生成AIの特徴

これまでのAIと生成AIの大きな違いは、「新たなデータ・コンテンツを作成できる」という点です。

従来のAIは0から1を生み出すことが苦手でした。
人間が与えたデータから結果を予測したり、人間が指定した行為を自動化することが主な役割だったのです。

しかし、生成AIは一度学習したデータからさらに学習を深め、人間が与えていない情報やデータをインプットすることができます。これにより、新しいデータ・コンテンツを0から生成できるようになりました。

生成AIの種類

生成AIは多岐にわたる活用法があります。以下にその代表的な例をご紹介します。

テキスト生成

テキスト生成AIは、ユーザーがテキストボックスに「プロンプト」と呼ばれる指示文章や質問などを入力すると、自動的に質問の回答やテキストを生成するシステムです。

知りたいことをテキスト生成AIに入力して回答を得るといったweb検索のような活用法があります。また、エラーが表示されたプログラミングコードをテキスト生成AIに入力して、エラー箇所を指摘してもらうといった活用も可能です。

テキスト生成AIの代表的なモデルとしては、OpenAI社の「ChatGPT」やGoogle社の「Bard」、Microsoft社の「Bing AI」などが有名です。

また、Googleが2023/12/8に発表したGeminiがあります。
Geminiはマルチモーダル性（複数の情報を同時に扱える要素）を備えています。
声や画像、立体物などの情報を同時に理解し、論理的な回答を生成できます。
GeminiはUltra、Pro、Nanoがあります。
Gemini Ultraは推論能力や複雑な処理をこなすのに最も長けています。
Ultra より一般的な性能のGemini Proは近々、提供されます。
Gemini Nanoはスマホ向けのオンデバイスAIで、Pixel 8 Proで初導入されます。
Gemini ProのAPIは開発者向けに提供される予定です。

ChatGPT

Google Bard

BardはGoogleが開発した生成 AIです。AI チャットやAI アシスタントを活用して、あなたの想像力を刺激し、生産性を高めましょう。

Bing AI

Bing は情報を行動に変え、検索から実行まで迅速かつ容易に移行するのに役立ちます。

画像生成

画像生成AIは、テキストで指示を出すだけでオリジナル画像を生成できます。

人物画や風景画、抽象画、オリジナルのアニメ風キャラクターなどの生成が可能です。

画像生成AIの代表的なモデルとしては、CanvaのAIフォトジェネレーターの「⁠Text to Image」や、OpenAI社の「DALL-E」、Midjourney研究所の「Midjourney」があります。また、ミュンヘン大学のCompVisグループががStability AI社と共同開発した「Stable Diffusion」も有名です。

DALL·E

DALL·E 3 understands significantly more nuance and detail than our previous systems, allowing you to easily translate your ideas into exceptionally accurate images.

midjourney

Stable Diffusio

Text to Image

動画生成

画像生成AIを発展させた形で、動画生成AIも登場しています。
例えば「Stable Diffusion」を開発したStability AI社は、動画生成AI「Stable Video Diffusion」を公開しています。

現段階では商用アプリケーションとしての使用は意図されていませんが、動画生成AIも近い未来に実用化されることが期待されます。

音声生成

音声生成AIは、音声データやテキストデータから新たな音声を生成するAIです。

ある人の音声データを音声生成AIに学習させると、その人の声質に近い声を変性機のように生成します。生成された声は、さまざまなテキストを自由に話すことができます。

音声生成AIの例として、Microsoftが開発した「VALL-E」があります。「VALL-E」は、3秒間の音声サンプルからその人の声を忠実に再現し、テキストを読み上げることができます。

VALL-E

生成AIの課題

生成AIの課題として、著作権の問題とディープフェイクの問題があります。

著作権の問題

著作物とは、思想、または感情を創作的に表現したもので、文芸、学術、美術、音楽の範囲に属するものを言います。典型的には、論文・絵画などがこれにあたります。たんなる事実・データは、著作物にはあたりません。

著作権法では「人間の思想または感情を創作的に表現したもの」を著作物と定義しているため、「AIが100%生成した作品は著作物ではない」とみなされています。

現状ではAI技術が急速な進化を遂げる中、AIに関する法律や規制はまだ十分に整備されていません。
内閣官房知的財産戦略推進事務局による現行法の解釈に基づき、「人工知能が自律的に生成した生成物は権利の対象にならない」とされています。

ディープフェイクの問題

ディープフェイクとは、「ディープラーニング」と「フェイク」を組み合わせた造語です。ディープラーニング技術を使用して、元の映像や音声を合成・変換し、それによって作り出された不正確な映像や音声を指します。

元々は、映画やテレビ制作の現場で作業を効率化するために作られた技術でした。
しかし、AIの技術の進歩に伴って、高度な知識や専門的な技術を持たない人でも簡単に精巧なディープフェイク画像や動画を作れるようになりました。

ディープフェイクが一般化されたことで、政治家や著名人のなりすまし問題など、技術が悪用されるケースが増えています。

今後は、ディープフェイク技術を正しく活用するためのリテラシーが、誰にとっても必要になります。

ライター

草林森

草林森（くさばやしりん）です。2018年の2月頃からVtuberにどっぷりハマりそれからVTuber界隈を歩んでいます。その延長線上で、バーチャルリアリティ(VR)にも興味関心があります。インターネットの新しい技術や取り組みが大好きなので、その魅力をお届けしていきたいと思います。