言葉を“生成”する大規模言語AIがもたらす
コンタクトセンターの常識を覆すイノベーション
ELYZA
代表取締役CEO
曽根岡 侑也 氏
コールセンターは比較的早くAI活用が進んだが、幻滅期も早かった。しかし、2018年に登場した「大規模言語AI」で、NLP(自然言語処理)はパラダイムシフトを迎えている。意味を理解しているかのようにふるまうAIが、カスタマーサービスをどう変えるのか。日本語・大規模言語AIのパイオニア、ELYZAの曽根岡氏に聞いた。
Profile
曽根岡 侑也 氏(Yuya Soneoka)
ELYZA 代表取締役CEO
東京大学松尾研究室 修士卒。世界最大規模のハッカソンBattleHack日本代表。2018年、松尾研究室発・大規模言語AIのプロフェッショナル集団、ELYZAを創業。松尾研究所の取締役も兼任し、共同研究のプロジェクトマネージャーや講座の企画・講師を務める。
──東京大学の松尾研究室からスピンオフする形で2018年に創業されましたが、ELYZAでは具体的にはどのようなAIを開発しているのでしょうか。
曽根岡 大規模言語AIの技術をベースに、日本語特化のAIエンジン「ELYZA Brain」を開発しました。具体的には、コールセンター向けに、対話音声の要約や要点抽出ソリューション、チャットボットなどを提供しています。2018年の創業時には、「10年以内に自然言語処理の分野でパラダイムシフトをもたらす技術が登場、大変なインパクトをもたらす」と予想しましたが、創業とほぼ同じタイミングで画期的なNLP(自然言語処理)技術である大規模言語AIの先駆けとなるモデル「BERT」が登場し、一気にエンジン開発を進めたのです。
当時、NLPは、すでにパラダイムシフトが起きていた画像処理や音声処理に比べ、明らかに後れをとっていました。2012年にディープラーニングが注目されるイベントがあり、2015年以降、画像処理や音声処理の分野では、人間を超える認識精度のAIが次々と誕生しました。具体的には、自動運転や工場の自動化、ロボットの制御などのイノベーションが起きています。人間の「目」と「耳」については、2015年過ぎにもはや人間と同じくらいになってきていると言っても過言ではない状況です。一方で、言語を処理するAIについては、なかなか人間を超えられませんでした。ディープラーニングのハイエンドなモデルを活用しても、人間が87パーセントの正解率で処理できる選択問題を、AIは65パーセントにとどまりました。ランダムで回答しても正答率が50%の二択問題がほとんどなので、65%では、とても実用に耐えない。実際、導入が先行したコールセンターにおいても定型的な応対を行うチャットボットなど一部の活用に限られていました。しかし、2018年の大規模言語AIの登場をきっかけに、ついに自然言語処理の分野もブレイクスルーを迎えつつあります。
──大規模言語AIは、従来のAIとどのような違いがあるのでしょう。
曽根岡 大規模言語AIは、圧倒的な大容量データをもとに、まず「日本語」そのものについて学習します。単に単語や文法を学習するだけではなく、単語の組み合わせや言い回しなども学習するのが特徴です。学習データは、主にインターネット上に存在する日本語の記事です。日本語は、英語に比べて10分の1ほどしか存在せず、学習データの確保が課題でした。
(聞き手・石川 ふみ)
続きは本誌をご覧ください