サントリーウエルネスDX推進部エンジニアリングGの武田です。
フルスタックエンジニアとしてコンタクトセンターで使うシステムが抱える課題に日々取り組んでいます。
先日、コンタクトセンターにてGPTを活用した対話要約機能の実証実験を行いました。
対話要約機能のコンセプトや実証実験に至るまでの過程について触れた後、実証実験の結果について記載したいと思います。
プロンプトチューニングについてはこちらの記事にもう少し詳しく記載していますので、ぜひご覧ください。
【顧客応対業務効率化】お客様との対話要約をChatGPTで自動化する
対話要約機能について
まず初めに、顧客応対業務でどういった問題があり、それに対してどのように解決しようとしているのかについて記載します。
お問い合わせ対応
弊社のコンタクトセンターではお電話にてお客様からの様々なお問い合わせにお応えしています。
お電話が終了したあと、次にお客様からお電話いただいた際に、過去にどういったお問い合わせをいただいたのかを短時間で確認するため、お電話の内容を要約(対話要約)して社内システムに登録しています。
対話要約が抱える問題
対話要約はお客様から過去にどういったお問い合わせをいただいたのかを記録し、次に応対する人に繋ぐ重要な役割を果たします。
これまで運用してきた中で以下のような問題がありました。
- 対話内容の要約に時間がかかる
- 要約に記載される内容の粒度が応対した人によって異なる
- 要約に記録したい内容が欠けてしまう場合がある
これらの問題を解決するために、GPTの活用を検討しました。
GPTを活用した対話要約
対話要約の生成を以下の流れで自動化しようと検討しています。
- お客様との通話を音声認識ツールでテキスト化する
- APIでテキストからプロンプトを生成する
- GPTでプロンプトを実行し、対話を要約する
実証実験に至るまで
プロジェクトの立ち上げ、業務に適用できるレベルの要約を生成するプロンプトの作成、GPTを組み込んだ機能の開発など実証実験に至るまで様々な取り組みを行ってきました。
プロジェクト発足
体制としては会社、組織を横断し、サントリーグループのITサービス会社であるサントリーシステムテクノロジー(SST)、弊社のコンタクトセンター、DX推進部で体制を組み、内製化することにしました。
SSTが生成AIのプロンプトのチューニングを、コンタクトセンターにて生成AIによる出力要約の評価を、DX推進部がシステム化の検討とプロジェクトのディレクションを担当しました。
プロンプトチューニング
まず、評価データからプロンプトを作成、実行し、出力要約をアウトプットします。
次に、出力要約を評価基準に沿って評価します。
そして、評価結果と評価項目ごとの改善点をFBし、プロンプトチューニングに活かします。
プロンプトチューニング→要約出力→出力要約評価→評価FBのサイクルを繰り返し、精度を改善しました。
下の図はGPTが出力した要約の評価結果になります。
要約の精度を5段階で評価し、5:手直し不要、4:2割程度の修正が必要、3:半分程度の修正が必要、2:8割程度の修正が必要、1:全て修正が必要となります。
1回目はかなり手直しが必要な状態でしたが、回を重ねるごとに評価が向上し、最終的には平均して2割ほどの手直しで済むようになり、GPTが出力する要約が現場で適用できるレベルに至ったと判断しました。
機能開発
各種サービスのインプット、アウトプットを明確にし、システムに落とし込みました。
※GPTについては社内専用環境を構築して利用しています。
また、ユーザーが対話要約機能を利用するイメージを具体化し、画面およびAPIを設計・開発しました。
※個人情報は匿名化しています。
GPT環境構築
受電数のピークや通話音声のテキストの平均文字数からGPTのトークン数を算出し、必要なリソースを試算しました。
全社利用のGPT環境を使うと他の用途でのGPT利用に支障が出てしまうので対話要約機能で専用のGPT環境を構築しました。
実証実験
実証実験の概要
実際の業務で対話要約機能を利用してもらい、後処理時間が削減されるのか、また、業務負荷が軽減されるのかを検証しました。
モニタリング項目
モニタリング項目として以下を挙げました。
項目 | 概要 |
---|---|
要約合致率 | GPTが出力した要約と社内システムに登録された要約の合致率。合致率が高いほど、手直しされていないことを表す。 |
要約活用率 | 全てのお電話の内、要約機能を活用できた割合。 |
GPT処理時間 | GPTにプロンプトを送信してから結果が返ってくるまでの時間。 |
後処理時間 | お客様とのお電話が終了した後の事務作業時間。 |
モニタリング
要約合致率の確認
GPTの出力と社内システムに登録された対話要約を突合し、誰がいつどのリーズンのGPT出力をどれだけ手直ししたかをレポート出力するプログラムを作成し、日次でレポートを発行しました。
これによりどれくらい手直しが発生しているか、また、不要な手直しが発生していないかなどを確認できました。
(モザイクかけていてわかりにくいですが、GPT出力と社内システムに登録された要約の差分を可視化しています。)
このレポートですが、現場でAGさんへのFBにかなり活用いただけたので、プログラムを作成して良かったです。
GPT処理時間の集計
GPTへのリクエスト送信日時とレスポンス返却日時を抽出しGPTの処理時間を計算しました。
GPTの処理時間を見るためにはGPTを使う側のアプリケーションログから抽出して集計するしかありませんでした。
後処理時間の集計
CTIで通話の後処理時間を確認できるので対象期間の対象AGさんの後処理時間を集計しました。
対話要約機能によって後処理時間がどれだけ削減されたかを見るために対話要約機能の対象となるお問い合わせ内容を特定し、後処理時間を集計しました。
実証実験結果
要約合致率
まず、お問い合わせ内容(以降、リーズン)ごとの要約の合致率です。
実験開始当初は合致率が想定より低く、手直しが多く発生していました。
現場に不要な修正についてフィードバックを丁寧に行ったところ、手直しは減少し、合致率は8〜9割、つまり手直しは1〜2割程度におさまりました。
要約活用率
次に、要約活用率です。
今回の実証実験では主要のお問い合わせのみを対象としていたため、実験開始前に想定していた通りの割合となりました。
要約活用率の他に重複実行についても確認しました。
というのも、要約機能を実行するたびに出力が少し変わることから、思った要約が出力されるまで何回か要約機能を実行するケースが見られました。
要約機能を複数回実行するとその分GPTの処理時間が作業時間に上乗せされてしまうため、実行は1回までで気になる部分は修正するようにフィードバックしたところ、重複実行数は激減しました。
GPT処理時間
次にGPT処理時間です。
処理件数とは比例せず、日中より夕方から夜間の方が処理時間が長い傾向が見られました。
処理時間についてはモデルの進化により短縮が見込まれる部分なのでGPTの進化に期待です。
後処理時間
最後に、後処理時間です。
要約機能を導入した直後は平均よりも後処理時間が増えてしまいましたが、徐々に後処理時間が削減され、対話要約機能により後処理時間が削減されることを実証できました!
導入直後は操作の不慣れやGPT出力の熟読、不要な手直しにより後処理時間が平均より増えてしまいましたが、手直しを可視化したレポートをもとに不要な手直しについて現場にFBを行うことにより、不要な手直しが減り、それが後処理時間の削減として見られました。
ただ、リーズンごとに後処理時間の推移を見ると後処理時間が削減効果に差が見られるので、プロンプトにさらなる改善の余地がありそうです。
アンケート結果
実際の業務で対話要約機能を利用いただいたAGさんにアンケートを取りました。
まず、作業時間が減ったというお声をいただけました。
・正確な内容で要約してくれた時にとても早く対応が終わりました。
・要約が的確なときは時間が短縮されました。
また、要約の精度についてポジティブなお声をいただけました。
・商品説明に時間がかかってしまった場合でも的確に要約してくれました。
・話のポイントを漏れなく文章に含めてくれました。
他にも、業務負荷が軽減できているとのお声もいただけました。開発者として冥利に尽きる思いです。
・入力する内容を考えなくて済み、脳疲労が少し軽減できました。
・会話が長くなっても短い文に要約され、悩むことなくコピペで済んで便利でした。
ポジティブなお声が多かった一方、要約精度に対するネガティブなお声もありました。
話者分離精度や音声認識精度、Few-shot Promptingの影響など要約精度向上のための課題が見えました。
・こちらが伺った内容がお客様が発言されたように要約される場合があった。
・特定のお問い合わせ内容で捏造が見られた。
おわりに
今回は対象ユーザー、期間を定めて対話要約機能の効果検証を実施しましたが、生成AIを活用した対話要約機能により後処理時間が削減できることを実証できました。
また、アンケートでAGさんから作業時間を短縮できた、業務負荷が軽減されたなどのポジティブなお声をいただけたのが何より良かったです。
今後、より多くのAGさんの業務負荷を減らすために、対話要約機能の本導入を目指し、引き続きプロジェクトを推進していきます。
サントリーウエルネスでは一緒に働ける仲間を募集しています。
ぜひ弊社のデジタル&テクノロジー採用サイトをご覧ください。
新卒採用ページはこちらです。