• ポートフォリオ機能


ポートフォリオを新規に作成して保存
既存のポートフォリオに追加保存

  • この表をプリントする
PDF PDFをダウンロード
審決分類 審判 査定不服 2項進歩性 取り消して特許、登録 G06F
管理番号 1402691
総通号数 22 
発行国 JP 
公報種別 特許審決公報 
発行日 2023-10-27 
種別 拒絶査定不服の審決 
審判請求日 2023-03-20 
確定日 2023-10-10 
事件の表示 特願2021−560902「個人化された仮想秘書を提供する装置」拒絶査定不服審判事件〔令和 3年 4月29日国際公開、WO2021/080147、令和 4年 8月 3日国内公表、特表2022−534648、請求項の数(16)〕について、次のとおり審決する。 
結論 原査定を取り消す。 本願の発明は、特許すべきものとする。 
理由 第1 手続の経緯
本願は、2020年(令和2年)8月21日(パリ条約による優先権主張外国庁受理2019年10月24日、韓国)を国際出願日とする出願であって、その手続の経緯は、概略以下のとおりである。

令和3年10月13日 手続補正書 提出
令和4年 9月12日付け 拒絶理由通知
令和4年11月14日 意見書・手続補正書 提出
令和4年12月23日付け 拒絶査定
令和5年 3月20日 審判請求書 提出

第2 原査定の概要

原査定(令和4年12月23日付け拒絶査定)の概要は次のとおりである。

進歩性)この出願の請求項1ないし16に係る発明は、下記の引用文献1に記載された発明および引用文献2ないし4に記載された技術に基いて、その出願前に当業者が容易に発明をすることができたものであるから、特許法第29条第2項の規定により特許を受けることができない。

<引用文献等一覧>

1.特開2018−181330号公報
2.特表2017−530567号公報
3.特開2019−168696号公報
4.国際公開第2018/067404号

第3 本願発明

本願の請求項1ないし16に係る発明(以下、「本願発明1」ないし「本願発明16」という。)は、令和4年11月14日提出の手続補正書により補正された特許請求の範囲の請求項1ないし16に記載された事項により特定される、以下のとおりの発明である。

「【請求項1】
有線または無線通信インターフェースを提供する通信部と、
(a)音声特性情報、サービス識別情報および前記サービス識別情報に対応する仮想秘書プラットホーム識別情報を各々有する一つ以上のユーザプロファイルを管理する処理と、(b)第1サービスに対する指示命令を含む音声信号を電子装置から前記通信部を通じて受信する処理と、(c)前記音声信号を基に、前記一つ以上のユーザプロファイルの中から個人化ユーザプロファイルを獲得する処理と、(d)前記音声信号、または前記個人化ユーザプロファイルのうち少なくとも一つを基に、一つ以上の仮想秘書の中から前記第1サービスに対する前記指示命令に対応する第1仮想秘書を選択する処理と、(e)前記音声信号を前記第1仮想秘書に適する第1信号に変換する処理と、(f)前記第1信号を、前記第1仮想秘書を提供する第1仮想秘書プラットホームへ前記通信部通じて転送し、前記第1仮想秘書プラットホームから前記第1信号に対応する第1応答信号を、前記通信部を通じて受信する処理と、(g)前記第1応答信号を前記電子装置へ転送する処理と、を行う演算処理部
を有し、
前記処理(d)は、
(d−1)前記音声信号が前記第1仮想秘書に対応する起動命令をさらに有する場合に、前記起動命令に対応する前記第1仮想秘書を選択する処理と、
(d−2)前記音声信号が前記第1仮想秘書に対応する起動命令をさらに有さない場合に、前記個人化ユーザプロファイルに含まれる前記サービス識別情報および前記仮想秘書プラットホーム識別情報を基に前記第1仮想秘書を選択する処理と、 を有する、個人化された仮想秘書を提供する装置。
【請求項2】
前記一つ以上のユーザプロファイルは、前記サービス識別情報に対応するサービス提供可否情報を各々さらに有する、請求項1に記載の個人化された仮想秘書を提供する装置。
【請求項3】
前記処理(a)は、
(a−1)ユーザ登録のためのインターフェースを基に正規ユーザプロファイルを生成し、前記一つ以上のユーザプロファイルに追加する処理を有する、請求項1に記載の個人化された仮想秘書を提供する装置。
【請求項4】
前記処理(a)は、
(a−2)サービス選好度情報を基に前記一つ以上のユーザプロファイルを管理する処理を有する、請求項1に記載の個人化された仮想秘書を提供する装置。
【請求項5】
前記処理(a)は、
(a−3)前記音声信号を基に臨時ユーザプロファイルを生成し、前記一つ以上のユーザプロファイルに追加する処理を有する、請求項1に記載の個人化された仮想秘書を提供する装置。
【請求項6】
前記処理(a)は、
(a−4)予め指定された条件を基に、前記臨時ユーザプロファイルを正規ユーザプロファイルに転換したり、前記臨時ユーザプロファイルを削除したりする処理を有する、請求項5に記載の個人化された仮想秘書を提供する装置。
【請求項7】
前記処理(a)は、
(a−5)前記第1仮想秘書を基に、前記個人化ユーザプロファイルを更新する処理を有する、請求項1に記載の個人化された仮想秘書を提供する装置。
【請求項8】
前記処理(c)は、
(c−1)前記音声信号と、前記一つ以上のユーザプロファイルの前記音声特性情報とを比較して、前記一つ以上のユーザプロファイルの中から前記個人化ユーザプロファイルを選択する処理を有する、請求項1に記載の個人化された仮想秘書を提供する装置。
【請求項9】
前記音声信号は電子装置起動命令をさらに有する、請求項1に記載の個人化された仮想秘書を提供する装置。
【請求項10】
前記処理(e)は、
(e−1)前記第1仮想秘書に対応する起動命令および前記指示命令を含む前記第1信号を生成する処理を有する、請求項1に記載の個人化された仮想秘書を提供する装置。
【請求項11】
前記処理(e)は、
(e−2)前記指示命令をSTT(speech to text)機能を用いてテキスト情報に変換する処理と、
(e−3)前記テキスト情報を基に修正テキスト情報を生成する処理と、
(e−4)前記修正テキスト情報をTTS(text to speech)機能を用いて変換した修正指示命令を含む前記第1信号を生成する処理を有する、請求項1に記載の個人化された仮想秘書を提供する装置。
【請求項12】
前記第1信号は、前記第1仮想秘書に対応する起動命令をさらに有する、請求項11に記載の個人化された仮想秘書を提供する装置。
【請求項13】
前記修正指示命令は、標準音声特性を基に前記TTSを用いて生成される、請求項11に記載の個人化された仮想秘書を提供する装置。
【請求項14】
前記一つ以上のユーザプロファイルは、ユーザ識別情報を各々さらに含み、
前記処理(f)は、
(f−1)前記個人化ユーザプロファイルのユーザ識別情報を、前記第1信号と共に、前記第1仮想秘書プラットホームへ前記通信部を通じて転送する処理を有する、請求項1に記載の個人化された仮想秘書を提供する装置。
【請求項15】
前記音声信号は、第2サービスに対する指示命令をさらに含み、
前記演算処理部は、
(h)前記音声信号、または前記個人化ユーザプロファイルのうち少なくとも一つを基に、一つ以上の仮想秘書の中から前記第2サービスに対する前記指示命令に対応する第2仮想秘書を選択する処理と、
(i)前記音声信号を前記第2仮想秘書に適する第2信号に変換する処理と、
(j)前記第2信号を、前記第2仮想秘書を提供する第2仮想秘書プラットホームへ前記通信部を通じて転送し、前記第2仮想秘書プラットホームから前記第2信号に対応する第2応答信号を、前記通信部を通じて受信する処理と、
(k)前記第2応答信号を前記電子装置へ転送する処理と、
をさらに行う、請求項1に記載の個人化された仮想秘書を提供する装置。
【請求項16】
前記一つ以上のユーザプロファイルを保存するユーザプロファイル保存部
をさらに有する、請求項1に記載の個人化された仮想秘書を提供する装置。」

第4 引用文献

1 引用文献1および引用発明

(1)引用文献1の記載事項

原査定の拒絶理由に引用された引用文献1(特開2018−181330号公報)には、図面とともに次の事項が記載されている(下線は、当審が付加した。以下同様。)。

ア 「【技術分野】
【0001】
本発明の実施形態は、概して、インテリジェントパーソナルアシスタントサービスに関し、より詳細には、複数のインテリジェントパーソナルアシスタントサービスに対する管理レイヤに関する。
【背景技術】
【0002】
インテリジェントパーソナルアシスタント(IPA)は、ユーザが提供する口頭入力を基に、ユーザに対してタスクまたはサービスを行うことができるソフトウェアエージェントまたは他のアプリケーションである。IPAは、発話要求を基にユーザに対して特定のタスクを行うことができ、これにより、ユーザは、タッチスクリーン、キーボード、マウスまたは他の入力デバイスを介して手動入力を提供する必要性がなくなる。例えば、ユーザは、IPAを介して様々なオンラインソースから情報(例えば、天気、交通状況、ニュース、株価、ユーザのスケジュール、小売価格等)にアクセスすることができる。さらに、ユーザは、IPAによって情報ベースのタスク(例えば、電子メール、カレンダイベント、ファイル、やることリスト及びその他の管理)を完了することができる。
【0003】
近年、Microsoft Cortana(商標)、Apple Siri(商標)、Google Home(商標)及びAmazon Alexa(商標)など、様々な種類のIPAが消費者に広く使用されている。しかしながら、消費者が利用できるIPAサービスの数が増加するにつれ、問題が起こる可能性がある。具体的には、現在、ユーザは複数のIPAサービスでサブスクリプションを有することができる一方、スマートフォンまたはスマートスピーカなどの単一のデバイスから各IPAにアクセスする利便性には問題が起こる可能性がある。
【0004】
現在、ユーザは、それぞれ異なるIPAサービスにアクセスするために、一般的には異なるデバイスが必要であり、これは冗長かつ面倒である。例えば、ユーザは1つのデバイスを介して1つの質問を第1のIPAサービスに送り、次いで、別のデバイスを介して別の(または同じ)質問を第2のIPAサービスに送るということが単にできない。これは、第1及び第2のIPAサービスからの応答を受信すると、デバイスが互いに干渉する傾向があるためである。むしろ、ユーザは1つのIPAサービスに1つの質問を尋ね、次いで、その応答を待った後、別のIPAサービスに質問を尋ねることしかできない。その結果、ユーザは、複数の人間アシスタントとの同時対話に近い自然かつ便利なユーザ体験を享受することができない。
【0005】
代替的には、一部のスマートデバイスは複数のIPAサービスをサポートするように構成され得る。しかしながら、係るデバイスでは、単一のIPAサービスをデフォルトサービスとして構成する必要がある。その結果、他のIPAサービスにアクセスするには、ユーザはデバイスを再構築してデフォルトのIPAサービスを修正する必要がある。異なるデフォルトのIPAサービスに切り替えることは面倒かつ時間がかかるため、ユーザはさらに、複数のIPAサービスと対話する場合に、係る手法により自然かつ便利なユーザ体験を享受することができない。
【0006】
したがって、複数のIPAサービスを単一のデバイスで管理するための改良された技法は有益となる。」

イ 図1


ウ 「【0012】
図1は、様々な実施形態の1つ以上の態様を実装するように構成された、インテリジェントパーソナルアシスタント(IPA)管理システム100を例示する模式図である。IPA管理システム100は、スマートデバイス120、第1のIPAサービス140、第2のIPAサービス150及び第3のIPAサービス160を含み、全ては通信ネットワーク105を介して互いに通信可能に接続されている。さらに、口頭発話91を介してユーザ要求を生成するユーザ90が図1に示されている。いくつかの実施形態では、マルチデバイスIPAシステム100は、図1に例示した3つのIPAサービスより多いまたは少ないIPAサービスを含む。
【0013】
通信ネットワーク105は、任意の技術的に実現可能な種類の通信ネットワークであってよく、スマートデバイス120、第1のIPAサービス140、第2のIPAサービス150、第3のIPAサービス160及び/またはウェブサーバもしくは別のネットワークに接続されたコンピューティングデバイスなどの他の実体もしくはデバイスの間でデータを交換することができる。例えば、通信ネットワーク105は、特に、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、ワイヤレス(WiFi)ネットワーク、ワイヤレスパーソナルエリアネットワーク(WPAN)(Bluetooth(登録商標)ネットワークなど)及び/またはインターネットを含み得る。ゆえに、いくつかの実施形態では、通信ネットワーク105は、WiFiルータなどの、図1に図示しない1つ以上の追加のネットワークデバイスを含み得る。
【0014】
第1のIPAサービス140、第2のIPAサービス150及び第3のIPAサービス160のそれぞれは、特に、Microsoft Cortana(商標)、Apple Siri(商標)、Google Home(商標)またはAmazon Alexa(商標)などの様々な市販IPAサービスであってよい。したがって、各IPAサービスはスマートデバイス(スマートデバイス120など)からクエリコンテンツを受信し、クエリに対して作用し、ユーザの質問に対する回答または要求アクションの完了確認などの適切な応答を提供するように構成され得る。一般的に、第1のIPAサービス140、第2のIPAサービス150及び/または第3のIPAサービス160によって受信されるクエリコンテンツは、音声データまたはテキストのいずれかの形態であってよい。同様に、第1のIPAサービス140、第2のIPAサービス150及び/または第3のIPAサービス160によって提供されるスマートデバイス120に対する応答は、音声データまたはテキストのいずれかの形態であってよい。
【0015】
スマートデバイス120は、IPAと互換性のあるコンピューティングデバイスであり、ユーザからの特定の音声コマンドを受信し、係るコマンドに含まれるクエリコンテンツを第1のIPAサービス140、第2のIPAサービス150及び/または第3のIPAサービス160のうちの1つ以上に適宜送り、第1のIPAサービス140、第2のIPAサービス150及び/または第3のIPAサービス160から受信した応答を管理するように構成される。ゆえに、スマートデバイス120はIPAサービス管理レイヤにより構成される。そのため、スマートデバイス120はIPA管理アプリケーション130、第1のIPAクライアント121、第2のIPAクライアント122及び第3のIPAクライアント123を含む。IPA管理アプリケーション130は以下により詳細に説明する。第1のIPAクライアント121は、第1のIPAサービス140との間のデータの送受信を行うように構成され、第2のIPAクライアント122は、第2のIPAサービス150との間のデータの送受信を行うように構成され、第3のIPAクライアント123は、第3のIPAサービス160との間のデータの送受信を行うように構成される。いくつかの実施形態では、第1のIPAクライアント121の機能性は第1のIPAサービス140のアプリケーションプログラムインターフェース(API)に基づき、第2のIPAクライアント122の機能性は第2のIPAサービス150のAPIに基づき、第3のIPAクライアント123の機能性は第3のIPAサービス160のAPIに基づく。例えば、いくつかの実施形態では、上に説明したIPAクライアントのうちの1つは、IPAサービスにより定義されたAPIに従って、対応するIPAサービスと相互作用する可能性がある。
【0016】
動作中、IPA管理アプリケーション130は、口頭発話91の受信に応じて、例えば、マイク126を介して、生成された音声信号101を検出し、音声信号101が、「OK、Google」、「こんにちは、Siri」、「ねえ、Alexa」等などの起動フレーズを含むかどうか判断する。1つ以上の起動フレーズが音声信号101に検出される場合、IPA管理アプリケーション130は音声信号から質問などのクエリコンテンツを抽出し、特定のタスク等を行うように命令し、クエリコンテンツを送信すべきIPAサービスを決定する。追加的には、IPA管理アプリケーション130は、第1のIPAサービス140、第2のIPAサービス150及び/または第3のIPAサービス160からの応答を受信し、例えば、スピーカ125によって再生される音声信号102を介して、スマートデバイス120に係る応答のそれぞれを連続的に再生させるように構成される。ゆえに、ユーザ90は、単一のスマートデバイスを介して異なるIPAサービスに一連の音声コマンドを発行することができ、様々なIPAサービスからの応答の再生は、ユーザ90がそれぞれを個別に聞くことができるよう管理される。」

(2)引用発明

上記(1)の、特に下線を付加した記載に着目すると、引用文献1には、以下の発明(以下、「引用発明」という。)が記載されていると認められる。

「複数のインテリジェントパーソナルアシスタントサービスに対する管理レイヤに関し、
インテリジェントパーソナルアシスタント(IPA)管理システム100であって、
IPA管理システム100は、スマートデバイス120、第1のIPAサービス140、第2のIPAサービス150及び第3のIPAサービス160を含み、全ては通信ネットワーク105を介して互いに通信可能に接続されており、
第1のIPAサービス140、第2のIPAサービス150及び第3のIPAサービス160のそれぞれは、特に、Microsoft Cortana(商標)、Apple Siri(商標)、Google Home(商標)またはAmazon Alexa(商標)などの様々な市販IPAサービスであってよく、
各IPAサービスはスマートデバイス(スマートデバイス120など)からクエリコンテンツを受信し、クエリに対して作用し、ユーザの質問に対する回答または要求アクションの完了確認などの適切な応答を提供するように構成され、
第1のIPAサービス140、第2のIPAサービス150及び/または第3のIPAサービス160によって受信されるクエリコンテンツは、音声データまたはテキストのいずれかの形態であってよく、同様に、第1のIPAサービス140、第2のIPAサービス150及び/または第3のIPAサービス160によって提供されるスマートデバイス120に対する応答は、音声データまたはテキストのいずれかの形態であってよく、
スマートデバイス120はIPA管理アプリケーション130、第1のIPAクライアント121、第2のIPAクライアント122及び第3のIPAクライアント123を含んでおり、
IPA管理アプリケーション130は、口頭発話91の受信に応じて、例えば、マイク126を介して、生成された音声信号101を検出し、音声信号101が、「OK、Google」、「こんにちは、Siri」、「ねえ、Alexa」等などの起動フレーズを含むかどうか判断し、
1つ以上の起動フレーズが音声信号101に検出される場合、IPA管理アプリケーション130は音声信号から質問などのクエリコンテンツを抽出し、特定のタスク等を行うように命令し、クエリコンテンツを送信すべきIPAサービスを決定し、
IPA管理アプリケーション130は、第1のIPAサービス140、第2のIPAサービス150及び/または第3のIPAサービス160からの応答を受信し、例えば、スピーカ125によって再生される音声信号102を介して、スマートデバイス120に係る応答のそれぞれを連続的に再生させるように構成される
インテリジェントパーソナルアシスタント(IPA)管理システム100。」

2 引用文献2ないし4

(1)引用文献2

原査定の拒絶理由において、引用された引用文献2(特表2017−530567号公報)には、図面とともに次の事項が記載されている。

ア 「[技術分野]
【0003】
本出願は、概して、テレビユーザ対話を制御することに関し、より詳細には、テレビユーザ対話を制御するために、仮想アシスタントに対する発語を処理することに関する。
【背景技術】
【0004】
インテリジェント自動アシスタント(又は仮想アシスタント)は、ユーザと電子デバイスとの間の直観的なインタフェースを提供する。これらのアシスタントは、ユーザが、口頭形態及び/又はテキスト形態の自然言語を使用してデバイス又はシステムと対話することを可能にすることができる。例えば、ユーザは、電子デバイスと関連付けられた仮想アシスタントに、自然言語形態の口頭ユーザ入力を提供することによって、電子デバイスのサービスにアクセスすることができる。仮想アシスタントは、ユーザの意図を推測し、ユーザの意図をタスクへと操作できるようにするために、口頭ユーザ入力に対して自然言語処理を実行することができる。次いで、電子デバイスの1つ以上の機能を実行することによってタスクを実行することができ、いくつかの実施例では、関連する出力を自然言語形態でユーザに戻すことができる。
【0005】
携帯電話(例えば、スマートフォン)、タブレットコンピュータなどが、仮想アシスタント制御から恩恵を受ける一方で、多くの他のユーザデバイスには、そのような便利な制御機構がない。例えば、メディア制御デバイス(例えば、テレビ、テレビセットトップボックス、ケーブルボックス、ゲームデバイス、ストリーミングメディアデバイス、デジタルビデオレコーダなど)とのユーザ対話の学習は、複雑で難しいことがある。更に、そのようなデバイス(例えば、オーバージエアTV、サブスクリプションTVサービス、ストリーミングビデオサービス、ケーブルオンデマンドビデオサービス、ウェブベースのビデオサービスなど)を介して利用可能なソースが増えると、一部のユーザには、消費する所望のメディアコンテンツを発見することが煩雑で、面倒でさえあり得る。その結果、多くのメディア制御デバイスは、ユーザエクスペリエンスを低下させ、多くのユーザを失望させることがある。
【発明の概要】
【0006】
仮想アシスタントを使用してテレビ対話を制御するためのシステム及びプロセスを開示する。1つの実施例では、ユーザからの発語入力を受信することができる。その発語入力に基づいて、メディアコンテンツを判定することができる。第1のサイズを有する第1のユーザインタフェースを表示することができ、第1のユーザインタフェースは、メディアコンテンツに選択可能なリンクを含むことができる。選択可能なリンクのうちの1つの選択を受信することができる。その選択に応じて、第1のサイズよりも大きい第2のサイズを有する第2のユーザインタフェースを表示することができ、第2のユーザインタフェースは、その選択と関連付けられたメディアコンテンツを備える。
【0007】
別の実施例では、第1のディスプレイを有する第1のデバイスにおいて、ユーザからの発語入力を受信することができる。第1のディスプレイ上に表示されたコンテンツに基づいて、この発語入力のユーザの意図を判定することができる。そのユーザ意図に基づいて、メディアコンテンツを判定することができる。第2のディスプレイと関連付けられた第2のデバイス上で、このメディアコンテンツを再生することができる。
【0008】
別の実施例では、ユーザからの発語入力を受信することができ、その発語入力は、テレビディスプレイ上に表示されたコンテンツと関連付けられたクエリを含むことができる。テレビディスプレイ上に表示されたコンテンツのうちの1つ以上とメディアコンテンツの閲覧履歴とに基づいて、クエリのユーザ意図を判定することができる。判定したユーザ意図に基づいて、クエリの結果を表示することができる。
【0009】
別の実施例では、ディスプレイ上にメディアコンテンツを表示することができる。ユーザからの入力を受信することができる。メディアコンテンツ及び/又はメディアコンテンツの閲覧履歴に基づいて、仮想アシスタントクエリを判定することができる。推薦された仮想アシスタントクエリをディスプレイ上に表示することができる。」

イ 「【0137】
別の実施例では、特定のユーザを識別することができ、そのユーザと関連付けられた個人情報を使用して、要求のユーザ意図を判定することができる。例えば、ユーザの声紋を使用する音声認識によるなど、発語入力に基づいて、ユーザを識別することができる。いくつかの実施例では、ユーザは特定のフレーズを発し、そのフレーズを音声認識のために分析することができる。他の実施例では、仮想アシスタントにダイレクトされた発語入力要求を、音声認識を使用して分析して、話者を識別することができる。また、(例えば、ユーザの個人用デバイス102上の)発語入力サンプルのソースに基づいて、ユーザを識別することができる。また、パスワード、パスコード、メニュー選択などに基づいて、ユーザを識別することができる。次いで、識別されたユーザの個人情報に基づいて、ユーザから受信した発語入力を解釈することができる。例えば、ユーザから以前の要求、ユーザが所有するメディアコンテンツ、ユーザのデバイスに記憶されたメディアコンテンツ、ユーザの好み、ユーザ設定、ユーザの人口統計(例えば、話されている言語など)、ユーザプロファイル情報、ユーザ支払方法、又は特定の識別されたユーザと関連付けられた種々の他の個人情報に基づいて、発語入力のユーザ意図を判定することができる。例えば、個人情報に基づいて、お気に入りリストを参照する発語入力などの曖昧性を回避することができ、ユーザの個人的なお気に入りリストを識別することができる。ユーザと関連付けられた写真、動画及び番組(例えば、個人用のユーザデバイスに記憶された写真など)を正確に識別するために、ユーザ識別に基づいて、同様に、「私」の写真、「私」の動画、「私」の番組などを参照する発語入力の曖昧性を回避することができる。同様に、コンテンツの購入を要求する発語入力の曖昧性を回避して、購入のために、(別のユーザの支払方法と対比して)識別されたユーザの支払方法を変更すべきであると判定することができる。」

(2)引用文献3

原査定の拒絶理由において、引用された引用文献3(特開2019−168696号公報)には、図面とともに次の事項が記載されている。

ア 「【技術分野】
【0002】
本願は、コンシューマ製品に関するものであり、特に、メディア再生に向けられた方法、システム、製品、機能、サービス、および他の要素に関するものや、それらのいくつかの態様に関する。
【背景技術】
【0003】
2003年に、ソノズ・インコーポレイテッドが最初の特許出願のうちの1つである「複数のネットワークデバイス間のオーディオ再生を同期する方法」と題する特許出願をし、2005年にメディア再生システムの販売を開始するまで、アウトラウド設定におけるデジタルオーディオへのアクセスおよび試聴のオプションは制限されていた。人々は、ソノズ無線HiFiシステムによって、1つ又は複数のネットワーク再生デバイスを介して多数のソースから音楽を体験できるようになっている。スマートフォン、タブレット、又はコンピュータにインストールされたソフトウェアコントロールアプリケーションを通じて、ネットワーク再生デバイスを備えたいずれの部屋においても、人々は自分が望む音楽を再生することができる。また、例えばコントローラを用いて、再生デバイスを備えた各部屋に異なる歌をストリーミングすることもできるし、同期再生のために複数の部屋をグループ化することもできるし、全ての部屋において同期して同じ歌を聞くこともできる。」

イ 「【0205】
ユーザ識別の例としては、ユーザを登録ユーザ、ゲストユーザ、子供、又は不明なユーザとして識別することを挙げることができる。
【0206】
例示的な登録ユーザは、主としてユーザプロファイル、及び/又は音声構成設定などによってメディア再生システムとリンク又は関連付けられた、1又は複数のユーザを含む。例示的なユーザプロファイルは、ユーザの年齢、位置情報、好みの再生設定、好みのプレイリスト、好みのオーディオコンテンツ、及びそのユーザに設定されたアクセス制限に関する情報、並びにそのユーザの音声、ユーザ履歴を識別する情報などを主として含んでいてもよい。ユーザの音声を識別する例示的な情報は、ユーザの音声のトーン又は周波数、年齢、性別、及びユーザ履歴などを主として含む。例示的な音声構成設定は、メディア再生システムがユーザを認識し、且つこれを関連付けるための音声入力又は一連の音声入力を提供するように、ユーザに要求する設定を含んでいてもよい。
【0207】
例示的なゲストユーザは、登録ユーザのユーザプロファイル、又は登録ユーザによって作成されたか、或いは登録ユーザの許可を得てゲストユーザによって作成されたゲストプロファイルにより、メディア再生システムとリンク又は関連付けられた、1又は複数のユーザを含む。例示的なゲストプロファイルは、ユーザプロファイルに含まれるあらゆるタイプの情報を含むことができる。
【0208】
いくつかの例では、自宅に自分用のメディア再生システムを所有するゲストは、自分用のメディア再生システムと関連付けられたユーザプロファイルをコンピューティングデバイス506内に格納していてもよい。ゲストがホストの家に到着し、音声コマンドを使用してホスト所有のメディア再生システムを制御しようとすると、ホストの再生システムに接続されたコンピューティングデバイス506が、(i)そのゲストがユーザアカウントを有している音楽サービス、(ii)そのゲストのプレイリスト、(iii)ホストがそのゲストに対して、ホストのメディア再生システムを制御するためのゲストアクセス権を付与したかどうか、及び/又は(iv)場合によってはそのゲストのユーザプロファイル内にある他のユーザ情報などを含むが、これらに限定されない、そのゲストのユーザプロファイル設定にアクセスできるようにしてもよい。
【0209】
子供のユーザを、たとえばその子供がメディア再生システムの登録ユーザの1人であった場合には、ユーザプロファイル内の情報、ゲストプロファイル内の情報、及び/又はユーザの音声のトーン若しくは周波数によって識別してもよい。」

(3)引用文献4

原査定の拒絶理由において、引用された引用文献4(国際公開第2018/067404号)には、図面とともに次の事項が記載されている。

ア 「BACKGROUND
[0002] Some computing platforms may provide a user interface from which a user can chat, speak, or otherwise communicate with a virtual, computational assistant (e.g., also referred to as "an intelligent personal assistant" or simply as an "assistant") to cause the assistant to output useful information, respond to a user's needs, or otherwise perform certain operations to help the user complete a variety of real-world or virtual tasks. For instance, a computing device may receive, with a microphone, voice input (e.g., audio data) that corresponds to a user utterance. An assistant executing at least in part at the computing device may analyze the voice input and attempt to satisfy the utterance by outputting useful information based on the utterance, responding to a user's needs indicated by the utterance, or otherwise perform certain operations to help the user complete a variety of real-world or virtual tasks based on the utterance.
SUMMARY
[0003] In general, techniques of this disclosure may enable users to communicate with multiple virtual, computational agents/assistants. For instance, there may be several agents available to a user via a computing device that may be at least somewhat capable of responding to an utterance (e.g., request, question, query, order, etc.). An agent may respond to an utterance, or otherwise converse with a user, by at least causing a computing device to output synthesized audio data. For instance, an agent may provide text on-which the computing device performs text-to-speech (TTS) to generate synthesized audio data.
However, as opposed to having synthesized audio data generated for all agents using the same voice, it may be desirable for different agents to use different voices. In this way an adaptive interface is provided, where the output of data is adapted based upon the data itself.
[0004] In accordance with one or more techniques of this disclosure, agents may cause computing devices to output synthesized audio data using different voices. For instance, a first agent may cause a computing device to output synthesized audio data using a first voice and a second agent may cause the computing device to output synthesized audio data using a second voice that is different than the first voice. By enabling different agents to use different voices when communicating with a user via a particular computing device, the user may better keep track of with-which agent the user is communicating. As such, the user may avoid having to repeat utterances, the processing of which consumes power and other system resources. In this way, the techniques of this disclosure may reduce the power consumption and/or system resource requirements of agent interactions.
[0005] In one example, a method includes receiving, by a computational assistant executing at one or more processors, a representation of an utterance spoken at a computing device; selecting, based on the utterance, an agent from a plurality of agents, wherein the plurality of agents includes one or more first party agents and a plurality of third-party agents; responsive to determining that the selected agent comprises a first party agent, selecting a reserved voice from a plurality of voices; and outputting, using the selected voice and for playback by one or more speakers of the computing device, synthesized audio data to satisfy the utterance.
[0006] In another example, a device includes at least one processor; and at least one memory comprising instructions that when executed, cause the at least one processor to execute an assistant configured to: receive, from one or more microphones operably connected to the computing device, a representation of an utterance spoken at the computing device; select, based on the utterance, an agent from a plurality of agents, wherein the plurality of agents includes one or more first party agents and a plurality of third-party agents, the memory further comprising instructions that when executed, cause the at least one processor to: select, in response to determining that the selected agent comprises a first party agent, a reserved voice from a plurality of voices; and output, using the selected voice and for playback by one or more speakers operably connected to the computing device, synthesized audio data to satisfy the utterance.
[0007] In another example, a system includes one or more communication units; at least one processor; and at least one memory comprising instructions that when executed, cause the at least one processor to execute an assistant configured to: receive, from one or more
microphones operably connected to the computing device, a representation of an utterance spoken at the computing device; select, based on the utterance, an agent from a plurality of agents, wherein the plurality of agents includes one or more first party agents and a plurality of third-party agents, the memory further comprising instructions that when executed, cause the at least one processor to: select, in response to determining that the selected agent comprises a first party agent, a reserved voice from a plurality of voices; and output, using the selected voice and for playback by one or more speakers operably connected to the computing device, synthesized audio data to satisfy the utterance.
[0008] In another example, a system includes means for receiving, by a computational assistant executing at one or more processors, a representation of an utterance spoken at a computing device; means for selecting, based on the utterance, an agent from a plurality of agents, wherein the plurality of agents includes one or more first party agents and a plurality of third-party agents; means for selecting, responsive to determining that the selected agent comprises a first party agent, a reserved voice from a plurality of voices; and means for outputting, using the selected voice and for playback by one or more speakers of the computing device, synthesized audio data to satisfy the utterance.
[0009] In another example, a computer-readable storage medium stores instructions that, when executed, cause one or more processors to execute an assistant configured to: receive a representation of an utterance spoken at a computing device; select, based on the utterance, an agent from a plurality of agents, wherein the plurality of agents includes one or more first party agents and a plurality of third-party agents, the storage medium further comprising instructions that when executed, cause the one or more processors to: select, in response to determining that the selected agent comprises a first party agent, a reserved voice from a plurality of voices; and output, using the selected voice and for playback, synthesized audio data to satisfy the utterance.」
(当審訳:
背景
[0002] いくつかのコンピューティングプラットフォームは、ユーザが仮想の計算アシスタント(例えば、「インテリジェントパーソナルアシスタント」または単に「アシスタント」とも呼ばれる)とチャット、会話、または他の方法で通信して、アシスタントに有用な情報を出力させ、ユーザのニーズに応答させ、または他の方法で特定の操作を実行させて、ユーザが実世界または仮想の様々なタスクを完了するのを支援することができるユーザインターフェースを提供することができる。例えば、コンピューティングデバイスは、ユーザの発話に対応する音声入力(例えば、音声データ)をマイクで受信することができる。コンピューティングデバイスで少なくとも部分的に実行されるアシスタントは、音声入力を分析し、発話に基づいて有用な情報を出力したり、発話によって示されるユーザのニーズに応答したり、さもなければ、発話に基づいてユーザが現実世界または仮想世界の様々なタスクを完了するのを助ける特定の操作を実行したりすることによって、発話を満足させようと試みることができる。
概要
[0003] 一般に、本開示の技術は、ユーザが複数の仮想的な計算エージェント/アシスタントと通信することを可能にし得る。例えば、発話(例えば、要求、質問、問い合わせ、注文など)に応答する少なくとも幾分かの能力を有する可能性のあるコンピューティングデバイスを介してユーザが利用可能な複数のエージェントが存在する可能性がある。エージェントは、少なくともコンピューティングデバイスに合成されたオーディオデータを出力させることによって、発話に応答するか、または他の方法でユーザと会話することができる。例えば、エージェントは、合成されたオーディオデータを生成するために、コンピューティングデバイスがテキスト音声合成(TTS)を実行するテキストを提供することができる。しかし、すべてのエージェントが同じ音声を使用して合成音声データを生成するのとは対照的に、異なるエージェントが異なる音声を使用することが望ましい場合があります。このようにして、データの出力がデータ自体に基づいて適応される、適応型インターフェースが提供される。
[0004] 本開示の1つまたは複数の技術に従って、エージェントは、コンピューティングデバイスに、異なる音声を使用して合成されたオーディオデータを出力させることができる。例えば、第1のエージェントは、コンピューティングデバイスに、第1の音声を使用して合成されたオーディオデータを出力させることができ、第2のエージェントは、コンピューティングデバイスに、第1の音声とは異なる第2の音声を使用して合成されたオーディオデータを出力させることができる。特定のコンピューティングデバイスを介してユーザと通信するときに、異なるエージェントが異なる音声を使用することを可能にすることによって、ユーザは、ユーザがどのエージェントと通信しているかをよりよく把握することができる。そのため、ユーザは、電力やその他のシステムリソースを消費する発話を繰り返す必要がなくなる。このように、本開示の技術は、エージェントの相互作用の電力消費および/またはシステムリソース要件を削減することができる。
[0005] 一実施例では、方法は、1つまたは複数のプロセッサで実行される計算アシスタントによって、コンピューティングデバイスで発話された発話の表現を受信することと、発話に基づいて、複数のエージェントからエージェントを選択することであって、複数のエージェントは、1つまたは複数のファーストパーティエージェントおよび複数のサードパーティエージェントを含む、選択することと、を含む; 選択されたエージェントがファーストパーティエージェントから構成されると決定することに応答して、複数のボイスから予約されたボイスを選択するステップと、選択されたボイスを使用して、コンピューティングデバイスの1つまたは複数のスピーカによる再生のために、発話を満たすように合成されたオーディオデータを出力するステップと、を含む。
[0006] 別の例では、デバイスは、少なくとも1つのプロセッサと、実行されたときに、少なくとも1つのプロセッサに、以下のように構成されたアシスタントを実行させる命令を含む少なくとも1つのメモリと、を含み、メモリは、実行されたときに、少なくとも1つのプロセッサに、以下のように構成されたアシスタントを実行させる命令をさらに含む:コンピューティングデバイスに動作可能に接続された1つまたは複数のマイクから、コンピューティングデバイスで発話された発話の表現を受信する;発話に基づいて、複数のエージェントからエージェントを選択する、ここで、複数のエージェントは、1つまたは複数のファーストパーティエージェントおよび複数のサードパーティエージェントを含み、メモリは、実行されたときに、少なくとも1つのプロセッサに、以下のように構成された命令をさらに含む: 選択されたエージェントがファーストパーティエージェントから構成されると決定することに応答して、複数のボイスから予約されたボイスを選択するステップと、選択されたボイスを使用して、コンピューティングデバイスに動作可能に接続された1つまたは複数のスピーカによる再生のために、発話を満たすように合成されたオーディオデータを出力するステップと、を実行させる命令をさらに含む。
[0007] 別の実施例では、システムは、1つまたは複数の通信ユニットと、少なくとも1つのプロセッサと、実行されたときに、少なくとも1つのプロセッサに以下のように構成されたアシスタントを実行させる命令を含む少なくとも1つのメモリとを含む。
コンピューティングデバイスに動作可能に接続された1つまたは複数のマイクロフォンから、コンピューティングデバイスで発話された発話の表現を受信するステップと、発話に基づいて、複数のエージェントからエージェントを選択するステップであって、複数のエージェントは、1つまたは複数のファーストパーティエージェントおよび複数のサードパーティエージェントを含む、ステップと、を実行するように構成されたアシスタントを、少なくとも1つのプロセッサに実行させる命令を含む、少なくとも1つのメモリをさらに備える: 選択されたエージェントがファーストパーティエージェントから構成されると決定することに応答して、複数のボイスから予約されたボイスを選択するステップと、選択されたボイスを使用して、コンピューティングデバイスに動作可能に接続された1つまたは複数のスピーカによる再生のために、発話を満たすように合成されたオーディオデータを出力するステップと、を実行させる命令をさらに含む。
[0008] 別の実施例では、システムは、1つまたは複数のプロセッサで実行される計算アシスタントによって、コンピューティングデバイスで発話された発話の表現を受信するための手段と、発話に基づいて、複数のエージェントからエージェントを選択するための手段であって、複数のエージェントは、1つまたは複数の第1のパーティ・エージェントおよび複数のサードパーティ・エージェントを含む、手段と、選択されたエージェントが第1のパーティ・エージェントから構成されると決定することに応答して、複数の音声から予約された音声を選択するための手段と、選択された音声を使用して、コンピューティングデバイスの1つまたは複数のスピーカによる再生のために出力するための手段と、を含む; 選択されたエージェントがファーストパーティエージェントから構成されると決定することに応答して、複数のボイスから予約されたボイスを選択する手段と、選択されたボイスを使用して、コンピューティングデバイスの1つまたは複数のスピーカによる再生のために、発話を満足させる合成されたオーディオデータを出力する手段と、を備える。
[0009] 別の実施例では、コンピュータ読み取り可能な記憶媒体は、実行されると、1つまたは複数のプロセッサに、コンピューティングデバイスで発話された発話の表現を受信するステップと、発話に基づいて、複数のエージェントからエージェントを選択するステップであって、複数のエージェントは、1つまたは複数のファーストパーティエージェントおよび複数のサードパーティエージェントを含む、ステップとを実行するように構成されたアシスタントを実行させる命令を記憶し、記憶媒体は、実行されると、1つまたは複数のプロセッサに以下を実行させる命令をさらに含む: 選択されたエージェントがファーストパーティエージェントから構成されると決定することに応答して、複数のボイスから予約されたボイスを選択するステップと、選択されたボイスを使用して、再生用に、発話を満たすように合成されたオーディオデータを出力するステップと、を実行させる命令をさらに含む。)

イ 「[0056] As discussed above, local assistant module 122A may base the agent selection on whether the voice input includes one or more pre-determined trigger phrases. For instance, if the voice input includes one or more pre-determined trigger phrases that are associated with IP agents, local assistant module 122A may select one or more of the IP agents to satisfy the utterance. In some examples, one or more of the IP agents are selected, the resulting engagement may be referred to as a IP experience.
[0057] However, if the voice input includes one or more pre-determined trigger phrases that are associated with 3P agents, local assistant module 122A may select one or more of the 3P agents to satisfy the utterance. For instance, local assistant module 122A may select a 3P agent of the 3P agents that is associated with the trigger phrases included in the voice input. To perform 3P agent selection, local assistant module 122A may rank one or more 3P agents based on the utterance. In some examples, local assistant module 122A may rank all known 3P agents. In some examples, local assistant module 122A may rank a subset of all known 3P agents. For instance, local assistant module 122A may rank 3P agents that are pre- configured for use by the user of computing device 110.
[0058] As discussed above, local assistant module 122A, may select a 3P agent based on rankings. For instance, local assistant module 122A may select a 3P agent with the highest ranking to satisfy the utterance. In some examples, such as where there is a tie in the rankings and/or if the ranking of the 3P agent with the highest ranking is less than a ranking threshold, local assistant module 122A may solicit user input to select a 3P language agent to satisfy the utterance. For instance, local assistant module 122A may cause UI module 120 to output a user interface requesting that the user select a 3P agent from the top N (e.g., 2, 3, 4, 5, etc.) ranked 3P agents to satisfy the utterance.」
(当審訳:
[0056] 上述したように、ローカルアシスタントモジュール122Aは、音声入力が1つ以上の予め決められたトリガーフレーズを含むかどうかにエージェント選択を基づかせることができる。例えば、音声入力がIPエージェントに関連する1つ以上の予め決められたトリガーフレーズを含む場合、ローカルアシスタントモジュール122Aは、発話を満たすためにIPエージェントの1つ以上を選択することができる。いくつかの例では、IPエージェントのうちの1つ以上が選択され、結果として生じるエンゲージメントは、IPエクスペリエンスと呼ばれることがある。
[0057] しかしながら、音声入力が、3Pエージェントに関連付けられる1つまたは複数の事前決定されたトリガーフレーズを含む場合、ローカルアシスタントモジュール122Aは、発話を満足させるために3Pエージェントのうちの1つまたは複数を選択し得る。例えば、ローカルアシスタントモジュール122Aは、3Pエージェントのうち、音声入力に含まれるトリガーフレーズに関連付けられている3Pエージェントを選択することができる。3Pエージェントの選択を実行するために、ローカルアシスタントモジュール122Aは、発話に基づいて1つ以上の3Pエージェントをランク付けしてもよい。いくつかの例では、ローカルアシスタントモジュール122Aは、すべての既知の3Pエージェントをランク付けしてもよい。いくつかの例では、ローカルアシスタントモジュール122Aは、すべての既知の3Pエージェントのサブセットをランク付けしてもよい。例えば、ローカルアシスタントモジュール122Aは、コンピューティングデバイス110のユーザが使用するように予め構成されている3Pエージェントをランク付けしてもよい。
[0058] 上述したように、ローカルアシスタントモジュール122Aは、ランキングに基づいて3Pエージェントを選択することができる。例えば、ローカルアシスタントモジュール122Aは、発話を満足させるために、最も高いランキングを有する3Pエージェントを選択することができる。ランキングに同点がある場合、および/または最も高いランキングを有する3Pエージェントのランキングがランキング閾値未満である場合など、いくつかの例では、ローカルアシスタントモジュール122Aは、発話を満足させるために3P言語エージェントを選択するためにユーザ入力を求めることができる。例えば、ローカルアシスタントモジュール122Aは、UIモジュール120に、発話を満足させるために上位N(例えば、2、3、4、5など)のランク付けされた3Pエージェントから3Pエージェントを選択するようユーザに要求するユーザインターフェースを出力させることができる。)

ウ 「[0097] Agent selection module 227 may analyze the rankings and/or the results from the web search to select an agent to satisfy the utterance. For instance, agent selection module 227 may inspect the web results to determine whether there are web page results associated with agents. If there are web page results associated with agents, agent selection module 227 may, insert the agents associated with the web page results into the ranked results (if said agents are not already included in the ranked results). Agent selection module 227 may boost the agent's rankings according to the strength of the web score. In some examples, agent selection module 227 may also then query a personal history store to determine whether the user has interacted with any of the agents in the result set. If so, agent selection module 227 may we give those agents a boost (i.e., increased ranking) depending on how often the strength of the user's history with them.」
(当審訳:
[0097] エージェント選択モジュール227は、ランキングおよび/またはウェブ検索からの結果を分析して、発話を満たすエージェントを選択することができる。例えば、エージェント選択モジュール227は、エージェントに関連するウェブページ結果があるかどうかを決定するために、ウェブ結果を検査することができる。エージェントに関連するウェブページ結果がある場合、エージェント選択モジュール227は、ウェブページ結果に関連するエージェントをランク付けされた結果に挿入することができる(当該エージェントがランク付けされた結果にまだ含まれていない場合)。エージェント選択モジュール227は、ウェブスコアの強さに従ってエージェントのランクを上げることができる。いくつかの例では、エージェント選択モジュール227は、ユーザが結果セット内のエージェントのいずれかと対話したかどうかを決定するために、個人履歴ストアに問い合わせることもできる。もしそうであれば、エージェント選択モジュール227は、それらのエージェントとのユーザの履歴の強さの頻度に応じて、それらのエージェントにブーストを与える(すなわち、ランキングを上げる)ことができる。)

エ 「[0102] In some examples, agent selection module 227 may cause assistant module 222 to request user feedback on how well an agent just fulfilled their request. For instance, assistant module 222 may say "You just interacted with the City Transit Schedule agent. In one or two words, how well did it work?" Assistant module 222 may determine, based on the user's response, whether it was a good or bad experience (e.g., using sentiment analysis). Assistant module 222 may determine a score of the experience, and feed the determined score back into ranking. For instance, assistant module 222 may modify the agent-quality score of the agent that fulfilled the request based on the user's feedback about the fulfillment. In this way, the techniques of this disclosure enable agent selection module 227 to select agents based on how well the agents have functioned in the past.」
(当審訳:
[0102] いくつかの例では、エージェント選択モジュール227は、アシスタントモジュール222に、エージェントがどれだけうまく自分の要求を満たしたかについてのユーザフィードバックを要求させることができる。例えば、アシスタントモジュール222は、"あなたは今、シティトランジットスケジュールエージェントと対話しました。一言または二言で言えば、どの程度うまくいきましたか?"と言うことができる。アシスタントモジュール222は、ユーザの応答に基づいて、それが良い経験であったか悪い経験であったかを決定することができる(例えば、センチメント分析を使用して)。アシスタントモジュール222は、経験のスコアを決定し、決定されたスコアをランキングにフィードバックすることができる。例えば、アシスタントモジュール222は、履行に関するユーザのフィードバックに基づいて、リクエストを履行したエージェントのエージェント品質スコアを修正することができる。このようにして、本開示の技術は、エージェント選択モジュール227が、エージェントが過去にどの程度機能したかに基づいてエージェントを選択することを可能にする。)

第5 対比・判断

1 本願発明1

(1)対比

本願発明1と引用発明とを対比すると、次のことが認められる。

ア 引用発明において、「複数のインテリジェントパーソナルアシスタントサービスに対する管理レイヤに関し、インテリジェントパーソナルアシスタント(IPA)管理システム100であって、IPA管理システム100は、スマートデバイス120、第1のIPAサービス140、第2のIPAサービス150及び第3のIPAサービス160を含み、全ては通信ネットワーク105を介して互いに通信可能に接続されてており、」「各IPAサービスはスマートデバイス(スマートデバイス120など)からクエリコンテンツを受信し、クエリに対して作用し、ユーザの質問に対する回答または要求アクションの完了確認などの適切な応答を提供するように構成され」ているとされる。

ここで、引用発明の「インテリジェントパーソナルアシスタント(IPA)サービス」は、本願発明1の「仮想秘書」に対応する。

また、引用発明の「スマートデバイス120」は、「第1のIPAサービス140、第2のIPAサービス150及び第3のIPAサービス160」と、「通信ネットワーク105を介して互いに通信可能に接続されて」いるから、引用発明の「スマートデバイス120」も、本願発明1と同様に、「有線または無線通信インターフェースを提供する通信部」「を有し」ているといえる。

さらに、「各IPAサービスはスマートデバイス(スマートデバイス120など)からクエリコンテンツを受信し、クエリに対して作用し、ユーザの質問に対する回答または要求アクションの完了確認などの適切な応答を提供」しているから、引用発明の「スマートデバイス120」も、本願発明1と同様に、「仮想秘書を提供する装置」であるといえる。

したがって、本願発明1と引用発明の「スマートデバイス120」とは、「有線または無線通信インターフェースを提供する通信部」「を有し」た「仮想秘書を提供する装置」である点で共通しているといえる。

イ 引用発明において、「各IPAサービスはスマートデバイス(スマートデバイス120など)からクエリコンテンツを受信し、クエリに対して作用し、ユーザの質問に対する回答または要求アクションの完了確認などの適切な応答を提供するように構成され、」「スマートデバイス120はIPA管理アプリケーション130」「を含んでおり、IPA管理アプリケーション130は、口頭発話91の受信に応じて、例えば、マイク126を介して、生成された音声信号101を検出し、音声信号101が、「OK、Google」、「こんにちは、Siri」、「ねえ、Alexa」等などの起動フレーズを含むかどうか判断し、1つ以上の起動フレーズが音声信号101に検出される場合、IPA管理アプリケーション130は音声信号から質問などのクエリコンテンツを抽出し、特定のタスク等を行うように命令し、クエリコンテンツを送信すべきIPAサービスを決定し、IPA管理アプリケーション130は、第1のIPAサービス140、第2のIPAサービス150及び/または第3のIPAサービス160からの応答を受信し、例えば、スピーカ125によって再生される音声信号102を介して、スマートデバイス120に係る応答のそれぞれを連続的に再生させるように構成される」とされている。

ここで、引用発明において、「「OK、Google」、「こんにちは、Siri」、「ねえ、Alexa」等などの起動フレーズ」、及び、「質問などのクエリコンテンツを抽出し、特定のタスク等を行うように命令」を含む「音声信号101」は、本願発明1の「第1サービスに対する指示命令を含む音声信号」に対応するといえる。

また、引用発明において、「マイク126を介して、生成された音声信号101を検出」することは、本願発明1の「第1サービスに対する指示命令を含む音声信号を」「受信する」ことに対応するといえる。

さらに、引用発明において、「1つ以上の起動フレーズが音声信号101に検出される場合、IPA管理アプリケーション130は音声信号から質問などのクエリコンテンツを抽出し、特定のタスク等を行うように命令し、クエリコンテンツを送信すべきIPAサービスを決定」することは、本願発明1の「(d)前記音声信号」「を基に、一つ以上の仮想秘書の中から前記第1サービスに対する前記指示命令に対応する第1仮想秘書を選択する」こと、及び、「(d−1)前記音声信号が前記第1仮想秘書に対応する起動命令をさらに有する場合に、前記起動命令に対応する前記第1仮想秘書を選択する」ことに対応するといえる。

そして、引用発明において、「各IPAサービスはスマートデバイス(スマートデバイス120など)からクエリコンテンツを受信し、クエリに対して作用し、ユーザの質問に対する回答または要求アクションの完了確認などの適切な応答を提供する」ことから、引用発明の「スマートデバイス120」も、本願発明1と同様に、「信号を、前記第1仮想秘書を提供する第1仮想秘書プラットホームへ前記通信部通じて転送し、前記第1仮想秘書プラットホームから前記」「信号に対応する第1応答信号を、前記通信部を通じて受信」しているといえる。

したがって、本願発明1と引用発明の「スマートデバイス120」とは、「第1サービスに対する指示命令を含む音声信号を」「受信する処理と、」「前記音声信号」「を基に、一つ以上の仮想秘書の中から前記第1サービスに対する前記指示命令に対応する第1仮想秘書を選択する処理と、」「信号を、前記第1仮想秘書を提供する第1仮想秘書プラットホームへ前記通信部通じて転送し、前記第1仮想秘書プラットホームから前記」「信号に対応する第1応答信号を、前記通信部を通じて受信する処理と、を行う演算処理部を有し、前記選択する処理は、(d−1)前記音声信号が前記第1仮想秘書に対応する起動命令をさらに有する場合に、前記起動命令に対応する前記第1仮想秘書を選択する処理」「を有する」「仮想秘書を提供する装置」である点で共通しているといえる。

(2)一致点・相違点

本願発明1と、引用発明とは、以下アの点で一致し、以下イの点で相違する。

ア 一致点

「 有線または無線通信インターフェースを提供する通信部と、
(b’)第1サービスに対する指示命令を含む音声信号を受信する処理と、(d’)前記音声信号を基に、一つ以上の仮想秘書の中から前記第1サービスに対する前記指示命令に対応する第1仮想秘書を選択する処理と、(f’)信号を、前記第1仮想秘書を提供する第1仮想秘書プラットホームへ前記通信部通じて転送し、前記第1仮想秘書プラットホームから前記信号に対応する第1応答信号を、前記通信部を通じて受信する処理と、を行う演算処理部
を有し、
前記選択する処理(d’)は、
(d−1)前記音声信号が前記第1仮想秘書に対応する起動命令をさらに有する場合に、前記起動命令に対応する前記第1仮想秘書を選択する処理
を有する、仮想秘書を提供する装置。」

イ 相違点

(ア)<相違点1>

本願発明1では、音声信号を、電子装置から通信部を通じて受信し、(g)前記第1応答信号を前記電子装置へ転送しているのに対し、引用発明では、音声信号を、マイクを介して受信し、応答信号をスピーカ125によって再生している点。

(イ)<相違点2>

本願発明1では、「(a)音声特性情報、サービス識別情報および前記サービス識別情報に対応する仮想秘書プラットホーム識別情報を各々有する一つ以上のユーザプロファイルを管理する処理」と、「(c)前記音声信号を基に、前記一つ以上のユーザプロファイルの中から個人化ユーザプロファイルを獲得する処理と、」「個人化ユーザプロファイル」を基に、「一つ以上の仮想秘書の中から前記第1サービスに対する前記指示命令に対応する第1仮想秘書を選択する処理」を備えているのに対して、引用発明では、これらの処理を備えていない点。

(ウ)<相違点3>

本願発明1では、「(e)前記音声信号を第1仮想秘書に適する第1信号に変換する処理」を備えており、「前記第1信号を」「第1仮想秘書プラットホームへ」「転送し、」「前記第1仮想秘書プラットホームから前記第1信号に対応する第1応答信号を」受信しているのに対して、引用発明では、このような処理を備えていない点。

(エ)<相違点4>

本願発明1では、「(d−2)前記音声信号が前記第1仮想秘書に対応する起動命令をさらに有さない場合に、前記個人化ユーザプロファイルに含まれる前記サービス識別情報および前記仮想秘書プラットホーム識別情報を基に前記第1仮想秘書を選択する処理」を備えているのに対して、引用発明では、この処理を備えていない点。

(オ)<相違点5>

本願発明1では、「仮想秘書を提供する装置」が「個人化され」ているのに対し、引用発明では、「スマートデバイス120」が「IPAサービス」の提供に関して個人化されていない点。


(3)相違点についての判断

事案に鑑みて、まず、相互に関連する<相違点2>および<相違点4>について検討する。

本願発明1の<相違点2>に係る「(a)音声特性情報、サービス識別情報および前記サービス識別情報に対応する仮想秘書プラットホーム識別情報を各々有する一つ以上のユーザプロファイルを管理する処理と、(c)前記音声信号を基に、前記一つ以上のユーザプロファイルの中から個人化ユーザプロファイルを獲得する処理と、(d)個人化ユーザプロファイルを基に、一つ以上の仮想秘書の中から前記第1サービスに対する前記指示命令に対応する第1仮想秘書を選択する処理」の構成、および、<相違点4>に係る「(d−2)前記音声信号が前記第1仮想秘書に対応する起動命令をさらに有さない場合に、前記個人化ユーザプロファイルに含まれる前記サービス識別情報および前記仮想秘書プラットホーム識別情報を基に前記第1仮想秘書を選択する処理」の構成について、引用文献2ないし4のいずれにも、記載も示唆もない。

なお、引用文献4に記載の技術では、本願発明1の「仮想秘書」に対応するものが「ローカルアシスタントモジュール122A」であり、複数の「3Pエージェント」から1つの「3Pエージェント」を選択していることは、記載されているものの、「仮想秘書」に対応する「ローカルアシスタントモジュール122A」は、1つしかなく、「仮想秘書」に対応する「ローカルアシスタントモジュール122A」を選択することは記載されていない。

また、本願発明1の<相違点2>に係る「(a)音声特性情報、サービス識別情報および前記サービス識別情報に対応する仮想秘書プラットホーム識別情報を各々有する一つ以上のユーザプロファイルを管理する処理と、(c)前記音声信号を基に、前記一つ以上のユーザプロファイルの中から個人化ユーザプロファイルを獲得する処理と、(d)個人化ユーザプロファイルを基に、一つ以上の仮想秘書の中から前記第1サービスに対する前記指示命令に対応する第1仮想秘書を選択する処理」の構成、および、<相違点4>に係る「(d−2)前記音声信号が前記第1仮想秘書に対応する起動命令をさらに有さない場合に、前記個人化ユーザプロファイルに含まれる前記サービス識別情報および前記仮想秘書プラットホーム識別情報を基に前記第1仮想秘書を選択する処理」の構成について、本願の優先日前に、周知技術であったともいえない。

したがって、引用発明および引用文献2ないし4の記載事項に基づいて、当業者は、本願発明1の<相違点2>および<相違点4>に係る構成を容易に想到することができない。

(4)小括

したがって、本願発明1は、その他の<相違点1><相違点3><相違点5>について検討するまでもなく、引用発明および引用文献2ないし4の記載事項に基づいて、当業者が容易に発明できたものであるとはいえない。

2 本願発明2ないし16

本願発明2ないし16は、いずれも、本願発明1を減縮したものであって、本願発明1と同一の構成を備えるものであるから、上記1で述べた本願発明1と同じ理由により、引用発明および引用文献2ないし4の記載事項に基づいて、当業者が容易に発明できたものであるとはいえない。

第6 原査定について

上記第5の1および2で述べたように、本願発明1ないし16はいずれも、引用発明および引用文献2ないし4の記載事項に基づいて、当業者が容易に発明できたものであるとはいえないから、原査定の拒絶の理由(進歩性)は、解消している。

よって、原査定の理由は、維持することはできない。

第7 むすび

以上のとおり、原査定の理由によっては、本願を拒絶することはできない。
また、他に本願を拒絶すべき理由を発見しない。
よって、結論のとおり審決する。

 
審決日 2023-09-25 
出願番号 P2021-560902
審決分類 P 1 8・ 121- WY (G06F)
最終処分 01   成立
特許庁審判長 中野 裕二
特許庁審判官 野崎 大進
富澤 哲生
発明の名称 個人化された仮想秘書を提供する装置  
代理人 山内 博明  

プライバシーポリシー   セキュリティーポリシー   運営会社概要   サービスに関しての問い合わせ