ポートフォリオを新規に作成して保存 |
|
|
既存のポートフォリオに追加保存 |
|
PDFをダウンロード |
審決分類 |
審判 査定不服 2項進歩性 取り消して特許、登録 G06F 審判 査定不服 1項3号刊行物記載 取り消して特許、登録 G06F 審判 査定不服 特36条6項1、2号及び3号 請求の範囲の記載不備 取り消して特許、登録 G06F |
---|---|
管理番号 | 1374615 |
審判番号 | 不服2020-1220 |
総通号数 | 259 |
発行国 | 日本国特許庁(JP) |
公報種別 | 特許審決公報 |
発行日 | 2021-07-30 |
種別 | 拒絶査定不服の審決 |
審判請求日 | 2020-01-29 |
確定日 | 2021-06-22 |
事件の表示 | 特願2018-510102「音声及びビデオ通話のためのインタラクティブ制御方法及び装置」拒絶査定不服審判事件〔平成29年 4月 6日国際公開、WO2017/054309、平成30年 9月 6日国内公表、特表2018-525751、請求項の数(8)〕について、次のとおり審決する。 |
結論 | 原査定を取り消す。 本願の発明は、特許すべきものとする。 |
理由 |
第1 手続の経緯 本願は、2015年(平成27年)12月3日(パリ条約による優先権主張外国庁受理2015年9月28日 中国)を国際出願日とする出願であって、その手続の経緯は以下のとおりである。 平成30年12月21日付け:拒絶理由通知書 令和31年 4月 8日 :意見書、手続補正書の提出 令和 元年 9月19日付け:拒絶査定(原査定) 令和 2年 1月29日 :審判請求書、手続補正書の提出 令和 3年 1月19日付け:拒絶理由(当審拒絶理由)通知書 令和 3年 4月26日 :意見書、手続補正書の提出 第2 原査定の概要 原査定の概要は次のとおりである。 本願請求項1ないし12に係る発明は、以下の引用文献AないしCに記載された発明に基いて、その発明の属する技術の分野における通常の知識を有する者(以下、「当業者」という。)が容易に発明をすることができたものであるから、特許法第29条第2項の規定により特許を受けることができない。 [引用文献等一覧] A 米国特許出願公開第2015/0088514号明細書 B 特開2008-269174号公報(周知技術を示す文献) C 特開2007-18456号公報(周知技術を示す文献) 第3 当審拒絶理由の概要 当審拒絶理由の概要は次のとおりである。 [理由1]明確性要件違反 本願請求項4、5、9、10及び12に係る発明は、以下の点で明確ではないから、特許法第36条第6項第2号に規定する要件を満たしていない。 「トリガ情報」に「キーワード」が含まれることを構成に含む請求項4、5、9、10及び12に係る発明において、「トリガ情報に対応する操作命令」及び「操作命令に対応するイベント」が、いかなるものであるのか明確ではない。 [理由2]新規性欠如 本願請求項1、6、11及び12に係る発明は、以下の引用文献1に記載された発明であるので、特許法第29条第1項第3号に該当し、特許を受けることができない。 [理由3]進歩性欠如 本願請求項1ないし12に係る発明は、以下の引用文献1ないし5に記載された発明に基いて、当業者が容易に発明をすることができたものであるから、特許法第29条第2項の規定により特許を受けることができない。 [引用文献等一覧] 1 国際公開第2015/002699号(当審において新たに引用した文献) 2 特開2004-248145号公報(当審において新たに引用した文献) 3 特開2002-271507号公報(当審において新たに引用した文献) 4 米国特許出願公開第2015/0088514号明細書(拒絶査定の引用文献A) 5 特開2008-269174号公報(拒絶査定の引用文献B) なお、理由3(進歩性欠如)において、主たる引用文献として、引用文献1と引用文献2とが提示されている。 第4 本願発明 本願請求項1ないし8に係る発明(以下、それぞれ「本願発明1」ないし「本願発明8」という。)は、令和3年4月26日に提出された手続補正書に係る手続補正(以下、「本件補正」という。)により補正された特許請求の範囲の請求項1ないし8に記載された事項により特定される発明であり、本願発明1ないし8は以下のとおりの発明である。(なお、下線は、補正された箇所を示す。) 「 【請求項1】 ユーザと1つ又は複数の他のユーザとの音声通話及びビデオ通話の経過において、ユーザの入力されたユーザ行動データをモニタリングし、ユーザにより音声方式及びジェスチャ方式を含む所定の方式で入力されたユーザ行動データを取得するステップと、 前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップと、 前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップと、を含み、 前記トリガ情報は、キーワードを含み、 ユーザにより所定の方式で入力されたユーザ行動データを取得するステップは、 カメラにより採取されたビデオ情報を取得するステップと、 ビデオ認識アルゴリズムに基づいて前記ビデオ情報を認識して、前記ビデオ情報の認識結果を前記ユーザ行動データとして生成するステップであって、前記認識結果は、前記ビデオ情報における物の特徴情報を含むステップと、を含み、 前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップは、 前記ユーザ行動データに前記物の特徴情報により決定された所定の前記キーワードが含まれているか否かを判断するステップを含み、 前記キーワードが含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップは、 前記キーワードが含まれていると判断・通知された場合、サーバが前記キーワードに対応する推薦情報を取得するように、前記キーワードを前記サーバに送信し、前記サーバから返信された前記推薦情報を受信し、前記推薦情報をユーザに提供するという前記キーワードに対応する操作命令を決定し、前記キーワードに対応する操作命令に従ってイベントを実行すること、を含む、 ことを特徴とする音声及びビデオ通話のためのインタラクティブ制御方法。 【請求項2】 前記トリガ情報は、トリガ語と動作操作語とを含み、 前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップは、 前記ユーザ行動データに所定の前記トリガ語が含まれているか否かを判断するステップと、 前記トリガ語が含まれていると判断・通知された場合、前記ユーザ行動データに所定の前記動作操作語が含まれているか否かをさらに判断するステップと、を含み、 前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップは、 前記動作操作語が含まれていると判断・通知された場合、前記所定の操作命令セットに基づいて前記動作操作語に対応する操作命令を決定し、前記操作語に対応する操作命令に対応するイベントを実行するステップを含む、 ことを特徴とする請求項1に記載の音声及びビデオ通話のためのインタラクティブ制御方法。 【請求項3】 前記トリガ情報は、トリガジェスチャ動作とジェスチャ操作とを含み、 ユーザにより所定の方式で入力されたユーザ行動データを取得するステップは、 カメラによって前記ユーザにより入力されたユーザ行動データを取得するステップを含み、 前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップは、 前記ユーザ行動データに所定の前記トリガジェスチャ動作が含まれているか否かを判断するステップと、 前記トリガジェスチャ動作が含まれていると判断・通知された場合、前記ユーザ行動データに所定のジェスチャ操作が含まれているか否かをさらに判断するステップと、を含み、 前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップは、 前記ジェスチャ動作が含まれていると判断・通知された場合、前記所定の操作命令セットに基づいて前記ジェスチャ動作に対応する操作命令を決定し、前記ジェスチャ動作に対応する操作命令に従って対応するイベントを実行するステップを含む、 ことを特徴とする請求項1に記載の音声及びビデオ通話のためのインタラクティブ制御方法。 【請求項4】 ユーザと1つ又は複数の他のユーザとの音声通話及びビデオ通話の経過において、ユーザの入力されたユーザ行動データをモニタリングし、ユーザにより音声方式及びジェスチャ方式を含む所定の方式で入力されたユーザ行動データを取得する取得モジュールと、 前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定する判断モジュールと、 前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行する処理モジュールと、を含み、 前記トリガ情報は、キーワードを含み、 前記取得モジュールは、 カメラにより採取されたビデオ情報を取得し、 ビデオ認識アルゴリズムに基づいて前記ビデオ情報を認識して、前記ビデオ情報の認識結果を前記ユーザ行動データとして生成し、前記認識結果は、前記ビデオ情報における物の特徴情報を含み、 前記判断モジュールは、 前記ユーザ行動データに前記物の特徴情報により決定された所定の前記キーワードが含まれているか否かを判断し、 前記処理モジュールは、 前記キーワードが含まれていると判断・通知された場合、サーバが前記キーワードに対応する推薦情報を取得するように、前記キーワードを前記サーバに送信し、前記サーバから返信された前記推薦情報を受信し、前記推薦情報をユーザに提供するという前記キーワードに対応する操作命令を決定し、前記キーワードに対応する操作命令に従ってイベントを実行する、 ことを特徴とする音声及びビデオ通話のためのインタラクティブ制御装置。 【請求項5】 前記トリガ情報は、トリガ語と動作操作語とを含み、 前記判断モジュールは、 前記ユーザ行動データに所定の前記トリガ語が含まれているか否かを判断し、 前記トリガ語が含まれていると判断・通知された場合、前記ユーザ行動データに所定の前記動作操作語が含まれているか否かをさらに判断し、 前記処理モジュールは、 前記動作操作語が含まれていると判断・通知された場合、前記所定の操作命令セットに基づいて前記動作操作語に対応する操作命令を決定し、前記操作語に対応する操作命令に対応するイベントを実行する、 ことを特徴とする請求項4に記載の音声及びビデオ通話のためのインタラクティブ制御装置。 【請求項6】 前記トリガ情報は、トリガジェスチャ動作とジェスチャ操作とを含み、 前記取得モジュールは、 カメラによって前記ユーザにより入力されたユーザ行動データを取得し、 前記判断モジュールは、 前記ユーザ行動データに所定の前記トリガジェスチャ動作が含まれているか否かを判断し、 前記トリガジェスチャ動作が含まれていると判断・通知された場合、前記ユーザ行動データに所定のジェスチャ操作が含まれているか否かをさらに判断し、 前記処理モジュールは、 前記ジェスチャ動作が含まれていると判断・通知された場合、前記所定の操作命令セットに基づいて前記ジェスチャ動作に対応する操作命令を決定し、前記ジェスチャ動作に対応する操作命令に従って対応するイベントを実行する、 ことを特徴とする請求項4に記載の音声及びビデオ通話のためのインタラクティブ制御装置。 【請求項7】 一つ又は複数のプロセッサと、 メモリと、 一つ又は複数のモジュールと、を含み、 前記一つ又は複数のモジュールは、前記メモリに格納され、前記一つ又は複数のプロセッサによって実行される場合に、 ユーザと1つ又は複数の他のユーザとの音声通話及びビデオ通話の経過において、ユーザの入力されたユーザ行動データをモニタリングし、ユーザにより音声方式及びジェスチャ方式を含む所定の方式で入力されたユーザ行動データを取得する操作と、 前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定する操作と、 前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行する操作と、を行い、 前記トリガ情報は、キーワードを含み、 前記取得する操作は、 カメラにより採取されたビデオ情報を取得し、 ビデオ認識アルゴリズムに基づいて前記ビデオ情報を認識して、前記ビデオ情報の認識結果を前記ユーザ行動データとして生成し、前記認識結果は、前記ビデオ情報における物の特徴情報を含み、 前記決定する操作は、 前記ユーザ行動データに前記物の特徴情報により決定された所定の前記キーワードが含まれているか否かを判断し、 前記イベントを実行する操作は、 前記キーワードが含まれていると判断・通知された場合、サーバが前記キーワードに対応する推薦情報を取得するように、前記キーワードを前記サーバに送信し、前記サーバから返信された前記推薦情報を受信し、前記推薦情報をユーザに提供するという前記キーワードに対応する操作命令を決定し、前記キーワードに対応する操作命令に従ってイベントを実行する、 ことを特徴とする音声及びビデオ通話のためのインタラクティブ制御装置。 【請求項8】 請求項1?3のいずれか1項に記載の音声及びビデオ通話のためのインタラクティブ制御方法を実行するためのアプリケーションプログラムが記憶されている、 ことを特徴とする記憶媒体。」 なお、本件補正により、本件補正前の請求項1、11が、本件補正前の請求項5に記載された事項等により減縮され、本件補正前の請求項6が、本件補正前の請求項10に記載された事項等により減縮されるとともに、本件補正前の請求項4、5、9及び10は削除された。よって、本件補正後の請求項1、2、3、4、5、6、7及び8はそれぞれ、本件補正前の請求項1、2、3、6、7、8、11及び12に対応するものであるとともに、本件補正後の請求項1、4及び7は、本件補正前の請求項5又は10に記載された事項が取り込まれたものである。 第5 引用文献、引用発明等 1 引用文献1について (1)引用文献1記載事項 当審拒絶理由に引用された引用文献1には、図面とともに次の事項が記載されている。なお、下線は、強調のため当審が付与した。(以降においても同様。) また、当審訳としては、対応する日本語文献である特表2016-535394号公報の記載を採用した。 「[0001] The disclosed technology relates to an electronic device configured to use the device's own display to provide an illumination source for front-facing image sensors. Aspects are also directed to methods of using the same.」 [当審訳] 「[0001]開示されている技術は、フロントフェーシング(front-facing)画像センサに対して照明源を提供するためにデバイス自身のディスプレイを使用するように構成された電子デバイスに関する。態様は、当該電子デバイスを使用する方法も対象としている。」 「[0022] FIG.1B illustrates digital devices with front-facing image sensors and multiple users using the digital devices to exchange images or videos through a network according to another embodiment. The digital device 102A in use by a first user 120A includes a first front-facing image sensor 110A and a first display device 104A configured to display a first illumination image. In this example, the illumination image includes a self-image 106A of the first user 102A captured by the first front-facing image sensor 110A in response to a command by the first user 120A. Analogously, the digital device 102B in use by a second user 120B includes a second front-facing image sensor 110B and a second display device 104B configured to display a second illumination image. In this example, the second illumination image includes a second self-image 106B of the second user 102B captured by the second front-facing image sensor 110B in response to a command by the second user 120B. [0023] During use, such as a video call, the first display device 104A may be configured to brighten as the user 120a is in the call. This brightening would allow the system to transmit a higher quality image to the second user 120b. Similarly, the second display device 104b could be configured to brighten while the second user 120b was on a video call.」 [当審訳] 「[0022]図1Bは、別の実施形態に従って、フロントフェーシング画像センサを有するデジタルデバイスと、ネットワークを通じて画像またはビデオを交換するためにデジタルデバイスを使用する複数のユーザとを図示している。第1のユーザ120Aにより使用中のデジタルデバイス102Aは、第1のフロントフェーシング画像センサ110Aと、第1の照明画像を表示するように構成された第1のディスプレイデバイス104Aとを含む。この例では、照明画像は、第1のユーザ120Aによるコマンドに応答して、第1のフロントフェーシング画像センサ110Aにより取り込まれた第1のユーザ102Aの自己画像106Aを含む。類似して、第2のユーザ120Bにより使用中のデジタルデバイス102Bは、第2のフロントフェーシング画像センサ110Bと、第2の照明画像を表示するように構成された第2のディスプレイデバイス104Bとを含む。この例では、第2の照明画像は、第2のユーザ120Bによるコマンドに応答して、第2のフロントフェーシング画像センサ110Bにより取り込まれた第2のユーザ102Bの第2の自己画像106Bを含む。 [0023]例えばビデオ通話などの使用中、第1のディスプレイデバイス104Aは、ユーザ120aが通話しているとき、明るくなるように構成されてもよい。このように明るくなることにより、システムは、より高品質な画像を第2のユーザ120bに送信することが可能になる。同様に、第2のディスプレイデバイス104bは、第2のユーザ120bがビデオ通話をしていた間、明るくなるように構成されることができる。」 「[0027] The digital device 200 further includes the command input module 210 configured to receive various modes of command input from a user. In some embodiments, the command input module 210 can include any number of suitable input devices such as a voice recognition device, a gesture recognition device, a motion sensing device, a touch screen device, a keyboard device, and an auxiliary input/output(I/0) device, among others. The command input module can also include supporting circuitry to transform physical input signals such as a voice wave or a motion into digital signals.」 [当審訳] 「[0027]デジタルデバイス200は、ユーザから入力された様々なモードのコマンドを受信するように構成されたコマンド入力モジュール210をさらに含む。いくつかの実施形態において、コマンド入力モジュール210は、とりわけ、音声認識デバイス、ジェスチャ認識デバイス、動き感知デバイス、タッチスクリーンデバイス、キーボードデバイス、補助入力/出力(I/O)デバイスのようないくつかの適切な入力デバイスを含むことができる。コマンド入力モジュールは、音声波または動きのような物理的な入力信号をデジタル信号に変えるために補助回路を含むこともできる。」 「[0032] The illumination adjustment module 230 may be configured to adjust the illumination conditions of the display device to and from an imaging illumination condition and a normal viewing illumination condition, in response to a command received from a user. The illumination adjustment module includes the display device and a display controller. In one embodiment, the display device can include an active matrix organic light-emitting diode (AMOLED) display comprising an active matrix of organic light-emitting diode (OLED) pixels that generate light upon electrical activation. The OLED pixels can be integrated onto a thin film transistor (TFT) array, which functions as a series of switches to control the current flowing to each individual pixel. Other embodiments of the display device are possible, including an LED, LCD, OLED, AMOLED, or any other similar types of displays that can be configured as an illumination source for a front-facing image sensor of the digital device 200.」 [当審訳] 「[0032]照明調整モジュール230は、ユーザから受信したコマンドに応答して、ディスプレイデバイスの照明条件を、画像化照明条件から通常のビューイング照明条件へと、および、通常のビューイング照明条件から画像化照明条件へと調整するように構成されてもよい。照明調整モジュールは、ディスプレイデバイスおよびディスプレイコントローラを含む。1つの実施形態において、ディスプレイデバイスは、電気的活性化すると光を生成する有機発光ダイオード(OLED)のアクティブマトリクスを備える、アクティブマトリクス式有機発光ダイオード(AMOLED)ディスプレイを含むことができる。OLED画素は、電流の流れを各個別の画素に制御するための一連のスイッチとして機能する、薄膜トランジスタ(TFT)アレイ上に集積されることができる。LED、LCD、OLED、AMOLED、または、デジタルデバイス200のフロントフェーシング画像センサに関する照明源として構成されることができる任意の他の類似タイプのディスプレイを含む、ディスプレイデバイスの他の実施形態が可能である。」 「FIG.1B 」 上記[0022]及び[0023]を参照すると、上掲のFIG.1B(図1B)には、デジタルデバイス102Aを使用するユーザ120aとデジタルデバイス102Bを使用するユーザ120bとが、ネットワーク130を介してビデオ通話をする例が記載されているといえる. (2)引用発明1 前記(1)より、上記引用文献1には、電子デバイス(デジタルデバイス)の制御方法が記載されているといえる。 よって、上記引用文献1には次の発明(以下、「引用発明1」という。)が記載されていると認められる。 「 フロントフェーシング(front- facing)画像センサに対して照明源を提供するためにデバイス自身のディスプレイを使用するように構成された電子デバイスの制御方法であって、 デジタルデバイス102Aを使用するユーザ120aとデジタルデバイス102Bを使用するユーザ120bとが、ネットワーク130を介してビデオ通話をする例において、 ビデオ通話などの使用中、第1のディスプレイデバイス104Aは、ユーザ120aが通話しているとき、明るくなるように構成されてもよく、同様に、第2のディスプレイデバイス104bは、第2のユーザ120bがビデオ通話をしていた間、明るくなるように構成されることができ、 デジタルデバイス200は、ユーザから入力された様々なモードのコマンドを受信するように構成されたコマンド入力モジュール210をさらに含み、コマンド入力モジュール210は、とりわけ、音声認識デバイス、ジェスチャ認識デバイス、動き感知デバイス、タッチスクリーンデバイス、キーボードデバイス、補助入力/出力(I/O)デバイスのようないくつかの適切な入力デバイスを含むことができ、音声波または動きのような物理的な入力信号をデジタル信号に変えるために補助回路を含むこともでき、 照明調整モジュール230は、ユーザから受信したコマンドに応答して、ディスプレイデバイスの照明条件を、画像化照明条件から通常のビューイング照明条件へと、および、通常のビューイング照明条件から画像化照明条件へと調整するように構成されてもよい、 電子デバイスの制御方法。」 2 引用文献2について (1)引用文献2記載事項 当審拒絶理由に引用された引用文献2には、図面とともに次の事項が記載されている。 「【0008】 そこで、この発明の課題は、発言権の取得や移譲を、容易に、かつ円滑に行うことができるビデオチャット会議室を実現する多地点通信システムを提供することにある。さらに、従来のビデオチャット会議室に比べて、不特定多数で行うコミュニケーションに特化した付加価値の高いサービスを実現することをも目的とする。」 「【0021】 【発明の実施の形態】 <基本構成> 図1はこの発明の一の実施の形態に係る多地点通信システムを示す基本構成図である。図1の如く、本システムは、複数の仮想チャットルーム2(2A?2D)を実現する基地局1と、当該基地局1とインターネットなどのネットワーク3(3A?3D)を介して接続され、ステージ4(4A,4B)を構成し双方向通信により映像および音声を送受信して情報交換を行う参加端末局5(5A?5F)と、オーディエンス6(6A,6B)を構成し片方向通信によりステージ4で行われる映像および音声を受信する傍聴端末局7(7A?7F)と、から構成される。」 「【0028】 基地局1は、コンピュータ装置を基本に構成され、図2の如く、仮想チャットルーム2をテレビ電話を利用したビデオチャットとして機能させるために映像および音声の中継サーバーとして機能する映像音声中継サーバ部8(8A?8C)と、ステージ4の参加端末局5とは双方向通信を行い、オーディエンス6の傍聴端末局7とは片方向通信を行うといった通信に係る制御を行う接続制御部9と、仮想チャットルームの課金や広告配信などに係る設定を行う会議室制御設定部10とを備える。また、ウェブインターフェース11を介して、各端末局5,7から送信されたデータに対して、会員情報データベース12の情報を参照しながら各端末局5,7の認証を行う認証処理部13と、会員情報データベース12への登録を行う登録処理部14とを備える。さらに、ウェブインターフェース11を介して各端末局5,7から送信されたデータに対して、これを集計する集計処理部15と、課金やペイバックに係る処理を行う課金・ペイバック処理部16と、送信されたデータを元にウェブコンテンツデータベース17を検索する検索エンジン部18と、を備える。検索エンジン部18により検索された結果は、ウェブサーバ部19を介して各端末局5,7へ送信される。なお、基地局1の上記各機能は、専用のソフトウェアプログラムにより実現されるが、基地局1は1台のコンピュータ装置で構成される態様に限らず、複数台のコンピュータ装置を利用して、通信やデータ処理に係る負荷を分担する態様であっても構わない。 【0029】 端末局5,7は、図3の如く、コンピュータ装置を基本として、これに接続されたカメラ20、マイクロフォン21およびスピーカー22などの映像および音声の入出力装置から構成される。そして、後述する各機能は、コンピュータ装置上で動作するソフトウェアプログラムによって実現される。」 「【0072】 <多目的情報交換ボード> 本システムで利用するユーザーインターフェース26上には、図7の如く、多目的情報交換ボード(多目的情報交換手段)43が備えられている。この多目的情報交換ボード43上は、ウェブページの他、画像や映像を表示し、この表示内容をビデオチャットの参加者間で共有するという機能を有する。具体的には、例えば、多目的情報交換ボード43上に、表示したウェブページ、画像、映像、文字などを、基地局1を介して、全ての、または特定の、参加端末局5に表示させ、情報を共有しながらビデオチャットによる情報交換を進めることができる。さらに、多目的情報交換ボード43の利用態様はこれに限られず、多目的情報交換ボード43上には指示棒が備えられ、これをある参加端末局5において移動させると、他の参加端末局5上でも同様に移動し、表示されたデータの一部を指し示しながら、情報交換を行うような態様であってもよい。また、多目的情報交換ボード43上には、アイコンやボタンなどを配し、これを押すことで、投票や各種設定などの、所定の命令を実行できる態様であってもよい。なお、これら多目的情報交換ボード43に係る操作、アイコンやボタンなどのユーザーインターフェースの表示は、CGI,JAVA(登録商標),XMLなどのウェブプログラミングを利用して実現される。 【0073】 このように多目的情報交換ボード43を利用することで、従来の単なる映像および音声のみを送受信するビデオチャットや文字のみによるチャットとは異なり、ウェブページ、画像、映像など扱える情報の種類および量が飛躍的に向上する。そして、これらの情報を利用した情報交換を進めることで、従来は不可能であったコミュニケーションやサービスを実現することが可能である。」 「【0077】 <広告配信機能> 本システムは、広告配信機能(広告配信手段)を有し、ユーザーインターフェース26上には、図8の如く、広告表示領域49が設けられ、ビデオチャットの開催中には、当該領域に、各種の広告が表示される。また、空いている参加端末局5の映像表示領域41を利用して広告表示を行うことも可能である。 …(中略)… 【0080】 広告配信機能は、上述した態様に限られず、仮想チャットルーム2のタイトル、話題、およびテーマなどを基に選択された関連広告が表示される態様であっても構わない。具体的には、例えば、「音楽同好会」というタイトルを持つ仮想チャットルーム2において、ビデオチャットが実施されている最中には、コンサートに係る情報を含む広告が表示されるといった具合である。 【0081】 さらに、広告配信機能は、ビデオチャットで行われる情報交換の内容をリアルタイムに反映して行われる態様であっても構わない。例えば、図9の如く、ビデオチャットを実施しているユーザーインターフェース26上において、多目的情報交換ボード43を利用して表示された文字列を、基地局1が検知し、この文字列をもとに検索エンジン部17で、各種の広告表示に係る情報が格納されているウェブコンテンツデータベース17の内容を検索し、その結果を関連広告として、基地局1から各端末局5,7へ送信し、各端末局5,7の広告表示領域49、または空いている映像表示領域41に表示する。具体的には、例えば、ビデオチャットで行われた情報交換の中で、「ベートーベン」という文字列が含まれることを検知した基地局1の検索エンジン部18は、この単語を基に検索を行い、その結果、ウェブコンテンツ17内で発見した「交響曲第6番」の新譜情報に係る広告を表示するといった具合である。」 「【図9】 」 (2)引用発明2 前記(1)より、引用文献2には、「多地点通信システムの制御方法」が記載されているといえる。 よって、引用文献2には、次の発明(以下、「引用発明2」という。)が記載されていると認められる。 「 不特定多数で行うコミュニケーションに特化した付加価値の高いサービスを実現することをも目的とするビデオチャット会議室を実現する多地点通信システムの制御方法であって、 多地点通信システムは、複数の仮想チャットルーム2(2A?2D)を実現する基地局1と、当該基地局1とインターネットなどのネットワーク3(3A?3D)を介して接続され、ステージ4(4A,4B)を構成し双方向通信により映像および音声を送受信して情報交換を行う参加端末局5(5A?5F)と、オーディエンス6(6A,6B)を構成し片方向通信によりステージ4で行われる映像および音声を受信する傍聴端末局7(7A?7F)と、から構成され、 基地局1は、コンピュータ装置を基本に構成され、基地局1の上記各機能は、専用のソフトウェアプログラムにより実現されるが、基地局1は1台のコンピュータ装置で構成される態様に限らず、複数台のコンピュータ装置を利用して、通信やデータ処理に係る負荷を分担する態様であってもよく、 端末局5、7は、コンピュータ装置を基本として、これに接続されたカメラ20、マイクロフォン21およびスピーカー22などの映像および音声の入出力装置から構成され、 本システムで利用するユーザーインターフェース26上には、多目的情報交換ボード(多目的情報交換手段)43が備えられ、この多目的情報交換ボード43上は、ウェブページの他、画像や映像を表示し、この表示内容をビデオチャットの参加者間で共有するという機能を有し、具体的には、例えば、多目的情報交換ボード43上に、表示したウェブページ、画像、映像、文字などを、基地局1を介して、全ての、または特定の、参加端末局5に表示させ、情報を共有しながらビデオチャットによる情報交換を進めることができ、 本システムは、広告配信機能(広告配信手段)を有し、ユーザーインターフェース26上には、広告表示領域49が設けられ、ビデオチャットの開催中には、当該領域に、各種の広告が表示され、 広告配信機能は、仮想チャットルーム2のタイトル、話題、およびテーマなどを基に選択された関連広告が表示される態様であってもよく、さらに、広告配信機能は、ビデオチャットで行われる情報交換の内容をリアルタイムに反映して行われる態様であってもよく、例えば、ビデオチャットを実施しているユーザーインターフェース26上において、多目的情報交換ボード43を利用して表示された文字列を、基地局1が検知し、この文字列をもとに検索エンジン部17で、各種の広告表示に係る情報が格納されているウェブコンテンツデータベース17の内容を検索し、その結果を関連広告として、基地局1から各端末局5,7へ送信し、各端末局5,7の広告表示領域49、または空いている映像表示領域41に表示する、 多地点通信システムの制御方法。」 3 引用文献3について 当審拒絶理由に引用された引用文献3には、図面とともに次の事項が記載されている。 「【0003】 【発明が解決しようとする課題】ところで、このテレビ電話システムに類似する技術としては、インターネットを介したチャットシステム等がある。そのチャットシステムにおいては、チャットグループ内の話題に関連する広告を各チャットクライアントのウインドウ内に表示するサービスが知られている。そのチャットシステムは、チャットサーバーが存在し、チャットサーバーがチャットの内容から話題の推定処理を行い、話題に関連した広告をウインドウ内に表示させるようにしている。しかし、サーバーを介していないテレビ電話システムでは、会話に関連させた広告を表示画面内に表示させるということは困難であった。 【0004】本発明はこのような事情に鑑みなされたもので、その目的はテレビ電話端末によって接続されたグループの話題に基づいて、予めセンターより配信されて蓄積されている動画情報や静止画情報等の広告をサーバーを介さずにディスプレイ上に表示することができるテレビ電話端末を用いた広告提供方法を提供するものである。」 「【0012】本発明のテレビ電話端末は、相手端末側から音声情報と共に送られて来る画像情報をディスプレイ上に表示しながら会話を交わすテレビ電話端末において、前記相手端末との間で交わされた会話の音声情報内から特定のキーワードを抽出するキーワード抽出部と、予めセンターより配信された動画情報や静止画情報等の広告用の情報が蓄積されている表示情報蓄積部と、前記キーワード抽出部により抽出された前記キーワードに基づいて前記表示情報蓄積部内から関連情報を検索し、検索された前記関連情報を広告用のパターン情報に組み立て、その組み立てられた広告パターン情報を前記ディスプレイに表示させるための信号を出力する表示情報作成部とを備えた構成を有する。この構成によれば、サーバーを介さずとも、通話における共通の話題に基づいた広告の提供が可能になるとともに、通話相手毎に話題の推定をして広告の提供が可能になる。また、ここでの情報の提供は、会話に関連した広告が表示されるので、会話を交わしているグループにとってより高い関心を示す価値のある広告であり、この提供方法が一般電話回線上或いは一般移動体通信回線上でも実現できることとなる。」 以上より、引用文献3には、以下の技術事項(以下、「引用文献3記載事項」という。)が記載されているといえる。 [引用文献3-1記載事項] 「 インターネットを介したチャットシステムにおいて、 チャットサーバーが存在し、チャットサーバーがチャットの内容から話題の推定処理を行い、話題に関連した広告を各チャットクライアントのウインドウ内に表示させること。」 [引用文献3-2記載事項] 「 サーバーを介していないテレビ電話システムにおいて、 相手端末側から音声情報と共に送られて来る画像情報をディスプレイ上に表示しながら会話を交わすテレビ電話端末において、前記相手端末との間で交わされた会話の音声情報内から特定のキーワードを抽出するキーワード抽出部と、予めセンターより配信された動画情報や静止画情報等の広告用の情報が蓄積されている表示情報蓄積部と、前記キーワード抽出部により抽出された前記キーワードに基づいて前記表示情報蓄積部内から関連情報を検索し、検索された前記関連情報を広告用のパターン情報に組み立て、その組み立てられた広告パターン情報を前記ディスプレイに表示させるための信号を出力する表示情報作成部とを備えること。」 4 引用文献4(引用文献A)について 当審拒絶理由に引用された引用文献4(原査定の引用文献A)には、図面とともに次の事項が記載されている。なお、当審訳には、引用文献4に対応する日本語の文献である特表2016-533690号公報の記載を採用し、参照のため、段落番号を含めたままで記載した。 「[0010] After joining the virtual assistant to a voice communication, one or both of the users on the voice communication may invoke the virtual assistant when the respective user desires the assistance of the virtual assistant. A user may invoke the assistant in a number of ways. For instance, a user may speak a predefined utterance ( e.g., word, phrase, sound, or a combination thereof) that, when identified by the computing device hosting the virtual assistant, causes the computing device to begin performing speech recognition on an audio signal representing the audio of the voice communication for the purpose of identifying a voice command. For instance, when the virtual assistant is on the voice communication but not invoked, the virtual assistant may simply monitor an audio signal representing the audio of the voice communication for the predefined utterance, but might not perform further speech recognition on the audio signal representing the audio. Upon identifying a keyword match (or a similarity between a stated word or phrase and the predefined utterance that is greater than a threshold), the virtual assistant may begin performing speech recognition on the audio signal representing the audio of the voice communication to identify subsequent voice commands.」 [当審訳] 「【0006】 バーチャルアシスタントが音声通信に参加した後、音声通信上のユーザのうち1人または両方は、各自がバーチャルアシスタントの支援を望む時に、バーチャルアシスタントを呼び出してもよい。ユーザは様々な方法でアシスタントを呼び出してもよい。例えば、ユーザが所定の発言(例えば言葉、表現、音声、またはそれらの組み合わせ)を話すことで、その発言がバーチャルアシスタントをホストするコンピューティング装置によって識別される時、音声指示識別の目的で、コンピューティング装置に音声通信の音声を表わす音声信号において音声認識を実行開始させる。例えば、バーチャルアシスタントが音声通信において参加してはいるが、呼び出しはされていない場合、バーチャルアシスタントは、所定の発言のために音声通信の音声を表わす音声信号を単純に監視しているが、音声を表わす音声信号上で音声認識をさらに実行するわけではない。キーワード一致(または定められた言葉または表現と、しきい値よりも大きい所定の発言との共通点)の識別で、バーチャルアシスタントは後続の音声指示を識別するために、音声通信の音声を表わす音声信号上で音声認識実行を開始する。」 「[0018] FIG. 1 shows an illustrative computing architecture 100 that includes a first user 102(1) using a device 104(1) to establish a voice communication with a device 104(2) of a second user 102(2) over a network106. The devices 104(1) and 104(2) may comprise any sort of computing device capable of maintain a voice communication between one another, such as cellular telephones, smart phones, tablet computing devices, desktop computers, game consoles, or any other type of device executing an application enabling these devices to establish such a communication. As used herein, a "voice communication" includes any type of communication in which audio is transferred between the user devices, including voice-only communications, audio/video communications, and the like. The network106, meanwhile, may comprise any one or a combination of wired or wireless networks for providing voice data between the user devices. For instance, the network 106 may comprise a PSTN, a VoIP network, or the like. [0019] As illustrated, the architecture 100 may also include one or more remote computing resources 108 that may host a virtual assistant module110, which implements a virtual assistant configured for invocation by the first user 102(1) or the second user 102(2). In response to one of these users invoking the virtual assistant during a voice communication, the virtual assistant module 110 may identify a voice command from the invoking user and perform a corresponding task in response. [0020] As illustrated, the remote computing resources 108 may be implemented as one or more servers 112(1), 112(2), . . . , 112(P) and may, in some instances, form a portion of a network-accessible computing platform implemented as a computing infrastructure of processors, storage, software, data access, and so forth that is maintained and accessible via a network such as the Internet.…(後略)」 [当審訳] 「【0014】 図1は、ネットワーク106を通じて、第一ユーザ102(1)が第二ユーザ102(2)の装置104(2)と音声通信を確立するために装置104(1)を用いる様子を含む、実例的コンピューティングアーキテクチャ100を示す。装置104(1)及び104(2)は、携帯電話、スマートフォン、タブレットコンピューティング装置、デスクトップコンピューター、ゲーム機、またはこれらの装置にそういった通信を確立させるアプリケーションを実行する他のあらゆるタイプの装置、といった、互いに音声通信を維持できるあらゆるコンピューティング装置を含んでもよい。本明細書で用いられる「音声通信」は、ユーザ装置間で送信される音声におけるあらゆるタイプの通信を含み、音声のみの通信、音声/映像の通信、などを含む。一方でネットワーク106は、ユーザ装置間に音声データを供給するために、有線または無線ネットワークのいずれか1つまたはその組み合わせを含んでもよい。例えば、ネットワーク106はPSTN、VoIPネットワークなどを含んでもよい。 【0015】 図示されるように、アーキテクチャ100はさらに、バーチャルアシスタントモジュール110をホストする遠隔コンピューティングリソース108を1つ以上含んでもよく、バーチャルアシスタントモジュール110は第一ユーザ102(1)または第二ユーザ102(2)によって起動されるよう構成されたバーチャルアシスタントを実装する。音声通信中にバーチャルアシスタントを呼び出すこれらのユーザのうちの1人に応じて、バーチャルアシスタントモジュール110は、呼び出しユーザからの音声指示を識別し、それに応じて対応するタスクを実行してもよい。 【0016】 図示されるように、遠隔コンピューティングリソース108は、1つ以上のサーバー112(1)、112(2)、...112(P)として実装されてもよく、いくつかの例では、インターネットなどのネットワークを介して維持されアクセス可能であるプロセッサー、記憶装置、ソフトウェア、データアクセス、などのコンピューティングインフラストラクチャーとして実装される、一部のネットワークアクセス可能なコンピューティングプラットフォームの形体をしていてもよい。…(後略)」 「[0021] The servers 112(1)-(P) may include processor(s) 114 and memory116, which stores the virtual-assistant module 110. As illustrated, the virtual assistant module 110 stores or otherwise has access to a join module 118, an invocation module 120, a speech-recognition engine 122, a speaker identification (ID) module 124, and a response module 126. The join module 118 functions to join the virtual assistant functionality (i.e., the components of the module 110) to a voice communication between the example user devices 104(1) and 104(2). As FIG. 1 illustrates, both user devices 104(1) and 104(2) may be associated with a particular telephone number or other endpoint identifier at which the device may be reachable. Furthermore, FIG. 1 illustrates that the computing resources 108 hosting the virtual assistant module 110 may also be associated with a telephone number (here, "800-234-7894"). As such, the join module 118 may allow the virtual assistant module 110 to join a voice communication upon a device dialing this number and conferencing in the computing resource(s) hosting the virtual assistant module 110. Of course, while FIG.1 illustrates that the computing resources 108 and the respective client devices 104 are associated with telephone numbers, these devices may be associated with and reachable at an array of other endpoint identifiers, such as uniform resources identifiers (URIs), VoIP endpoint identifiers, session initiation protocol (SIP) identifiers, or the like. [0022] In the illustrated example, upon the user 102(1) using the device104(1) to dial the number associated with the device 104(2), an application running on the device 104(1) may automatically dial the number associated with the virtual assistant module 110 for joining the module 110. For instance, FIG. 1 illustrates that the device 104(1) may include the virtual assistant module 110 for automatically dialing this number. In another example, meanwhile, the user 102(1) and/or the user 102(2) may manually conference in the computing resources 108 by adding a party to the voice communication and dialing the number associated with the computing resources 108. In either instance, the virtual assistant module 110 may receive an indication of an incoming phone call and may "answer" the incoming call to join the call. [0023] After the virtual assistant module 110 joins the call, the invocation module 120 may monitor for a trigger to invoke other components of the module 110, such as the speech recognition engine 122. For instance, the invocation module 120 may seek to identify a predefined utterance spoken by one or both of the users and, upon identifying this predefined utterance, may invoke the speech-recognition engine 122. In other examples, the invocation module 120 may await a text message or other communication from a user to invoke the components of the virtual assistant module 110. [0024] After receiving a request to invoke these components, the invocation module may invoke the speech-recognition engine 122. The speech-recognition engine 122 performs speech recognition on audio signals generated based on sound captured by the microphone of the user devices 104(1) and 104(2), such as utterances spoken by the users 102(1) and 102(2). The speaker-ID module 124, meanwhile, may identify an identity of a user speaking a voice command, via information provided by the voice network (e.g., ANI, CPN, etc.), voice recognition, a dialog with the user(s), an out-of-band communication with the user(s), or the like. [0025] The response module 126, meanwhile, may perform certain actions in response to recognizing different voice commands from an audio signal representing the audio of the voice communication. This may include outputting audio to one or both of the devices 104(1) and 104(2).」 [当審訳] 「【0017】 サーバー112(1)?(P)は、バーチャルアシスタントモジュール110を格納するプロセッサー114及びメモリ116を含んでもよい。図示されるように、バーチャルアシスタントモジュール110は、参加モジュール118、起動モジュール120、音声認識エンジン122、話者識別(ID)モジュール124、応答モジュール126、を格納するかまたはアクセスできる。参加モジュール118は、バーチャルアシスタント機能(すなわちモジュール110の構成要素)を実施例ユーザ装置104(1)と104(2)間の音声通信に参加させる機能を持つ。図1に説明されるように、ユーザ装置104(1)と104(2)の両方は、特定の電話番号または装置が連絡可能なエンドポイント識別子に関連していてもよい。さらに、図1は、コンピューティングリソース108が、電話番号(ここでは「800-234-7894」)にさらに関連し得るバーチャルアシスタントモジュール110をホストする様子を説明する。このように、この番号に電話をして、バーチャルアシスタントモジュール110をホストするコンピューティングリソースで会話する装置において、参加モジュール118は、バーチャルアシスタントモジュール110を音声通信に参加させてもよい。もちろん、図1でコンピューティングリソース108及び電話番号に関連するそれぞれのクライアント装置104が説明される一方で、これらの装置は、ユニフォームリソース識別子(URLs)、VoIPエンドポイント識別子、セッションイニシエーションプロトコル(SIP)識別子、などといった他のエンドポイント識別子の配列に関連し、かつ連絡可能であってもよい。 【0018】 図示された実施例では、ユーザ102(1)が装置104(2)に関連する番号に電話をかけるために装置104(1)を使用する時、装置104(1)上で動作するアプリケーションは、モジュール110に参加するために自動的にバーチャルアシスタントモジュール110に関連する番号に電話をかけてもよい。例えば、図1は、この番号に自動的に電話をかけるためにバーチャルアシスタントモジュール110を含み得る装置104(1)を説明する。他の実施例では、一方で、音声通信に参加者を追加し、コンピューティングリソース108に関連する番号に電話をかけることで、ユーザ102(1)及び/またはユーザ102(2)は手動でコンピューティングリソース108に参加してもよい。どちらの例においても、バーチャルアシスタントモジュール110は着信表示を受信してもよく、通話に参加するために着信に「応答」してもよい。 【0019】 バーチャルアシスタントモジュール110が通話に参加した後で、起動モジュール120は、音声認識エンジン122といったモジュール110の他のコンポーネントを起動するためにトリガーを監視してもよい。例えば、起動モジュール120は、ユーザのうち1人または両方が話した所定の発言を識別するために探していてもよく、この所定の発言を識別することにおいて、音声認識エンジン122を起動してもよい。他の実施例では、起動モジュール120は、バーチャルアシスタントモジュール110のコンポーネントを起動するために、ユーザからのテキストメッセージまたは他の通信を待っていてもよい。 【0020】 これらのコンポーネントを起動するために要求を受信した後で、起動モジュールは音声認識エンジン122を起動してもよい。音声認識エンジン122は、ユーザ102(1)及び102(2)が話した発言といった、ユーザ装置104(1)及び104(2)のマイクロフォンで捕えた音声に基づき生成された音声信号上で音声認識を実行する。話者識別モジュール124は一方で、音声ネットワーク(例えばANI、CPN等)、音声認識、ユーザとの対話、ユーザとの帯域外通信、などによって供給される情報を介して、音声指示を出すユーザの同定を識別してもよい。 【0021】 応答モジュール126は一方で、音声通信の音声を表わす音声信号からの異なる音声指示を認識することに応じて特定の行動を実行してもよい。これは装置104(1)及び104(2)のうち1つかまたは両方に音声を出力することを含んでもよい。」 「[0028] To provide an example, FIG. 1 illustrates the users 102(1) and 102(2) engaging in a voice communication, which the virtual assistant module 110 joins. At 128(1), the user 102(2) states the following: "I'm excited to fly there tomorrow. What is the temperature going to be?" In response, the user 102(1) states the following at 128(2): "I don't know. Virtual assistant, what is the temperature supposed to be tomorrow?" In this example, in response to identifying the predefined phrase "virtual assistant", the invocation module 120 invokes the speech-recognition engine 122, which identifies the voice command from 128(2). The speaker-ID module 124 identifies the user 102(1) using any of the techniques described above. The response module 126 then uses this identification to determine a geographical location at which to check the temperature (i.e., the location of the user 102(1)), checks the forecast for the following day at that location and, at 128(3), outputs the following to both devices: "The high temp in Seattle tomorrow is 72 degrees".」 [当審訳] 「【0024】 実施例を供給するために、図1は、バーチャルアシスタントモジュール110が参加する音声通信に関与するユーザ102(1)及び102(2)を説明する。128(1)では、ユーザ102(2)が以下の様に発言する「明日、そちらに伺うことを楽しみにしております。気温は何度になりそうでしょうか?」と、ユーザ102(1)は128(2)にて以下の様に発言する「わかりません。バーチャルアシスタント、明日の気温は何度になりそうですか?」。本実施例では、「バーチャルアシスタント」という所定の表現を識別することに応じて、起動モジュール120が128(2)からの音声指示を識別する音声認識エンジン122を起動する。話者識別モジュール124は、上記に記載のあらゆる技術を用いてユーザ102(1)を識別する。応答モジュール126はその後、気温を調べる地理的位置(すなわちユーザ102(1)の位置)を判断するためにこの識別を利用し、その位置の翌日の天気予報を確認し、そして128(3)で、両方の装置へ以下の通り出力する。「シアトルの明日の最高気温は72度です。」」 「[0032] FIG. 4 depicts a flow diagram of an example process 400 that the virtual assistant module 110 may implement. Each process described herein is illustrated as a logical flow graph, each operation of which represents a sequence of operations that can be implemented in hardware, software, or a combination thereof. In the context of software, the operations represent computer-executable instructions stored on one or more computer-readable media that, when executed by one or more processors, perform the recited operations. Generally, computer-executable instructions include routines, programs, objects, components, data structures, and the like that perform particular functions or implement particular abstract data types. [0033] The computer-readable media may include non-transitory computer-readable storage media, which may include hard drives, floppy diskettes, optical disks, CD-ROMs, DV Ds, read-only memories (ROMs), random access memories (RAMs), EPROMs, EEPROMs, flash memory, magnetic or optical cards, solid-state memory devices, or other types of storage media suitable for storing electronic instructions. In addition, in some embodiments the computer-readable media may include a transitory computer readable signal (in compressed or uncompressed form). Examples of computer-readable signals, whether modulated using a carrier or not, include, but are not limited to, signals that a computer system hosting or running a computer program can be configured to access, including signals downloaded through the Internet or other networks. Finally, the order in which the operations are described is not intended to be construed as a limitation, and any number of the described operations can be combined in any order and/or in parallel to implement the process. [0034] The process 400 includes, at 402, joining a virtual assistant to a voice communication established between a device of a first user and a device of a second user. At 404, the virtual assistant may identify a predefined utterance from within audio of the voice communication and, in response, may invoke itself at 406, thus readying itself to identify subsequent voice commands within the audio of the voice communication. [0035] At 408, the virtual assistant may begin performing speech recognition on an audio signal representing audio of the voice communication, given that the virtual assistant has been invoked. At 410, the assistant may identify a voice command from the audio signal representing the audio. In response, the virtual assistant may, at 412, perform a task associated with the voice command and may provide an audio signal effective to output audible content to both user devices at 414. For instance, the virtual assistant may identify a temperature and output the temperature, purchase an item and output an indication of the purchase, schedule an appointment and output a time, date, and location of the meeting, or the like.」 [当審訳] 「【0028】 図4は、バーチャルアシスタントモジュール110が実行される過程400の実施例のフロー図を描写する。本明細書に記述される各過程は、論理的フローグラフとして説明され、一連の動作を表わす各動作は、ハードウェア、ソフトウェア、またはそれらの組み合わせに実装されてもよい。ソフトウェアにおいて、1つ以上のコンピューター読取可能なメディアに格納されたコンピューター実行可能な指示を表わす動作は、1つ以上のプロセッサーによって実行される時、話された動作を実行する。一般に、コンピューター実行可能な指示は、特定の機能または実装された特定の抽象データ型を実行する、ルーティン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。 【0029】 コンピューター読取可能なメディアは、ハードドライブ、フロッピーディスク、光学ディスク、CD-ROM、DVD、リードオンリーメモリー(ROM)、ランダムアクセスメモリー(RAM)、EPROM、EEPROM、フラッシュメモリー、磁気または光学カード、固体メモリー装置、または電子指示を格納するために好適な他のタイプの記憶媒体を含む、持続性のコンピューター読取可能なメディアを含んでもよい。さらに、いくつかの実施形態では、コンピューター読取可能なメディアは、一過性のコンピューター読取可能な信号(圧縮または非圧縮形体)を含んでもよい。コンピューター読取可能な信号の実施例は、キャリアを用いて調整されるか、されないかにかかわらず、コンピュータープログラムをホストするかまたは実行するコンピューターシステムがアクセスするように構成された信号に限定されるものではなく、インターネットまたは他のネットワークを通じてダウンロードされた信号を含む。最後に、記述された動作の順番は、限定として解釈されることを意図しておらず、記述された動作のいくつでもあらゆる順番及び/または過程の実行と平行して、組み合わされてもよい。 【0030】 過程400は、402において、第一ユーザの装置と第二ユーザの装置間に確立された音声通信に、バーチャルアシスタントを参加させることを含む。404では、バーチャルアシスタントは音声通信の音声内から所定の発言を識別してもよく、それに応じて、406にて自身を参加させてもよく、これにより音声通信の音声内で後続の音声指示を識別するために自身を待機させる。 【0031】 408では、バーチャルアシスタントが呼び出されたならば、バーチャルアシスタントは音声通信の音声を表わす音声信号において音声認識を実行開始してもよい。410では、アシスタントは音声を表わす音声信号から音声指示を識別してもよい。それに応じて、バーチャルアシスタントは、412で音声指示に関連するタスクを実行し、414でユーザ装置の両方に可聴コンテンツを効果的に出力する音声信号を供給してもよい。例えば、バーチャルアシスタントは気温を識別して気温を出力し、アイテムを購入して購入した表示を出力し、約束を予定決めして会合の時間、日にち、場所を出力する、といったことを行ってもよい。」 「FIG.2A 」 [当審訳](当審注:FIG.2A中、○囲いの数字(以下では、「<1>」、「<2>」…と記す。)に付随する部分のみ訳す。) 「<1>ユーザが遠隔ユーザに電話をかける。 <2>ユーザの装置上のアプリケーションが、自動的に遠隔ユーザと「バーチャルアシスタント」に電話をかける。 <3>遠隔ユーザが遠隔ユーザと通話中のバーチャルアシスタントの両方に応答する。」 「FIG.4 」 [当審訳] 「【図4】 」 以上より、引用文献4には、以下の技術事項(以下、「引用文献4記載事項」という。)が記載されているといえる。 「 「ネットワーク106を通じて、第一ユーザ102(1)が第二ユーザ102(2)の装置104(2)と音声通信を確立するために装置104(1)を用いるコンピューティングアーキテクチャ100であって、 装置104(1)及び104(2)は、互いに音声通信を維持できるあらゆるコンピューティング装置を含み、「音声通信」は、ユーザ装置間で送信される音声におけるあらゆるタイプの通信を含み、音声のみの通信、音声/映像の通信、などを含み、 アーキテクチャ100はさらに、バーチャルアシスタントモジュール110をホストする遠隔コンピューティングリソース108を1つ以上含み、バーチャルアシスタントモジュール110は第一ユーザ102(1)または第二ユーザ102(2)によって起動されるよう構成されたバーチャルアシスタントを実装し、遠隔コンピューティングリソース108は、1つ以上のサーバー112(1)、112(2)、...112(P)として実装され、 バーチャルアシスタントモジュール110は、参加モジュール118、起動モジュール120、音声認識エンジン122、話者識別(ID)モジュール124、応答モジュール126、を格納するかまたはアクセスでき、 参加モジュール118は、バーチャルアシスタント機能(すなわちモジュール110の構成要素)をユーザ装置104(1)と104(2)間の音声通信に参加させる機能を持ち、 バーチャルアシスタントモジュール110が通話に参加した後で、起動モジュール120は、音声認識エンジン122といったモジュール110の他のコンポーネントを起動するためにトリガーを監視し、 音声認識エンジン122は、ユーザ102(1)及び102(2)が話した発言といった、ユーザ装置104(1)及び104(2)のマイクロフォンで捕えた音声に基づき生成された音声信号上で音声認識を実行し、 話者識別モジュール124は、音声ネットワーク(例えばANI、CPN等)、音声認識、ユーザとの対話、ユーザとの帯域外通信、などによって供給される情報を介して、音声指示を出すユーザの同定を識別し 応答モジュール126は一方で、音声通信の音声を表わす音声信号からの異なる音声指示を認識することに応じて特定の行動を実行し、 バーチャルアシスタントモジュール110が参加する音声通信に関与するユーザ102(1)及び102(2)の実施例においては、ユーザ102(2)が「明日、そちらに伺うことを楽しみにしております。気温は何度になりそうでしょうか?」と発言し、ユーザ102(1)は「わかりません。バーチャルアシスタント、明日の気温は何度になりそうですか?」と発言すると、「バーチャルアシスタント」という所定の表現を識別することに応じて、起動モジュール120が音声指示を識別する音声認識エンジン122を起動し、話者識別モジュール124は、ユーザ102(1)を識別し、応答モジュール126はその後、気温を調べる地理的位置(すなわちユーザ102(1)の位置)を判断するためにこの識別を利用し、その位置の翌日の天気予報を確認し、両方の装置へ「シアトルの明日の最高気温は72度です。」と出力し、 バーチャルアシスタントモジュール110が実行される過程400の実施例は、402において、第一ユーザの装置と第二ユーザの装置間に確立された音声通信に、バーチャルアシスタントを参加させ、404では、バーチャルアシスタントは音声通信の音声内から所定の発言を識別し、それに応じて、406にて自身を参加させ、これにより音声通信の音声内で後続の音声指示を識別するために自身を待機させ、408では、バーチャルアシスタントが呼び出されたならば、バーチャルアシスタントは音声通信の音声を表わす音声信号において音声認識を実行開始し、410では、アシスタントは音声を表わす音声信号から音声指示を識別し、それに応じて、バーチャルアシスタントは、412で音声指示に関連するタスクを実行し、414でユーザ装置の両方に可聴コンテンツを効果的に出力する音声信号を供給し、 バーチャルアシスタントが音声通信において参加してはいるが、呼び出しはされていない場合、バーチャルアシスタントは、所定の発言のために音声通信の音声を表わす音声信号を単純に監視しているが、音声を表わす音声信号上で音声認識をさらに実行するわけではく、キーワード一致(または定められた言葉または表現と、しきい値よりも大きい所定の発言との共通点)の識別で、バーチャルアシスタントは後続の音声指示を識別するために、音声通信の音声を表わす音声信号上で音声認識実行を開始する、 コンピューティングアーキテクチャ100。」 5 引用文献5(引用文献B)について 当審拒絶理由に引用された引用文献5(原査定の引用文献B)には、図面とともに次の事項が記載されている。 「【請求項22】 電子機器の制御を行う制御方法であって、 特定の物体を被写体とした映像信号を継続的に取得するステップと、 取得した映像信号から前記特定の物体の特定の形状および動きのうち少なくとも一方によって表象される予備指示を認識するステップと、 前記予備指示を認識したことに応じ、前記制御指示を受け付ける指示モードを設定するステップと、 前記指示モードを設定したことに応じ、前記予備指示を認識した領域を追従した上、前記追従した領域から前記電子機器の制御に関する制御指示を認識するステップと、 前記制御指示に基づいて前記電子機器の制御を行うステップと、 を含む制御方法。」 「【0040】 図1は本発明の好ましい実施形態に係る映像音声通信システムのブロック図である。このシステムは、同等の構成を有する通信端末1aと通信端末1bとがインターネットなどのネットワーク10を介して接続されており、互いに映像と音声を送受信する。」 「【0163】 以下、通信端末1を介した操作の具体的例を示す。 【0164】 まず、上述のようにして、対象物認識部204は、動作エリアをロックオンした後、コマンド分析部205は、ロックオンされた動作エリアから第1の予備動作を認識する。第1の予備動作は、人差し指を左右に振る動作(図15(a))であるものとする。 【0165】 コマンド分析部205は、第1の予備動作を認識すると、発光制御部24に対し、フラッシュランプ67の所定時間の点滅を指示し、この指示に応じてフラッシュランプ67が所定時間点灯する。 【0166】 一方、表示制御部11は、コマンド分析部205が第1の予備動作を認識したことに応じ、スタンバイ状態のモニタ5に対し、メイン電源をオンする指令をTVコントロール信号のパケットとして送信する。モニタ5は、当該パケットを受信すると、TVコントロール信号に変換して、その内容であるメイン電源をオンする指令を認識し、メイン電源をオンにする。 【0167】 次に、コマンド分析部205は、ロックオンされた動作エリアから第2の予備動作を認識する。第2の予備動作は2種類かそれ以上ある。1つ目は、通信端末1同士の映像音声通信に関する操作メニューへの移行を指示する予備動作であり、2つ目は、モニタ5による、テレビ受像、あるいは各種AV機器から入力される映像音声再生に関する操作メニューへの移行を指示する予備動作である。 【0168】 コマンド分析部205は、図15(c)?(h)に示すように、指を順次立てて、通信モードを示す3桁の数字(「3」、「2」、「1」等)を示し、その後「OK」を示す動作を認識すると、これを通信端末1同士の映像音声通信に関する操作メニューへの移行を指示する意図的な第2の予備動作と解釈する。 【0169】 この場合、表示制御部11dは、通信端末用操作メニュー画面(図21参照)の映像を生成し、映像の入力元を通信端末1に切り替える旨を指令するTVコントロール信号を、当該映像と多重化したパケットをモニタ5に送出する。モニタ5は当該パケットを受信するとTVコントロール信号に変換して映像入力元を通信端末1に切り替えた上、通信端末1から供給された通信端末用操作メニュー画面を表示する。なお、TVコントロール信号に依存せず、リモコン60の操作により、映像の入力元を通信端末1に切り替えることもできる。」 「【0174】 コマンド分析部205は、第2の予備動作の認識後、ロックオンされた動作エリアからメニュー選択指示動作を認識する。」 「【0177】 ここで、コマンド分析部205が、動作エリアから右回りの回転運動の軌跡を認識すると、表示制御部11dは、上から下に向けて順次メニュー項目をハイライト表示する。あるいは、コマンド分析部205が、動作エリアから左回りの回転運動の軌跡を認識すると、表示制御部11dは、下から上に向けて順次メニュー項目をハイライト表示する。」 「【図15】 」 よって、引用文献5(引用文献B)には、次の技術事項(以下、「引用文献5記載事項」という。)が記載されていると認められる。 「 通信端末1aと通信端末1bとがインターネットなどのネットワーク10を介して接続され、互いに映像と音声を送受信する映像音声通信システムにおける電子機器の制御方法であって、 特定の物体を被写体とした映像信号を継続的に取得するステップと、 取得した映像信号から前記特定の物体の特定の形状および動きのうち少なくとも一方によって表象される予備指示を認識するステップと、 前記予備指示を認識したことに応じ、前記制御指示を受け付ける指示モードを設定するステップと、 前記指示モードを設定したことに応じ、前記予備指示を認識した領域を追従した上、前記追従した領域から前記電子機器の制御に関する制御指示を認識するステップと、 前記制御指示に基づいて前記電子機器の制御を行うステップと、 を含む制御方法であって、 通信端末1を介した操作の具体的例は、 コマンド分析部205は、ロックオンされた動作エリアから第1の予備動作を認識し、第1の予備動作は、人差し指を左右に振る動作(図15(a))であり、 表示制御部11は、コマンド分析部205が第1の予備動作を認識したことに応じ、スタンバイ状態のモニタ5に対し、メイン電源をオンする指令をTVコントロール信号のパケットとして送信し、 コマンド分析部205は、ロックオンされた動作エリアから第2の予備動作を認識し、コマンド分析部205は、図15(c)?(h)に示すように、指を順次立てて、通信モードを示す3桁の数字(「3」、「2」、「1」等)を示し、その後「OK」を示す動作を認識すると、これを通信端末1同士の映像音声通信に関する操作メニューへの移行を指示する意図的な第2の予備動作と解釈し、 この場合、表示制御部11dは、通信端末用操作メニュー画面の映像を生成し、映像の入力元を通信端末1に切り替える旨を指令するTVコントロール信号を、当該映像と多重化したパケットをモニタ5に送出し、 コマンド分析部205は、第2の予備動作の認識後、ロックオンされた動作エリアからメニュー選択指示動作を認識し、 ここで、コマンド分析部205が、動作エリアから右回りの回転運動の軌跡を認識すると、表示制御部11dは、上から下に向けて順次メニュー項目をハイライト表示する。あるいは、コマンド分析部205が、動作エリアから左回りの回転運動の軌跡を認識すると、表示制御部11dは、下から上に向けて順次メニュー項目をハイライト表示する、 制御方法。」 6 引用文献Cについて 原査定に引用された引用文献Cには、図面とともに次の事項が記載されている。 「【請求項1】 被写体を撮影して撮像データを生成する撮像手段と、 前記撮像手段が生成した前記撮像データから前記被写体の形態的特徴量を検索する検索手段と、 前記検索手段が検索した前記被写体の形態的特徴量の中から輪郭を検出する輪郭検出手段と、 前記輪郭検出手段により検出された前記輪郭を表す形態マーカを前記撮像データの前記被写体の輪郭位置に重畳表示する表示手段とを備えていることを特徴とする情報表示装置。 【請求項2】 前記撮像データの一部を検索対象画像として指定する検索画像指定手段をさらに備え、 前記検索手段は、前記検索画像指定手段により指定された検索対象画像の中から前記形態的特徴量を検索することを特徴とする請求項1記載の情報表示装置。」 「【0001】 本発明は、使用者による景観の画像照会に答えて、景観の解説などの情報表示を行う情報表示装置及び情報表示方法に関する。 【背景技術】 【0002】 最近、観察した対象物をデジタルカメラにより撮像し、撮像した画像に基づいてデータベースにて対象物が何かを画像検索して特定し、対象物の詳細情報を観察者に提供する観察機器に関する提案がある。例えば、特許公報文献1,2,3などがある これら詳細情報を観察機器にて表示する際には、図10のように、表示された対象物画像の近傍に名称や注釈を表示するのが一般である。」 「【0006】 本発明の請求項1によれば、検索画像を照会する場合は、山の稜線形状または花や昆虫などの輪郭形状や模様などの形態的特徴量をマーカで表示するようにしたので、照会した対象画像または検索対象特徴量がどれであるか、表示画面で視認しやすい利点がある。そのことにより、名称や由来も分からない検索対象についても、撮影画像から誤りの少ない注釈情報を探し出すことが可能となる。」 第6 当審拒絶理由について 1 理由1(明確性要件違反)について 本願請求項4、5、9及び10は削除され、また、本件補正前の請求項5又は10の記載内容が取り込まれた本件補正後の請求項1、4及び7の記載においては、「トリガ情報に対応する操作命令」は、「サーバが前記キーワードに対応する推薦情報を取得するように、前記キーワードを前記サーバに送信し、前記サーバから返信された前記推薦情報を受信し、前記推薦情報をユーザに提供するという前記キーワードに対応する操作命令」であることが明確となり、また、「操作命令に対応するイベント」は、「前記キーワードに対応する操作命令」に従って実行される「イベント」であることが明確となった。 よって、理由1は、解消した。 2 理由2(新規性欠如)及び理由3(進歩性欠如)について (1)引用文献1に基づく新規性欠如(理由2)及び進歩性欠如(理由3)について ア 本願発明1について (ア)対比 本願発明1と引用発明1とを対比する。 a 引用発明1の「ユーザ120a」、「ユーザ120b」、「ビデオ通話」はそれぞれ、本願発明1の「ユーザ」、「1つ又は複数の他のユーザ」、「音声通話及びビデオ通話」及び「音声及びビデオ通話」に相当する。 また、引用発明1の「デジタルデバイス102Aを使用するユーザ120aとデジタルデバイス102Bを使用するユーザ120bとが、ネットワーク130を介してビデオ通話をする例」を備えるから、引用発明1の「ビデオ通話などの使用中」とは、本願発明1の「ユーザと1つ又は複数の他のユーザとの音声通話及びビデオ通話の経過において」に相当する。 b 引用発明1は、 「ビデオ通話などの使用中、第1のディスプレイデバイス104Aは、ユーザ120aが通話しているとき、明るくなるように構成されてもよく、同様に、第2のディスプレイデバイス104bは、第2のユーザ120bがビデオ通話をしていた間、明るくなるように構成されることができ、 デジタルデバイス200は、ユーザから入力された様々なモードのコマンドを受信するように構成されたコマンド入力モジュール210をさらに含み、コマンド入力モジュール210は、とりわけ、音声認識デバイス、ジェスチャ認識デバイス、動き感知デバイス、タッチスクリーンデバイス、キーボードデバイス、補助入力/出力(I/O)デバイスのようないくつかの適切な入力デバイスを含むことができ、音声波または動きのような物理的な入力信号をデジタル信号に変えるために補助回路を含むこともでき、 照明調整モジュール230は、ユーザから受信したコマンドに応答して、ディスプレイデバイスの照明条件を、画像化照明条件から通常のビューイング照明条件へと、および、通常のビューイング照明条件から画像化照明条件へと調整するように構成されてもよい、」 との構成を備えることから、引用発明1の「デジタルデバイス200」(デジタルデバイス102A及びデジタルデバイス102Bを含む「電子デバイス」)は、「ビデオ通話などの使用中」に、ユーザによって入力される「音波」、「動き」を、「コマンド入力モジュール210」に含まれる「音声認識デバイス」、「ジェスチャ認識デバイス」が「コマンド」として入力(認識)し、当該「コマンド」に応答して「照明調整モジュール230」が「ディスプレイデバイスの照明条件」を「画像化照明条件から通常のビューイング照明条件」へ調整したり、「通常のビューイング照明条件から画像化照明条件」へ調整したりするものといえる。 ここで、ユーザが入力するすべての「音波」又は「動き」が、「コマンド」として入力されるものではないことは明らかであるから、「デジタルデバイス200」は、「ビデオ通話などの使用中」にユーザによって入力される「音波」、「動き」を継続的にモニタリングして取得し、「音声認識デバイス」及び「ジェスチャ認識デバイス」が、取得した「音波」、「動き」の中から「ディスプレイデバイスの照明条件」を「画像化照明条件から通常のビューイング照明条件」へ調整するための「コマンド」又は「通常のビューイング照明条件から画像化照明条件」へ調整するための「コマンド」に対応するものが含まれるか否かを決定(通知)し、含まれる場合に、決定した「コマンド」に対応する「ディスプレイデバイスの照明条件」を調整する処理を実行するものである。 そうすると、引用発明1において、ユーザによって入力される「音波」、「動き」は、継続的にモニタリングされ、「音声認識デバイス」、「ジェスチャ認識デバイス」が「コマンド」として入力(認識)するものであるから、本願発明1の「ユーザの入力されたユーザ行動データ」及び「ユーザにより音声方式及びジェスチャ方式を含む所定の方式で入力されたユーザ行動データ」に相当し、そうすると、引用発明1において、「電子デバイス」(「デジタルデバイス200」)の制御方法は、本願発明1の「ユーザの入力されたユーザ行動データをモニタリングし、ユーザにより音声方式及びジェスチャ方式を含む所定の方式で入力されたユーザ行動データを取得するステップ」を備えるといえる。 c 引用発明1の「ディスプレイデバイスの照明条件」を「画像化照明条件から通常のビューイング照明条件」へ調整するための「コマンド」及び「通常のビューイング照明条件から画像化照明条件」へ調整するための「コマンド」は、本願発明1の「所定の操作命令セット」に相当する。 また、これら各々の「コマンド」に対応して実行される「ディスプレイデバイスの照明条件」を「画像化照明条件から通常のビューイング照明条件」へ調整する処理及び「通常のビューイング照明条件から画像化照明条件」へ調整する処理は、本願発明1の「イベント」に相当する。 また、前記aを参酌すると、引用発明1は、ユーザによって入力される「音波」、「動き」の中で「ディスプレイデバイスの照明条件」を「画像化照明条件から通常のビューイング照明条件」へ調整するための「コマンド」に相当するものが含まれると認識(判断・通知)されると、「ディスプレイデバイスの照明条件」を「画像化照明条件から通常のビューイング照明条件」へ調整するための「コマンド」を決定し、「画像化照明条件から通常のビューイング照明条件」へ調整する処理を実行し、また、「通常のビューイング照明条件から画像化照明条件」へ調整するための「コマンド」に対応するものが含まれると認識(判断・通知)されると「通常のビューイング照明条件から画像化照明条件」へ調整する処理を実行するものといえる。 そうすると、引用発明1において、「電子デバイス」(「デジタルデバイス200」)の制御方法は、本願発明1の「前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップ」及び「前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップ」とを含むものといえる。 d 引用発明1の「電子デバイス」(「デジタルデバイス200」)の制御方法は、前記b及びcにおいて対比した各処理(ステップ)を実行することにより「ビデオ通話」を制御するものと把握することができ、かつ、「ビデオ通話」は、音声と映像(ビデオ)による双方向(インタラクティブ)の通話であるから、本願発明1の「音声及びビデオ通話のためのインタラクティブ制御方法」に相当する。 (イ)一致点、相違点 したがって、本願発明1と引用発明1との間には、次の一致点、相違点があるといえる。 [一致点] 「 ユーザと1つ又は複数の他のユーザとの音声通話及びビデオ通話の経過において、ユーザの入力されたユーザ行動データをモニタリングし、ユーザにより音声方式及びジェスチャ方式を含む所定の方式で入力されたユーザ行動データを取得するステップと、 前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップと、 前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップと、を含む、 ことを特徴とする音声及びビデオ通話のためのインタラクティブ制御方法。」 [相違点] <相違点1> 本願発明1は、 「 前記トリガ情報は、キーワードを含み、 ユーザにより所定の方式で入力されたユーザ行動データを取得するステップは、 カメラにより採取されたビデオ情報を取得するステップと、 ビデオ認識アルゴリズムに基づいて前記ビデオ情報を認識して、前記ビデオ情報の認識結果を前記ユーザ行動データとして生成するステップであって、前記認識結果は、前記ビデオ情報における物の特徴情報を含むステップと、を含み、 前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップは、 前記ユーザ行動データに前記物の特徴情報により決定された所定の前記キーワードが含まれているか否かを判断するステップを含み、 前記キーワードが含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップは、 前記キーワードが含まれていると判断・通知された場合、サーバが前記キーワードに対応する推薦情報を取得するように、前記キーワードを前記サーバに送信し、前記サーバから返信された前記推薦情報を受信し、前記推薦情報をユーザに提供するという前記キーワードに対応する操作命令を決定し、前記キーワードに対応する操作命令に従ってイベントを実行すること、を含む、」 との構成を備えるのに対し、引用発明1は、当該構成を具体的に特定するものではない点。 (ウ)理由2(新規性欠如)についての判断 前記(イ)のように、本願発明1と引用発明1との間には相違点(相違点1)があるから、本願発明1は、引用発明1に対して新規性を有することは明らかである。 よって、本願発明1は、引用文献1に記載された発明ではない。 (エ)相違点についての判断 上記相違点1について検討するに、上記相違点1に係る本願発明1の構成は、引用文献1ないし5には記載されておらず、本願優先日前において周知技術であるともいえない。 仮に、周知技術であるとしても、ユーザの「音波」(音声)又は「動き」(ジェスチャ)によりコマンドを入力する方式を採用している引用発明1において、ビデオ情報に含まれる物の特徴に基づいて検索及び表示を行う処理を付加すべき動機付けが存在しない。 したがって、本願発明1は、当業者であっても引用文献1ないし5に記載された発明に基いて容易に発明をすることができたものであるとはいえない。 イ 本願発明2及び3について 本願発明2及び3は、上記相違点1に係る本願発明1の構成を備えるから、本願発明1と同様に、引用文献1に記載された発明ではなく、また、当業者であっても引用文献1ないし5に記載された発明に基いて容易に発明をすることができたものであるとはいえない。 ウ 本願発明4ないし8について 本願発明4は、本願発明1を「インタラクティブ制御装置」として特定したものであり、本願発明7は、本願発明1を「プロセッサ」を備える「インタラクティブ制御装置」として特定したものであり、また、本願発明8は、本願発明1を「インタラクティブ制御方法」を実行するためのアプリケーションプログラムが記憶されている「記憶媒体」として特定したものであって、いずれも、上記相違点1に係る本願発明1の構成を備えるから、本願発明1と同様に、引用文献1に記載された発明ではなく、また、当業者であっても引用文献1ないし5に記載された発明に基いて容易に発明をすることができたものであるとはいえない。 (2)引用文献2に基づく進歩性欠如(理由3)について ア 本願発明1について (ア)対比 本願発明1と引用発明2とを対比する。 a 引用発明2は、「不特定多数で行うコミュニケーションに特化した付加価値の高いサービスを実現することをも目的とするビデオチャット会議室を実現する多地点通信システムの制御方法」に関するものであって、「ビデオチャット会議室」は、「仮想チャットルーム2」において、少なくとも複数の「参加端末局5」が「双方向通信により映像および音声を送受信して情報交換を行う」ものであり、複数の「参加端末局5」のユーザは、本願発明1の「ユーザと1つ又は複数の他のユーザ」に相当し、また、引用発明2において、複数の「参加端末局5」間でなされる「双方向通信により映像および音声を送受信して情報交換を行う」こと、すなわち「ビデオチャット」は、本願発明1の「音声通話及びビデオ通話」に相当する。 b 引用発明2は、 「 本システムは、広告配信機能(広告配信手段)を有し、ユーザーインターフェース26上には、広告表示領域49が設けられ、ビデオチャットの開催中には、当該領域に、各種の広告が表示され、 広告配信機能は、仮想チャットルーム2のタイトル、話題、およびテーマなどを基に選択された関連広告が表示される態様であってもよく、さらに、広告配信機能は、ビデオチャットで行われる情報交換の内容をリアルタイムに反映して行われる態様であってもよく、例えば、ビデオチャットを実施しているユーザーインターフェース26上において、多目的情報交換ボード43を利用して表示された文字列を、基地局1が検知し、この文字列をもとに検索エンジン部17で、各種の広告表示に係る情報が格納されているウェブコンテンツデータベース17の内容を検索し、その結果を関連広告として、基地局1から各端末局5,7へ送信し、各端末局5,7の広告表示領域49、または空いている映像表示領域41に表示する」 との構成を備えているところ、 「複数の仮想チャットルーム2(2A?2D)を実現する基地局1」は、「ビデオチャットの開催中」に、「多目的情報交換ボード43を利用して表示された文字列」を「検知」して、「この文字列をもとに検索エンジン部17で、各種の広告表示に係る情報が格納されているウェブコンテンツデータベース17の内容を検索し、その結果を関連広告として、基地局1から各端末局5,7へ送信し、各端末局5,7の広告表示領域49、または空いている映像表示領域41に表示する」処理を行うものと把握することができる。 ここで、引用発明2の「ビデオチャットの開催中」は、前記aより「音声通話及びビデオ通話の経過」における期間といえる。 また、引用発明2の「多目的情報交換ボード43」と本願発明1の「ウェブページの他、画像や映像を表示し、この表示内容をビデオチャットの参加者間で共有するという機能を有し、具体的には、例えば、多目的情報交換ボード43上に、表示したウェブページ、画像、映像、文字などを、基地局1を介して、全ての、または特定の、参加端末局5に表示させ、情報を共有しながらビデオチャットによる情報交換を進めることができ」るものであるから、「多目的情報交換ボード43」上に表示される情報は、「仮想チャットルーム2」(ビデオチャット)に参加しているユーザによってアップロード(入力)され、共有されるものである。 よって、引用発明2の「多目的情報交換ボード43」上に表示される情報は、「ユーザの入力されたユーザデータ」及び「ユーザにより所定の方式で入力されたユーザデータ」といい得るものである。 また、引用発明2は、「広告配信機能は、仮想チャットルーム2のタイトル、話題、およびテーマなどを基に選択された関連広告が表示される態様であってもよく、さらに、広告配信機能は、ビデオチャットで行われる情報交換の内容をリアルタイムに反映して行われる態様であってもよく」との構成からすると、「基地局1」が「ビデオチャットで行われる情報交換の内容」として「多目的情報交換ボード43」上に表示される情報をリアルタイムに取得して前記情報中の「文字列」を検出するものであって、「基地局1」は、当該「文字列」を検出するために、「多目的情報交換ボード43」上に表示される情報をモニタリングし当該情報をリアルタイムに取得しているといえる。 したがって、引用発明2において「基地局1」が「文字列」を検出するために「ビデオチャットで行われる情報交換の内容」として「多目的情報交換ボード43」上に表示される情報をリアルタイムに取得することと、本願発明1の「ユーザの入力されたユーザ行動データをモニタリングし、ユーザにより音声方式及びジェスチャ方式を含む所定の方式で入力されたユーザ行動データを取得する」こととは、「ユーザの入力されたユーザデータをモニタリングし、ユーザにより所定の方式で入力されたユーザデータを取得する」ことにおいて共通する。 c 前記a及びbより、引用発明2と、本元発明1の「ユーザと1つ又は複数の他のユーザとの音声通話及びビデオ通話の経過において、ユーザの入力されたユーザ行動データをモニタリングし、ユーザにより音声方式及びジェスチャ方式を含む所定の方式で入力されたユーザ行動データを取得するステップ」とは、「ユーザと1つ又は複数の他のユーザとの音声通話及びビデオ通話の経過において、ユーザの入力されたユーザデータをモニタリングし、ユーザにより所定の方式で入力されたユーザデータを取得するステップ」との共通の構成を備える。 d 本願発明1は、「前記トリガ情報は、キーワードを含み」との構成を備えるから、「トリガ情報」は「キーワード」である場合を含む。 ここで、引用発明2は、「広告配信機能は、仮想チャットルーム2のタイトル、話題、およびテーマなどを基に選択された関連広告が表示される」との構成を備えることから、引用発明2において、「多目的情報交換ボード43」上に表示される情報から検出される「文字列」は、いかなる文字列であってもよいわけではなく、仮想チャットルーム2のタイトル、話題、及びテーマといった、仮想チャットルーム2が対象としているものに限定されるべきであり、そうすると、「基地局1」は、「多目的情報交換ボード43」上に表示される情報の中から、仮想チャットルーム2が対象としている情報を示す「文字列」を検出するものといえる。よって、そのように検出される「文字列」は、本願発明1の「所定のトリガ情報」(「キーワード」)に相当する。 また、引用発明2において、「基地局1」は、「多目的情報交換ボード43」上に表示される情報に仮想チャットルーム2が対象としている情報を示す「文字列」が含まれているか否かを決定するものといえる。 したがって、前記cを参酌すると、引用発明2と本願発明1の「前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップ」とは、「前記ユーザデータに所定のトリガ情報が含まれているか否かを決定するステップ」との構成を備える点において共通する。 e 引用発明2において、「基地局1」は、「文字列をもとに検索エンジン部17で、各種の広告表示に係る情報が格納されているウェブコンテンツデータベース17の内容を検索し、その結果を関連広告として、基地局1から各端末局5,7へ送信し、各端末局5,7の広告表示領域49、または空いている映像表示領域41に表示する」ものであり、ここで「基地局1」は、「文字列」の検出に対応して、すなわち、「前記ユーザデータに所定のトリガ情報が含まれている」と判断(通知)された場合に、「検索」、「送信」、「表示」といった処理を実行するものであり、これらの処理を実行することは、「イベント」を実行することといい得るものである。 また、本願発明1の「前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップ」において、「イベント」は、間接的に「トリガ情報」に対応するものである。 よって、引用発明2と本願発明1の「前記トリガ情報が含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップ」とは「前記トリガ情報が含まれていると判断・通知された場合、前記トリガ情報に対応するイベントを実行するステップ」を備える点において共通する。 f 前記dより、引用発明2は、本願発明1の「前記トリガ情報は、キーワードを含み」との構成を備える。 g 前記dないしfを参酌すると、引用発明2において、「多目的情報交換ボード43」上に表示される情報をリアルタイムに取得して前記情報中の「文字列」を検出することと、本願発明2の 「前記ユーザ行動データに所定のトリガ情報が含まれているか否かを決定するステップは、 前記ユーザ行動データに前記物の特徴情報により決定された所定の前記キーワードが含まれているか否かを判断するステップを含み、」 とは、 「前記ユーザデータに所定のトリガ情報が含まれているか否かを決定するステップは、 前記ユーザデータに所定の前記キーワードが含まれているか否かを判断するステップを含み、」 である点において共通する。 h 引用発明2は、「広告配信機能は、仮想チャットルーム2のタイトル、話題、およびテーマなどを基に選択された関連広告が表示される」ものであって、当該「関連広告」は、「文字列をもとに検索エンジン部17で、各種の広告表示に係る情報が格納されているウェブコンテンツデータベース17の内容を検索し、その結果を関連広告として、基地局1から各端末局5,7へ送信し、各端末局5,7の広告表示領域49、または空いている映像表示領域41に表示する」ことにより、検索、表示がなされるものである。 ここで、引用発明2の「関連広告」は、本願発明2の「推薦情報」に相当し、引用発明2の「ウェブコンテンツデータベース17」は、関連広告(推薦情報)を検索して提供するものであることから、本願発明2の「サーバ」に相当する。 また、引用発明2において、「文字列」をもとに「ウェブコンテンツデータベース17」を検索して「関連広告」を取得して、各端末5、7に表示することは、「ウェブコンテンツデータベース17」が「文字列」に対応する「関連広告」を取得するように、前記「文字列」を前記「ウェブコンテンツデータベース17」に送信し、前記「ウェブコンテンツデータベース17」から返信された前記「関連広告」を受信し、前記「関連広告」を表示することによってユーザに提供するというイベントを実行することに等しい。 以上から、前記dないしfを参酌すると、引用発明2において、「文字列」をもとに「ウェブコンテンツデータベース17」を検索して「関連広告」を取得して、各端末5、7に表示することと、本願発明1の 「 前記キーワードが含まれていると判断・通知された場合、所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップは、 前記キーワードが含まれていると判断・通知された場合、サーバが前記キーワードに対応する推薦情報を取得するように、前記キーワードを前記サーバに送信し、前記サーバから返信された前記推薦情報を受信し、前記推薦情報をユーザに提供するという前記キーワードに対応する操作命令を決定し、前記キーワードに対応する操作命令に従ってイベントを実行すること」 とは、 「 前記キーワードが含まれていると判断・通知された場合、前記トリガ情報に対応するイベントを実行するステップは、 前記キーワードが含まれていると判断・通知された場合、サーバが前記キーワードに対応する推薦情報を取得するように、前記キーワードを前記サーバに送信し、前記サーバから返信された前記推薦情報を受信し、前記推薦情報をユーザに提供するという前記キーワードに対応するイベントを実行すること」 である点において共通する。 i 引用発明2の「基地局1」は、「仮想チャットルーム2」すなわち複数のユーザによる「ビデオチャット」と「ビデオチャットの開催中」の広告配信を制御するものといえ、「ビデオチャット」は、音声と映像(ビデオ)による双方向(インタラクティブ)の通話である。 よって、引用発明2の「多地点通信システムの制御方法」は、本願発明1の「音声及びビデオ通話のためのインタラクティブ制御方法」に相当する。 (イ)一致点、相違点 したがって、本願発明1と引用発明2との間には、次の一致点、相違点があるといえる。 [一致点] 「 ユーザと1つ又は複数の他のユーザとの音声通話及びビデオ通話の経過において、ユーザの入力されたユーザデータをモニタリングし、ユーザにより所定の方式で入力されたユーザデータを取得するステップと、 前記ユーザデータに所定のトリガ情報が含まれているか否かを決定するステップと、 前記トリガ情報が含まれていると判断・通知された場合、前記トリガ情報に対応するイベントを実行するステップと、を含み、 前記トリガ情報は、キーワードを含み、 前記ユーザデータに所定のトリガ情報が含まれているか否かを決定するステップは、 前記ユーザデータに所定の前記キーワードが含まれているか否かを判断するステップを含み、 前記キーワードが含まれていると判断・通知された場合、前記トリガ情報に対応するイベントを実行するステップは、 前記キーワードが含まれていると判断・通知された場合、サーバが前記キーワードに対応する推薦情報を取得するように、前記キーワードを前記サーバに送信し、前記サーバから返信された前記推薦情報を受信し、前記推薦情報をユーザに提供するという前記キーワードに対応するイベントを実行すること、を含む、 ことを特徴とする音声及びビデオ通話のためのインタラクティブ制御方法。」 [相違点] <相違点2> 「ユーザデータ」が、本願発明1は「ユーザにより音声方式及びジェスチャ方式を含む所定の方式で入力されたユーザ行動データ」であるのに対し、引用発明2は、「多目的情報交換ボード43」上に表示される情報であって、「仮想チャットルーム2」(ビデオチャット)に参加しているユーザによってアップロード(入力)され共有される情報であるものの、「音声方式及びジェスチャ方式を含む所定の方式」で入力されるものと具体的に特定していない点。 <相違点3> 本願発明1は、「所定の操作命令セットのうち前記トリガ情報に対応する操作命令を決定し、前記操作命令に対応するイベントを実行するステップ」を備えるのに対し、引用発明2は当該構成を具体的に特定していない点。 よって、本願発明1は、前記「イベントを実行するステップ」が、「前記キーワードに対応する操作命令に従ってイベントを実行する」ものであるのに対し、引用発明2は、当該構成を具体的に特定していない点。 <相違点4> 本願発明1は、「ユーザ行動データを取得するステップ」として、 「 カメラにより採取されたビデオ情報を取得するステップと、 ビデオ認識アルゴリズムに基づいて前記ビデオ情報を認識して、前記ビデオ情報の認識結果を前記ユーザ行動データとして生成するステップであって、前記認識結果は、前記ビデオ情報における物の特徴情報を含むステップ」とを含むのに対し、引用発明2は、ビデオチャットを行うためにビデオ情報を取得するものの、これを認識することにより「ユーザ行動データ」を生成するものではない点。 (ウ)相違点についての判断 事案に鑑みて、上記相違点4について先に検討すると、相違点4に係る本願発明1の構成は、上記引用文献2並びに1及び3ないし5には記載されておらず、本願優先日前において周知技術であるともいえない。 仮に、周知技術であるとしても、引用発明2に、音声とジェスチャとによって操作命令を決定する方式を採用した上で、ビデオ情報に含まれる物の特徴に基づいて検索及び表示を行う処理をさらに付加すべき動機付けが存在しない。 したがって、他の相違点について判断するまでもなく、本願発明1は、当業者であっても引用発明2並びに引用文献1及び3ないし5に記載された発明に基いて容易に発明をすることができたものであるとはいえない。 イ 本願発明2及び3について 本願発明2及び3は、上記相違点4に係る本願発明1の構成を備えるから、本願発明1と同様に、当業者であっても引用発明2並びに引用文献1及び3ないし5に記載された発明に基いて容易に発明をすることができたものであるとはいえない。 ウ 本願発明4ないし8について 本願発明4は、本願発明1を「インタラクティブ制御装置」として特定したものであり、本願発明7は、本願発明1を「プロセッサ」を備える「インタラクティブ制御装置」として特定したものであり、また、本願発明8は、本願発明1を「インタラクティブ制御方法」を実行するためのアプリケーションプログラムが記憶されている「記憶媒体」として特定したものであって、いずれも、上記相違点4に係る本願発明1の構成を備えるから、本願発明1と同様に、当業者であっても引用発明2並びに引用文献1及び3ないし5に記載された発明に基いて容易に発明をすることができたものであるとはいえない。 3 当審拒絶理由についてのまとめ 前記1及び2より、当審拒絶理由は、解消した。 第7 原査定についての判断 本件補正により、補正後の請求項1ないし8は、ビデオ情報を認識した認識結果としての物の特徴情報に所定のキーワードが含まれる場合に、当該キーワードに基づいて推薦情報を取得して表示するという技術的事項を有するものとなった。当該技術的事項は、原査定における引用文献AないしC(当審拒絶理由における引用文献4、5を含む。)には記載されておらず、本願優先日前における周知技術でもないので、本願発明1ないし8は、当業者であっても、原査定における引用文献AないしCに基いて容易に発明をすることができたものではない。 したがって、原査定を維持することはできない。 第8 むすび 以上のとおり、原査定の理由によって、本願を拒絶することはできない。 他に本願を拒絶すべき理由を発見しない。 よって、結論のとおり審決する。 |
審決日 | 2021-06-01 |
出願番号 | 特願2018-510102(P2018-510102) |
審決分類 |
P
1
8・
537-
WY
(G06F)
P 1 8・ 121- WY (G06F) P 1 8・ 113- WY (G06F) |
最終処分 | 成立 |
前審関与審査官 | 菊池 伸郎、桜井 茂行 |
特許庁審判長 |
角田 慎治 |
特許庁審判官 |
小田 浩 林 毅 |
発明の名称 | 音声及びビデオ通話のためのインタラクティブ制御方法及び装置 |
代理人 | 美恵 英樹 |
代理人 | 木村 満 |
代理人 | 桜田 圭 |
代理人 | 森川 泰司 |