• ポートフォリオ機能


ポートフォリオを新規に作成して保存
既存のポートフォリオに追加保存

  • この表をプリントする
PDF PDFをダウンロード
審決分類 審判 一部申し立て 2項進歩性  G10L
管理番号 1387457
総通号数
発行国 JP 
公報種別 特許決定公報 
発行日 2022-08-26 
種別 異議の決定 
異議申立日 2020-11-17 
確定日 2022-05-27 
異議申立件数
訂正明細書 true 
事件の表示 特許第6697024号発明「手動始点/終点指定及びトリガフレーズの必要性の低減」の特許異議申立事件について、次のとおり決定する。 
結論 特許第6697024号の特許請求の範囲を訂正請求書に添付された特許請求の範囲のとおり、訂正後の請求項〔1〜17〕、18、19について訂正することを認める。 特許第6697024号の請求項1〜5、8、11、13、15、17〜19に係る特許を維持する。 特許第6697024号の請求項9に係る特許に対する特許異議の申立てを却下する。 
理由 第1 手続の経緯
特許第66947024号(以下、「本件特許」という。)の請求項1〜19に係る特許についての出願(以下、「本願」という。)は、平成27年(2015年)5月28日に出願した特願2015−109087号(パリ条約による優先権主張 2014年5月30日 米国、2014年9月30日 米国)の一部を、平成30年(2018年)4月27日に新たな特許出願としたものであって、令和2年4月27日に特許権の設定登録がされ、同年5月20日に特許掲載公報が発行された。
これに対して、同年11月17日にその請求項1〜5、8、9、11、13、15、17〜19に係る特許に対して特許異議申立人 田中 貞嗣、小山 卓志(以下、「申立人」という。)により特許異議の申立てがされた。
その後の手続の経緯は以下のとおりである。

令和3年 3月12日付け 取消理由通知
同年 6月15日 意見書提出(特許権者)
同年10月 8日付け 取消理由通知(決定の予告)
令和4年 1月 7日 意見書提出及び訂正請求(特許権者)

なお、令和4年1月7日付け訂正請求に対する申立人からの意見書の提出はなかった。

第2 訂正の適否
1 訂正の内容
令和4年1月7日付けの訂正請求による訂正(以下「本件訂正」という。)の内容は以下の訂正事項のとおりである(下線は訂正部分を示す。)。

(1)訂正事項1
ア 特許請求の範囲の請求項1に
「電子デバイスにおいて仮想アシスタントを動作させる方法であって、
前記電子デバイスでオーディオ入力を受信することと、
ユーザ要求を含む第1のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記オーディオ入力中の前記第1のユーザ発話入力を識別することと、
前記第1のユーザ発話入力に関連する文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向を含み、前記判定することは、
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、を含む、ことと、
前記尤度スコアを閾値と比較することと、
前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、
前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定することと、を含む、ことと、
前記第1のユーザ発話入力に応答するとの判定に応じて、
前記第1のユーザ発話入力に対する応答を生成することと、
第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと
を備えることを特徴とする方法。」
とあるのを、
「電子デバイスにおいて仮想アシスタントを動作させる方法であって、
前記電子デバイスでオーディオ入力を受信することと、
ユーザ要求を含む第1のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記オーディオ入力中の前記第1のユーザ発話入力を識別することと、
前記第1のユーザ発話入力に関連する文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第1のユーザ発話入力と以前のユーザ発話入力との間の意味的関係とを含み、前記判定することは、
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、
前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、
前記尤度スコアを閾値と比較することと、
前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、
前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定することと、を含む、ことと、
前記第1のユーザ発話入力に応答するとの判定に応じて、
前記第1のユーザ発話入力に対する応答を生成することと、
第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと
を備えることを特徴とする方法。」
に訂正する(請求項1の記載を引用する請求項2〜7、10〜12、14、16、17も同様に訂正する)。

イ さらに、特許請求の範囲の請求項16に
「前記意味的関係の値が以前のEメールの意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、
前記意味的関係の値が前記以前のEメールの意味の閾値より小さいことに応じて前記尤度スコアを減少させることと」と記載されているのを、
「前記第1のユーザ発話入力と前記以前のEメールとの間の前記意味的関係の値が以前のEメールの意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力と前記以前のEメールとの間の前記意味的関係の値が前記以前のEメールの意味の閾値より小さいことに応じて前記尤度スコアを減少させることと」に訂正する。

(2)訂正事項2
特許請求の範囲の請求項2に
「前記第1のユーザ発話入力に関連する文脈情報」と記載されているのを、
「前記第1のユーザ発話入力に関連する前記文脈情報」に訂正する(請求項2の記載を引用する請求項4〜7、10〜12、14、16も同様に訂正する)。

(3)訂正事項3
特許請求の範囲の請求項3に
「前記第1のユーザ発話入力に関連する文脈情報」と記載されているのを、
「前記第1のユーザ発話入力に関連する前記文脈情報」に訂正する(請求項3の記載を引用する請求項4〜7、10〜12、14、16も同様に訂正する)。

(4)訂正事項4
特許請求の範囲の請求項5に
「前記第1のユーザ発話入力に関連する文脈情報」と記載されているのを、
「前記第1のユーザ発話入力に関連する前記文脈情報」に訂正する。

(5)訂正事項5
特許請求の範囲の請求項6に
「前記仮想アシスタントが文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである尤度スコアを計算することは」と記載されているのを、
「前記仮想アシスタントが前記文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである尤度スコアを計算することは」に訂正する。

(6)訂正事項6
特許請求の範囲の請求項7に
「前記仮想アシスタントが文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは」と記載されているのを、
「前記仮想アシスタントが前記文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは」に訂正する。

(7)訂正事項7
特許請求の範囲の請求項8に
「前記文脈情報は、前記第1のユーザ発話入力が自動音声認識装置により認識されたか否かを示す指標を含み、前記仮想アシスタントが文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、
前記第1のユーザ発話入力が前記自動音声認識装置により認識されたことを示す指標に応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が前記自動音声認識装置により認識されなかったことを示す指標に応じて前記尤度スコアを減少させることと
を含むことを特徴とする請求項1乃至3の何れか1項に記載の方法。」
とあるのを、
「電子デバイスにおいて仮想アシスタントを動作させる方法であって、
前記電子デバイスでオーディオ入力を受信することと、
ユーザ要求を含む第1のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記オーディオ入力中の前記第1のユーザ発話入力を識別することと、
前記第1のユーザ発話入力に関連する文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第1のユーザ発話入力が自動音声認識装置により認識されたか否かを示す指標とを含み、前記判定することは、
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、
前記第1のユーザ発話入力が前記自動音声認識装置により認識されたことを示す指標に応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が前記自動音声認識装置により認識されなかったことを示す指標に応じて前記尤度スコアを減少させることと、を含む、ことと、
前記尤度スコアを閾値と比較することと、
前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、
前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定することと、を含む、ことと、
前記第1のユーザ発話入力に応答するとの判定に応じて、
前記第1のユーザ発話入力に対する応答を生成することと、
第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと
を備えることを特徴とする方法。」
に訂正する。

(8)訂正事項8
特許請求の範囲の請求項9を削除する。

(9)訂正事項9
特許請求の範囲の請求項10に
「前記仮想アシスタントが文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは」と記載されているのを、
「前記仮想アシスタントが前記文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは」に訂正する。

(10)訂正事項10
特許請求の範囲の請求項12に
「前記仮想アシスタントが文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは」と記載されているのを、
「前記仮想アシスタントが前記文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは」に訂正する。

(11)訂正事項11
特許請求の範囲の請求項13に
「前記文脈情報は、前記第1のユーザ発話入力と、前記第1のユーザ発話入力が受信されたときに前記電子デバイスにより表示されていたコンテンツとの間の意味的関係を含み、前記仮想アシスタントが文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、
前記意味的関係の値がコンテンツ意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、
前記意味的関係の前記値が前記コンテンツ意味の閾値より小さいことに応じて前記尤度スコアを減少させることと
を含むことを特徴とする請求項1乃至3の何れか1項に記載の方法。」
とあるのを、
「電子デバイスにおいて仮想アシスタントを動作させる方法であって、
前記電子デバイスでオーディオ入力を受信することと、
ユーザ要求を含む第1のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記オーディオ入力中の前記第1のユーザ発話入力を識別することと、
前記第1のユーザ発話入力に関連する文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第1のユーザ発話入力と、前記第1のユーザ発話入力が受信されたときに前記電子デバイスにより表示されていたコンテンツとの間の意味的関係とを含み、前記判定することは、
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、
前記意味的関係の値がコンテンツ意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、
前記意味的関係の前記値が前記コンテンツ意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、
前記尤度スコアを閾値と比較することと、
前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、
前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定することと、を含む、ことと、
前記第1のユーザ発話入力に応答するとの判定に応じて、
前記第1のユーザ発話入力に対する応答を生成することと、
第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと
を備えることを特徴とする方法。」
に訂正する。

(12)訂正事項12
特許請求の範囲の請求項14に
「前記仮想アシスタントが文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは」と記載されているのを、
「前記仮想アシスタントが前記文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは」に訂正する。

(13)訂正事項13
特許請求の範囲の請求項15に
「前記文脈情報は、前記第1のユーザ発話入力と前記電子デバイスの以前の出力との間の意味的関係を含み、前記仮想アシスタントが文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、
前記意味的関係の値が以前の出力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、
前記意味的関係の値が前記以前の出力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと
を含むことを特徴とする請求項1乃至3の何れか1項に記載の方法。」
とあるのを、
「電子デバイスにおいて仮想アシスタントを動作させる方法であって、
前記電子デバイスでオーディオ入力を受信することと、
ユーザ要求を含む第1のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記オーディオ入力中の前記第1のユーザ発話入力を識別することと、
前記第1のユーザ発話入力に関連する文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第1のユーザ発話入力と前記電子デバイスの以前の出力との間の意味的関係とを含み、前記判定することは、
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、
前記意味的関係の値が以前の出力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、
前記意味的関係の値が前記以前の出力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、
前記尤度スコアを閾値と比較することと、
前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、
前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定することと、を含む、ことと、
前記第1のユーザ発話入力に応答するとの判定に応じて、
前記第1のユーザ発話入力に対する応答を生成することと、
第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと
を備えることを特徴とする方法。」
に訂正する。

(14)訂正事項14
特許請求の範囲の請求項16に
「前記仮想アシスタントが文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは」と記載されているのを、
「前記仮想アシスタントが前記文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは」に訂正する。

(15)訂正事項15
特許請求の範囲の請求項17に
「前記第1のユーザ発話入力に関連する文脈情報」と記載されているのを、
「前記第1のユーザ発話入力に関連する前記文脈情報」に訂正する。

(16)訂正事項16
特許請求の範囲の請求項18に
「1つ以上のプロセッサによる実行のためのプログラムであって、
オーディオ入力を受信することと、
ユーザ要求を含む第1のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記オーディオ入力中の前記第1のユーザ発話入力を識別することと、
前記第1のユーザ発話入力に関連する文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向を含み、前記判定することは、
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が電子デバイスを指していることに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、を含む、ことと、
前記尤度スコアを閾値と比較することと、
前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、
前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定することと、を含む、ことと、
前記第1のユーザ発話入力に応答するとの判定に応じて、
前記第1のユーザ発話入力に対する応答を生成することと、
第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと
のための命令を含むことを特徴とするプログラム。」
とあるのを、
「1つ以上のプロセッサによる実行のためのプログラムであって、
オーディオ入力を受信することと、
ユーザ要求を含む第1のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記オーディオ入力中の前記第1のユーザ発話入力を識別することと、
前記第1のユーザ発話入力に関連する文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第1のユーザ発話入力と以前のユーザ発話入力との間の意味的関係とを含み、前記判定することは、
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が電子デバイスを指していることに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、
前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、
前記尤度スコアを閾値と比較することと、
前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、
前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定することと、を含む、ことと、
前記第1のユーザ発話入力に応答するとの判定に応じて、
前記第1のユーザ発話入力に対する応答を生成することと、
第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと
のための命令を含むことを特徴とするプログラム。」
に訂正する。

(17)訂正事項17
特許請求の範囲の請求項19に
「仮想アシスタントを動作させるシステムであって、
1つ以上のプロセッサと、
メモリと、
1つ以上のプログラムと
を備え、前記1つ以上のプログラムは、前記メモリに格納され、前記1つ以上のプロセッサによって実行されるように構成され、前記1つ以上のプログラムは、
オーディオ入力を受信することと、
ユーザ要求を含む第1のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記オーディオ入力中の前記第1のユーザ発話入力を識別することと、
前記第1のユーザ発話入力に関連する文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向を含み、前記判定することは、
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が電子デバイスを指していることに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、を含む、ことと、
前記尤度スコアを閾値と比較することと、
前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、
前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定することと、を含む、ことと、
前記第1のユーザ発話入力に応答するとの判定に応じて、
前記第1のユーザ発話入力に対する応答を生成することと、
第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと
のための命令を含むことを特徴とするシステム。」
とあるのを、
「仮想アシスタントを動作させるシステムであって、
1つ以上のプロセッサと、
メモリと、
1つ以上のプログラムと
を備え、前記1つ以上のプログラムは、前記メモリに格納され、前記1つ以上のプロセッサによって実行されるように構成され、前記1つ以上のプログラムは、
オーディオ入力を受信することと、
ユーザ要求を含む第1のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記オーディオ入力中の前記第1のユーザ発話入力を識別することと、
前記第1のユーザ発話入力に関連する文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第1のユーザ発話入力と以前のユーザ発話入力との間の意味的関係とを含み、前記判定することは、
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が電子デバイスを指していることに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、
前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、
前記尤度スコアを閾値と比較することと、
前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、
前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定することと、を含む、ことと、
前記第1のユーザ発話入力に応答するとの判定に応じて、
前記第1のユーザ発話入力に対する応答を生成することと、
第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと
のための命令を含むことを特徴とするシステム。」
に訂正する。

2 訂正の適否についての判断
(1)一群の請求項について
訂正前の請求項1〜17は、請求項2〜17が、いずれも請求項1を直接または間接的に引用する関係にあるから、一群の請求項をなすものである。
そして、これらの請求項1〜17に係る訂正事項1〜15は、一群の請求項〔1〜17〕について請求されたものであるから、特許法第120条の5第4項の規定に適合するものである。
ただし、請求項8、13、15に係る訂正事項7、11、13は、請求項1〜3との引用関係の解消を目的とする訂正を含んでおり、特許権者は、訂正事項7、11、13による訂正が認められる場合には、一群の請求項〔1〜17〕の他の請求項とは別の訂正単位として扱われることを求めている。

(2)訂正の目的、新規事項の追加、特許請求の範囲の拡張又は変更、独立特許要件について
ア 訂正事項1のア、訂正事項16、17について
(ア)目的について
訂正事項1のア、訂正事項16、17は、訂正前の請求項1、18、19の発明特定事項である「文脈情報」と「尤度スコアを計算すること」について、それぞれ、「文脈情報」が「前記第1のユーザ発話入力と以前のユーザ発話入力との間の意味的関係」を含むことと、「尤度スコアを計算すること」が「前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させること」を含むことを付加するものであるから、特許法第120条の5第2項ただし書第1号に掲げる特許請求の範囲の減縮を目的とするものである。

(イ)新規事項の追加、特許請求の範囲の拡張又は変更について
本件特許の願書に添付した明細書(以下「本件明細書」という。)の【0123】には「第1のユーザ発話入力に関連する文脈情報」が「第1のユーザ発話入力が受信されたときのユーザの視線の方向」や「第1のユーザ発話入力と以前のユーザ発話入力との意味的関係」等を含むことが記載されており、【0131】には「尤度スコアを計算することは、意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応答して尤度スコアを増加させることと、意味的関係の値がユーザ発話入力の意味の閾値より小さいことに応答して尤度スコアを減少させることとを含むことができる。」と記載されており、訂正事項1のア、訂正事項16、17は、本件明細書、特許請求の範囲又は図面(以下「本件明細書等」という)に記載した事項の範囲内のものであり、特許法第120条の5第9項で準用する同法第126条第5項の規定に適合するものである。
また、訂正事項1のア、訂正事項16、17は、上記(ア)のとおり、訂正前の請求項1の発明特定事項である「文脈情報」及び「尤度スコアを計算すること」について、さらに構成を付加して限定することによって特許請求の範囲を限縮するものであるから、実質上特許請求の範囲を拡張し又は変更するものに該当せず、特許法第120条の5第9項で準用する同法第126条第6項の規定に適合するものである。

(ウ)独立特許要件
上記(ア)のとおり、訂正事項1のア、訂正事項16、17による訂正の目的は、特許法第120条の5第2項ただし書第1号に規定する特許請求の範囲の減縮を含むものである。
本件特許異議申立事件においては、訂正前の請求項1〜5、8、9、11、13、15、17〜19に係る特許に対して特許異議の申立てがされているから、訂正前の請求項1、18、19に係る訂正事項1のア、訂正事項16、17に関して、特許法第120条の5第9項で準用する特許法第126条第7項の独立特許要件は課されない。

イ 訂正事項1のイについて
(ア)目的について
訂正事項1のイは、訂正事項1のアによって請求項16が引用する請求項1の「文脈情報」に「前記第1のユーザ発話入力と以前のユーザ発話入力との間の意味的関係」を含む構成となるため、請求項16における「前記意味的関係」が、同じく請求項16に記載された「前記第1のユーザ発話入力と以前のEメールとの間の意味的関係」を表すことを明確にするためのものであるから、特許法第120条の5第2項ただし書第3号に掲げる明瞭でない記載の釈明を目的とするものである。

(イ)新規事項の追加、特許請求の範囲の拡張又は変更について
本件明細書の【0148】には「第1のユーザ発話入力と以前のEメールとの間の意味的関係を含む文脈情報に基づいて、仮想アシスタントが第1のユーザ発話入力に応答すべき尤度スコアを計算すること」、「尤度スコアを計算することは、意味的関係の値が以前のEメールの意味の閾値より大きいことに応答して尤度スコアを増加させることと、意味的関係の値が以前のEメールの意味の閾値より小さいことに応答して尤度スコアを減少させることとを含むこと」が記載されており、訂正事項1のイは、本件明細書に記載された事項の範囲内においてするものであり、また、実質上特許請求の範囲を拡張し、又は変更するものでないことは明らかであり、特許法第120条の5第9項で準用する同法第126条第5項及び第6項の規定に適合する。

ウ 訂正事項2〜4、15について
(ア)目的について
訂正事項2〜4、15は、訂正前の請求項2、3、5、17に記載された「前記第1のユーザ発話入力に関連する文脈情報」が、請求項1に記載された「文脈情報」であることを明確にするためのものであるから、特許法第120条の5第2項ただし書第3号に掲げる明瞭でない記載の釈明を目的とするものである。
また、訂正事項2〜4、15は、訂正前の請求項2、3、5、17に記載された「前記第1のユーザ発話入力に関連する文脈情報」について、請求項1に記載された「文脈情報」であることを特定するものであり、特許請求の範囲を減縮しようとするものであるから、特許法第120条の5第2項ただし書第1号に掲げる特許請求の範囲の減縮を目的とするものである。

(イ)新規事項の追加、特許請求の範囲の拡張又は変更について
訂正事項2〜4、15により、訂正前の特許請求の範囲に含まれないとされていた発明が訂正後の特許請求の範囲に含まれることになる、という事情は認められない。
したがって、訂正事項2〜4、15は、本件明細書等に記載した事項の範囲内の訂正であるといえ、また、実質上特許請求の範囲を拡張し、又は変更するものには該当せず、特許法第120条の5第9項で準用する特許法第126条第5項及び第6項の規定に適合するものである。

(ウ)独立特許要件
上記(ア)のとおり、訂正事項2〜4、15による訂正の目的は、特許法第120条の5第2項ただし書第1号に規定する特許請求の範囲の減縮を含むものである。
本件特許異議申立事件においては、訂正前の請求項1〜5、8、9、11、13、15、17〜19に係る特許に対して特許異議の申立てがされているから、訂正前の請求項2、3、5、17に係る訂正事項2〜4、15に関して、特許法第120条の5第9項で準用する特許法第126条第7項の独立特許要件は課されない。

エ 訂正事項5、6、9、10、12、14について
(ア)目的について
訂正事項5、6、9、10、12、14は、訂正前の請求項6、7、10、12、14、16に記載された「前記仮想アシスタントが文脈情報に基づいて・・・尤度スコアを計算することは」における「文脈情報」が、請求項1に記載された「文脈情報」であることを明確にするためのものであるから、特許法第120条の5第2項ただし書第3号に掲げる明瞭でない記載の釈明を目的とするものである。
また、訂正事項5、6、9、10、12、14は、訂正前の請求項6、7、10、12、14、16に記載された「前記仮想アシスタントが文脈情報に基づいて・・・尤度スコアを計算することは」における「文脈情報」について、請求項1に記載された「文脈情報」であることを特定するものであり、特許請求の範囲を減縮しようとするものであるから、特許法第120条の5第2項ただし書第1号に掲げる特許請求の範囲の減縮を目的とするものである。

(イ)新規事項の追加、特許請求の範囲の拡張又は変更について
訂正事項5、6、9、10、12、14により、訂正前の特許請求の範囲に含まれないとされていた発明が訂正後の特許請求の範囲に含まれることになる、という事情は認められない。
したがって、訂正事項5、6、9、10、12、14は、本件明細書等に記載した事項の範囲内の訂正であるといえ、また、実質上特許請求の範囲を拡張し、又は変更するものには該当せず、特許法第120条の5第9項で準用する特許法第126条第5項及び第6項の規定に適合するものである。

(ウ)独立特許要件
上記(ア)のとおり、訂正事項5、6、9、10、12、14による訂正の目的は、特許法第120条の5第2項ただし書第1号に規定する特許請求の範囲の減縮を含むものである。
本件特許異議申立事件においては、訂正前の請求項1〜5、8、9、11、13、15、17〜19に係る特許に対して特許異議の申立てがされており、訂正前の請求項6、7、10、12、14、16に係る訂正事項5、6、9、10、12、14は、本件特許異議の申立ての対象外であるから、特許法第120条の5第9項で準用する同法第126条第7項の規定により、特許出願の際独立して特許を受けることができるか否か、すなわち、独立特許要件を満たすか否かが問題となる。
そこで検討するに、訂正後の請求項6、7、10、12、14、16は、請求項1を直接又は間接的に引用するところ、訂正後の請求項1に係る発明は、下記「第3」「2(3)」において後述するとおり、特許を受けることができるものであり、訂正後の請求項6、7、10、12、14、16に係る発明についても、これを特許を受けることができないとする証拠は見当たらないから、特許出願の際独立して特許を受けることができないとすべき特段の理由が存するものとは認められない。
したがって、訂正後の請求項6、7、10、12、14、16に係る発明は、独立特許要件を満たしているものである。

オ 訂正事項7について
(ア)目的について
訂正事項7は、訂正前の請求項8が訂正前の請求項1〜3を引用するものであったところ、その引用関係を解消して訂正前の請求項1を引用する請求項8の内容を書き下して独立請求項にするものであり、特許法120条の5第2項ただし書第1号に掲げる特許請求の範囲の減縮、及び同ただし書第4号に掲げる「他の請求項の記載を引用する請求項の記載を当該他の請求項の記載を引用しないものとすること」を目的とするものである。
また、訂正事項7は、上記書き下しの際に、訂正前の請求項1の「前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、」という記載と、訂正前の請求項8の「前記仮想アシスタントが文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、」という記載に重複する内容が含まれるため、後者の記載を削除して記載を明確にしており、特許法第120条の5第2項ただし書第3号に掲げる明瞭でない記載の釈明を目的とするものである。

(イ)新規事項の追加、特許請求の範囲の拡張又は変更について
訂正事項7は、択一的に引用する請求項を一部削除することを除き、何ら実質的な内容の変更を伴うものでないから、新規事項の追加に該当せず、また、実質上特許請求の範囲を拡張し、又は変更するものでもなく、特許法第120条の5第9項で準用する同法第126条第5項及び第6項の規定に適合するものである。

(ウ)独立特許要件
上記(ア)のとおり、訂正事項7による訂正の目的は、特許法第120条の5第2項ただし書第1号に規定する特許請求の範囲の減縮を含むものである。
本件特許異議申立事件においては、訂正前の請求項1〜5、8、9、11、13、15、17〜19に係る特許に対して特許異議の申立てがされているから、訂正前の請求項8に係る訂正事項7に関して、特許法第120条の5第9項で準用する特許法第126条第7項の独立特許要件は課されない。

カ 訂正事項8について
(ア)目的について
訂正事項8は、請求項9を削除する訂正であるから、特許法第120条の5第2項ただし書第1号に掲げる特許請求の範囲の減縮を目的とするものである。

(イ)新規事項の追加、特許請求の範囲の拡張又は変更について
訂正事項8は、請求項を削除する訂正であるから、新規事項を追加するものではなく、また、特許請求の範囲を実質上拡張し、又は変更するものでもなく、特許法第120条の5第9項で準用する特許法第126条第5項及び第6項の規定に適合するものである。

(ウ)独立特許要件
本件特許異議申立事件においては、訂正前の請求項1〜5、8、9、11、13、15、17〜19に係る特許に対して特許異議の申立てがされているから、訂正前の請求項9に係る訂正事項8に関して、特許法第120条の5第9項で読み替えて準用する特許法第126条第7項の独立特許要件は課されない。

キ 訂正事項11について
(ア)目的について
訂正事項11は、訂正前の請求項13が訂正前の請求項1〜3を引用するものであったところ、その引用関係を解消して訂正前の請求項1を引用する請求項13の内容を書き下して独立請求項にするものであり、特許法120条の5第2項ただし書第1号に掲げる特許請求の範囲の減縮、及び同ただし書第4号に掲げる「他の請求項の記載を引用する請求項の記載を当該他の請求項の記載を引用しないものとすること」を目的とするものである。
また、訂正事項11は、上記書き下しの際に、訂正前の請求項1の「前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、」という記載と、訂正前の請求項13の「前記仮想アシスタントが文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、」という記載に重複する内容が含まれるため、後者の記載を削除して記載を明確にしており、特許法第120条の5第2項ただし書第3号に掲げる明瞭でない記載の釈明を目的とするものである。

(イ)新規事項の追加、特許請求の範囲の拡張又は変更について
訂正事項11は、択一的に引用する請求項を一部削除することを除き、何ら実質的な内容の変更を伴うものでないから、新規事項の追加に該当せず、また、実質上特許請求の範囲を拡張し、又は変更するものでもなく、特許法第120条の5第9項で準用する同法第126条第5項及び第6項の規定に適合するものである。

(ウ)独立特許要件
上記(ア)のとおり、訂正事項11による訂正の目的は、特許法第120条の5第2項ただし書第1号に規定する特許請求の範囲の減縮を含むものである。
本件特許異議申立事件においては、訂正前の請求項1〜5、8、9、11、13、15、17〜19に係る特許に対して特許異議の申立てがされているから、訂正前の請求項13に係る訂正事項11に関して、特許法第120条の5第9項で準用する特許法第126条第7項の独立特許要件は課されない。

ク 訂正事項13について
(ア)目的について
訂正事項13は、訂正前の請求項15が訂正前の請求項1〜3を引用するものであったところ、その引用関係を解消して訂正前の請求項1を引用する請求項15の内容を書き下して独立請求項にするものであり、特許法120条の5第2項ただし書第1号に掲げる特許請求の範囲の減縮、及び同ただし書第4号に掲げる「他の請求項の記載を引用する請求項の記載を当該他の請求項の記載を引用しないものとすること」を目的とするものである。
また、訂正事項13は、上記書き下しの際に、訂正前の請求項1の「前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、」という記載と、訂正前の請求項15の「前記仮想アシスタントが文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、」という記載に重複する内容が含まれるため、後者の記載を削除して記載を明確にしており、特許法第120条の5第2項ただし書第3号に掲げる明瞭でない記載の釈明を目的とするものである。

(イ)新規事項の追加、特許請求の範囲の拡張又は変更について
訂正事項13は、択一的に引用する請求項を一部削除することを除き、何ら実質的な内容の変更を伴うものでないから、新規事項の追加に該当せず、また、実質上特許請求の範囲を拡張し、又は変更するものでもなく、特許法第120条の5第9項で準用する同法第126条第5項及び第6項の規定に適合するものである。

(ウ)独立特許要件
上記(ア)のとおり、訂正事項13による訂正の目的は、特許法第120条の5第2項ただし書第1号に規定する特許請求の範囲の減縮を含むものである。
本件特許異議申立事件においては、訂正前の請求項1〜5、8、9、11、13、15、17〜19に係る特許に対して特許異議の申立てがされているから、訂正前の請求項15に係る訂正事項13に関して、特許法第120条の5第9項で準用する特許法第126条第7項の独立特許要件は課されない。

3 訂正の適否についてのむすび
以上のとおりであるから、本件訂正による訂正は、特許法第120条の5第2項ただし書第1、3、4号に掲げる事項を目的とするものであり、かつ、同条第4項及び同条第9項において準用する同法第126条第5〜7項の規定に適合するものであるから、訂正後の請求項〔1〜17〕、18、19について訂正を認める。

第3 特許異議の申立について
1 本件発明
上記「第2」で検討のとおり本件訂正は認められるので、本件特許の請求項1〜19に係る発明は、訂正特許請求の範囲の請求項1〜19に記載された事項により特定される次のとおりのものである(以下、各請求項に係る発明を、項番号に応じて「本件発明1」などといい、まとめて「本件発明」という。)。
なお、請求項1に付した(A)〜(F2)は、説明のために当審で付したものであり、以下、「構成A」〜「構成F2」という。

「【請求項1】
(A)電子デバイスにおいて仮想アシスタントを動作させる方法であって、
(B)前記電子デバイスでオーディオ入力を受信することと、
(C)ユーザ要求を含む第1のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
(D)前記オーディオ入力中の前記第1のユーザ発話入力を識別することと、
(E)前記第1のユーザ発話入力に関連する文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第1のユーザ発話入力と以前のユーザ発話入力との間の意味的関係とを含み、前記判定することは、
(E1)前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、
(E1a)前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、
(E1b)前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、
(E1c)前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、
(E1d)前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、
(E2)前記尤度スコアを閾値と比較することと、
(E3a)前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、
(E3b)前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定することと、を含む、ことと、
(F1)前記第1のユーザ発話入力に応答するとの判定に応じて、
前記第1のユーザ発話入力に対する応答を生成することと、
第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
(F2)前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと
(A)を備えることを特徴とする方法。
【請求項2】
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することは、前記第1のユーザ発話入力の開始時の1つ以上の所定の語を識別せずに行われることを特徴とする請求項1記載の方法。
【請求項3】
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することは、前記第1のユーザ発話入力を受信する前に受信された物理的ボタン入力又は仮想ボタン入力を識別せずに行われることを特徴とする請求項1記載の方法。
【請求項4】
前記第1のユーザ発話入力に対する前記応答を生成することは、
前記第1のユーザ発話入力に対して音声からテキストへの変換を実行することと、
前記第1のユーザ発話入力に基づいてユーザの意図を判定することと、
前記第1のユーザ発話入力に基づいて実行されるタスクを判定することと、
前記第1のユーザ発話入力に基づいて実行される前記タスクのパラメータを判定することと、
前記実行されるタスクを実行することと、
前記第1のユーザ発話入力に対するテキスト応答を表示することと、
前記第1のユーザ発話入力に対するオーディオ応答を出力することと
のうち1つ以上を含むことを特徴とする請求項1乃至3の何れか1項に記載の方法。
【請求項5】
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することは、
前記第1のユーザ発話入力に関連する前記文脈情報に依存する1つ以上の条件付き規則を評価すること
を含むことを特徴とする請求項1乃至3の何れか1項に記載の方法。
【請求項6】
前記文脈情報は、前記第1のユーザ発話入力の受信と以前のユーザ入力との間の経過時間を含み、前記仮想アシスタントが前記文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである尤度スコアを計算することは、
前記経過時間の値が持続時間の閾値より大きいことに応じて前記尤度スコアを減少させることと、
前記経過時間の値が前記持続時間の閾値より小さいことに応じて前記尤度スコアを増加させることと
を含むことを特徴とする請求項1乃至3の何れか1項に記載の方法。
【請求項7】
前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザと前記電子デバイスとの間の距離を含み、前記仮想アシスタントが前記文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、
前記距離が距離の閾値より長いことに応じて前記尤度スコアを減少させることと、
前記距離が前記距離の閾値より短いことに応じて前記尤度スコアを増加させることと
を含むことを特徴とする請求項1乃至3の何れか1項に記載の方法。
【請求項8】
電子デバイスにおいて仮想アシスタントを動作させる方法であって、
前記電子デバイスでオーディオ入力を受信することと、
ユーザ要求を含む第1のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記オーディオ入力中の前記第1のユーザ発話入力を識別することと、
前記第1のユーザ発話入力に関連する文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第1のユーザ発話入力が自動音声認識装置により認識されたか否かを示す指標とを含み、前記判定することは、
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、
前記第1のユーザ発話入力が前記自動音声認識装置により認識されたことを示す指標に応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が前記自動音声認識装置により認識されなかったことを示す指標に応じて前記尤度スコアを減少させることと、を含む、ことと、
前記尤度スコアを閾値と比較することと、
前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、
前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定することと、を含む、ことと、
前記第1のユーザ発話入力に応答するとの判定に応じて、
前記第1のユーザ発話入力に対する応答を生成することと、
第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと
を備えることを特徴とする方法。
【請求項9】
(削除)
【請求項10】
前記文脈情報は前記第1のユーザ発話入力の長さを含み、前記仮想アシスタントが前記文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、
前記第1のユーザ発話入力の前記長さが長さの閾値より短いことに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力の前記長さが前記長さの閾値より長いことに応じて前記尤度スコアを減少させることと
を含むことを特徴とする請求項1乃至3の何れか1項に記載の方法。
【請求項11】
前記文脈情報は、前記第1のユーザ発話入力の発話者のIDを含むことを特徴とする請求項1乃至3の何れか1項に記載の方法。
【請求項12】
前記文脈情報は、前記第1のユーザ発話入力が受信された時刻を含み、前記仮想アシスタントが前記文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、
前記時刻が所定の1組の時刻の中に含まれることに応じて前記尤度スコアを増加させることと、
前記時刻が前記所定の1組の時刻の中に含まれないことに応じて前記尤度スコアを減少させることと
を含むことを特徴とする請求項1乃至3の何れか1項に記載の方法。
【請求項13】
電子デバイスにおいて仮想アシスタントを動作させる方法であって、
前記電子デバイスでオーディオ入力を受信することと、
ユーザ要求を含む第1のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記オーディオ入力中の前記第1のユーザ発話入力を識別することと、
前記第1のユーザ発話入力に関連する文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第1のユーザ発話入力と、前記第1のユーザ発話入力が受信されたときに前記電子デバイスにより表示されていたコンテンツとの間の意味的関係とを含み、前記判定することは、
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、
前記意味的関係の値がコンテンツ意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、
前記意味的関係の前記値が前記コンテンツ意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、
前記尤度スコアを閾値と比較することと、
前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、
前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定することと、を含む、ことと、
前記第1のユーザ発話入力に応答するとの判定に応じて、
前記第1のユーザ発話入力に対する応答を生成することと、
第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと
を備えることを特徴とする記載の方法。
【請求項14】
前記文脈情報は、前記第1のユーザ発話入力が受信されたときに前記ユーザにより実行されていたジェスチャーを含み、前記仮想アシスタントが前記文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、
前記ジェスチャーが所定の1組のジェスチャーのうち1つのジェスチャーであることに応じて前記尤度スコアを増加させることと、
前記ジェスチャーが前記所定の1組のジェスチャーのうち1つのジェスチャーではないことに応じて前記尤度スコアを減少させることと
を含むことを特徴とする請求項1乃至3の何れか1項に記載の方法。
【請求項15】
電子デバイスにおいて仮想アシスタントを動作させる方法であって、
前記電子デバイスでオーディオ入力を受信することと、
ユーザ要求を含む第1のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記オーディオ入力中の前記第1のユーザ発話入力を識別することと、
前記第1のユーザ発話入力に関連する文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第1のユーザ発話入力と前記電子デバイスの以前の出力との間の意味的関係とを含み、前記判定することは、
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、
前記意味的関係の値が以前の出力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、
前記意味的関係の値が前記以前の出力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、
前記尤度スコアを閾値と比較することと、
前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、
前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定することと、を含む、ことと、
前記第1のユーザ発話入力に応答するとの判定に応じて、
前記第1のユーザ発話入力に対する応答を生成することと、
第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと
を備えることを特徴とする方法。
【請求項16】
前記文脈情報は、前記第1のユーザ発話入力と以前のEメールとの間の意味的関係を含み、前記仮想アシスタントが前記文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、
前記第1のユーザ発話入力と前記以前のEメールとの間の前記意味的関係の値が以前のEメールの意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力と前記以前のEメールとの間の前記意味的関係の値が前記以前のEメールの意味の閾値より小さいことに応じて前記尤度スコアを減少させることと
を含むことを特徴とする請求項1乃至3の何れか1項に記載の方法。
【請求項17】
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することは、前記第1のユーザ発話入力が受信されたときの前記ユーザの注視の方向を判定することを含む、請求項1記載の方法。
【請求項18】
1つ以上のプロセッサによる実行のためのプログラムであって、
オーディオ入力を受信することと、
ユーザ要求を含む第1のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記オーディオ入力中の前記第1のユーザ発話入力を識別することと、
前記第1のユーザ発話入力に関連する文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第1のユーザ発話入力と以前のユーザ発話入力との間の意味的関係とを含み、前記判定することは、
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が電子デバイスを指していることに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、
前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、
前記尤度スコアを閾値と比較することと、
前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、
前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定することと、を含む、ことと、
前記第1のユーザ発話入力に応答するとの判定に応じて、
前記第1のユーザ発話入力に対する応答を生成することと、
第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと
のための命令を含むことを特徴とするプログラム。
【請求項19】
仮想アシスタントを動作させるシステムであって、
1つ以上のプロセッサと、
メモリと、
1つ以上のプログラムと
を備え、前記1つ以上のプログラムは、前記メモリに格納され、前記1つ以上のプロセッサによって実行されるように構成され、前記1つ以上のプログラムは、
オーディオ入力を受信することと、
ユーザ要求を含む第1のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記オーディオ入力中の前記第1のユーザ発話入力を識別することと、
前記第1のユーザ発話入力に関連する文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第1のユーザ発話入力と以前のユーザ発話入力との間の意味的関係とを含み、前記判定することは、
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が電子デバイスを指していることに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、
前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、
前記尤度スコアを閾値と比較することと、
前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、
前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定することと、を含む、ことと、
前記第1のユーザ発話入力に応答するとの判定に応じて、
前記第1のユーザ発話入力に対する応答を生成することと、
第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと
のための命令を含むことを特徴とするシステム。」

2 取消理由通知に記載した取消理由について
(1)取消理由の概要
令和3年10月8日付けで通知した取消理由の要旨は、次のとおりである。
理由1.請求項1〜5、11、17〜19に係る発明は、本件特許出願前に日本国内または外国において、頒布された引用文献1、2に記載された発明に基いて、本件特許出願前にその発明の属する技術の分野における通常の知識を有する者が容易に発明をすることができたものであるから、請求項1〜5、11、17〜19に係る特許は、特許法第29条第2項の規定に違反してされたものである。

・引用文献1:国際公開第2014/004544号
・引用文献2:特開2012−220959号公報(申立人提出の甲第1号証)

(2)引用文献の記載
ア 引用文献1の記載及び引用発明
引用文献1には、図面とともに次の記載事項が記載されている。下線は当審が付与した。なお、仮訳については、引用文献1のファミリ文献である特表2015−528918号公報における対応箇所の記載を引用しており、括弧内に対応する段落番号を記載している。

(ア)「[0001] The disclosed embodiments relate generally to digital assistant systems, and more specifically, digital assistant systems that perform voice-activated navigation and browsing of documents.」
(仮訳:
[0001] 開示されている諸実施形態は概してデジタルアシスタントシステムに関し、より具体的には、文書の音声作動式ナビゲーション及び文書のブラウジングを実行するデジタルアシスタントシステムに関する。(【0001】))

(イ)「[0015] Figure 1 is a block diagram illustrating an environment in which a digital assistant operates in accordance with some embodiments.」
(仮訳:
[0015] 【図1】いくつかの実施形態に係るデジタルアシスタントが動作する環境を示すブロック図である。(【0015】))

(ウ)「[0026] Figure 1 is a block diagram of an operating environment 100 of a digital assistant according to some embodiments. The terms "digital assistant," "virtual assistant," "intelligent automated assistant," or "automatic digital assistant," refer to any information processing system that interprets natural language input in spoken and/or textual form to deduce user intent (e.g., identify a task type that corresponds to the natural language input), and performs actions based on the deduced user intent (e.g., perform a task corresponding to the identified task type). For example, to act on a deduced user intent, the system can perform one or more of the following: identifying a task flow with steps and parameters designed to accomplish the deduced user intent (e.g., identifying a task type), inputting specific requirements from the deduced user intent into the task flow, executing the task flow by invoking programs, methods, services, APIs, or the like (e.g., sending a request to a service provider); and generating output responses to the user in an audible (e.g., speech) and/or visual form.
[0027] Specifically, a digital assistant system is capable of accepting a user request at least partially in the form of a natural language command, request, statement, narrative, and/or inquiry. Typically, the user request seeks either an informational answer or performance of a task by the digital assistant system. A satisfactory response to the user request is generally either provision of the requested informational answer, performance of the requested task, or a combination of the two. For example, a user may ask the digital assistant system a question, such as "Where am I right now?" Based on the user's current location, the digital assistant may answer, "You are in Central Park near the west gate." The user may also request the performance of a task, for example, by stating "Please invite my friends to my girlfriend's birthday party next week." In response, the digital assistant may acknowledge the request by generating a voice output, "Yes, right away," and then send a suitable calendar invite from the user's email address to each of the user' friends listed in the user's electronic address book. There are numerous other ways of interacting with a digital assistant to request information or performance of various tasks. In addition to providing verbal responses and taking programmed actions, the digital assistant can also provide responses in other visual or audio forms (e.g., as text, alerts, music, videos, animations, etc.).
[0028] As shown in Figure 1 , in some embodiments, a digital assistant system is implemented according to a client-server model. The digital assistant system includes a client-side portion (e.g., 102a and 102b) (hereafter "digital assistant (DA) client 102") executed on a user device (e.g., 104a and 104b), and a server-side portion 106 (hereafter "digital assistant (DA) server 106") executed on a server system 108. The DA client 102 communicates with the DA server 106 through one or more networks 110. The DA client 102 provides client-side functionalities such as user-facing input and output processing and communications with the DA server 106. The DA server 106 provides server-side functionalities for any number of DA clients 102 each residing on a respective user device 104 (also called a client device).」
(仮訳:
[0026] 図1は、いくつかの実施形態に係るデジタルアシスタントの動作環境100のブロック図である。用語「デジタルアシスタント」、「仮想アシスタント」、「インテリジェント自動アシスタント」、又は「自動デジタルアシスタント」は、口頭及び/又はテキスト形式の自然言語入力を解釈してユーザ意図を推測し(例えば、自然言語入力に対応するタスクの種類を特定し)、推測されたユーザ意図に基づき動作を実行する(例えば、特定されたタスクの種類に対応するタスクを実行する)あらゆる情報処理システムを指す。例えば、推測されたユーザ意図に基づいて動作するために、システムは、以下のことのうちの1つ以上を実行することができる:推測されたユーザ意図を果たすように設計されたステップ及びパラメータを有するタスクフローを特定すること(例えば、タスクの種類を特定すること)、推測されたユーザ意図からの特定の要求事項をタスクフロー内に入力すること、プログラム、方法、サービス、API、若しくは同様のものを呼び出すことによってタスクフローを実行すること(例えば、サービスプロバイダに要求を送信すること)、並びに可聴(例えば、発語)及び/又は視覚形式のユーザへの出力応答を生成すること。(【0017】)
[0027] 具体的には、デジタルアシスタントシステムは、少なくとも部分的には自然言語のコマンド、要求、ステートメント、注釈、及び/又は問い合わせの形態でユーザ要求を受け入れる能力を有する。通例、ユーザ要求はデジタルアシスタントシステムによる情報回答又はタスクの実行のいずれかを求める。一般的に、ユーザ要求への満足な応答は、要求された情報回答の提供、要求されたタスクの実行のいずれか、又はその2つの組み合わせとなる。例えば、ユーザはデジタルアシスタントシステムに「私は今どこにいますか?」等の質問をする場合がある。ユーザの現在のロケーションに基づき、デジタルアシスタントは、「あなたはセントラルパーク内の西門の近くにいます」と回答する場合がある。ユーザは、例えば、「私の友人を、来週の私のガールフレンドの誕生日パーティに招待して下さい」と述べることによって、タスク実行を要求する場合もある。それに応じて、デジタルアシスタントは、音声出力、「はい、ただ今」を生成することによって要求を了解し、次に、ユーザの電子メールアドレスから、ユーザの電子アドレス帳に載っているユーザの友人の各々に適切なカレンダー招待状を送信してもよい。情報又は種々のタスクの実行を要求するためにデジタルアシスタントと対話する方法は他にも数多く存在する。言葉による応答を提供し、プログラムされた動作を取ることに加えて、デジタルアシスタントは他の視覚又はオーディオ形式の応答を(例えば、テキスト、警報、音楽、ビデオ、アニメーション等として)提供することもできる。(【0018】)
[0028] 図1に示されているように、いくつかの実施形態では、デジタルアシスタントシステムはクライアント−サーバモデルに従って実施される。デジタルアシスタントシステムは、ユーザ機器(例えば、104a及び104b)上で実行されるクライアント側部分(例えば、102a及び102b)(以後、「デジタルアシスタント(DA(digital assistant))クライアント102」)、並びにサーバシステム108上で実行されるサーバ側部分106(以後「デジタルアシスタント(DA)サーバ106」)を含む。DAクライアント102は1つ以上のネットワーク110を通じてDAサーバ106と通信する。DAクライアント102は、ユーザ対応入力及び出力処理、並びにDAサーバ106との通信等のクライアント側機能性を提供する。DAサーバ106は、それぞれのユーザ機器104(クライアント機器とも呼ばれる)上に各々常駐する任意の数のDAクライアント102のためのサーバ側機能性を提供する。(【0019】))

(エ)「[0031] Examples of the user device 104 include, but are not limited to, a handheld computer, a personal digital assistant (PDA), a tablet computer, a laptop computer, a desktop computer, a cellular telephone, a smartphone, an enhanced general packet radio service (EGPRS) mobile phone, a media player, a navigation device, a game console, a television, a remote control, or a combination of any two or more of these data processing devices or any other suitable data processing devices. More details on the user device 104 are provided in reference to an exemplary user device 104 shown in Figure 2.」
(仮訳:
[0031] ユーザ機器104の例としては、限定するものではないが、ハンドヘルドコンピュータ、無線携帯情報端末(personal digital assistant、PDA)、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、セルラー電話、スマートフォン、拡張型汎用パケット無線サービス(enhanced general packet radio service、EGPRS)携帯電話、メディアプレーヤ、ナビゲーション機器、ゲームコンソール、テレビ、遠隔制御装置、又はこれらのデータ処理機器のうちの任意の2つ以上の組み合わせ、あるいは任意の他の好適なデータ処理機器が挙げられる。ユーザ機器104に関する更なる詳細が、図2に示される例示的なユーザ機器104に関して提供されている。(【0022】))

(オ)「[0038] In some embodiments, the user device 104 includes a camera subsystem 220 coupled to the peripherals interface 206. In some embodiments, an optical sensor 222 of the camera subsystem 220 facilitates camera functions, such as taking photographs and recording video clips. In some embodiments, the user device 104 includes one or more wired and/or wireless communication subsystems 224 provide communication functions. The communication subsystems 224 typically includes various communication ports, radio frequency receivers and transmitters, and/or optical (e.g., infrared) receivers and transmitters. In some embodiments, the user device 104 includes an audio subsystem 226 coupled to one or more speakers 228 and one or more microphones 230 to facilitate voice-enabled functions, such as voice recognition, voice replication, digital recording, and telephony functions.」
(仮訳:
[0038] いくつかの実施形態では、ユーザ機器104は、周辺装置インターフェース206に結合されるカメラサブシステム220を含む。いくつかの実施形態では、カメラサブシステム220の光学センサ222が、写真の撮影及びビデオクリップの録画等の、カメラ機能を促進する。いくつかの実施形態では、ユーザ機器104は、1つ以上の有線及び/又は無線通信サブシステム224を含む、通信機能を提供する。通信サブシステム224は通例、種々の通信ポート、無線周波数受信機及び伝送機、並びに/又は光(例えば、赤外線)受信機及び伝送機を含む。いくつかの実施形態では、ユーザ機器104は、音声認識、音声応答、デジタル録音、及び電話機能等の、音声使用可能機能を促進するために、1つ以上のスピーカ228及び1つ以上のマイクロフォン230に結合されるオーディオサブシステム226を含む。(【0029】))

(カ)「[0043] In various embodiments, the digital assistant client module 264 is capable of accepting voice input, text input, touch input, and/or gestural input through various user interfaces (e.g., the I/O subsystem 244) of the user device 104. The digital assistant client module 264 is also capable of providing output in audio, visual, and/or tactile forms. For example, output can be provided as voice, sound, alerts, text messages, menus, graphics, videos, animations, vibrations, and/or combinations of two or more of the above. During operation, the digital assistant client module 264 communicates with the digital assistant server (e.g., the digital assistant server 106, Figure 1) using the communication subsystems 224.
[0044] In some embodiments, the digital assistant client module 264 utilizes various sensors, subsystems and peripheral devices to gather additional information from the surrounding environment of the user device 104 to establish a context associated with a user input. In some embodiments, the digital assistant client module 264 provides the context information or a subset thereof with the user input to the digital assistant server (e.g. , the digital assistant server 106, Figure 1) to help deduce the user's intent.
[0045] In some embodiments, the context information that can accompany the user input includes sensor information, e.g. , lighting, ambient noise, ambient temperature, images or videos of the surrounding environment, etc. In some embodiments, the context information also includes the physical state of the device, e.g., device orientation, device location, device temperature, power level, speed, acceleration, motion patterns, cellular signals strength, etc. In some embodiments, information related to the software state of the user device 106, e.g., running processes, installed programs, past and present network activities, background services, error logs, resources usage, etc., of the user device 104 is also provided to the digital assistant server (e.g., the digital assistant server 106, Figure 1) as context information associated with a user input.」
(仮訳:
[0043] 種々の実施形態では、デジタルアシスタントクライアントモジュール264は、ユーザ機器104の種々のユーザインターフェース(例えば、I/Oサブシステム244)を通じて音声入力、テキスト入力、タッチ入力、及び/又はジェスチャ入力を受け入れる能力を有する。デジタルアシスタントクライアントモジュール264はまた、オーディオ、視覚、及び/又は触覚形態の出力を提供する能力も有する。例えば、出力は、音声、音響、警報、テキストメッセージ、メニュー、グラフィック、ビデオ、アニメーション、振動、及び/又は上記のもののうちの2つ以上の組み合わせとして提供することができる。動作時、デジタルアシスタントクライアントモジュール264は、通信サブシステム224を用いてデジタルアシスタントサーバ(例えば、デジタルアシスタントサーバ106、図1)と通信する。(【0034】)
[0044] いくつかの実施形態では、デジタルアシスタントクライアントモジュール264は、ユーザ入力に関連付けられるコンテクストを確立するために、種々のセンサ、サブシステム及び周辺機器を利用してユーザ機器104の周囲環境から追加情報を収集する。いくつかの実施形態では、デジタルアシスタントクライアントモジュール264は、ユーザの意図の推測を助けるために、ユーザ入力とともにコンテクスト情報又はそのサブセットをデジタルアシスタントサーバ(例えば、デジタルアシスタントサーバ106、図1)に提供する。(【0035】)
[0045] いくつかの実施形態では、ユーザ入力に付随し得るコンテクスト情報は、センサ情報、例えば、照明、環境ノイズ、周囲温度、周囲環境の画像又はビデオ、等を含む。いくつかの実施形態では、コンテクスト情報はまた、機器の物理的状態、例えば、機器配向、機器ロケーション、機器温度、電力レベル、速度、加速度、運動パターン、セルラー信号強度、等も含む。いくつかの実施形態では、ユーザ機器106のソフトウェア状態に関する情報、例えば、ユーザ機器104の実行中のプロセス、インストールされているプログラム、過去及び現在のネットワーク活動、バックグラウンドサービス、誤りログ、資源使用状況等も、ユーザ入力に関連付けられるコンテクスト情報としてデジタルアシスタントサーバ(例えば、デジタルアシスタントサーバ106、図1)に提供される。(【0036】))

(キ)「[0060] In some embodiments, the I/O processing module 328 interacts with the user through the I/O devices 316 or with a user device (e.g., a user device 104 in Figure 1) through the network communications interface 308 to obtain user input (e.g., a speech input) and to provide responses to the user input. The I/O processing module 328 optionally obtains context information associated with the user input from the user device, along with or shortly after the receipt of the user input. The context information includes user-specific data, vocabulary, and/or preferences relevant to the user input. In some embodiments, the context information also includes software and hardware states of the device (e.g. , the user device 104 in Figure 1) at the time the user request is received, and/or information related to the surrounding environment of the user at the time that the user request was received. In some embodiments, the I/O processing module 328 also sends follow-up questions to, and receives answers from, the user regarding the user request. In some embodiments, when a user request is received by the I/O processing module 328 and the user request contains a speech input, the I/O processing module 328 forwards the speech input to the speech-to-text (STT) processing module 330 for speech-to-text conversions.」
(仮訳:
[0060] いくつかの実施形態では、I/O処理モジュール328は、ユーザ入力(例えば、発語入力)を入手するため、及びユーザ入力への応答を提供するために、I/O機器316を通じてユーザと対話するか、又はネットワーク通信インターフェース308を通じてユーザ機器(例えば、図1におけるユーザ機器104)と対話する。I/O処理モジュール328は、ユーザ入力とともに、又はその受け取りの直後に、ユーザ入力に関連付けられるコンテクスト情報をユーザ機器から任意追加的に入手する。コンテクスト情報は、ユーザ入力に関連するユーザ固有のデータ、語彙、及び/又は設定を含む。いくつかの実施形態では、コンテクスト情報はまた、ユーザ要求が受け取られる時点における機器(例えば、図1におけるユーザ機器104)のソフトウェア及びハードウェア状態、並びに/又はユーザ要求が受け取られた時点におけるユーザの周囲環境に関する情報も含む。いくつかの実施形態では、I/O処理モジュール328はまた、ユーザ要求について、ユーザに補足質問を送信し、ユーザから回答を受け取る。いくつかの実施形態では、ユーザ要求がI/O処理モジュール328によって受け取られ、ユーザ要求が発語入力を包含する場合には、I/O処理モジュール328は発語入力を発語テキスト化変換のために発語テキスト化(STT)処理モジュール330へ転送する。(【0051】))

(ク)「[0063] In some embodiments, in addition to the sequence of words or tokens obtained from the speech-to-text processing module 330, the natural language processor 332 also receives context information associated with the user request (e.g., from the I/O processing module 328). The natural language processor 332 optionally uses the context information to clarify, supplement, and/or further define the information contained in the token sequence received from the speech-to-text processing module 330. The context information includes, for example, user preferences, hardware and/or software states of the user device, sensor information collected before, during, or shortly after the user request, prior interactions (e.g. , dialogue) between the digital assistant and the user, and the like.」
(仮訳:
[0063] いくつかの実施形態では、発語テキスト化処理モジュール330から入手される単語又はトークンの列に加えて、自然言語プロセッサ332はまた、ユーザ要求に関連付けられるコンテクスト情報も(例えば、I/O処理モジュール328から)受け取る。自然言語プロセッサ332は、発語テキスト化処理モジュール330から受け取られたトークン列内に包含されている情報を明らかにし、補完し、及び/又は更に明確にするために、コンテクスト情報を任意追加的に用いる。コンテクスト情報は、例えば、ユーザ設定、ユーザ機器のハードウェア及び/又はソフトウェア状態、ユーザ要求の前、最中、若しくは直後に集められたセンサ情報、デジタルアシスタントとユーザとの間の以前の対話(例えば、ダイアログ)、並びに同様のものを含む。(【0054】))

上記記載から、引用文献1には以下の事項が記載されている。
・上記[0001]、[0015]、[0027]によれば、引用文献1には、デジタルアシスタントシステムにおいて、デジタルアシスタントと対話する方法の発明が記載されている。
・上記[0026]によれば、用語「デジタルアシスタント」、「仮想アシスタント」、「インテリジェント自動アシスタント」、又は「自動デジタルアシスタント」は、口頭及び/又はテキスト形式の自然言語入力を解釈してユーザ意図を推測し(例えば、自然言語入力に対応するタスクの種類を特定し)、推測されたユーザ意図に基づき動作を実行する(例えば、特定されたタスクの種類に対応するタスクを実行する)あらゆる情報処理システムを指すものである。
・上記[0028]によれば、デジタルアシスタントシステムは、ユーザ機器(104a及び104b)上で実行されるクライアント側部分、並びにサーバシステム108上で実行されるサーバ側部分106を含むものである。
・上記[0031] によれば、ユーザ機器104は、ハンドヘルドコンピュータ、PDA、タブレットコンピュータ、スマートフォンなどである。
・上記[0038] によれば、ユーザ機器104は、カメラサブシステム220を含み、音声認識、音声応答、デジタル録音、及び電話機能等の、音声使用可能機能を促進するために、1つ以上のスピーカ228及び1つ以上のマイクロフォン230に結合されるオーディオサブシステム226を含むものである。
・上記[0043]、[0044]によれば、デジタルアシスタントクライアントモジュール264は、ユーザ機器104の種々のユーザインターフェース(例えば、I/Oサブシステム244)を通じて音声入力、テキスト入力、タッチ入力、及び/又はジェスチャ入力を受け入れる能力を有し、また、オーディオ、視覚、及び/又は触覚形態の出力を提供する能力も有し、ユーザの意図の推測を助けるために、ユーザ入力とともにコンテクスト情報又はそのサブセットをデジタルアシスタントサーバ106に提供するものである。
・上記[0045]によれば、ユーザ入力に付随し得るコンテクスト情報は、センサ情報、例えば、照明、環境ノイズ、周囲温度、周囲環境の画像又はビデオ等を含むものである。
・上記[0060]、[0063]によれば、ユーザ入力に関連付けられるコンテクスト情報は、ユーザ機器から任意追加的に入手するものであり、ユーザ入力に関連するユーザ固有のデータ、語彙、ユーザ設定、ユーザ機器のハードウェア及び/又はソフトウェア状態、ユーザ要求の前、最中、若しくは直後に集められたセンサ情報、デジタルアシスタントとユーザとの間の以前の対話(例えば、ダイアログ)を含むものである。
・上記[0027]によれば、例えば、ユーザはデジタルアシスタントシステムに「私は今どこにいますか?」等の質問をする場合があり、ユーザの現在のロケーションに基づき、デジタルアシスタントは、「あなたはセントラルパーク内の西門の近くにいます」と回答する場合があり、ユーザは、例えば、「私の友人を、来週の私のガールフレンドの誕生日パーティに招待して下さい」と述べることによって、タスク実行を要求する場合もあり、それに応じて、デジタルアシスタントは、音声出力、「はい、ただ今」を生成することによって要求を了解し、次に、ユーザの電子メールアドレスから、ユーザの電子アドレス帳に載っているユーザの友人の各々に適切なカレンダー招待状を送信するものである。

したがって、上記摘示事項及び図面を総合勘案すると、引用文献1には次の発明(以下「引用発明」という。)が記載されている。なお、(a)〜(e)は、説明のために当審で付与したものであり、以下、「構成a」〜「構成e」という。

(引用発明)
(a)デジタルアシスタントシステムにおいて、デジタルアシスタントと対話する方法であって、
(b)用語「デジタルアシスタント」、「仮想アシスタント」、「インテリジェント自動アシスタント」、又は「自動デジタルアシスタント」は、口頭及び/又はテキスト形式の自然言語入力を解釈してユーザ意図を推測し(例えば、自然言語入力に対応するタスクの種類を特定し)、推測されたユーザ意図に基づき動作を実行する(例えば、特定されたタスクの種類に対応するタスクを実行する)あらゆる情報処理システムを指すものであり、
(c1)デジタルアシスタントシステムは、ユーザ機器(104a及び104b)上で実行されるクライアント側部分、並びにサーバシステム108上で実行されるサーバ側部分106を含み、
(c2)ユーザ機器104は、ハンドヘルドコンピュータ、PDA、タブレットコンピュータ、スマートフォンなどであり、
(c3)ユーザ機器104は、カメラサブシステム220を含み、音声認識、音声応答、デジタル録音、及び電話機能等の、音声使用可能機能を促進するために、1つ以上のスピーカ228及び1つ以上のマイクロフォン230に結合されるオーディオサブシステム226を含むものであり、
(d1)デジタルアシスタントクライアントモジュール264は、ユーザ機器104の種々のユーザインターフェース(例えば、I/Oサブシステム244)を通じて音声入力、テキスト入力、タッチ入力、及び/又はジェスチャ入力を受け入れる能力を有し、また、オーディオ、視覚、及び/又は触覚形態の出力を提供する能力も有し、ユーザの意図の推測を助けるために、ユーザ入力とともにコンテクスト情報又はそのサブセットをデジタルアシスタントサーバ106に提供するものであり、
(d2)ユーザ入力に付随し得るコンテクスト情報は、センサ情報、例えば、照明、環境ノイズ、周囲温度、周囲環境の画像又はビデオ等を含み、
(d3)ユーザ入力に関連付けられるコンテクスト情報は、ユーザ機器から任意追加的に入手するものであり、ユーザ入力に関連するユーザ固有のデータ、語彙、ユーザ設定、ユーザ機器のハードウェア及び/又はソフトウェア状態、ユーザ要求の前、最中、若しくは直後に集められたセンサ情報、デジタルアシスタントとユーザとの間の以前の対話(例えば、ダイアログ)を含むものであり、
(e)例えば、ユーザはデジタルアシスタントシステムに「私は今どこにいますか?」等の質問をする場合があり、ユーザの現在のロケーションに基づき、デジタルアシスタントは、「あなたはセントラルパーク内の西門の近くにいます」と回答する場合があり、ユーザは、例えば、「私の友人を、来週の私のガールフレンドの誕生日パーティに招待して下さい」と述べることによって、タスク実行を要求する場合もあり、それに応じて、デジタルアシスタントは、音声出力、「はい、ただ今」を生成することによって要求を了解し、次に、ユーザの電子メールアドレスから、ユーザの電子アドレス帳に載っているユーザの友人の各々に適切なカレンダー招待状を送信する、
(a)デジタルアシスタントと対話する方法。

イ 引用文献2の記載及び引用文献2記載の技術事項
引用文献2には、図面とともに、次の技術事項が記載されている。なお、下線は当審で付した。

「【0001】
本発明の実施の形態は、音声認識特性を含むコンピュータプログラムに入力される発話の関連性の判定に関する。」

「【0003】
あらゆるボイス入力を処理することは、システムリソースに重い負荷を与え、全体的に効率が低下し、他の機能のために利用可能なハードウェアリソースの提供が制限されることになる。さらに、無関係のボイス入力の処理から回復することは、音声認識システムにとって難しく、しかも時間がかかる。同様に、関係のあるボイス入力に加えて、多くの無関係のボイス入力を処理しなければならないために、音声認識システムに混乱が生じて、不正確さが増大することになる。」

「【0014】
頭部チルト角に加えて、ユーザの発話に関連づけられる別の顔の向きの特徴はユーザの注視方向である。ユーザの注視方向とは、発話中にユーザの目が向いている方向のことである。ユーザの注視方向はまた、発話中のユーザの意図に関する情報を提供する。多くの状況で、ユーザは、話すとき自分のターゲットにアイコンタクトする。そのため、発話中のユーザの注視方向は、発話のターゲットが誰/何であるかを判定するのに役立つ。」

「【0019】
各アプリケーション/プラットフォームは、抽出された視覚的特徴(たとえば頭部チルト、視線など)と音響的特徴(たとえば音の到着方向などの局所情報など)にもとづいて発話の関連性を判定することができる。たとえば、あるアプリケーション/プラットフォーム(すなわち図2Eに示すような携帯電話、タブレットPC、携帯ゲーム機のようなハンドヘルドデバイス)はターゲットからの許容されるずれに関してより厳密であるが、他のアプリケーション/プラットフォーム(すなわち図2Aに示すようなテレビディスプレイをもつリビングルームセットアップ)は厳密ではない。これに加えて、よりよい決定をするために、決定木、ニューラルネットワークなどの機械学習アルゴリズムを用いてこれらのオーディオ−ビジュアルの特徴と発話の関連性の間のマッピングを学習するために、対象物から収集されるデータを用いることができる。あるいは、関連/非関連のバイナリの決定をする代わりに、抽出されたオーディオ−ビジュアルの特徴にもとづいて推定された確からしさのスコア(すなわち[0,1]の間の数値で0は非関連、1は関連)を、入力された発話フレームを重み付けするために音声認識エンジンに送ることができるようなシステムでは軟判定を用いることもできる。たとえば、ユーザの頭部チルト角が増加するにつれて、ユーザの発話の関連性は低くなる。同様に、ユーザの注視方向が特定のターゲットから逸脱するにつれて、ユーザの発話の関連性は低くなる。このように、ユーザの発話の重み付けされた関連性を用いて、その発話がさらに処理されるか、さらなる処理の前に破棄されるかを決定することができる。
【0020】
音声認識処理に先だって検出されたユーザの発話の関連性に重み付けすることによって、システムは、音声認識の全体的な正確性を向上させるとともにかなりのハードウェアリソースを節約することができる。関連性のない音声入力を破棄することによって、プロセッサの負担を減らし、無関係な発話を処理するのにかかわる混乱を減らせる。」

「【0042】
本発明の実施の形態は、携帯電話、タブレットコンピュータ、携帯情報端末、携帯インターネットデバイス、携帯ゲーム機その他のハンドヘルドデバイスに実装することもできる。」

上記記載から、引用文献2には以下の事項が記載されている。
・上記【0001】、【0003】によれば、引用文献2には、音声認識システムにおける発話の関連性の判定に関する技術が記載されている。
・上記【0014】によれば、発話中のユーザの注視方向は、発話中のユーザの意図に関する情報を提供し、発話のターゲットが誰/何であるかを判定するのに役立つものである。
・上記【0019】によれば、ユーザの発話の関連性は、ユーザの注視方向が特定のターゲットから逸脱するにつれて低くなる。
・上記【0019】、【0020】によれば、ユーザの発話の関連性は、ユーザの注視方向に基づいて推定された確からしさのスコア([0、1]の間の数値で0は非関連、1は関連)によって重み付けされる。
・上記【0019】によれば、発話の重み付けされた関連性を用いて、その発話がさらに処理されるか、さらなる処理の前に破棄されるかを決定している。
・上記【0020】によれば、関連性のない音声入力を破棄することによって、プロセッサの負担を減らし、無関係な発話を処理するのにかかわる混乱を減らすることができる。
・上記【0019】、【0042】によれば、引用文献2記載の発話の関連性を判定するための方法は、携帯電話、タブレットPC、携帯ゲーム機のようなハンドヘルドデバイスに実装することができるものである。

したがって、上記摘記事項及び図面を総合勘案すると、引用文献2には以下の技術(以下、「引用文献2記載の技術事項」という。)が記載されている。

「音声認識システムにおける発話の関連性の判定に関する技術であって、
発話中のユーザの注視方向は、発話中のユーザの意図に関する情報を提供し、発話のターゲットが誰/何であるかを判定するのに役立ち、
ユーザの発話の関連性は、ユーザの注視方向が特定のターゲットから逸脱するにつれて低くなり、
ユーザの発話の関連性は、ユーザの注視方向に基づいて推定された確からしさのスコア([0、1]の間の数値で0は非関連、1は関連)によって重み付けされ、
発話の重み付けされた関連性を用いて、その発話がさらに処理されるか、さらなる処理の前に破棄されるかを決定し、
関連性のない音声入力を破棄することによって、プロセッサの負担を減らし、無関係な発話を処理するのにかかわる混乱を減らすことができ、
携帯電話、タブレットPC、携帯ゲーム機のようなハンドヘルドデバイスに実装することができる、技術。」

(3)当審の判断
当審が通知した訂正前の請求項1〜5、11、17〜19に係る特許に対する取消理由とあわせて、上記「第2」「2(2)エ(ウ)」で述べた本件発明6、7、10、12、14、16の独立特許要件についてもここで検討することとし、本件発明1〜7、10〜12、14、16〜19についてまとめて判断する。

ア 本件発明1について
本件発明1と引用発明とを対比する。

(ア)構成Aについて
引用発明の「ユーザ機器104」は、構成c2の「ハンドヘルドコンピュータ、PDA、タブレットコンピュータ、スマートフォンなど」であり、構成Aの「電子デバイス」に相当する。
また、引用発明の「デジタルアシスタント」は、構成bのとおり「仮想アシスタント」と同じ意味で用いられており、本件発明1の「仮想アシスタント」に相当する。
そうすると、引用発明の構成aの「デジタルアシスタントと対話する方法」は、構成d1の「ユーザ機器104の種々のユーザインターフェース」を通じて、構成eのように「デジタルアシスタント」を動作させており、本件発明1の「電子デバイスにおいて仮想アシスタントを動作させる方法」に相当する。
したがって、引用発明は構成Aを備えている。

(イ)構成Bについて
引用発明の「ユーザ機器104」が構成c3の「マイクロフォン230に結合されるオーディオサブシステム226」を含み、構成eの「私は今どこにいますか?」及び「私の友人を、来週の私のガールフレンドの誕生日パーティに招待して下さい」といった音声入力を受け入れることは、本件発明1の「前記電子デバイスでオーディオ入力を受信する」ことに相当する。
したがって、引用発明は構成Bを備えている。

(ウ)構成Cについて
引用発明の構成eの「私の友人を、来週の私のガールフレンドの誕生日パーティに招待して下さい」という音声入力は、ユーザ要求を含んでおり、構成Cの「ユーザ要求を含む第1のユーザ発話入力」に相当する。
また、引用発明の構成bの「デジタルアシスタント」が「口頭」「の自然言語入力を解釈してユーザ意図を推測」することは、構成Cの「ユーザ発話入力を識別する」ことに相当する。
ここで、技術常識を考慮すると、引用発明の「デジタルアシスタント」が「口頭」「の自然言語入力を解釈してユーザ意図を推測」するために、ユーザによる音声入力を監視することは自明といえ、構成Cの「ユーザ発話入力を識別するために前記オーディオ入力を監視する」ことに相当する。
したがって、引用発明は構成Cを備えている。

(エ)構成Dについて
引用発明の構成bの「デジタルアシスタント」が「口頭」「の自然言語入力を解釈してユーザ意図を推測」することは、音声入力中に逐次行われることが明白であり、構成Dの「前記オーディオ入力中の前記第1のユーザ発話入力を識別する」ことに相当する。
したがって、引用発明は構成Dを備えている。

(オ)構成Eについて
本件発明1の「文脈情報」について、本件明細書の発明の詳細な説明には、
「【0024】
いくつかの実施形態において、ユーザ入力に付随する文脈情報は、照明、周囲の騒音、周囲の温度などのセンサ情報、周囲環境の画像又は映像、別の物体までの距離などを含むことができる。文脈情報は、ユーザデバイス102の物理的状態(例えば、デバイスの向き、デバイスの場所、デバイスの温度、電力レベル、速度、加速度、運動パターン、セルラ信号強度など)又はユーザデバイス102のソフトウェア状態(例えば、実行中の処理、インストール済プログラム、過去及び現在のネットワーク活動、バックグラウンドサービス、エラー記録、資源利用率、フロントモーストアプリケーションなど)と関連付けられた情報を更に含むことができる。これらの種類の文脈情報はいずれも、ユーザ入力と関連する文脈情報として仮想アシスタントサーバに提供できる。更に、文脈情報は、脈拍、手のひらの温度、音声品質、顔の表情などの生体測定ユーザデータを更に含むことができる。」
と記載されている(下線は当審で付与)。

上記【0024】によれば、引用発明の構成d2、d3の「コンテクスト情報」は、本件発明1の「文脈情報」と同様の内容を含むものであり、引用発明の「コンテクスト情報」は本件発明1の「文脈情報」に相当する。
また、引用発明の構成eの「ユーザの現在のロケーション」は、構成d3のユーザ入力に関連する「コンテクスト情報」に対応し、引用発明のデジタルアシスタントは、コンテクスト情報に基づいて「あなたはセントラルパーク内の西門の近くにいます」という回答を音声出力する処理を行っている。
そうすると、引用発明と本件発明1は「前記第1のユーザ発話入力に関連する文脈情報に基づいて処理を行う」点で共通する。
ただし、本件発明1は、構成Eの「前記第1のユーザ発話入力に関連する文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第1のユーザ発話入力と以前のユーザ発話入力との間の意味的関係とを含」むのに対して、引用発明はそのような構成を備えていない点で相違する。

(カ)構成E1〜E1dについて
本件発明1は、構成Eの「判定すること」が構成E1〜E1dの「前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させること」を含むのに対して、引用発明はそのような処理を含まない点で相違する。

(キ)構成E2〜E3bについて
本件発明1は、構成Eの「判定すること」がさらに構成E2〜E3bの「前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定すること」を含むのに対して、引用発明はそのような処理を含まない点で相違する。

(ク)構成F1、F2について
本件発明1は、構成Eの「判定すること」の結果に応じて、構成F1の「前記第1のユーザ発話入力に応答するとの判定に応じて、前記第1のユーザ発話入力に対する応答を生成することと、第2のユーザ発話入力を識別するために前記オーディオ入力を監視すること」と、構成F2の「前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視すること」を備えるのに対して、引用発明はそのような処理を備えていない点で相違する。

(ケ)したがって、本件発明1と引用発明との間の一致点及び相違点は、以下のとおりである。

<一致点>
(A)電子デバイスにおいて仮想アシスタントを動作させる方法であって、
(B)前記電子デバイスでオーディオ入力を受信することと、
(C)ユーザ要求を含む第1のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
(D)前記オーディオ入力中の前記第1のユーザ発話入力を識別することと、
(E’)前記第1のユーザ発話入力に関連する文脈情報に基づいて処理を行うことと
(A)を備えることを特徴とする方法。

<相違点1>
本件発明1は、構成Eの「前記第1のユーザ発話入力に関連する文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第1のユーザ発話入力と以前のユーザ発話入力との間の意味的関係とを含」むのに対して、引用発明はそのような構成を備えていない点。

<相違点2>
本件発明1は、構成Eの「判定すること」が構成E1〜E1dの「前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させること」を含むのに対して、引用発明はそのような処理を含まない点。

<相違点3>
本件発明1は、構成Eの「判定すること」がさらに構成E2〜E3bの「前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定すること」を含むのに対して、引用発明はそのような処理を含まない点。

<相違点4>
本件発明1は、構成Eの「判定すること」の結果に応じて、構成F1の「前記第1のユーザ発話入力に応答するとの判定に応じて、前記第1のユーザ発話入力に対する応答を生成することと、第2のユーザ発話入力を識別するために前記オーディオ入力を監視すること」と、構成F2の「前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視すること」を備えるのに対して、引用発明はそのような処理を備えていない点。

最初に、相違点1〜3についてまとめて検討する。
本件発明1は、構成E〜E1dを言い換えれば、要するに「ユーザの注視の方向」に加え「ユーザ発話入力と以前のユーザ発話入力との間の意味的関係」に基づいて、ユーザ発話入力に応答するか否かを判定することを備えた方法である。

ここで、引用文献2には、
「音声認識システムにおける発話の関連性の判定に関する技術であって、
発話中のユーザの注視方向は、発話中のユーザの意図に関する情報を提供し、発話のターゲットが誰/何であるかを判定するのに役立ち、
ユーザの発話の関連性は、ユーザの注視方向が特定のターゲットから逸脱するにつれて低くなり、
ユーザの発話の関連性は、ユーザの注視方向に基づいて推定された確からしさのスコア([0、1]の間の数値で0は非関連、1は関連)によって重み付けされ、
発話の重み付けされた関連性を用いて、その発話がさらに処理されるか、さらなる処理の前に破棄されるかを決定し、
関連性のない音声入力を破棄することによって、プロセッサの負担を減らし、無関係な発話を処理するのにかかわる混乱を減らすことができ、
携帯電話、タブレットPC、携帯ゲーム機のようなハンドヘルドデバイスに実装することができる、技術。」
が記載されている(上記「(2)イ」参照)。
しかしながら、引用文献2には、「発話中のユーザの注視方向」に加え「ユーザ発話入力と以前のユーザ発話入力との間の意味的関係」に基づいて、ユーザ発話入力に応答するか否かを判定することは記載も示唆もない。
また、音声入力を受け付けるシステムにおいて、「ユーザ発話入力と以前のユーザ発話入力との間の意味的関係」に基づいて、ユーザ発話入力に応答するか否かを判定することが技術常識であることの証拠はない。
したがって、上記相違点4について検討するまでもなく、本件発明1は、引用発明及び引用文献2に記載された技術的事項に基いて当業者が容易に発明をすることができたものではない。
よって、本件発明1は、特許法第29条第2項の規定に違反してされたものではない。

イ 本件発明2〜7、10〜12、14、16、17について
本件発明2〜7、10〜12、14、16、17は、請求項1を引用するものであり、本件発明1に対して、さらに限定した構成を追加したものである。
よって、上記アに示した理由と同様の理由により、本件発明2〜7、10〜12、14、16、17は、特許法第29条第2項の規定に違反するものではない。

ウ 本件発明18、19について
本件発明18、19は、それぞれ、本件発明1に対応する「プログラム」、「システム」のカテゴリの発明として特定したものであり、上記アで検討した相違点1〜4に係る、本件発明1の構成E〜F2と同じ構成を含むものである。
よって、上記アに示した理由と同様の理由により、本件発明18、19は、特許法第29条第2項の規定に違反してされたものではない。

エ まとめ
以上のとおりであるから、訂正前の請求項1〜5、11、17〜19に係る特許に対して、当審が特許権者に通知した取消理由は、本件訂正によって全て解消した。
また、本件発明6、7、10、12、14、16は、特許法第29条第2項の規定に違反するものではない。

3 取消理由通知において採用しなかった特許異議申立理由について
(1)申立理由(特許法第29条第2項)の概要
ア 訂正前の請求項1〜5、8、17〜19について
訂正前の請求項1〜5、8、17〜19に係る発明は、下記の甲第1号証に記載の発明に基づいて、当業者が容易に発明をすることができたものである。

イ 訂正前の請求項9、13、15について
訂正前の請求項9、13、15に係る発明は、下記の甲第1号証に記載の発明、及び甲第2号証に記載の発明に基づいて、当業者が容易に発明をすることができたものである。

ウ 訂正前の請求項11について
訂正前の請求項11に係る発明は、下記の甲第1号証に記載の発明、及び甲第3号証に記載の発明に基づいて、当業者が容易に発明をすることができたものである。

エ 証拠
甲第1号証:特開2012−220959号公報(引用文献2)
甲第2号証:米国特許出願公開第2013/0144616号明細書
甲第3号証:特開2012−40655号公報

(2)各甲号証の記載事項
ア 甲第1号証
甲第1号証の記載事項に関しては、上記「2(2)イ 引用文献2の記載及び引用文献2記載の技術事項」に記載のとおりであり、以下、引用文献2記載の技術事項のことを「甲1発明」と言い換える。

イ 甲第2号証
甲第2号証には、図面とともに、次の事項が記載されている。括弧内は記載箇所を示し、仮訳を付した。また、下線は当審で付与した。

(ア)「Disclosed herein are systems, methods, and non-transitory computer-readable storage media for processing speech. A system configured to practice the method monitors user utterances to generate a conversation context. Then the system receives a current user utterance independent of non-natural language input intended to trigger speech processing. The system compares the current user utterance to the conversation context to generate a context similarity score, and if the context similarity score is above a threshold, incorporates the current user utterance into the conversation context. If the context similarity score is below the threshold, the system discards the current user utterance.」(ABSTRACT)
(仮訳:
ここで開示されているのは、音声を処理するためのシステム、方法、および非一過性のコンピュータ読み取り可能な記憶媒体である。当該方法を実行するように構成されたシステムは、会話の文脈を生成するためにユーザの発話を監視する。そして、システムは、音声処理の動作開始を意図した非自然言語入力には依存しない、現在のユーザの発話を受信する。システムは、文脈類似度スコアを生成するために、現在のユーザの発話を会話の文脈と比較し、文脈類似度スコアが閾値を超えていれば、現在のユーザの発話を会話の文脈に組み込む。文脈類似度スコアが閾値を下回る場合、システムは、現在のユーザの発話を破棄する。)

(イ)「The present disclosure relates to speech processing and more specifically to using conversation context to determine which portions of continuously monitored speech are relevant.」([0002])
(仮訳:
本発明は、音声処理に関し、より詳細には連続的にモニターされる発話のどの部分が関連しているかを決定するために会話の文脈を使用することに関する。)

(ウ)「For example, the user 202 is interacting with the server 208 via a speech interface to dictate an email to a co-worker. In the middle of dictation, another user 204 enters the room and hijacks the user's 202 attention. The utterance monitor 210 and/or the context monitor 214 can detect that the topic of the conversation changes as the user 202 interacts with the other user 204, and ignore or discard those utterances. During this time, the context database 212 can continue to maintain the email dictation context. After the user 202 and the other user 204 are done interacting, the user 202 can return to the email dictation and continue dictating the email. In this example, the user 202 can immediately resume dictating without explaining to the system how to handle the speech, and without providing some explicit signal such as a button press, gesture, or uttering a key phrase or ‘hot’ word.」([0030])
(仮訳:
例えば、ユーザ202は、同僚宛の電子メールを口述して書き取らせるために、会話インターフェースを介してサーバ208と対話している。口述書き取りの途中で、別のユーザ204が部屋に入り、ユーザ202の注意を奪う。発話監視装置210及び/又は文脈監視装置214は、ユーザ202が別のユーザ204と対話するときに会話の話題が変化することを検出し、それらの発話を無視または破棄することができる。この間、文脈データベース212は、電子メールの口述書き取りの文脈を保っておくことができる。ユーザ202と別のユーザ204との会話が完了した後、ユーザ202は、電子メールの口述書き取りに戻り、電子メールの口述書き取りを続けることができる。この例では、ユーザ202は、さきほどの会話をどう扱うかをシステムに説明することなく、また、ボタンの押下、ジェスチャ、又は、キーフレーズ若しくは「ホット」ワードの発生などの明示的な信号を提供することなく、すぐに口述書き取りを再開できる。)

上記(ア)〜(ウ)によれば、甲第2号証には、音声処理に関して、次の技術が記載されている。

「現在のユーザの発話を、連続的にモニターされて監視されている当該ユーザによる会話の文脈と比較して、文脈類似度スコアを生成し、文脈類似度スコアが閾値を超えていれば、現在のユーザの発話を会話の文脈に組み込み、文脈類似度スコアが閾値を下回っていれば、現在のユーザの発話を破棄すること。」

ウ 甲第3号証
甲第3号証には、図面とともに、次の事項が記載されている。下線は当審で付与した。

(ア)「【0001】
本発明は、自律動作可能なロボットの制御に関する。」

(イ)「【0028】
対話要求検出部46は、ロボット10に対する対話要求を検出するものであり、特徴データ記録部60、検出部62、および検出イベント出力部64を含んで構成される。例えば、対話要求検出部46は、ロボット10の周囲にいる人がロボット10に向かって話しかけたことを示す対話要求と、話しかけた音声の到来方向を検出する。なお、ロボット10に対する対話要求とは、ロボット10のみに対して話しかける場合に限られず、会議の参加者がロボット10を含む複数の参加者に対して話しかける場合も含まれる。
【0029】
特徴データ記録部60には、会議の参加者の音声や画像の特徴を示す特徴データ(例えば特徴ベクトル)を記録することができる。この特徴データは、例えば、会議の開始前に、ビデオカメラ24で参加者の顔を撮影したり、マイクアレイ26で参加者の音声を取得することにより生成することができる。この場合、特徴データ記録部60には、参加者の人物/対象物IDと対応付けて特徴データを記録することが可能である。また、会議の参加者ではなく、人の音声や顔の一般的な特徴を示す特徴データが特徴データ記録部60に記録されることとしてもよい。
【0030】
検出部62は、ビデオカメラ24から出力される画像データや、マイクアレイ26から出力される音声データに基づいて、ロボット10に対する対話要求を検出する。また、検出部62は、マイクアレイ26を構成する複数のマイクへの音の到達時間の差を用いて、人の音声の到来方向を検出することができる。また、検出部62は、ビデオカメラ24から出力される画像データにより、ロボット10に視線が向いている人の位置や方向を検出したり、人の顔の動きを検出したりすることができる。
【0031】
さらに、検出部62は、ビデオカメラ24から出力される画像データやマイクアレイ26から出力される音声データと、特徴データ記録部60に記録されている特徴データとに基づいて、対話要求の検出の信頼度を算出する。例えば、検出部62は、音声データや画像データから生成される特徴データと、特徴データ記録部60に記録されている特徴データの類似度を、従来のパターン認識技術(例えば、線形判別分析)を用いて算出し、信頼度として用いることができる。なお、特徴データ記録部60に、特徴データが人物/対象物IDと対応付けて記録されている場合であれば、検出部62は、検出された対話要求に対応する人物を示す人物/対象物IDを特定することができる。
【0032】
検出イベント出力部64は、検出部62によって検出された対話要求を示す検出イベント(検出データ)を出力する。検出イベントには、例えば、音声の到来方向や、ロボット10に視線が向いている人の方向、人物/対象物ID等の対話要求の内容を示すデータに加えて、算出された信頼度が含まれる。
【0033】
動作制御部48は、動作データ記録部40に記録されている動作データ、または、対話要求検出部46から出力される検出イベントに応じて、ロボット10の動作を制御する。例えば、動作制御部48は、ネットワーク12経由で送信されてくるコマンドに応じた動作データを動作データ記録部40から読み出し、動作データに応じてロボット10の動作を制御する。また、動作制御部48は、対話要求検出部46から、音声の到来方向が検出されたことを示す検出イベントを受信すると、信頼度が所定の閾値(所定レベル)より高い場合は、検出イベントに応じてロボット10の動作を制御する。例えば、動作制御部48は、ロボット10の頭部または胴体部が音声の到来方向に向くように、頭部アクチュエータ20や体部アクチュエータ22を制御する。」

上記(ア)、(イ)によれば、甲第3号証には、自律動作可能なロボットの制御に関して、次の技術が記載されている。

「ロボットに対する対話要求を検出し、検出した音声データや画像データから生成される特徴データと、発話により対話を要求した人物のIDと対応付けて記録された特徴データとに基づき、ロボットに対する対話要求の検出の信頼度を算出し、信頼度が所定の閾値(所定レベル)より高い場合には、検出イベントに応じてロボットの動作を制御すること。」

(3)当審の判断
本件発明1〜5、8、11、13、15、17〜19の「仮想アシスタント」について、本件明細書の【0002】には、ユーザが発話及び/又はテキストの形で自然言語を使用して対話できることや、出力を自然言語の形でユーザへ返送することが記載されている。
一方、甲1発明は、携帯電話、タブレットPC、携帯ゲーム機のようなハンドヘルドデバイスにおいて、そのような「仮想アシスタント」を動作させておらず、本件発明のようにユーザが電子デバイスで動作する「仮想アシスタント」に対して発話入力を行い、「仮想アシスタント」がユーザ発話入力に対して応答を提供するものではない。
また、甲第2、3号証記載の技術事項も、電子デバイスにおいて「仮想アシスタント」を動作させるものではない。
そうすると、甲1発明に甲第2、3号証記載の技術事項を適用したとしても、仮想アシスタントを動作させて、発話中のユーザの注視方向に基づいてユーザ発話入力に応答するか否かを判定する構成に至らない。

なお、申立人は、特許異議申立書において、
「本件特許発明1の『仮想アシスタント』については、本件明細書の段落0008に『発話・・・(略)・・・の形の自然言語を解釈し且つ推測されたユーザの意図に基づいてアクションを実行する何らかの情報システム』であればよいとの説明があることを考慮すると、甲1発明における『電子デバイスにおいて音声認識を実装するプログラムがタスクを実行する方法』は、本件特許発明1における『電子デバイスにおいて仮想アシスタントを動作させる方法』に相当する。」(審判請求書の32頁下から2行目〜33頁5行)
と主張している。
しかしながら、仮に甲1発明が「仮想アシスタント」を動作させるものであったとしても、本件発明1、18、19は本件訂正により、「ユーザの注視の方向」に加え「ユーザ発話入力と以前のユーザ発話入力との間の意味的関係」に基づいて、ユーザ発話入力に応答するか否か判定することを含むものとなった。
本件発明1を引用する本件発明2〜5、11、17についても同様である。
また、本件発明8、13、15も「ユーザの注視の方向」に加えて、さらに「ユーザ発話入力が自動音声認識装置により認識されたか否かを示す指標」(請求項8)や「ユーザ発話入力と、前記ユーザ発話入力が受信されたときに電子デバイスにより表示されていたコンテンツとの間の意味的関係」(本件発明13)、または「ユーザ発話入力と電子デバイスの以前の出力との間の意味的関係」(本件発明15)に基づいて、ユーザ発話入力に応答するか否か判定することを含むものである。
甲第2、3号証記載の技術事項は、そのような「ユーザの注視の方向」に加え「ユーザ発話入力と以前のユーザ発話入力との間の意味的関係」などに基づいて、ユーザ発話入力に応答するか否かを判定することを示唆するものではない。
したがって、申立人の異議理由を採用することはできない。

第4 むすび
以上のとおりであるから、取消理由通知に記載した取消理由及び特許異議申立書に記載した特許異議申立理由によっては、請求項1〜5、8、11、13、15、17〜19に係る特許を取り消すことはできない。
また、他に請求項1〜5、8、11、13、15、17〜19に係る特許を取り消すべき理由を発見しない。
そして、請求項9は削除されたことから、申立ての対象が存在しないものとなった。
よって、結論のとおり決定する。
 
発明の名称 (57)【特許請求の範囲】
【請求項1】
電子デバイスにおいて仮想アシスタントを動作させる方法であって、
前記電子デバイスでオーディオ入力を受信することと、
ユーザ要求を含む第1のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記オーディオ入力中の前記第1のユーザ発話入力を識別することと、
前記第1のユーザ発話入力に関連する文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第1のユーザ発話入力と以前のユーザ発話入力との間の意味的関係とを含み、前記判定することは、
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、
前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、
前記尤度スコアを閾値と比較することと、
前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、
前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定することと、を含む、ことと、
前記第1のユーザ発話入力に応答するとの判定に応じて、
前記第1のユーザ発話入力に対する応答を生成することと、
第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと
を備えることを特徴とする方法。
【請求項2】
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することは、前記第1のユーザ発話入力の開始時の1つ以上の所定の語を識別せずに行われることを特徴とする請求項1記載の方法。
【請求項3】
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することは、前記第1のユーザ発話入力を受信する前に受信された物理的ボタン入力又は仮想ボタン入力を識別せずに行われることを特徴とする請求項1記載の方法。
【請求項4】
前記第1のユーザ発話入力に対する前記応答を生成することは、
前記第1のユーザ発話入力に対して音声からテキストへの変換を実行することと、
前記第1のユーザ発話入力に基づいてユーザの意図を判定することと、
前記第1のユーザ発話入力に基づいて実行されるタスクを判定することと、
前記第1のユーザ発話入力に基づいて実行される前記タスクのパラメータを判定することと、
前記実行されるタスクを実行することと、
前記第1のユーザ発話入力に対するテキスト応答を表示することと、
前記第1のユーザ発話入力に対するオーディオ応答を出力することと
のうち1つ以上を含むことを特徴とする請求項1乃至3の何れか1項に記載の方法。
【請求項5】
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することは、
前記第1のユーザ発話入力に関連する前記文脈情報に依存する1つ以上の条件付き規則を評価すること
を含むことを特徴とする請求項1乃至3の何れか1項に記載の方法。
【請求項6】
前記文脈情報は、前記第1のユーザ発話入力の受信と以前のユーザ入力との間の経過時間を含み、前記仮想アシスタントが前記文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである尤度スコアを計算することは、
前記経過時間の値が持続時間の閾値より大きいことに応じて前記尤度スコアを減少させることと、
前記経過時間の値が前記持続時間の閾値より小さいことに応じて前記尤度スコアを増加させることと
を含むことを特徴とする請求項1乃至3の何れか1項に記載の方法。
【請求項7】
前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザと前記電子デバイスとの間の距離を含み、前記仮想アシスタントが前記文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、
前記距離が距離の閾値より長いことに応じて前記尤度スコアを減少させることと、
前記距離が前記距離の閾値より短いことに応じて前記尤度スコアを増加させることと
を含むことを特徴とする請求項1乃至3の何れか1項に記載の方法。
【請求項8】
電子デバイスにおいて仮想アシスタントを動作させる方法であって、
前記電子デバイスでオーディオ入力を受信することと、
ユーザ要求を含む第1のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記オーディオ入力中の前記第1のユーザ発話入力を識別することと、
前記第1のユーザ発話入力に関連する文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第1のユーザ発話入力が自動音声認識装置により認識されたか否かを示す指標とを含み、前記判定することは、
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、
前記第1のユーザ発話入力が前記自動音声認識装置により認識されたことを示す指標に応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が前記自動音声認識装置により認識されなかったことを示す指標に応じて前記尤度スコアを減少させることと、を含む、ことと、
前記尤度スコアを閾値と比較することと、
前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、
前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定することと、を含む、ことと、
前記第1のユーザ発話入力に応答するとの判定に応じて、
前記第1のユーザ発話入力に対する応答を生成することと、
第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと
を備えることを特徴とする方法。
【請求項9】
(削除)
【請求項10】
前記文脈情報は前記第1のユーザ発話入力の長さを含み、前記仮想アシスタントが前記文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、
前記第1のユーザ発話入力の前記長さが長さの閾値より短いことに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力の前記長さが前記長さの閾値より長いことに応じて前記尤度スコアを減少させることと
を含むことを特徴とする請求項1乃至3の何れか1項に記載の方法。
【請求項11】
前記文脈情報は、前記第1のユーザ発話入力の発話者のIDを含むことを特徴とする請求項1乃至3の何れか1項に記載の方法。
【請求項12】
前記文脈情報は、前記第1のユーザ発話入力が受信された時刻を含み、前記仮想アシスタントが前記文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、
前記時刻が所定の1組の時刻の中に含まれることに応じて前記尤度スコアを増加させることと、
前記時刻が前記所定の1組の時刻の中に含まれないことに応じて前記尤度スコアを減少させることと
を含むことを特徴とする請求項1乃至3の何れか1項に記載の方法。
【請求項13】
電子デバイスにおいて仮想アシスタントを動作させる方法であって、
前記電子デバイスでオーディオ入力を受信することと、
ユーザ要求を含む第1のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記オーディオ入力中の前記第1のユーザ発話入力を識別することと、
前記第1のユーザ発話入力に関連する文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第1のユーザ発話入力と、前記第1のユーザ発話入力が受信されたときに前記電子デバイスにより表示されていたコンテンツとの間の意味的関係とを含み、前記判定することは、
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、
前記意味的関係の値がコンテンツ意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、
前記意味的関係の前記値が前記コンテンツ意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、
前記尤度スコアを閾値と比較することと、
前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、
前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定することと、を含む、ことと、
前記第1のユーザ発話入力に応答するとの判定に応じて、
前記第1のユーザ発話入力に対する応答を生成することと、
第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと
を備えることを特徴とする方法。
【請求項14】
前記文脈情報は、前記第1のユーザ発話入力が受信されたときに前記ユーザにより実行されていたジェスチャーを含み、前記仮想アシスタントが前記文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、
前記ジェスチャーが所定の1組のジェスチャーのうち1つのジェスチャーであることに応じて前記尤度スコアを増加させることと、
前記ジェスチャーが前記所定の1組のジェスチャーのうち1つのジェスチャーではないことに応じて前記尤度スコアを減少させることと
を含むことを特徴とする請求項1乃至3の何れか1項に記載の方法。
【請求項15】
電子デバイスにおいて仮想アシスタントを動作させる方法であって、
前記電子デバイスでオーディオ入力を受信することと、
ユーザ要求を含む第1のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記オーディオ入力中の前記第1のユーザ発話入力を識別することと、
前記第1のユーザ発話入力に関連する文脈情報に基づいて前記1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第1のユーザ発話入力と前記電子デバイスの以前の出力との間の意味的関係とを含み、前記判定することは、
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、
前記意味的関係の値が以前の出力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、
前記意味的関係の値が前記以前の出力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、
前記尤度スコアを閾値と比較することと、
前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、
前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定することと、を含む、ことと、
前記第1のユーザ発話入力に応答するとの判定に応じて、
前記第1のユーザ発話入力に対する応答を生成することと、
第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと
を備えることを特徴とする方法。
【請求項16】
前記文脈情報は、前記第1のユーザ発話入力と以前のEメールとの間の意味的関係を含み、前記仮想アシスタントが前記文脈情報に基づいて前記第1のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、
前記第1のユーザ発話入力と前記以前のEメールとの間の前記意味的関係の値が以前のEメールの意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力と前記以前のEメールとの間の前記意味的関係の値が前記以前のEメールの意味の閾値より小さいことに応じて前記尤度スコアを減少させることと
を含むことを特徴とする請求項1乃至3の何れか1項に記載の方法。
【請求項17】
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することは、前記第1のユーザ発話入力が受信されたときの前記ユーザの注視の方向を判定することを含む、請求項1記載の方法。
【請求項18】
1つ以上のプロセッサによる実行のためのプログラムであって、
オーディオ入力を受信することと、
ユーザ要求を含む第1のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記オーディオ入力中の前記第1のユーザ発話入力を識別することと、
前記第1のユーザ発話入力に関連する文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第1のユーザ発話入力と以前のユーザ発話入力との間の意味的関係とを含み、前記判定することは、
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が電子デバイスを指していることに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、
前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、
前記尤度スコアを閾値と比較することと、
前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、
前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定することと、を含む、ことと、
前記第1のユーザ発話入力に応答するとの判定に応じて、
前記第1のユーザ発話入力に対する応答を生成することと、
第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと
のための命令を含むことを特徴とするプログラム。
【請求項19】
仮想アシスタントを動作させるシステムであって、
1つ以上のプロセッサと、
メモリと、
1つ以上のプログラムと
を備え、前記1つ以上のプログラムは、前記メモリに格納され、前記1つ以上のプロセッサによって実行されるように構成され、前記1つ以上のプログラムは、
オーディオ入力を受信することと、
ユーザ要求を含む第1のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記オーディオ入力中の前記第1のユーザ発話入力を識別することと、
前記第1のユーザ発話入力に関連する文脈情報に基づいて前記第1のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第1のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第1のユーザ発話入力と以前のユーザ発話入力との間の意味的関係とを含み、前記判定することは、
前記第1のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第1のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が電子デバイスを指していることに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、
前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、
前記第1のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、
前記尤度スコアを閾値と比較することと、
前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第1のユーザ発話入力に応答すると判定することと、
前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第1のユーザ発話入力に応答しないと判定することと、を含む、ことと、
前記第1のユーザ発話入力に応答するとの判定に応じて、
前記第1のユーザ発話入力に対する応答を生成することと、
第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと、
前記第1のユーザ発話入力に応答しないという判定に応じて、前記第1のユーザ発話入力に対する応答を生成せずに、前記第2のユーザ発話入力を識別するために前記オーディオ入力を監視することと
のための命令を含むことを特徴とするシステム。
 
訂正の要旨 審決(決定)の【理由】欄参照。
異議決定日 2022-05-16 
出願番号 P2018-087328
審決分類 P 1 652・ 121- YAA (G10L)
最終処分 07   維持
特許庁審判長 千葉 輝久
特許庁審判官 五十嵐 努
樫本 剛
登録日 2020-04-27 
登録番号 6697024
権利者 アップル インコーポレイテッド
発明の名称 手動始点/終点指定及びトリガフレーズの必要性の低減  
代理人 大塚 康徳  
代理人 永川 行光  
代理人 大塚 康徳  
代理人 木村 秀二  
代理人 大塚 康弘  
代理人 下山 治  
代理人 特許業務法人大塚国際特許事務所  
代理人 高柳 司郎  
代理人 特許業務法人大塚国際特許事務所  
代理人 高柳 司郎  
代理人 下山 治  
代理人 永川 行光  
代理人 大塚 康弘  
代理人 木村 秀二  

プライバシーポリシー   セキュリティーポリシー   運営会社概要   サービスに関しての問い合わせ