異議の決定｜2020-700879 - 特許審決データベース

会員機能

ランキング

請求人別審判件数

判例データベース

審決データベース

ポートフォリオ機能

ポートフォリオを新規に作成して保存		追加
既存のポートフォリオに追加保存		追加

この審決の個人情報、企業機密に関する修正依頼をする

PDF	PDFをダウンロード

審決分類	審判一部申し立て 2項進歩性 G10L
管理番号	1387457
総通号数	8
発行国	JP
公報種別	特許決定公報
発行日	2022-08-26
種別	異議の決定
異議申立日	2020-11-17
確定日	2022-05-27
異議申立件数	1
訂正明細書	true
事件の表示	特許第６６９７０２４号発明「手動始点／終点指定及びトリガフレーズの必要性の低減」の特許異議申立事件について、次のとおり決定する。
結論	特許第６６９７０２４号の特許請求の範囲を訂正請求書に添付された特許請求の範囲のとおり、訂正後の請求項〔１～１７〕、１８、１９について訂正することを認める。特許第６６９７０２４号の請求項１～５、８、１１、１３、１５、１７～１９に係る特許を維持する。特許第６６９７０２４号の請求項９に係る特許に対する特許異議の申立てを却下する。
理由	第１手続の経緯特許第６６９４７０２４号（以下、「本件特許」という。）の請求項１～１９に係る特許についての出願（以下、「本願」という。）は、平成２７年（２０１５年）５月２８日に出願した特願２０１５－１０９０８７号（パリ条約による優先権主張２０１４年５月３０日米国、２０１４年９月３０日米国）の一部を、平成３０年（２０１８年）４月２７日に新たな特許出願としたものであって、令和２年４月２７日に特許権の設定登録がされ、同年５月２０日に特許掲載公報が発行された。これに対して、同年１１月１７日にその請求項１～５、８、９、１１、１３、１５、１７～１９に係る特許に対して特許異議申立人田中貞嗣、小山卓志（以下、「申立人」という。）により特許異議の申立てがされた。その後の手続の経緯は以下のとおりである。令和３年３月１２日付け取消理由通知同年６月１５日意見書提出（特許権者）同年１０月８日付け取消理由通知（決定の予告）令和４年１月７日意見書提出及び訂正請求（特許権者）なお、令和４年１月７日付け訂正請求に対する申立人からの意見書の提出はなかった。第２訂正の適否１訂正の内容令和４年１月７日付けの訂正請求による訂正（以下「本件訂正」という。）の内容は以下の訂正事項のとおりである（下線は訂正部分を示す。）。（１）訂正事項１ア特許請求の範囲の請求項１に「電子デバイスにおいて仮想アシスタントを動作させる方法であって、前記電子デバイスでオーディオ入力を受信することと、ユーザ要求を含む第１のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記オーディオ入力中の前記第１のユーザ発話入力を識別することと、前記第１のユーザ発話入力に関連する文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向を含み、前記判定することは、前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、を含む、ことと、前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定することと、を含む、ことと、前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視することとを備えることを特徴とする方法。」とあるのを、「電子デバイスにおいて仮想アシスタントを動作させる方法であって、前記電子デバイスでオーディオ入力を受信することと、ユーザ要求を含む第１のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記オーディオ入力中の前記第１のユーザ発話入力を識別することと、前記第１のユーザ発話入力に関連する文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第１のユーザ発話入力と以前のユーザ発話入力との間の意味的関係とを含み、前記判定することは、前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定することと、を含む、ことと、前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視することとを備えることを特徴とする方法。」に訂正する（請求項１の記載を引用する請求項２～７、１０～１２、１４、１６、１７も同様に訂正する）。イさらに、特許請求の範囲の請求項１６に「前記意味的関係の値が以前のＥメールの意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記意味的関係の値が前記以前のＥメールの意味の閾値より小さいことに応じて前記尤度スコアを減少させることと」と記載されているのを、「前記第１のユーザ発話入力と前記以前のＥメールとの間の前記意味的関係の値が以前のＥメールの意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力と前記以前のＥメールとの間の前記意味的関係の値が前記以前のＥメールの意味の閾値より小さいことに応じて前記尤度スコアを減少させることと」に訂正する。（２）訂正事項２特許請求の範囲の請求項２に「前記第１のユーザ発話入力に関連する文脈情報」と記載されているのを、「前記第１のユーザ発話入力に関連する前記文脈情報」に訂正する（請求項２の記載を引用する請求項４～７、１０～１２、１４、１６も同様に訂正する）。（３）訂正事項３特許請求の範囲の請求項３に「前記第１のユーザ発話入力に関連する文脈情報」と記載されているのを、「前記第１のユーザ発話入力に関連する前記文脈情報」に訂正する（請求項３の記載を引用する請求項４～７、１０～１２、１４、１６も同様に訂正する）。（４）訂正事項４特許請求の範囲の請求項５に「前記第１のユーザ発話入力に関連する文脈情報」と記載されているのを、「前記第１のユーザ発話入力に関連する前記文脈情報」に訂正する。（５）訂正事項５特許請求の範囲の請求項６に「前記仮想アシスタントが文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである尤度スコアを計算することは」と記載されているのを、「前記仮想アシスタントが前記文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである尤度スコアを計算することは」に訂正する。（６）訂正事項６特許請求の範囲の請求項７に「前記仮想アシスタントが文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは」と記載されているのを、「前記仮想アシスタントが前記文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは」に訂正する。（７）訂正事項７特許請求の範囲の請求項８に「前記文脈情報は、前記第１のユーザ発話入力が自動音声認識装置により認識されたか否かを示す指標を含み、前記仮想アシスタントが文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、前記第１のユーザ発話入力が前記自動音声認識装置により認識されたことを示す指標に応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が前記自動音声認識装置により認識されなかったことを示す指標に応じて前記尤度スコアを減少させることとを含むことを特徴とする請求項１乃至３の何れか１項に記載の方法。」とあるのを、「電子デバイスにおいて仮想アシスタントを動作させる方法であって、前記電子デバイスでオーディオ入力を受信することと、ユーザ要求を含む第１のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記オーディオ入力中の前記第１のユーザ発話入力を識別することと、前記第１のユーザ発話入力に関連する文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第１のユーザ発話入力が自動音声認識装置により認識されたか否かを示す指標とを含み、前記判定することは、前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、前記第１のユーザ発話入力が前記自動音声認識装置により認識されたことを示す指標に応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が前記自動音声認識装置により認識されなかったことを示す指標に応じて前記尤度スコアを減少させることと、を含む、ことと、前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定することと、を含む、ことと、前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視することとを備えることを特徴とする方法。」に訂正する。（８）訂正事項８特許請求の範囲の請求項９を削除する。（９）訂正事項９特許請求の範囲の請求項１０に「前記仮想アシスタントが文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは」と記載されているのを、「前記仮想アシスタントが前記文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは」に訂正する。（１０）訂正事項１０特許請求の範囲の請求項１２に「前記仮想アシスタントが文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは」と記載されているのを、「前記仮想アシスタントが前記文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは」に訂正する。（１１）訂正事項１１特許請求の範囲の請求項１３に「前記文脈情報は、前記第１のユーザ発話入力と、前記第１のユーザ発話入力が受信されたときに前記電子デバイスにより表示されていたコンテンツとの間の意味的関係を含み、前記仮想アシスタントが文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、前記意味的関係の値がコンテンツ意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記意味的関係の前記値が前記コンテンツ意味の閾値より小さいことに応じて前記尤度スコアを減少させることとを含むことを特徴とする請求項１乃至３の何れか１項に記載の方法。」とあるのを、「電子デバイスにおいて仮想アシスタントを動作させる方法であって、前記電子デバイスでオーディオ入力を受信することと、ユーザ要求を含む第１のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記オーディオ入力中の前記第１のユーザ発話入力を識別することと、前記第１のユーザ発話入力に関連する文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第１のユーザ発話入力と、前記第１のユーザ発話入力が受信されたときに前記電子デバイスにより表示されていたコンテンツとの間の意味的関係とを含み、前記判定することは、前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、前記意味的関係の値がコンテンツ意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記意味的関係の前記値が前記コンテンツ意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定することと、を含む、ことと、前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視することとを備えることを特徴とする方法。」に訂正する。（１２）訂正事項１２特許請求の範囲の請求項１４に「前記仮想アシスタントが文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは」と記載されているのを、「前記仮想アシスタントが前記文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは」に訂正する。（１３）訂正事項１３特許請求の範囲の請求項１５に「前記文脈情報は、前記第１のユーザ発話入力と前記電子デバイスの以前の出力との間の意味的関係を含み、前記仮想アシスタントが文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、前記意味的関係の値が以前の出力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記意味的関係の値が前記以前の出力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることとを含むことを特徴とする請求項１乃至３の何れか１項に記載の方法。」とあるのを、「電子デバイスにおいて仮想アシスタントを動作させる方法であって、前記電子デバイスでオーディオ入力を受信することと、ユーザ要求を含む第１のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記オーディオ入力中の前記第１のユーザ発話入力を識別することと、前記第１のユーザ発話入力に関連する文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第１のユーザ発話入力と前記電子デバイスの以前の出力との間の意味的関係とを含み、前記判定することは、前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、前記意味的関係の値が以前の出力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記意味的関係の値が前記以前の出力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定することと、を含む、ことと、前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視することとを備えることを特徴とする方法。」に訂正する。（１４）訂正事項１４特許請求の範囲の請求項１６に「前記仮想アシスタントが文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは」と記載されているのを、「前記仮想アシスタントが前記文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは」に訂正する。（１５）訂正事項１５特許請求の範囲の請求項１７に「前記第１のユーザ発話入力に関連する文脈情報」と記載されているのを、「前記第１のユーザ発話入力に関連する前記文脈情報」に訂正する。（１６）訂正事項１６特許請求の範囲の請求項１８に「１つ以上のプロセッサによる実行のためのプログラムであって、オーディオ入力を受信することと、ユーザ要求を含む第１のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記オーディオ入力中の前記第１のユーザ発話入力を識別することと、前記第１のユーザ発話入力に関連する文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向を含み、前記判定することは、前記第１のユーザ発話入力に関連する前記文脈情報に基づいて仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、を含む、ことと、前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定することと、を含む、ことと、前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視することとのための命令を含むことを特徴とするプログラム。」とあるのを、「１つ以上のプロセッサによる実行のためのプログラムであって、オーディオ入力を受信することと、ユーザ要求を含む第１のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記オーディオ入力中の前記第１のユーザ発話入力を識別することと、前記第１のユーザ発話入力に関連する文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第１のユーザ発話入力と以前のユーザ発話入力との間の意味的関係とを含み、前記判定することは、前記第１のユーザ発話入力に関連する前記文脈情報に基づいて仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定することと、を含む、ことと、前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視することとのための命令を含むことを特徴とするプログラム。」に訂正する。（１７）訂正事項１７特許請求の範囲の請求項１９に「仮想アシスタントを動作させるシステムであって、１つ以上のプロセッサと、メモリと、１つ以上のプログラムとを備え、前記１つ以上のプログラムは、前記メモリに格納され、前記１つ以上のプロセッサによって実行されるように構成され、前記１つ以上のプログラムは、オーディオ入力を受信することと、ユーザ要求を含む第１のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記オーディオ入力中の前記第１のユーザ発話入力を識別することと、前記第１のユーザ発話入力に関連する文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向を含み、前記判定することは、前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、を含む、ことと、前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定することと、を含む、ことと、前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視することとのための命令を含むことを特徴とするシステム。」とあるのを、「仮想アシスタントを動作させるシステムであって、１つ以上のプロセッサと、メモリと、１つ以上のプログラムとを備え、前記１つ以上のプログラムは、前記メモリに格納され、前記１つ以上のプロセッサによって実行されるように構成され、前記１つ以上のプログラムは、オーディオ入力を受信することと、ユーザ要求を含む第１のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記オーディオ入力中の前記第１のユーザ発話入力を識別することと、前記第１のユーザ発話入力に関連する文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第１のユーザ発話入力と以前のユーザ発話入力との間の意味的関係とを含み、前記判定することは、前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定することと、を含む、ことと、前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視することとのための命令を含むことを特徴とするシステム。」に訂正する。２訂正の適否についての判断（１）一群の請求項について訂正前の請求項１～１７は、請求項２～１７が、いずれも請求項１を直接または間接的に引用する関係にあるから、一群の請求項をなすものである。そして、これらの請求項１～１７に係る訂正事項１～１５は、一群の請求項〔１～１７〕について請求されたものであるから、特許法第120条の5第4項の規定に適合するものである。ただし、請求項８、１３、１５に係る訂正事項７、１１、１３は、請求項１～３との引用関係の解消を目的とする訂正を含んでおり、特許権者は、訂正事項７、１１、１３による訂正が認められる場合には、一群の請求項〔１～１７〕の他の請求項とは別の訂正単位として扱われることを求めている。（２）訂正の目的、新規事項の追加、特許請求の範囲の拡張又は変更、独立特許要件についてア訂正事項１のア、訂正事項１６、１７について（ア）目的について訂正事項１のア、訂正事項１６、１７は、訂正前の請求項１、１８、１９の発明特定事項である「文脈情報」と「尤度スコアを計算すること」について、それぞれ、「文脈情報」が「前記第１のユーザ発話入力と以前のユーザ発話入力との間の意味的関係」を含むことと、「尤度スコアを計算すること」が「前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させること」を含むことを付加するものであるから、特許法第120条の5第2項ただし書第１号に掲げる特許請求の範囲の減縮を目的とするものである。（イ）新規事項の追加、特許請求の範囲の拡張又は変更について本件特許の願書に添付した明細書（以下「本件明細書」という。）の【０１２３】には「第１のユーザ発話入力に関連する文脈情報」が「第１のユーザ発話入力が受信されたときのユーザの視線の方向」や「第１のユーザ発話入力と以前のユーザ発話入力との意味的関係」等を含むことが記載されており、【０１３１】には「尤度スコアを計算することは、意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応答して尤度スコアを増加させることと、意味的関係の値がユーザ発話入力の意味の閾値より小さいことに応答して尤度スコアを減少させることとを含むことができる。」と記載されており、訂正事項１のア、訂正事項１６、１７は、本件明細書、特許請求の範囲又は図面（以下「本件明細書等」という）に記載した事項の範囲内のものであり、特許法第120条の5第9項で準用する同法第126条第5項の規定に適合するものである。また、訂正事項１のア、訂正事項１６、１７は、上記（ア）のとおり、訂正前の請求項１の発明特定事項である「文脈情報」及び「尤度スコアを計算すること」について、さらに構成を付加して限定することによって特許請求の範囲を限縮するものであるから、実質上特許請求の範囲を拡張し又は変更するものに該当せず、特許法第120条の5第9項で準用する同法第126条第6項の規定に適合するものである。（ウ）独立特許要件上記（ア）のとおり、訂正事項１のア、訂正事項１６、１７による訂正の目的は、特許法第120条の5第2項ただし書第１号に規定する特許請求の範囲の減縮を含むものである。本件特許異議申立事件においては、訂正前の請求項１～５、８、９、１１、１３、１５、１７～１９に係る特許に対して特許異議の申立てがされているから、訂正前の請求項１、１８、１９に係る訂正事項１のア、訂正事項１６、１７に関して、特許法第120条の5第9項で準用する特許法第126条第7項の独立特許要件は課されない。イ訂正事項１のイについて（ア）目的について訂正事項１のイは、訂正事項１のアによって請求項１６が引用する請求項１の「文脈情報」に「前記第１のユーザ発話入力と以前のユーザ発話入力との間の意味的関係」を含む構成となるため、請求項１６における「前記意味的関係」が、同じく請求項１６に記載された「前記第１のユーザ発話入力と以前のＥメールとの間の意味的関係」を表すことを明確にするためのものであるから、特許法第120条の5第2項ただし書第３号に掲げる明瞭でない記載の釈明を目的とするものである。（イ）新規事項の追加、特許請求の範囲の拡張又は変更について本件明細書の【０１４８】には「第１のユーザ発話入力と以前のＥメールとの間の意味的関係を含む文脈情報に基づいて、仮想アシスタントが第１のユーザ発話入力に応答すべき尤度スコアを計算すること」、「尤度スコアを計算することは、意味的関係の値が以前のＥメールの意味の閾値より大きいことに応答して尤度スコアを増加させることと、意味的関係の値が以前のＥメールの意味の閾値より小さいことに応答して尤度スコアを減少させることとを含むこと」が記載されており、訂正事項１のイは、本件明細書に記載された事項の範囲内においてするものであり、また、実質上特許請求の範囲を拡張し、又は変更するものでないことは明らかであり、特許法第120条の5第9項で準用する同法第126条第5項及び第６項の規定に適合する。ウ訂正事項２～４、１５について（ア）目的について訂正事項２～４、１５は、訂正前の請求項２、３、５、１７に記載された「前記第１のユーザ発話入力に関連する文脈情報」が、請求項１に記載された「文脈情報」であることを明確にするためのものであるから、特許法第120条の5第2項ただし書第３号に掲げる明瞭でない記載の釈明を目的とするものである。また、訂正事項２～４、１５は、訂正前の請求項２、３、５、１７に記載された「前記第１のユーザ発話入力に関連する文脈情報」について、請求項１に記載された「文脈情報」であることを特定するものであり、特許請求の範囲を減縮しようとするものであるから、特許法第120条の5第2項ただし書第１号に掲げる特許請求の範囲の減縮を目的とするものである。（イ）新規事項の追加、特許請求の範囲の拡張又は変更について訂正事項２～４、１５により、訂正前の特許請求の範囲に含まれないとされていた発明が訂正後の特許請求の範囲に含まれることになる、という事情は認められない。したがって、訂正事項２～４、１５は、本件明細書等に記載した事項の範囲内の訂正であるといえ、また、実質上特許請求の範囲を拡張し、又は変更するものには該当せず、特許法第120条の5第9項で準用する特許法第126条第5項及び第６項の規定に適合するものである。（ウ）独立特許要件上記（ア）のとおり、訂正事項２～４、１５による訂正の目的は、特許法第120条の5第2項ただし書第１号に規定する特許請求の範囲の減縮を含むものである。本件特許異議申立事件においては、訂正前の請求項１～５、８、９、１１、１３、１５、１７～１９に係る特許に対して特許異議の申立てがされているから、訂正前の請求項２、３、５、１７に係る訂正事項２～４、１５に関して、特許法第120条の5第9項で準用する特許法第126条第7項の独立特許要件は課されない。エ訂正事項５、６、９、１０、１２、１４について（ア）目的について訂正事項５、６、９、１０、１２、１４は、訂正前の請求項６、７、１０、１２、１４、１６に記載された「前記仮想アシスタントが文脈情報に基づいて・・・尤度スコアを計算することは」における「文脈情報」が、請求項１に記載された「文脈情報」であることを明確にするためのものであるから、特許法第120条の5第2項ただし書第３号に掲げる明瞭でない記載の釈明を目的とするものである。また、訂正事項５、６、９、１０、１２、１４は、訂正前の請求項６、７、１０、１２、１４、１６に記載された「前記仮想アシスタントが文脈情報に基づいて・・・尤度スコアを計算することは」における「文脈情報」について、請求項１に記載された「文脈情報」であることを特定するものであり、特許請求の範囲を減縮しようとするものであるから、特許法第120条の5第2項ただし書第１号に掲げる特許請求の範囲の減縮を目的とするものである。（イ）新規事項の追加、特許請求の範囲の拡張又は変更について訂正事項５、６、９、１０、１２、１４により、訂正前の特許請求の範囲に含まれないとされていた発明が訂正後の特許請求の範囲に含まれることになる、という事情は認められない。したがって、訂正事項５、６、９、１０、１２、１４は、本件明細書等に記載した事項の範囲内の訂正であるといえ、また、実質上特許請求の範囲を拡張し、又は変更するものには該当せず、特許法第120条の5第9項で準用する特許法第126条第5項及び第６項の規定に適合するものである。（ウ）独立特許要件上記（ア）のとおり、訂正事項５、６、９、１０、１２、１４による訂正の目的は、特許法第120条の5第2項ただし書第１号に規定する特許請求の範囲の減縮を含むものである。本件特許異議申立事件においては、訂正前の請求項１～５、８、９、１１、１３、１５、１７～１９に係る特許に対して特許異議の申立てがされており、訂正前の請求項６、７、１０、１２、１４、１６に係る訂正事項５、６、９、１０、１２、１４は、本件特許異議の申立ての対象外であるから、特許法第120条の5第9項で準用する同法第126条第7項の規定により、特許出願の際独立して特許を受けることができるか否か、すなわち、独立特許要件を満たすか否かが問題となる。そこで検討するに、訂正後の請求項６、７、１０、１２、１４、１６は、請求項１を直接又は間接的に引用するところ、訂正後の請求項１に係る発明は、下記「第３」「２（３）」において後述するとおり、特許を受けることができるものであり、訂正後の請求項６、７、１０、１２、１４、１６に係る発明についても、これを特許を受けることができないとする証拠は見当たらないから、特許出願の際独立して特許を受けることができないとすべき特段の理由が存するものとは認められない。したがって、訂正後の請求項６、７、１０、１２、１４、１６に係る発明は、独立特許要件を満たしているものである。オ訂正事項７について（ア）目的について訂正事項７は、訂正前の請求項８が訂正前の請求項１～３を引用するものであったところ、その引用関係を解消して訂正前の請求項１を引用する請求項８の内容を書き下して独立請求項にするものであり、特許法120条の5第2項ただし書第１号に掲げる特許請求の範囲の減縮、及び同ただし書第４号に掲げる「他の請求項の記載を引用する請求項の記載を当該他の請求項の記載を引用しないものとすること」を目的とするものである。また、訂正事項７は、上記書き下しの際に、訂正前の請求項１の「前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、」という記載と、訂正前の請求項８の「前記仮想アシスタントが文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、」という記載に重複する内容が含まれるため、後者の記載を削除して記載を明確にしており、特許法第120条の5第2項ただし書第３号に掲げる明瞭でない記載の釈明を目的とするものである。（イ）新規事項の追加、特許請求の範囲の拡張又は変更について訂正事項７は、択一的に引用する請求項を一部削除することを除き、何ら実質的な内容の変更を伴うものでないから、新規事項の追加に該当せず、また、実質上特許請求の範囲を拡張し、又は変更するものでもなく、特許法第120条の5第9項で準用する同法第126条第5項及び第６項の規定に適合するものである。（ウ）独立特許要件上記（ア）のとおり、訂正事項７による訂正の目的は、特許法第120条の5第2項ただし書第１号に規定する特許請求の範囲の減縮を含むものである。本件特許異議申立事件においては、訂正前の請求項１～５、８、９、１１、１３、１５、１７～１９に係る特許に対して特許異議の申立てがされているから、訂正前の請求項８に係る訂正事項７に関して、特許法第120条の5第9項で準用する特許法第126条第7項の独立特許要件は課されない。カ訂正事項８について（ア）目的について訂正事項８は、請求項９を削除する訂正であるから、特許法第120条の5第2項ただし書第１号に掲げる特許請求の範囲の減縮を目的とするものである。（イ）新規事項の追加、特許請求の範囲の拡張又は変更について訂正事項８は、請求項を削除する訂正であるから、新規事項を追加するものではなく、また、特許請求の範囲を実質上拡張し、又は変更するものでもなく、特許法第120条の5第9項で準用する特許法第126条第5項及び第６項の規定に適合するものである。（ウ）独立特許要件本件特許異議申立事件においては、訂正前の請求項１～５、８、９、１１、１３、１５、１７～１９に係る特許に対して特許異議の申立てがされているから、訂正前の請求項９に係る訂正事項８に関して、特許法第120条の5第9項で読み替えて準用する特許法第126条第7項の独立特許要件は課されない。キ訂正事項１１について（ア）目的について訂正事項１１は、訂正前の請求項１３が訂正前の請求項１～３を引用するものであったところ、その引用関係を解消して訂正前の請求項１を引用する請求項１３の内容を書き下して独立請求項にするものであり、特許法120条の5第2項ただし書第１号に掲げる特許請求の範囲の減縮、及び同ただし書第４号に掲げる「他の請求項の記載を引用する請求項の記載を当該他の請求項の記載を引用しないものとすること」を目的とするものである。また、訂正事項１１は、上記書き下しの際に、訂正前の請求項１の「前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、」という記載と、訂正前の請求項１３の「前記仮想アシスタントが文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、」という記載に重複する内容が含まれるため、後者の記載を削除して記載を明確にしており、特許法第120条の5第2項ただし書第３号に掲げる明瞭でない記載の釈明を目的とするものである。（イ）新規事項の追加、特許請求の範囲の拡張又は変更について訂正事項１１は、択一的に引用する請求項を一部削除することを除き、何ら実質的な内容の変更を伴うものでないから、新規事項の追加に該当せず、また、実質上特許請求の範囲を拡張し、又は変更するものでもなく、特許法第120条の5第9項で準用する同法第126条第5項及び第６項の規定に適合するものである。（ウ）独立特許要件上記（ア）のとおり、訂正事項１１による訂正の目的は、特許法第120条の5第2項ただし書第１号に規定する特許請求の範囲の減縮を含むものである。本件特許異議申立事件においては、訂正前の請求項１～５、８、９、１１、１３、１５、１７～１９に係る特許に対して特許異議の申立てがされているから、訂正前の請求項１３に係る訂正事項１１に関して、特許法第120条の5第9項で準用する特許法第126条第7項の独立特許要件は課されない。ク訂正事項１３について（ア）目的について訂正事項１３は、訂正前の請求項１５が訂正前の請求項１～３を引用するものであったところ、その引用関係を解消して訂正前の請求項１を引用する請求項１５の内容を書き下して独立請求項にするものであり、特許法120条の5第2項ただし書第１号に掲げる特許請求の範囲の減縮、及び同ただし書第４号に掲げる「他の請求項の記載を引用する請求項の記載を当該他の請求項の記載を引用しないものとすること」を目的とするものである。また、訂正事項１３は、上記書き下しの際に、訂正前の請求項１の「前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、」という記載と、訂正前の請求項１５の「前記仮想アシスタントが文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、」という記載に重複する内容が含まれるため、後者の記載を削除して記載を明確にしており、特許法第120条の5第2項ただし書第３号に掲げる明瞭でない記載の釈明を目的とするものである。（イ）新規事項の追加、特許請求の範囲の拡張又は変更について訂正事項１３は、択一的に引用する請求項を一部削除することを除き、何ら実質的な内容の変更を伴うものでないから、新規事項の追加に該当せず、また、実質上特許請求の範囲を拡張し、又は変更するものでもなく、特許法第120条の5第9項で準用する同法第126条第5項及び第６項の規定に適合するものである。（ウ）独立特許要件上記（ア）のとおり、訂正事項１３による訂正の目的は、特許法第120条の5第2項ただし書第１号に規定する特許請求の範囲の減縮を含むものである。本件特許異議申立事件においては、訂正前の請求項１～５、８、９、１１、１３、１５、１７～１９に係る特許に対して特許異議の申立てがされているから、訂正前の請求項１５に係る訂正事項１３に関して、特許法第120条の5第9項で準用する特許法第126条第7項の独立特許要件は課されない。３訂正の適否についてのむすび以上のとおりであるから、本件訂正による訂正は、特許法第120条の5第2項ただし書第１、３、４号に掲げる事項を目的とするものであり、かつ、同条第４項及び同条第９項において準用する同法第126条第５～７項の規定に適合するものであるから、訂正後の請求項〔１～１７〕、１８、１９について訂正を認める。第３特許異議の申立について１本件発明上記「第２」で検討のとおり本件訂正は認められるので、本件特許の請求項１～１９に係る発明は、訂正特許請求の範囲の請求項１～１９に記載された事項により特定される次のとおりのものである（以下、各請求項に係る発明を、項番号に応じて「本件発明１」などといい、まとめて「本件発明」という。）。なお、請求項１に付した（Ａ）～（Ｆ２）は、説明のために当審で付したものであり、以下、「構成Ａ」～「構成Ｆ２」という。「【請求項１】（Ａ）電子デバイスにおいて仮想アシスタントを動作させる方法であって、（Ｂ）前記電子デバイスでオーディオ入力を受信することと、（Ｃ）ユーザ要求を含む第１のユーザ発話入力を識別するために前記オーディオ入力を監視することと、（Ｄ）前記オーディオ入力中の前記第１のユーザ発話入力を識別することと、（Ｅ）前記第１のユーザ発話入力に関連する文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第１のユーザ発話入力と以前のユーザ発話入力との間の意味的関係とを含み、前記判定することは、（Ｅ１）前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、（Ｅ１ａ）前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、（Ｅ１ｂ）前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、（Ｅ１ｃ）前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、（Ｅ１ｄ）前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、（Ｅ２）前記尤度スコアを閾値と比較することと、（Ｅ３ａ）前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、（Ｅ３ｂ）前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定することと、を含む、ことと、（Ｆ１）前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視することと、（Ｆ２）前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視することと（Ａ）を備えることを特徴とする方法。【請求項２】前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することは、前記第１のユーザ発話入力の開始時の１つ以上の所定の語を識別せずに行われることを特徴とする請求項１記載の方法。【請求項３】前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することは、前記第１のユーザ発話入力を受信する前に受信された物理的ボタン入力又は仮想ボタン入力を識別せずに行われることを特徴とする請求項１記載の方法。【請求項４】前記第１のユーザ発話入力に対する前記応答を生成することは、前記第１のユーザ発話入力に対して音声からテキストへの変換を実行することと、前記第１のユーザ発話入力に基づいてユーザの意図を判定することと、前記第１のユーザ発話入力に基づいて実行されるタスクを判定することと、前記第１のユーザ発話入力に基づいて実行される前記タスクのパラメータを判定することと、前記実行されるタスクを実行することと、前記第１のユーザ発話入力に対するテキスト応答を表示することと、前記第１のユーザ発話入力に対するオーディオ応答を出力することとのうち１つ以上を含むことを特徴とする請求項１乃至３の何れか１項に記載の方法。【請求項５】前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することは、前記第１のユーザ発話入力に関連する前記文脈情報に依存する１つ以上の条件付き規則を評価することを含むことを特徴とする請求項１乃至３の何れか１項に記載の方法。【請求項６】前記文脈情報は、前記第１のユーザ発話入力の受信と以前のユーザ入力との間の経過時間を含み、前記仮想アシスタントが前記文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである尤度スコアを計算することは、前記経過時間の値が持続時間の閾値より大きいことに応じて前記尤度スコアを減少させることと、前記経過時間の値が前記持続時間の閾値より小さいことに応じて前記尤度スコアを増加させることとを含むことを特徴とする請求項１乃至３の何れか１項に記載の方法。【請求項７】前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザと前記電子デバイスとの間の距離を含み、前記仮想アシスタントが前記文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、前記距離が距離の閾値より長いことに応じて前記尤度スコアを減少させることと、前記距離が前記距離の閾値より短いことに応じて前記尤度スコアを増加させることとを含むことを特徴とする請求項１乃至３の何れか１項に記載の方法。【請求項８】電子デバイスにおいて仮想アシスタントを動作させる方法であって、前記電子デバイスでオーディオ入力を受信することと、ユーザ要求を含む第１のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記オーディオ入力中の前記第１のユーザ発話入力を識別することと、前記第１のユーザ発話入力に関連する文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第１のユーザ発話入力が自動音声認識装置により認識されたか否かを示す指標とを含み、前記判定することは、前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、前記第１のユーザ発話入力が前記自動音声認識装置により認識されたことを示す指標に応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が前記自動音声認識装置により認識されなかったことを示す指標に応じて前記尤度スコアを減少させることと、を含む、ことと、前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定することと、を含む、ことと、前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視することとを備えることを特徴とする方法。【請求項９】（削除）【請求項１０】前記文脈情報は前記第１のユーザ発話入力の長さを含み、前記仮想アシスタントが前記文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、前記第１のユーザ発話入力の前記長さが長さの閾値より短いことに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力の前記長さが前記長さの閾値より長いことに応じて前記尤度スコアを減少させることとを含むことを特徴とする請求項１乃至３の何れか１項に記載の方法。【請求項１１】前記文脈情報は、前記第１のユーザ発話入力の発話者のＩＤを含むことを特徴とする請求項１乃至３の何れか１項に記載の方法。【請求項１２】前記文脈情報は、前記第１のユーザ発話入力が受信された時刻を含み、前記仮想アシスタントが前記文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、前記時刻が所定の１組の時刻の中に含まれることに応じて前記尤度スコアを増加させることと、前記時刻が前記所定の１組の時刻の中に含まれないことに応じて前記尤度スコアを減少させることとを含むことを特徴とする請求項１乃至３の何れか１項に記載の方法。【請求項１３】電子デバイスにおいて仮想アシスタントを動作させる方法であって、前記電子デバイスでオーディオ入力を受信することと、ユーザ要求を含む第１のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記オーディオ入力中の前記第１のユーザ発話入力を識別することと、前記第１のユーザ発話入力に関連する文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第１のユーザ発話入力と、前記第１のユーザ発話入力が受信されたときに前記電子デバイスにより表示されていたコンテンツとの間の意味的関係とを含み、前記判定することは、前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、前記意味的関係の値がコンテンツ意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記意味的関係の前記値が前記コンテンツ意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定することと、を含む、ことと、前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視することとを備えることを特徴とする記載の方法。【請求項１４】前記文脈情報は、前記第１のユーザ発話入力が受信されたときに前記ユーザにより実行されていたジェスチャーを含み、前記仮想アシスタントが前記文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、前記ジェスチャーが所定の１組のジェスチャーのうち１つのジェスチャーであることに応じて前記尤度スコアを増加させることと、前記ジェスチャーが前記所定の１組のジェスチャーのうち１つのジェスチャーではないことに応じて前記尤度スコアを減少させることとを含むことを特徴とする請求項１乃至３の何れか１項に記載の方法。【請求項１５】電子デバイスにおいて仮想アシスタントを動作させる方法であって、前記電子デバイスでオーディオ入力を受信することと、ユーザ要求を含む第１のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記オーディオ入力中の前記第１のユーザ発話入力を識別することと、前記第１のユーザ発話入力に関連する文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第１のユーザ発話入力と前記電子デバイスの以前の出力との間の意味的関係とを含み、前記判定することは、前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、前記意味的関係の値が以前の出力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記意味的関係の値が前記以前の出力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定することと、を含む、ことと、前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視することとを備えることを特徴とする方法。【請求項１６】前記文脈情報は、前記第１のユーザ発話入力と以前のＥメールとの間の意味的関係を含み、前記仮想アシスタントが前記文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、前記第１のユーザ発話入力と前記以前のＥメールとの間の前記意味的関係の値が以前のＥメールの意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力と前記以前のＥメールとの間の前記意味的関係の値が前記以前のＥメールの意味の閾値より小さいことに応じて前記尤度スコアを減少させることとを含むことを特徴とする請求項１乃至３の何れか１項に記載の方法。【請求項１７】前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することは、前記第１のユーザ発話入力が受信されたときの前記ユーザの注視の方向を判定することを含む、請求項１記載の方法。【請求項１８】１つ以上のプロセッサによる実行のためのプログラムであって、オーディオ入力を受信することと、ユーザ要求を含む第１のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記オーディオ入力中の前記第１のユーザ発話入力を識別することと、前記第１のユーザ発話入力に関連する文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第１のユーザ発話入力と以前のユーザ発話入力との間の意味的関係とを含み、前記判定することは、前記第１のユーザ発話入力に関連する前記文脈情報に基づいて仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定することと、を含む、ことと、前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視することとのための命令を含むことを特徴とするプログラム。【請求項１９】仮想アシスタントを動作させるシステムであって、１つ以上のプロセッサと、メモリと、１つ以上のプログラムとを備え、前記１つ以上のプログラムは、前記メモリに格納され、前記１つ以上のプロセッサによって実行されるように構成され、前記１つ以上のプログラムは、オーディオ入力を受信することと、ユーザ要求を含む第１のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記オーディオ入力中の前記第１のユーザ発話入力を識別することと、前記第１のユーザ発話入力に関連する文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第１のユーザ発話入力と以前のユーザ発話入力との間の意味的関係とを含み、前記判定することは、前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定することと、を含む、ことと、前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視することとのための命令を含むことを特徴とするシステム。」２取消理由通知に記載した取消理由について（１）取消理由の概要令和３年１０月８日付けで通知した取消理由の要旨は、次のとおりである。理由１．請求項１～５、１１、１７～１９に係る発明は、本件特許出願前に日本国内または外国において、頒布された引用文献１、２に記載された発明に基いて、本件特許出願前にその発明の属する技術の分野における通常の知識を有する者が容易に発明をすることができたものであるから、請求項１～５、１１、１７～１９に係る特許は、特許法第29条第2項の規定に違反してされたものである。・引用文献１：国際公開第２０１４／００４５４４号・引用文献２：特開２０１２－２２０９５９号公報（申立人提出の甲第１号証）（２）引用文献の記載ア引用文献１の記載及び引用発明引用文献１には、図面とともに次の記載事項が記載されている。下線は当審が付与した。なお、仮訳については、引用文献１のファミリ文献である特表２０１５－５２８９１８号公報における対応箇所の記載を引用しており、括弧内に対応する段落番号を記載している。（ア）「[0001] The disclosed embodiments relate generally to digital assistant systems, and more specifically, digital assistant systems that perform voice-activated navigation and browsing of documents.」（仮訳： [0001] 開示されている諸実施形態は概してデジタルアシスタントシステムに関し、より具体的には、文書の音声作動式ナビゲーション及び文書のブラウジングを実行するデジタルアシスタントシステムに関する。（【０００１】））（イ）「[0015] Figure 1 is a block diagram illustrating an environment in which a digital assistant operates in accordance with some embodiments.」（仮訳： [0015] 【図１】いくつかの実施形態に係るデジタルアシスタントが動作する環境を示すブロック図である。（【００１５】））（ウ）「[0026] Figure 1 is a block diagram of an operating environment 100 of a digital assistant according to some embodiments. The terms "digital assistant," "virtual assistant," "intelligent automated assistant," or "automatic digital assistant," refer to any information processing system that interprets natural language input in spoken and/or textual form to deduce user intent (e.g., identify a task type that corresponds to the natural language input), and performs actions based on the deduced user intent (e.g., perform a task corresponding to the identified task type). For example, to act on a deduced user intent, the system can perform one or more of the following: identifying a task flow with steps and parameters designed to accomplish the deduced user intent (e.g., identifying a task type), inputting specific requirements from the deduced user intent into the task flow, executing the task flow by invoking programs, methods, services, APIs, or the like (e.g., sending a request to a service provider); and generating output responses to the user in an audible (e.g., speech) and/or visual form. [0027] Specifically, a digital assistant system is capable of accepting a user request at least partially in the form of a natural language command, request, statement, narrative, and/or inquiry. Typically, the user request seeks either an informational answer or performance of a task by the digital assistant system. A satisfactory response to the user request is generally either provision of the requested informational answer, performance of the requested task, or a combination of the two. For example, a user may ask the digital assistant system a question, such as "Where am I right now?" Based on the user's current location, the digital assistant may answer, "You are in Central Park near the west gate." The user may also request the performance of a task, for example, by stating "Please invite my friends to my girlfriend's birthday party next week." In response, the digital assistant may acknowledge the request by generating a voice output, "Yes, right away," and then send a suitable calendar invite from the user's email address to each of the user' friends listed in the user's electronic address book. There are numerous other ways of interacting with a digital assistant to request information or performance of various tasks. In addition to providing verbal responses and taking programmed actions, the digital assistant can also provide responses in other visual or audio forms (e.g., as text, alerts, music, videos, animations, etc.). [0028] As shown in Figure 1 , in some embodiments, a digital assistant system is implemented according to a client-server model. The digital assistant system includes a client-side portion (e.g., 102a and 102b) (hereafter "digital assistant (DA) client 102") executed on a user device (e.g., 104a and 104b), and a server-side portion 106 (hereafter "digital assistant (DA) server 106") executed on a server system 108. The DA client 102 communicates with the DA server 106 through one or more networks 110. The DA client 102 provides client-side functionalities such as user-facing input and output processing and communications with the DA server 106. The DA server 106 provides server-side functionalities for any number of DA clients 102 each residing on a respective user device 104 (also called a client device).」（仮訳： [0026] 図１は、いくつかの実施形態に係るデジタルアシスタントの動作環境１００のブロック図である。用語「デジタルアシスタント」、「仮想アシスタント」、「インテリジェント自動アシスタント」、又は「自動デジタルアシスタント」は、口頭及び／又はテキスト形式の自然言語入力を解釈してユーザ意図を推測し（例えば、自然言語入力に対応するタスクの種類を特定し）、推測されたユーザ意図に基づき動作を実行する（例えば、特定されたタスクの種類に対応するタスクを実行する）あらゆる情報処理システムを指す。例えば、推測されたユーザ意図に基づいて動作するために、システムは、以下のことのうちの１つ以上を実行することができる：推測されたユーザ意図を果たすように設計されたステップ及びパラメータを有するタスクフローを特定すること（例えば、タスクの種類を特定すること）、推測されたユーザ意図からの特定の要求事項をタスクフロー内に入力すること、プログラム、方法、サービス、ＡＰＩ、若しくは同様のものを呼び出すことによってタスクフローを実行すること（例えば、サービスプロバイダに要求を送信すること）、並びに可聴（例えば、発語）及び／又は視覚形式のユーザへの出力応答を生成すること。（【００１７】） [0027] 具体的には、デジタルアシスタントシステムは、少なくとも部分的には自然言語のコマンド、要求、ステートメント、注釈、及び／又は問い合わせの形態でユーザ要求を受け入れる能力を有する。通例、ユーザ要求はデジタルアシスタントシステムによる情報回答又はタスクの実行のいずれかを求める。一般的に、ユーザ要求への満足な応答は、要求された情報回答の提供、要求されたタスクの実行のいずれか、又はその２つの組み合わせとなる。例えば、ユーザはデジタルアシスタントシステムに「私は今どこにいますか？」等の質問をする場合がある。ユーザの現在のロケーションに基づき、デジタルアシスタントは、「あなたはセントラルパーク内の西門の近くにいます」と回答する場合がある。ユーザは、例えば、「私の友人を、来週の私のガールフレンドの誕生日パーティに招待して下さい」と述べることによって、タスク実行を要求する場合もある。それに応じて、デジタルアシスタントは、音声出力、「はい、ただ今」を生成することによって要求を了解し、次に、ユーザの電子メールアドレスから、ユーザの電子アドレス帳に載っているユーザの友人の各々に適切なカレンダー招待状を送信してもよい。情報又は種々のタスクの実行を要求するためにデジタルアシスタントと対話する方法は他にも数多く存在する。言葉による応答を提供し、プログラムされた動作を取ることに加えて、デジタルアシスタントは他の視覚又はオーディオ形式の応答を（例えば、テキスト、警報、音楽、ビデオ、アニメーション等として）提供することもできる。（【００１８】） [0028] 図１に示されているように、いくつかの実施形態では、デジタルアシスタントシステムはクライアント－サーバモデルに従って実施される。デジタルアシスタントシステムは、ユーザ機器（例えば、１０４ａ及び１０４ｂ）上で実行されるクライアント側部分（例えば、１０２ａ及び１０２ｂ）（以後、「デジタルアシスタント（ＤＡ（digital assistant））クライアント１０２」）、並びにサーバシステム１０８上で実行されるサーバ側部分１０６（以後「デジタルアシスタント（ＤＡ）サーバ１０６」）を含む。ＤＡクライアント１０２は１つ以上のネットワーク１１０を通じてＤＡサーバ１０６と通信する。ＤＡクライアント１０２は、ユーザ対応入力及び出力処理、並びにＤＡサーバ１０６との通信等のクライアント側機能性を提供する。ＤＡサーバ１０６は、それぞれのユーザ機器１０４（クライアント機器とも呼ばれる）上に各々常駐する任意の数のＤＡクライアント１０２のためのサーバ側機能性を提供する。（【００１９】））（エ）「[0031] Examples of the user device 104 include, but are not limited to, a handheld computer, a personal digital assistant (PDA), a tablet computer, a laptop computer, a desktop computer, a cellular telephone, a smartphone, an enhanced general packet radio service (EGPRS) mobile phone, a media player, a navigation device, a game console, a television, a remote control, or a combination of any two or more of these data processing devices or any other suitable data processing devices. More details on the user device 104 are provided in reference to an exemplary user device 104 shown in Figure 2.」（仮訳： [0031] ユーザ機器１０４の例としては、限定するものではないが、ハンドヘルドコンピュータ、無線携帯情報端末（personal digital assistant、ＰＤＡ）、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、セルラー電話、スマートフォン、拡張型汎用パケット無線サービス（enhanced general packet radio service、ＥＧＰＲＳ）携帯電話、メディアプレーヤ、ナビゲーション機器、ゲームコンソール、テレビ、遠隔制御装置、又はこれらのデータ処理機器のうちの任意の２つ以上の組み合わせ、あるいは任意の他の好適なデータ処理機器が挙げられる。ユーザ機器１０４に関する更なる詳細が、図２に示される例示的なユーザ機器１０４に関して提供されている。（【００２２】））（オ）「[0038] In some embodiments, the user device 104 includes a camera subsystem 220 coupled to the peripherals interface 206. In some embodiments, an optical sensor 222 of the camera subsystem 220 facilitates camera functions, such as taking photographs and recording video clips. In some embodiments, the user device 104 includes one or more wired and/or wireless communication subsystems 224 provide communication functions. The communication subsystems 224 typically includes various communication ports, radio frequency receivers and transmitters, and/or optical (e.g., infrared) receivers and transmitters. In some embodiments, the user device 104 includes an audio subsystem 226 coupled to one or more speakers 228 and one or more microphones 230 to facilitate voice-enabled functions, such as voice recognition, voice replication, digital recording, and telephony functions.」（仮訳： [0038] いくつかの実施形態では、ユーザ機器１０４は、周辺装置インターフェース２０６に結合されるカメラサブシステム２２０を含む。いくつかの実施形態では、カメラサブシステム２２０の光学センサ２２２が、写真の撮影及びビデオクリップの録画等の、カメラ機能を促進する。いくつかの実施形態では、ユーザ機器１０４は、１つ以上の有線及び／又は無線通信サブシステム２２４を含む、通信機能を提供する。通信サブシステム２２４は通例、種々の通信ポート、無線周波数受信機及び伝送機、並びに／又は光（例えば、赤外線）受信機及び伝送機を含む。いくつかの実施形態では、ユーザ機器１０４は、音声認識、音声応答、デジタル録音、及び電話機能等の、音声使用可能機能を促進するために、１つ以上のスピーカ２２８及び１つ以上のマイクロフォン２３０に結合されるオーディオサブシステム２２６を含む。（【００２９】））（カ）「[0043] In various embodiments, the digital assistant client module 264 is capable of accepting voice input, text input, touch input, and/or gestural input through various user interfaces (e.g., the I/O subsystem 244) of the user device 104. The digital assistant client module 264 is also capable of providing output in audio, visual, and/or tactile forms. For example, output can be provided as voice, sound, alerts, text messages, menus, graphics, videos, animations, vibrations, and/or combinations of two or more of the above. During operation, the digital assistant client module 264 communicates with the digital assistant server (e.g., the digital assistant server 106, Figure 1) using the communication subsystems 224. [0044] In some embodiments, the digital assistant client module 264 utilizes various sensors, subsystems and peripheral devices to gather additional information from the surrounding environment of the user device 104 to establish a context associated with a user input. In some embodiments, the digital assistant client module 264 provides the context information or a subset thereof with the user input to the digital assistant server (e.g. , the digital assistant server 106, Figure 1) to help deduce the user's intent. [0045] In some embodiments, the context information that can accompany the user input includes sensor information, e.g. , lighting, ambient noise, ambient temperature, images or videos of the surrounding environment, etc. In some embodiments, the context information also includes the physical state of the device, e.g., device orientation, device location, device temperature, power level, speed, acceleration, motion patterns, cellular signals strength, etc. In some embodiments, information related to the software state of the user device 106, e.g., running processes, installed programs, past and present network activities, background services, error logs, resources usage, etc., of the user device 104 is also provided to the digital assistant server (e.g., the digital assistant server 106, Figure 1) as context information associated with a user input.」（仮訳： [0043] 種々の実施形態では、デジタルアシスタントクライアントモジュール２６４は、ユーザ機器１０４の種々のユーザインターフェース（例えば、Ｉ／Ｏサブシステム２４４）を通じて音声入力、テキスト入力、タッチ入力、及び／又はジェスチャ入力を受け入れる能力を有する。デジタルアシスタントクライアントモジュール２６４はまた、オーディオ、視覚、及び／又は触覚形態の出力を提供する能力も有する。例えば、出力は、音声、音響、警報、テキストメッセージ、メニュー、グラフィック、ビデオ、アニメーション、振動、及び／又は上記のもののうちの２つ以上の組み合わせとして提供することができる。動作時、デジタルアシスタントクライアントモジュール２６４は、通信サブシステム２２４を用いてデジタルアシスタントサーバ（例えば、デジタルアシスタントサーバ１０６、図１）と通信する。（【００３４】） [0044] いくつかの実施形態では、デジタルアシスタントクライアントモジュール２６４は、ユーザ入力に関連付けられるコンテクストを確立するために、種々のセンサ、サブシステム及び周辺機器を利用してユーザ機器１０４の周囲環境から追加情報を収集する。いくつかの実施形態では、デジタルアシスタントクライアントモジュール２６４は、ユーザの意図の推測を助けるために、ユーザ入力とともにコンテクスト情報又はそのサブセットをデジタルアシスタントサーバ（例えば、デジタルアシスタントサーバ１０６、図１）に提供する。（【００３５】） [0045] いくつかの実施形態では、ユーザ入力に付随し得るコンテクスト情報は、センサ情報、例えば、照明、環境ノイズ、周囲温度、周囲環境の画像又はビデオ、等を含む。いくつかの実施形態では、コンテクスト情報はまた、機器の物理的状態、例えば、機器配向、機器ロケーション、機器温度、電力レベル、速度、加速度、運動パターン、セルラー信号強度、等も含む。いくつかの実施形態では、ユーザ機器１０６のソフトウェア状態に関する情報、例えば、ユーザ機器１０４の実行中のプロセス、インストールされているプログラム、過去及び現在のネットワーク活動、バックグラウンドサービス、誤りログ、資源使用状況等も、ユーザ入力に関連付けられるコンテクスト情報としてデジタルアシスタントサーバ（例えば、デジタルアシスタントサーバ１０６、図１）に提供される。（【００３６】））（キ）「[0060] In some embodiments, the I/O processing module 328 interacts with the user through the I/O devices 316 or with a user device (e.g., a user device 104 in Figure 1) through the network communications interface 308 to obtain user input (e.g., a speech input) and to provide responses to the user input. The I/O processing module 328 optionally obtains context information associated with the user input from the user device, along with or shortly after the receipt of the user input. The context information includes user-specific data, vocabulary, and/or preferences relevant to the user input. In some embodiments, the context information also includes software and hardware states of the device (e.g. , the user device 104 in Figure 1) at the time the user request is received, and/or information related to the surrounding environment of the user at the time that the user request was received. In some embodiments, the I/O processing module 328 also sends follow-up questions to, and receives answers from, the user regarding the user request. In some embodiments, when a user request is received by the I/O processing module 328 and the user request contains a speech input, the I/O processing module 328 forwards the speech input to the speech-to-text (STT) processing module 330 for speech-to-text conversions.」（仮訳： [0060] いくつかの実施形態では、Ｉ／Ｏ処理モジュール３２８は、ユーザ入力（例えば、発語入力）を入手するため、及びユーザ入力への応答を提供するために、Ｉ／Ｏ機器３１６を通じてユーザと対話するか、又はネットワーク通信インターフェース３０８を通じてユーザ機器（例えば、図１におけるユーザ機器１０４）と対話する。Ｉ／Ｏ処理モジュール３２８は、ユーザ入力とともに、又はその受け取りの直後に、ユーザ入力に関連付けられるコンテクスト情報をユーザ機器から任意追加的に入手する。コンテクスト情報は、ユーザ入力に関連するユーザ固有のデータ、語彙、及び／又は設定を含む。いくつかの実施形態では、コンテクスト情報はまた、ユーザ要求が受け取られる時点における機器（例えば、図１におけるユーザ機器１０４）のソフトウェア及びハードウェア状態、並びに／又はユーザ要求が受け取られた時点におけるユーザの周囲環境に関する情報も含む。いくつかの実施形態では、Ｉ／Ｏ処理モジュール３２８はまた、ユーザ要求について、ユーザに補足質問を送信し、ユーザから回答を受け取る。いくつかの実施形態では、ユーザ要求がＩ／Ｏ処理モジュール３２８によって受け取られ、ユーザ要求が発語入力を包含する場合には、Ｉ／Ｏ処理モジュール３２８は発語入力を発語テキスト化変換のために発語テキスト化（ＳＴＴ）処理モジュール３３０へ転送する。（【００５１】））（ク）「[0063] In some embodiments, in addition to the sequence of words or tokens obtained from the speech-to-text processing module 330, the natural language processor 332 also receives context information associated with the user request (e.g., from the I/O processing module 328). The natural language processor 332 optionally uses the context information to clarify, supplement, and/or further define the information contained in the token sequence received from the speech-to-text processing module 330. The context information includes, for example, user preferences, hardware and/or software states of the user device, sensor information collected before, during, or shortly after the user request, prior interactions (e.g. , dialogue) between the digital assistant and the user, and the like.」（仮訳： [0063] いくつかの実施形態では、発語テキスト化処理モジュール３３０から入手される単語又はトークンの列に加えて、自然言語プロセッサ３３２はまた、ユーザ要求に関連付けられるコンテクスト情報も（例えば、Ｉ／Ｏ処理モジュール３２８から）受け取る。自然言語プロセッサ３３２は、発語テキスト化処理モジュール３３０から受け取られたトークン列内に包含されている情報を明らかにし、補完し、及び／又は更に明確にするために、コンテクスト情報を任意追加的に用いる。コンテクスト情報は、例えば、ユーザ設定、ユーザ機器のハードウェア及び／又はソフトウェア状態、ユーザ要求の前、最中、若しくは直後に集められたセンサ情報、デジタルアシスタントとユーザとの間の以前の対話（例えば、ダイアログ）、並びに同様のものを含む。（【００５４】））上記記載から、引用文献1には以下の事項が記載されている。・上記[0001]、[0015]、[0027]によれば、引用文献１には、デジタルアシスタントシステムにおいて、デジタルアシスタントと対話する方法の発明が記載されている。・上記[0026]によれば、用語「デジタルアシスタント」、「仮想アシスタント」、「インテリジェント自動アシスタント」、又は「自動デジタルアシスタント」は、口頭及び／又はテキスト形式の自然言語入力を解釈してユーザ意図を推測し（例えば、自然言語入力に対応するタスクの種類を特定し）、推測されたユーザ意図に基づき動作を実行する（例えば、特定されたタスクの種類に対応するタスクを実行する）あらゆる情報処理システムを指すものである。・上記[0028]によれば、デジタルアシスタントシステムは、ユーザ機器（１０４ａ及び１０４ｂ）上で実行されるクライアント側部分、並びにサーバシステム１０８上で実行されるサーバ側部分１０６を含むものである。・上記[0031] によれば、ユーザ機器１０４は、ハンドヘルドコンピュータ、ＰＤＡ、タブレットコンピュータ、スマートフォンなどである。・上記[0038] によれば、ユーザ機器１０４は、カメラサブシステム２２０を含み、音声認識、音声応答、デジタル録音、及び電話機能等の、音声使用可能機能を促進するために、１つ以上のスピーカ２２８及び１つ以上のマイクロフォン２３０に結合されるオーディオサブシステム２２６を含むものである。・上記[0043]、[0044]によれば、デジタルアシスタントクライアントモジュール２６４は、ユーザ機器１０４の種々のユーザインターフェース（例えば、Ｉ／Ｏサブシステム２４４）を通じて音声入力、テキスト入力、タッチ入力、及び／又はジェスチャ入力を受け入れる能力を有し、また、オーディオ、視覚、及び／又は触覚形態の出力を提供する能力も有し、ユーザの意図の推測を助けるために、ユーザ入力とともにコンテクスト情報又はそのサブセットをデジタルアシスタントサーバ１０６に提供するものである。・上記[0045]によれば、ユーザ入力に付随し得るコンテクスト情報は、センサ情報、例えば、照明、環境ノイズ、周囲温度、周囲環境の画像又はビデオ等を含むものである。・上記[0060]、[0063]によれば、ユーザ入力に関連付けられるコンテクスト情報は、ユーザ機器から任意追加的に入手するものであり、ユーザ入力に関連するユーザ固有のデータ、語彙、ユーザ設定、ユーザ機器のハードウェア及び／又はソフトウェア状態、ユーザ要求の前、最中、若しくは直後に集められたセンサ情報、デジタルアシスタントとユーザとの間の以前の対話（例えば、ダイアログ）を含むものである。・上記[0027]によれば、例えば、ユーザはデジタルアシスタントシステムに「私は今どこにいますか？」等の質問をする場合があり、ユーザの現在のロケーションに基づき、デジタルアシスタントは、「あなたはセントラルパーク内の西門の近くにいます」と回答する場合があり、ユーザは、例えば、「私の友人を、来週の私のガールフレンドの誕生日パーティに招待して下さい」と述べることによって、タスク実行を要求する場合もあり、それに応じて、デジタルアシスタントは、音声出力、「はい、ただ今」を生成することによって要求を了解し、次に、ユーザの電子メールアドレスから、ユーザの電子アドレス帳に載っているユーザの友人の各々に適切なカレンダー招待状を送信するものである。したがって、上記摘示事項及び図面を総合勘案すると、引用文献１には次の発明（以下「引用発明」という。）が記載されている。なお、（ａ）～（ｅ）は、説明のために当審で付与したものであり、以下、「構成ａ」～「構成ｅ」という。（引用発明）（ａ）デジタルアシスタントシステムにおいて、デジタルアシスタントと対話する方法であって、（ｂ）用語「デジタルアシスタント」、「仮想アシスタント」、「インテリジェント自動アシスタント」、又は「自動デジタルアシスタント」は、口頭及び／又はテキスト形式の自然言語入力を解釈してユーザ意図を推測し（例えば、自然言語入力に対応するタスクの種類を特定し）、推測されたユーザ意図に基づき動作を実行する（例えば、特定されたタスクの種類に対応するタスクを実行する）あらゆる情報処理システムを指すものであり、（ｃ１）デジタルアシスタントシステムは、ユーザ機器（１０４ａ及び１０４ｂ）上で実行されるクライアント側部分、並びにサーバシステム１０８上で実行されるサーバ側部分１０６を含み、（ｃ２）ユーザ機器１０４は、ハンドヘルドコンピュータ、ＰＤＡ、タブレットコンピュータ、スマートフォンなどであり、（ｃ３）ユーザ機器１０４は、カメラサブシステム２２０を含み、音声認識、音声応答、デジタル録音、及び電話機能等の、音声使用可能機能を促進するために、１つ以上のスピーカ２２８及び１つ以上のマイクロフォン２３０に結合されるオーディオサブシステム２２６を含むものであり、（ｄ１）デジタルアシスタントクライアントモジュール２６４は、ユーザ機器１０４の種々のユーザインターフェース（例えば、Ｉ／Ｏサブシステム２４４）を通じて音声入力、テキスト入力、タッチ入力、及び／又はジェスチャ入力を受け入れる能力を有し、また、オーディオ、視覚、及び／又は触覚形態の出力を提供する能力も有し、ユーザの意図の推測を助けるために、ユーザ入力とともにコンテクスト情報又はそのサブセットをデジタルアシスタントサーバ１０６に提供するものであり、（ｄ２）ユーザ入力に付随し得るコンテクスト情報は、センサ情報、例えば、照明、環境ノイズ、周囲温度、周囲環境の画像又はビデオ等を含み、（ｄ３）ユーザ入力に関連付けられるコンテクスト情報は、ユーザ機器から任意追加的に入手するものであり、ユーザ入力に関連するユーザ固有のデータ、語彙、ユーザ設定、ユーザ機器のハードウェア及び／又はソフトウェア状態、ユーザ要求の前、最中、若しくは直後に集められたセンサ情報、デジタルアシスタントとユーザとの間の以前の対話（例えば、ダイアログ）を含むものであり、（ｅ）例えば、ユーザはデジタルアシスタントシステムに「私は今どこにいますか？」等の質問をする場合があり、ユーザの現在のロケーションに基づき、デジタルアシスタントは、「あなたはセントラルパーク内の西門の近くにいます」と回答する場合があり、ユーザは、例えば、「私の友人を、来週の私のガールフレンドの誕生日パーティに招待して下さい」と述べることによって、タスク実行を要求する場合もあり、それに応じて、デジタルアシスタントは、音声出力、「はい、ただ今」を生成することによって要求を了解し、次に、ユーザの電子メールアドレスから、ユーザの電子アドレス帳に載っているユーザの友人の各々に適切なカレンダー招待状を送信する、（ａ）デジタルアシスタントと対話する方法。イ引用文献２の記載及び引用文献２記載の技術事項引用文献２には、図面とともに、次の技術事項が記載されている。なお、下線は当審で付した。「【０００１】本発明の実施の形態は、音声認識特性を含むコンピュータプログラムに入力される発話の関連性の判定に関する。」「【０００３】あらゆるボイス入力を処理することは、システムリソースに重い負荷を与え、全体的に効率が低下し、他の機能のために利用可能なハードウェアリソースの提供が制限されることになる。さらに、無関係のボイス入力の処理から回復することは、音声認識システムにとって難しく、しかも時間がかかる。同様に、関係のあるボイス入力に加えて、多くの無関係のボイス入力を処理しなければならないために、音声認識システムに混乱が生じて、不正確さが増大することになる。」「【００１４】頭部チルト角に加えて、ユーザの発話に関連づけられる別の顔の向きの特徴はユーザの注視方向である。ユーザの注視方向とは、発話中にユーザの目が向いている方向のことである。ユーザの注視方向はまた、発話中のユーザの意図に関する情報を提供する。多くの状況で、ユーザは、話すとき自分のターゲットにアイコンタクトする。そのため、発話中のユーザの注視方向は、発話のターゲットが誰／何であるかを判定するのに役立つ。」「【００１９】各アプリケーション／プラットフォームは、抽出された視覚的特徴（たとえば頭部チルト、視線など）と音響的特徴（たとえば音の到着方向などの局所情報など）にもとづいて発話の関連性を判定することができる。たとえば、あるアプリケーション／プラットフォーム（すなわち図２Ｅに示すような携帯電話、タブレットＰＣ、携帯ゲーム機のようなハンドヘルドデバイス）はターゲットからの許容されるずれに関してより厳密であるが、他のアプリケーション／プラットフォーム（すなわち図２Ａに示すようなテレビディスプレイをもつリビングルームセットアップ）は厳密ではない。これに加えて、よりよい決定をするために、決定木、ニューラルネットワークなどの機械学習アルゴリズムを用いてこれらのオーディオ－ビジュアルの特徴と発話の関連性の間のマッピングを学習するために、対象物から収集されるデータを用いることができる。あるいは、関連／非関連のバイナリの決定をする代わりに、抽出されたオーディオ－ビジュアルの特徴にもとづいて推定された確からしさのスコア（すなわち［０，１］の間の数値で０は非関連、１は関連）を、入力された発話フレームを重み付けするために音声認識エンジンに送ることができるようなシステムでは軟判定を用いることもできる。たとえば、ユーザの頭部チルト角が増加するにつれて、ユーザの発話の関連性は低くなる。同様に、ユーザの注視方向が特定のターゲットから逸脱するにつれて、ユーザの発話の関連性は低くなる。このように、ユーザの発話の重み付けされた関連性を用いて、その発話がさらに処理されるか、さらなる処理の前に破棄されるかを決定することができる。【００２０】音声認識処理に先だって検出されたユーザの発話の関連性に重み付けすることによって、システムは、音声認識の全体的な正確性を向上させるとともにかなりのハードウェアリソースを節約することができる。関連性のない音声入力を破棄することによって、プロセッサの負担を減らし、無関係な発話を処理するのにかかわる混乱を減らせる。」「【００４２】本発明の実施の形態は、携帯電話、タブレットコンピュータ、携帯情報端末、携帯インターネットデバイス、携帯ゲーム機その他のハンドヘルドデバイスに実装することもできる。」上記記載から、引用文献２には以下の事項が記載されている。・上記【０００１】、【０００３】によれば、引用文献２には、音声認識システムにおける発話の関連性の判定に関する技術が記載されている。・上記【００１４】によれば、発話中のユーザの注視方向は、発話中のユーザの意図に関する情報を提供し、発話のターゲットが誰／何であるかを判定するのに役立つものである。・上記【００１９】によれば、ユーザの発話の関連性は、ユーザの注視方向が特定のターゲットから逸脱するにつれて低くなる。・上記【００１９】、【００２０】によれば、ユーザの発話の関連性は、ユーザの注視方向に基づいて推定された確からしさのスコア（［０、１］の間の数値で０は非関連、１は関連）によって重み付けされる。・上記【００１９】によれば、発話の重み付けされた関連性を用いて、その発話がさらに処理されるか、さらなる処理の前に破棄されるかを決定している。・上記【００２０】によれば、関連性のない音声入力を破棄することによって、プロセッサの負担を減らし、無関係な発話を処理するのにかかわる混乱を減らすることができる。・上記【００１９】、【００４２】によれば、引用文献２記載の発話の関連性を判定するための方法は、携帯電話、タブレットＰＣ、携帯ゲーム機のようなハンドヘルドデバイスに実装することができるものである。したがって、上記摘記事項及び図面を総合勘案すると、引用文献２には以下の技術（以下、「引用文献２記載の技術事項」という。）が記載されている。「音声認識システムにおける発話の関連性の判定に関する技術であって、発話中のユーザの注視方向は、発話中のユーザの意図に関する情報を提供し、発話のターゲットが誰／何であるかを判定するのに役立ち、ユーザの発話の関連性は、ユーザの注視方向が特定のターゲットから逸脱するにつれて低くなり、ユーザの発話の関連性は、ユーザの注視方向に基づいて推定された確からしさのスコア（［０、１］の間の数値で０は非関連、１は関連）によって重み付けされ、発話の重み付けされた関連性を用いて、その発話がさらに処理されるか、さらなる処理の前に破棄されるかを決定し、関連性のない音声入力を破棄することによって、プロセッサの負担を減らし、無関係な発話を処理するのにかかわる混乱を減らすことができ、携帯電話、タブレットＰＣ、携帯ゲーム機のようなハンドヘルドデバイスに実装することができる、技術。」（３）当審の判断当審が通知した訂正前の請求項１～５、１１、１７～１９に係る特許に対する取消理由とあわせて、上記「第２」「２（２）エ（ウ）」で述べた本件発明６、７、１０、１２、１４、１６の独立特許要件についてもここで検討することとし、本件発明１～７、１０～１２、１４、１６～１９についてまとめて判断する。ア本件発明１について本件発明１と引用発明とを対比する。（ア）構成Ａについて引用発明の「ユーザ機器１０４」は、構成ｃ２の「ハンドヘルドコンピュータ、ＰＤＡ、タブレットコンピュータ、スマートフォンなど」であり、構成Ａの「電子デバイス」に相当する。また、引用発明の「デジタルアシスタント」は、構成ｂのとおり「仮想アシスタント」と同じ意味で用いられており、本件発明１の「仮想アシスタント」に相当する。そうすると、引用発明の構成ａの「デジタルアシスタントと対話する方法」は、構成ｄ１の「ユーザ機器１０４の種々のユーザインターフェース」を通じて、構成ｅのように「デジタルアシスタント」を動作させており、本件発明１の「電子デバイスにおいて仮想アシスタントを動作させる方法」に相当する。したがって、引用発明は構成Ａを備えている。（イ）構成Ｂについて引用発明の「ユーザ機器１０４」が構成ｃ３の「マイクロフォン２３０に結合されるオーディオサブシステム２２６」を含み、構成ｅの「私は今どこにいますか？」及び「私の友人を、来週の私のガールフレンドの誕生日パーティに招待して下さい」といった音声入力を受け入れることは、本件発明１の「前記電子デバイスでオーディオ入力を受信する」ことに相当する。したがって、引用発明は構成Ｂを備えている。（ウ）構成Ｃについて引用発明の構成ｅの「私の友人を、来週の私のガールフレンドの誕生日パーティに招待して下さい」という音声入力は、ユーザ要求を含んでおり、構成Ｃの「ユーザ要求を含む第１のユーザ発話入力」に相当する。また、引用発明の構成ｂの「デジタルアシスタント」が「口頭」「の自然言語入力を解釈してユーザ意図を推測」することは、構成Ｃの「ユーザ発話入力を識別する」ことに相当する。ここで、技術常識を考慮すると、引用発明の「デジタルアシスタント」が「口頭」「の自然言語入力を解釈してユーザ意図を推測」するために、ユーザによる音声入力を監視することは自明といえ、構成Ｃの「ユーザ発話入力を識別するために前記オーディオ入力を監視する」ことに相当する。したがって、引用発明は構成Ｃを備えている。（エ）構成Ｄについて引用発明の構成ｂの「デジタルアシスタント」が「口頭」「の自然言語入力を解釈してユーザ意図を推測」することは、音声入力中に逐次行われることが明白であり、構成Ｄの「前記オーディオ入力中の前記第１のユーザ発話入力を識別する」ことに相当する。したがって、引用発明は構成Ｄを備えている。（オ）構成Ｅについて本件発明１の「文脈情報」について、本件明細書の発明の詳細な説明には、「【００２４】いくつかの実施形態において、ユーザ入力に付随する文脈情報は、照明、周囲の騒音、周囲の温度などのセンサ情報、周囲環境の画像又は映像、別の物体までの距離などを含むことができる。文脈情報は、ユーザデバイス１０２の物理的状態（例えば、デバイスの向き、デバイスの場所、デバイスの温度、電力レベル、速度、加速度、運動パターン、セルラ信号強度など）又はユーザデバイス１０２のソフトウェア状態（例えば、実行中の処理、インストール済プログラム、過去及び現在のネットワーク活動、バックグラウンドサービス、エラー記録、資源利用率、フロントモーストアプリケーションなど）と関連付けられた情報を更に含むことができる。これらの種類の文脈情報はいずれも、ユーザ入力と関連する文脈情報として仮想アシスタントサーバに提供できる。更に、文脈情報は、脈拍、手のひらの温度、音声品質、顔の表情などの生体測定ユーザデータを更に含むことができる。」と記載されている（下線は当審で付与）。上記【００２４】によれば、引用発明の構成ｄ２、ｄ３の「コンテクスト情報」は、本件発明１の「文脈情報」と同様の内容を含むものであり、引用発明の「コンテクスト情報」は本件発明１の「文脈情報」に相当する。また、引用発明の構成ｅの「ユーザの現在のロケーション」は、構成ｄ３のユーザ入力に関連する「コンテクスト情報」に対応し、引用発明のデジタルアシスタントは、コンテクスト情報に基づいて「あなたはセントラルパーク内の西門の近くにいます」という回答を音声出力する処理を行っている。そうすると、引用発明と本件発明１は「前記第１のユーザ発話入力に関連する文脈情報に基づいて処理を行う」点で共通する。ただし、本件発明１は、構成Ｅの「前記第１のユーザ発話入力に関連する文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第１のユーザ発話入力と以前のユーザ発話入力との間の意味的関係とを含」むのに対して、引用発明はそのような構成を備えていない点で相違する。（カ）構成Ｅ１～Ｅ１ｄについて本件発明１は、構成Ｅの「判定すること」が構成Ｅ１～Ｅ１ｄの「前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させること」を含むのに対して、引用発明はそのような処理を含まない点で相違する。（キ）構成Ｅ２～Ｅ３ｂについて本件発明１は、構成Ｅの「判定すること」がさらに構成Ｅ２～Ｅ３ｂの「前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定すること」を含むのに対して、引用発明はそのような処理を含まない点で相違する。（ク）構成Ｆ１、Ｆ２について本件発明１は、構成Ｅの「判定すること」の結果に応じて、構成Ｆ１の「前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視すること」と、構成Ｆ２の「前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視すること」を備えるのに対して、引用発明はそのような処理を備えていない点で相違する。（ケ）したがって、本件発明１と引用発明との間の一致点及び相違点は、以下のとおりである。＜一致点＞（Ａ）電子デバイスにおいて仮想アシスタントを動作させる方法であって、（Ｂ）前記電子デバイスでオーディオ入力を受信することと、（Ｃ）ユーザ要求を含む第１のユーザ発話入力を識別するために前記オーディオ入力を監視することと、（Ｄ）前記オーディオ入力中の前記第１のユーザ発話入力を識別することと、（Ｅ’）前記第１のユーザ発話入力に関連する文脈情報に基づいて処理を行うことと（Ａ）を備えることを特徴とする方法。＜相違点１＞本件発明１は、構成Ｅの「前記第１のユーザ発話入力に関連する文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第１のユーザ発話入力と以前のユーザ発話入力との間の意味的関係とを含」むのに対して、引用発明はそのような構成を備えていない点。＜相違点２＞本件発明１は、構成Ｅの「判定すること」が構成Ｅ１～Ｅ１ｄの「前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させること」を含むのに対して、引用発明はそのような処理を含まない点。＜相違点３＞本件発明１は、構成Ｅの「判定すること」がさらに構成Ｅ２～Ｅ３ｂの「前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定すること」を含むのに対して、引用発明はそのような処理を含まない点。＜相違点４＞本件発明１は、構成Ｅの「判定すること」の結果に応じて、構成Ｆ１の「前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視すること」と、構成Ｆ２の「前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視すること」を備えるのに対して、引用発明はそのような処理を備えていない点。最初に、相違点１～３についてまとめて検討する。本件発明１は、構成Ｅ～Ｅ１ｄを言い換えれば、要するに「ユーザの注視の方向」に加え「ユーザ発話入力と以前のユーザ発話入力との間の意味的関係」に基づいて、ユーザ発話入力に応答するか否かを判定することを備えた方法である。ここで、引用文献２には、「音声認識システムにおける発話の関連性の判定に関する技術であって、発話中のユーザの注視方向は、発話中のユーザの意図に関する情報を提供し、発話のターゲットが誰／何であるかを判定するのに役立ち、ユーザの発話の関連性は、ユーザの注視方向が特定のターゲットから逸脱するにつれて低くなり、ユーザの発話の関連性は、ユーザの注視方向に基づいて推定された確からしさのスコア（［０、１］の間の数値で０は非関連、１は関連）によって重み付けされ、発話の重み付けされた関連性を用いて、その発話がさらに処理されるか、さらなる処理の前に破棄されるかを決定し、関連性のない音声入力を破棄することによって、プロセッサの負担を減らし、無関係な発話を処理するのにかかわる混乱を減らすことができ、携帯電話、タブレットＰＣ、携帯ゲーム機のようなハンドヘルドデバイスに実装することができる、技術。」が記載されている（上記「（２）イ」参照）。しかしながら、引用文献２には、「発話中のユーザの注視方向」に加え「ユーザ発話入力と以前のユーザ発話入力との間の意味的関係」に基づいて、ユーザ発話入力に応答するか否かを判定することは記載も示唆もない。また、音声入力を受け付けるシステムにおいて、「ユーザ発話入力と以前のユーザ発話入力との間の意味的関係」に基づいて、ユーザ発話入力に応答するか否かを判定することが技術常識であることの証拠はない。したがって、上記相違点４について検討するまでもなく、本件発明１は、引用発明及び引用文献２に記載された技術的事項に基いて当業者が容易に発明をすることができたものではない。よって、本件発明１は、特許法第29条第2項の規定に違反してされたものではない。イ本件発明２～７、１０～１２、１４、１６、１７について本件発明２～７、１０～１２、１４、１６、１７は、請求項１を引用するものであり、本件発明１に対して、さらに限定した構成を追加したものである。よって、上記アに示した理由と同様の理由により、本件発明２～７、１０～１２、１４、１６、１７は、特許法第29条第2項の規定に違反するものではない。ウ本件発明１８、１９について本件発明１８、１９は、それぞれ、本件発明１に対応する「プログラム」、「システム」のカテゴリの発明として特定したものであり、上記アで検討した相違点１～４に係る、本件発明１の構成Ｅ～Ｆ２と同じ構成を含むものである。よって、上記アに示した理由と同様の理由により、本件発明１８、１９は、特許法第29条第2項の規定に違反してされたものではない。エまとめ以上のとおりであるから、訂正前の請求項１～５、１１、１７～１９に係る特許に対して、当審が特許権者に通知した取消理由は、本件訂正によって全て解消した。また、本件発明６、７、１０、１２、１４、１６は、特許法第29条第2項の規定に違反するものではない。３取消理由通知において採用しなかった特許異議申立理由について（１）申立理由（特許法第29条第2項）の概要ア訂正前の請求項１～５、８、１７～１９について訂正前の請求項１～５、８、１７～１９に係る発明は、下記の甲第１号証に記載の発明に基づいて、当業者が容易に発明をすることができたものである。イ訂正前の請求項９、１３、１５について訂正前の請求項９、１３、１５に係る発明は、下記の甲第１号証に記載の発明、及び甲第２号証に記載の発明に基づいて、当業者が容易に発明をすることができたものである。ウ訂正前の請求項１１について訂正前の請求項１１に係る発明は、下記の甲第１号証に記載の発明、及び甲第３号証に記載の発明に基づいて、当業者が容易に発明をすることができたものである。エ証拠甲第１号証：特開２０１２－２２０９５９号公報（引用文献２）甲第２号証：米国特許出願公開第２０１３／０１４４６１６号明細書甲第３号証：特開２０１２－４０６５５号公報（２）各甲号証の記載事項ア甲第１号証甲第１号証の記載事項に関しては、上記「２（２）イ引用文献２の記載及び引用文献２記載の技術事項」に記載のとおりであり、以下、引用文献２記載の技術事項のことを「甲１発明」と言い換える。イ甲第２号証甲第２号証には、図面とともに、次の事項が記載されている。括弧内は記載箇所を示し、仮訳を付した。また、下線は当審で付与した。（ア）「Disclosed herein are systems, methods, and non-transitory computer-readable storage media for processing speech. A system configured to practice the method monitors user utterances to generate a conversation context. Then the system receives a current user utterance independent of non-natural language input intended to trigger speech processing. The system compares the current user utterance to the conversation context to generate a context similarity score, and if the context similarity score is above a threshold, incorporates the current user utterance into the conversation context. If the context similarity score is below the threshold, the system discards the current user utterance.」（ABSTRACT）（仮訳：ここで開示されているのは、音声を処理するためのシステム、方法、および非一過性のコンピュータ読み取り可能な記憶媒体である。当該方法を実行するように構成されたシステムは、会話の文脈を生成するためにユーザの発話を監視する。そして、システムは、音声処理の動作開始を意図した非自然言語入力には依存しない、現在のユーザの発話を受信する。システムは、文脈類似度スコアを生成するために、現在のユーザの発話を会話の文脈と比較し、文脈類似度スコアが閾値を超えていれば、現在のユーザの発話を会話の文脈に組み込む。文脈類似度スコアが閾値を下回る場合、システムは、現在のユーザの発話を破棄する。) （イ）「The present disclosure relates to speech processing and more specifically to using conversation context to determine which portions of continuously monitored speech are relevant.」([0002]) （仮訳：本発明は、音声処理に関し、より詳細には連続的にモニターされる発話のどの部分が関連しているかを決定するために会話の文脈を使用することに関する。）（ウ）「For example, the user 202 is interacting with the server 208 via a speech interface to dictate an email to a co-worker. In the middle of dictation, another user 204 enters the room and hijacks the user's 202 attention. The utterance monitor 210 and/or the context monitor 214 can detect that the topic of the conversation changes as the user 202 interacts with the other user 204, and ignore or discard those utterances. During this time, the context database 212 can continue to maintain the email dictation context. After the user 202 and the other user 204 are done interacting, the user 202 can return to the email dictation and continue dictating the email. In this example, the user 202 can immediately resume dictating without explaining to the system how to handle the speech, and without providing some explicit signal such as a button press, gesture, or uttering a key phrase or ‘hot’ word.」([0030]) （仮訳：例えば、ユーザ２０２は、同僚宛の電子メールを口述して書き取らせるために、会話インターフェースを介してサーバ２０８と対話している。口述書き取りの途中で、別のユーザ２０４が部屋に入り、ユーザ２０２の注意を奪う。発話監視装置２１０及び／又は文脈監視装置２１４は、ユーザ２０２が別のユーザ２０４と対話するときに会話の話題が変化することを検出し、それらの発話を無視または破棄することができる。この間、文脈データベース２１２は、電子メールの口述書き取りの文脈を保っておくことができる。ユーザ２０２と別のユーザ２０４との会話が完了した後、ユーザ２０２は、電子メールの口述書き取りに戻り、電子メールの口述書き取りを続けることができる。この例では、ユーザ２０２は、さきほどの会話をどう扱うかをシステムに説明することなく、また、ボタンの押下、ジェスチャ、又は、キーフレーズ若しくは「ホット」ワードの発生などの明示的な信号を提供することなく、すぐに口述書き取りを再開できる。）上記（ア）～（ウ）によれば、甲第２号証には、音声処理に関して、次の技術が記載されている。「現在のユーザの発話を、連続的にモニターされて監視されている当該ユーザによる会話の文脈と比較して、文脈類似度スコアを生成し、文脈類似度スコアが閾値を超えていれば、現在のユーザの発話を会話の文脈に組み込み、文脈類似度スコアが閾値を下回っていれば、現在のユーザの発話を破棄すること。」ウ甲第３号証甲第３号証には、図面とともに、次の事項が記載されている。下線は当審で付与した。（ア）「【０００１】本発明は、自律動作可能なロボットの制御に関する。」（イ）「【００２８】対話要求検出部４６は、ロボット１０に対する対話要求を検出するものであり、特徴データ記録部６０、検出部６２、および検出イベント出力部６４を含んで構成される。例えば、対話要求検出部４６は、ロボット１０の周囲にいる人がロボット１０に向かって話しかけたことを示す対話要求と、話しかけた音声の到来方向を検出する。なお、ロボット１０に対する対話要求とは、ロボット１０のみに対して話しかける場合に限られず、会議の参加者がロボット１０を含む複数の参加者に対して話しかける場合も含まれる。【００２９】特徴データ記録部６０には、会議の参加者の音声や画像の特徴を示す特徴データ（例えば特徴ベクトル）を記録することができる。この特徴データは、例えば、会議の開始前に、ビデオカメラ２４で参加者の顔を撮影したり、マイクアレイ２６で参加者の音声を取得することにより生成することができる。この場合、特徴データ記録部６０には、参加者の人物／対象物ＩＤと対応付けて特徴データを記録することが可能である。また、会議の参加者ではなく、人の音声や顔の一般的な特徴を示す特徴データが特徴データ記録部６０に記録されることとしてもよい。【００３０】検出部６２は、ビデオカメラ２４から出力される画像データや、マイクアレイ２６から出力される音声データに基づいて、ロボット１０に対する対話要求を検出する。また、検出部６２は、マイクアレイ２６を構成する複数のマイクへの音の到達時間の差を用いて、人の音声の到来方向を検出することができる。また、検出部６２は、ビデオカメラ２４から出力される画像データにより、ロボット１０に視線が向いている人の位置や方向を検出したり、人の顔の動きを検出したりすることができる。【００３１】さらに、検出部６２は、ビデオカメラ２４から出力される画像データやマイクアレイ２６から出力される音声データと、特徴データ記録部６０に記録されている特徴データとに基づいて、対話要求の検出の信頼度を算出する。例えば、検出部６２は、音声データや画像データから生成される特徴データと、特徴データ記録部６０に記録されている特徴データの類似度を、従来のパターン認識技術（例えば、線形判別分析）を用いて算出し、信頼度として用いることができる。なお、特徴データ記録部６０に、特徴データが人物／対象物ＩＤと対応付けて記録されている場合であれば、検出部６２は、検出された対話要求に対応する人物を示す人物／対象物ＩＤを特定することができる。【００３２】検出イベント出力部６４は、検出部６２によって検出された対話要求を示す検出イベント（検出データ）を出力する。検出イベントには、例えば、音声の到来方向や、ロボット１０に視線が向いている人の方向、人物／対象物ＩＤ等の対話要求の内容を示すデータに加えて、算出された信頼度が含まれる。【００３３】動作制御部４８は、動作データ記録部４０に記録されている動作データ、または、対話要求検出部４６から出力される検出イベントに応じて、ロボット１０の動作を制御する。例えば、動作制御部４８は、ネットワーク１２経由で送信されてくるコマンドに応じた動作データを動作データ記録部４０から読み出し、動作データに応じてロボット１０の動作を制御する。また、動作制御部４８は、対話要求検出部４６から、音声の到来方向が検出されたことを示す検出イベントを受信すると、信頼度が所定の閾値（所定レベル）より高い場合は、検出イベントに応じてロボット１０の動作を制御する。例えば、動作制御部４８は、ロボット１０の頭部または胴体部が音声の到来方向に向くように、頭部アクチュエータ２０や体部アクチュエータ２２を制御する。」上記（ア）、（イ）によれば、甲第３号証には、自律動作可能なロボットの制御に関して、次の技術が記載されている。「ロボットに対する対話要求を検出し、検出した音声データや画像データから生成される特徴データと、発話により対話を要求した人物のＩＤと対応付けて記録された特徴データとに基づき、ロボットに対する対話要求の検出の信頼度を算出し、信頼度が所定の閾値（所定レベル）より高い場合には、検出イベントに応じてロボットの動作を制御すること。」（３）当審の判断本件発明１～５、８、１１、１３、１５、１７～１９の「仮想アシスタント」について、本件明細書の【０００２】には、ユーザが発話及び／又はテキストの形で自然言語を使用して対話できることや、出力を自然言語の形でユーザへ返送することが記載されている。一方、甲１発明は、携帯電話、タブレットＰＣ、携帯ゲーム機のようなハンドヘルドデバイスにおいて、そのような「仮想アシスタント」を動作させておらず、本件発明のようにユーザが電子デバイスで動作する「仮想アシスタント」に対して発話入力を行い、「仮想アシスタント」がユーザ発話入力に対して応答を提供するものではない。また、甲第２、３号証記載の技術事項も、電子デバイスにおいて「仮想アシスタント」を動作させるものではない。そうすると、甲１発明に甲第２、３号証記載の技術事項を適用したとしても、仮想アシスタントを動作させて、発話中のユーザの注視方向に基づいてユーザ発話入力に応答するか否かを判定する構成に至らない。なお、申立人は、特許異議申立書において、「本件特許発明１の『仮想アシスタント』については、本件明細書の段落０００８に『発話・・・（略）・・・の形の自然言語を解釈し且つ推測されたユーザの意図に基づいてアクションを実行する何らかの情報システム』であればよいとの説明があることを考慮すると、甲１発明における『電子デバイスにおいて音声認識を実装するプログラムがタスクを実行する方法』は、本件特許発明１における『電子デバイスにおいて仮想アシスタントを動作させる方法』に相当する。」（審判請求書の３２頁下から２行目～３３頁５行）と主張している。しかしながら、仮に甲１発明が「仮想アシスタント」を動作させるものであったとしても、本件発明１、１８、１９は本件訂正により、「ユーザの注視の方向」に加え「ユーザ発話入力と以前のユーザ発話入力との間の意味的関係」に基づいて、ユーザ発話入力に応答するか否か判定することを含むものとなった。本件発明１を引用する本件発明２～５、１１、１７についても同様である。また、本件発明８、１３、１５も「ユーザの注視の方向」に加えて、さらに「ユーザ発話入力が自動音声認識装置により認識されたか否かを示す指標」（請求項８）や「ユーザ発話入力と、前記ユーザ発話入力が受信されたときに電子デバイスにより表示されていたコンテンツとの間の意味的関係」（本件発明１３）、または「ユーザ発話入力と電子デバイスの以前の出力との間の意味的関係」（本件発明１５）に基づいて、ユーザ発話入力に応答するか否か判定することを含むものである。甲第２、３号証記載の技術事項は、そのような「ユーザの注視の方向」に加え「ユーザ発話入力と以前のユーザ発話入力との間の意味的関係」などに基づいて、ユーザ発話入力に応答するか否かを判定することを示唆するものではない。したがって、申立人の異議理由を採用することはできない。第４むすび以上のとおりであるから、取消理由通知に記載した取消理由及び特許異議申立書に記載した特許異議申立理由によっては、請求項１～５、８、１１、１３、１５、１７～１９に係る特許を取り消すことはできない。また、他に請求項１～５、８、１１、１３、１５、１７～１９に係る特許を取り消すべき理由を発見しない。そして、請求項９は削除されたことから、申立ての対象が存在しないものとなった。よって、結論のとおり決定する。
発明の名称	（５７）【特許請求の範囲】【請求項１】電子デバイスにおいて仮想アシスタントを動作させる方法であって、前記電子デバイスでオーディオ入力を受信することと、ユーザ要求を含む第１のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記オーディオ入力中の前記第１のユーザ発話入力を識別することと、前記第１のユーザ発話入力に関連する文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第１のユーザ発話入力と以前のユーザ発話入力との間の意味的関係とを含み、前記判定することは、前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定することと、を含む、ことと、前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視することとを備えることを特徴とする方法。【請求項２】前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することは、前記第１のユーザ発話入力の開始時の１つ以上の所定の語を識別せずに行われることを特徴とする請求項１記載の方法。【請求項３】前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することは、前記第１のユーザ発話入力を受信する前に受信された物理的ボタン入力又は仮想ボタン入力を識別せずに行われることを特徴とする請求項１記載の方法。【請求項４】前記第１のユーザ発話入力に対する前記応答を生成することは、前記第１のユーザ発話入力に対して音声からテキストへの変換を実行することと、前記第１のユーザ発話入力に基づいてユーザの意図を判定することと、前記第１のユーザ発話入力に基づいて実行されるタスクを判定することと、前記第１のユーザ発話入力に基づいて実行される前記タスクのパラメータを判定することと、前記実行されるタスクを実行することと、前記第１のユーザ発話入力に対するテキスト応答を表示することと、前記第１のユーザ発話入力に対するオーディオ応答を出力することとのうち１つ以上を含むことを特徴とする請求項１乃至３の何れか１項に記載の方法。【請求項５】前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することは、前記第１のユーザ発話入力に関連する前記文脈情報に依存する１つ以上の条件付き規則を評価することを含むことを特徴とする請求項１乃至３の何れか１項に記載の方法。【請求項６】前記文脈情報は、前記第１のユーザ発話入力の受信と以前のユーザ入力との間の経過時間を含み、前記仮想アシスタントが前記文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである尤度スコアを計算することは、前記経過時間の値が持続時間の閾値より大きいことに応じて前記尤度スコアを減少させることと、前記経過時間の値が前記持続時間の閾値より小さいことに応じて前記尤度スコアを増加させることとを含むことを特徴とする請求項１乃至３の何れか１項に記載の方法。【請求項７】前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザと前記電子デバイスとの間の距離を含み、前記仮想アシスタントが前記文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、前記距離が距離の閾値より長いことに応じて前記尤度スコアを減少させることと、前記距離が前記距離の閾値より短いことに応じて前記尤度スコアを増加させることとを含むことを特徴とする請求項１乃至３の何れか１項に記載の方法。【請求項８】電子デバイスにおいて仮想アシスタントを動作させる方法であって、前記電子デバイスでオーディオ入力を受信することと、ユーザ要求を含む第１のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記オーディオ入力中の前記第１のユーザ発話入力を識別することと、前記第１のユーザ発話入力に関連する文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第１のユーザ発話入力が自動音声認識装置により認識されたか否かを示す指標とを含み、前記判定することは、前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、前記第１のユーザ発話入力が前記自動音声認識装置により認識されたことを示す指標に応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が前記自動音声認識装置により認識されなかったことを示す指標に応じて前記尤度スコアを減少させることと、を含む、ことと、前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定することと、を含む、ことと、前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視することとを備えることを特徴とする方法。【請求項９】（削除）【請求項１０】前記文脈情報は前記第１のユーザ発話入力の長さを含み、前記仮想アシスタントが前記文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、前記第１のユーザ発話入力の前記長さが長さの閾値より短いことに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力の前記長さが前記長さの閾値より長いことに応じて前記尤度スコアを減少させることとを含むことを特徴とする請求項１乃至３の何れか１項に記載の方法。【請求項１１】前記文脈情報は、前記第１のユーザ発話入力の発話者のＩＤを含むことを特徴とする請求項１乃至３の何れか１項に記載の方法。【請求項１２】前記文脈情報は、前記第１のユーザ発話入力が受信された時刻を含み、前記仮想アシスタントが前記文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、前記時刻が所定の１組の時刻の中に含まれることに応じて前記尤度スコアを増加させることと、前記時刻が前記所定の１組の時刻の中に含まれないことに応じて前記尤度スコアを減少させることとを含むことを特徴とする請求項１乃至３の何れか１項に記載の方法。【請求項１３】電子デバイスにおいて仮想アシスタントを動作させる方法であって、前記電子デバイスでオーディオ入力を受信することと、ユーザ要求を含む第１のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記オーディオ入力中の前記第１のユーザ発話入力を識別することと、前記第１のユーザ発話入力に関連する文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第１のユーザ発話入力と、前記第１のユーザ発話入力が受信されたときに前記電子デバイスにより表示されていたコンテンツとの間の意味的関係とを含み、前記判定することは、前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、前記意味的関係の値がコンテンツ意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記意味的関係の前記値が前記コンテンツ意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定することと、を含む、ことと、前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視することとを備えることを特徴とする方法。【請求項１４】前記文脈情報は、前記第１のユーザ発話入力が受信されたときに前記ユーザにより実行されていたジェスチャーを含み、前記仮想アシスタントが前記文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、前記ジェスチャーが所定の１組のジェスチャーのうち１つのジェスチャーであることに応じて前記尤度スコアを増加させることと、前記ジェスチャーが前記所定の１組のジェスチャーのうち１つのジェスチャーではないことに応じて前記尤度スコアを減少させることとを含むことを特徴とする請求項１乃至３の何れか１項に記載の方法。【請求項１５】電子デバイスにおいて仮想アシスタントを動作させる方法であって、前記電子デバイスでオーディオ入力を受信することと、ユーザ要求を含む第１のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記オーディオ入力中の前記第１のユーザ発話入力を識別することと、前記第１のユーザ発話入力に関連する文脈情報に基づいて前記１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第１のユーザ発話入力と前記電子デバイスの以前の出力との間の意味的関係とを含み、前記判定することは、前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、前記意味的関係の値が以前の出力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記意味的関係の値が前記以前の出力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定することと、を含む、ことと、前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視することとを備えることを特徴とする方法。【請求項１６】前記文脈情報は、前記第１のユーザ発話入力と以前のＥメールとの間の意味的関係を含み、前記仮想アシスタントが前記文脈情報に基づいて前記第１のユーザ発話入力に応答すべきである前記尤度スコアを計算することは、前記第１のユーザ発話入力と前記以前のＥメールとの間の前記意味的関係の値が以前のＥメールの意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力と前記以前のＥメールとの間の前記意味的関係の値が前記以前のＥメールの意味の閾値より小さいことに応じて前記尤度スコアを減少させることとを含むことを特徴とする請求項１乃至３の何れか１項に記載の方法。【請求項１７】前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することは、前記第１のユーザ発話入力が受信されたときの前記ユーザの注視の方向を判定することを含む、請求項１記載の方法。【請求項１８】１つ以上のプロセッサによる実行のためのプログラムであって、オーディオ入力を受信することと、ユーザ要求を含む第１のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記オーディオ入力中の前記第１のユーザ発話入力を識別することと、前記第１のユーザ発話入力に関連する文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第１のユーザ発話入力と以前のユーザ発話入力との間の意味的関係とを含み、前記判定することは、前記第１のユーザ発話入力に関連する前記文脈情報に基づいて仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定することと、を含む、ことと、前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視することとのための命令を含むことを特徴とするプログラム。【請求項１９】仮想アシスタントを動作させるシステムであって、１つ以上のプロセッサと、メモリと、１つ以上のプログラムとを備え、前記１つ以上のプログラムは、前記メモリに格納され、前記１つ以上のプロセッサによって実行されるように構成され、前記１つ以上のプログラムは、オーディオ入力を受信することと、ユーザ要求を含む第１のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記オーディオ入力中の前記第１のユーザ発話入力を識別することと、前記第１のユーザ発話入力に関連する文脈情報に基づいて前記第１のユーザ発話入力に応答するか否かを判定することであって、前記文脈情報は、前記第１のユーザ発話入力が受信されたときのユーザの注視の方向と、前記第１のユーザ発話入力と以前のユーザ発話入力との間の意味的関係とを含み、前記判定することは、前記第１のユーザ発話入力に関連する前記文脈情報に基づいて前記仮想アシスタントが前記第１のユーザ発話入力に対して可聴応答を提供すべきである尤度スコアを計算することであって、前記計算することは、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が電子デバイスを指していることに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力が受信されたときに前記ユーザの注視の前記方向が前記電子デバイスからそれていることに応じて前記尤度スコアを減少させることと、前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値がユーザ発話入力の意味の閾値より大きいことに応じて前記尤度スコアを増加させることと、前記第１のユーザ発話入力と前記以前のユーザ発話入力との間の前記意味的関係の値が前記ユーザ発話入力の意味の閾値より小さいことに応じて前記尤度スコアを減少させることと、を含む、ことと、前記尤度スコアを閾値と比較することと、前記尤度スコアが前記閾値よりも大きいとの判定に従って、前記第１のユーザ発話入力に応答すると判定することと、前記尤度スコアが前記閾値よりも小さいとの判定に従って、前記第１のユーザ発話入力に応答しないと判定することと、を含む、ことと、前記第１のユーザ発話入力に応答するとの判定に応じて、前記第１のユーザ発話入力に対する応答を生成することと、第２のユーザ発話入力を識別するために前記オーディオ入力を監視することと、前記第１のユーザ発話入力に応答しないという判定に応じて、前記第１のユーザ発話入力に対する応答を生成せずに、前記第２のユーザ発話入力を識別するために前記オーディオ入力を監視することとのための命令を含むことを特徴とするシステム。
訂正の要旨	審決（決定）の【理由】欄参照。
異議決定日	2022-05-16
出願番号	P2018-087328
審決分類	P 1 652・ 121- YAA (G10L)
最終処分	07 維持
特許庁審判長	千葉輝久
特許庁審判官	五十嵐努樫本剛
登録日	2020-04-27
登録番号	6697024
権利者	アップルインコーポレイテッド
発明の名称	手動始点／終点指定及びトリガフレーズの必要性の低減
代理人	大塚康徳
代理人	永川行光
代理人	大塚康徳
代理人	木村秀二
代理人	大塚康弘
代理人	下山治
代理人	特許業務法人大塚国際特許事務所
代理人	高柳司郎
代理人	特許業務法人大塚国際特許事務所
代理人	高柳司郎
代理人	下山治
代理人	永川行光
代理人	大塚康弘
代理人	木村秀二

プライバシーポリシーセキュリティーポリシー運営会社概要サービスに関しての問い合わせ