• ポートフォリオ機能


ポートフォリオを新規に作成して保存
既存のポートフォリオに追加保存

  • この表をプリントする
PDF PDFをダウンロード
審決分類 審判 査定不服 1項3号刊行物記載 特許、登録しない。 H04M
審判 査定不服 4号2号請求項の限定的減縮 特許、登録しない。 H04M
審判 査定不服 2項進歩性 特許、登録しない。 H04M
管理番号 1351896
審判番号 不服2017-19331  
総通号数 235 
発行国 日本国特許庁(JP) 
公報種別 特許審決公報 
発行日 2019-07-26 
種別 拒絶査定不服の審決 
審判請求日 2017-12-26 
確定日 2019-05-21 
事件の表示 特願2015-557147「デジタルアシスタントのためのボイストリガ」拒絶査定不服審判事件〔平成26年 8月14日国際公開、WO2014/124332、平成28年 3月10日国内公表、特表2016-508007〕について、次のとおり審決する。 
結論 本件審判の請求は、成り立たない。 
理由 第1 手続の経緯
本願は、2014年(平成26年)2月7日(パリ条約による優先権主張外国庁受理 2013年2月7日 米国)を国際出願日とする出願であって、平成27年9月14日に手続補正書が提出され、平成28年10月11日付けで拒絶理由が通知され、平成29年4月7日に意見書及び手続補正書が提出され、同年8月25日付けで拒絶査定されたところ、同年12月26日に拒絶査定不服審判の請求がなされ、同時に手続補正がなされたものである。

第2 平成29年12月26日にされた手続補正についての補正の却下の決定
[補正の却下の決定の結論]
平成29年12月26日にされた手続補正を却下する。

[理由]
1 本件補正の概要
平成29年12月26日にされた手続補正(以下、「本件補正」という。)は、特許請求の範囲について、[本件補正前]の請求項1を[本件補正後]の請求項1に補正することを含むものであるところ、[本件補正前]及び[本件補正後]の請求項1及び請求項1を引用する請求項16の記載は以下のとおりである(下線部は、補正箇所を示す。)。

[本件補正前]
「【請求項1】
1つ以上のプロセッサと、前記1つ以上のプロセッサによる実行のための命令を記憶するメモリと、を含む電子機器にて実行される、ボイストリガを動作させるための方法であって、
音入力を受け取る工程と、
前記音入力の少なくとも一部が所定の種類の音に対応するか判定する工程と、
前記音入力の少なくとも一部が前記所定の種類に対応することを判定すると、前記音入力の入力レプリゼンテーションを1つ以上のリファレンスレプリゼンテーションと比較することに基づいて前記音入力が所定の内容を含むか判定する工程であって、前記入力レプリゼンテーションは前記音入力のオーディオシグニチャを表現する、工程と、
前記音入力が前記所定の内容を含むことを判定すると、スピーチベースのサービスを開始する工程と、
を含むことを特徴とする方法。」

「【請求項16】
前記電子機器が所定の向きにあるか判定する工程と、
前記電子機器が前記所定の向きにあることを判定すると、前記ボイストリガの所定のモードを有効にする工程と、
を更に含むことを特徴とする、請求項1に記載の方法。」

[本件補正後]
「【請求項1】
1つ以上のプロセッサと、前記1つ以上のプロセッサによる実行のための命令を記憶するメモリと、を含む電子機器にて実行される、ボイストリガを動作させるための方法であって、
音入力を受け取る工程と、
前記音入力の少なくとも一部が所定の種類の音に対応するか判定する工程と、
前記音入力の少なくとも一部が前記所定の種類に対応することを判定すると、前記音入力の入力レプリゼンテーションを1つ以上のリファレンスレプリゼンテーションと比較することに基づいて前記音入力が所定の内容を含むか判定する工程であって、前記入力レプリゼンテーションは前記音入力のオーディオシグニチャを表現する、工程と、
前記音入力が前記所定の内容を含むことを判定すると、スピーチベースのサービスを開始する工程と、
前記電子機器の少なくとも前面で検出された光量を閾値光量と比較することに基づいて、前記スピーチベースのサービスを開始する前記ボイストリガの動作モードを判定する工程と、
を含むことを特徴とする方法。」

「【請求項16】
前記電子機器が所定の向きにあるか判定する工程と、
前記電子機器が前記所定の向きにあることを判定すると、前記ボイストリガの所定のモードを有効にする工程と、
を更に含むことを特徴とする、請求項1に記載の方法。」

2 本件補正の適否
(1)補正の範囲(第17条の2第3項)
ア 請求人が、平成29年12月26日付け審判請求書(第3ページ第10行?第14行)において補正の根拠として主張する明細書の段落【0108】、【0110】、【0129】及び【0130】には、次の記載がある(なお、下線は、当審において付したものである。以下、同様。)。
「 【0108】
上述したように、ボイストリガシステム400が有効であるか否か(例えば、リスニング中)は、機器の物理的向きに依存し得る。いくつかの実施態様では、ボイストリガは、機器が表面の上で「上向き」に置かれている場合に有効となっており(例えば、ディスプレイ及び/又はタッチスクリーンの表面が見える状態)、及び/又は「下向き」の場合に無効となっている。これは、設定メニュー、スイッチ、又はボタンの操作を必要とすることなく、ボイストリガを有効及び/又は無効にする容易な方法をユーザに提供する。いくつかの実施態様では、この機器は、表面の上で上向きに置かれているか又は下向きに置かれているかを、光センサ(例えば、機器104の前後面への入射光の差異に基づいて)、近接センサ、磁気センサ、加速度計、ジャイロスコープ、チルトセンサ、カメラ、等を使用して検出する。いくつかの実施態様では、他の作動モード、設定、パラメータ、又は嗜好は、機器の向き及び/又は位置に影響される。いくつかの実施態様では、ボイストリガがリッスンしている特定のトリガ音、単語、又はフレーズは、機器の向き及び/又は位置に依存する。例えば、いくつかの実施態様では、ボイストリガは、機器が1つの向きにある(例えば、表面の上で上向きに置かれている)場合は、第1のトリガ語、フレーズ、又は音をリッスンし、機器が別の向きにある(例えば、下向きに置かれている)場合は、異なるトリガ語、フレーズ、又は音をリッスンする。いくつかの実施態様では、下向きに対するトリガフレーズは、上向きに対するものよりも長く、及び/又はより複雑なものである。したがって、ユーザは、他の人が周りにいる場合、又は雑音の多い環境にいる場合は、機器を下向きに置くことができ、より短い、又はより簡易なトリガ語に対してより頻繁に起こるであろう不正の承認も削減しながら、ボイストリガを依然として作動できるようにする。1つの具体例として、上向きトリガフレーズは「SIRIへ」としてもよく、一方で下向きトリガフレーズは「SIRIへ、アンドリューです、起動してください」としてもよい。より長いトリガフレーズはまた、音検出器及び/又は音声認証器に対して、処理及び/又は分析のためにより長い音声サンプルを提供し、したがってボイストリガの精度を上げ、不正の承認を減らす。」

「 【0110】
いくつかの実施態様では、この機器は、実質的な閉鎖空間内にあるか判定することで、機器が(例えば、ポケット、財布、バッグ、引き出し、等内に)保管されているか検出する。いくつかの実施態様では、この機器は、光センサ(例えば、専用周囲光センサ及び/又はカメラ)を使用して、保管されていることを判定する。例えば、いくつかの実施態様では、この機器は、光センサが微弱な光を検出する又は光を検出しない場合に、おそらくは保管されている。いくつかの実施態様では、時刻及び/又は機器の位置も考慮される。例えば、高い光レベルが予想される場合(例えば、日中)に、光センサが低い光レベルを検出すると、機器は保管されており、ボイストリガシステム400は不要としてもよい。したがって、このボイストリガシステム400は、低電力状態又はスタンバイ状態となる。いくつかの実施態様では、機器の対向する面に位置するセンサによって検出された光の差異は、その位置、したがって保管されているか否かの判定に使用され得る。具体的には、この機器が、ポケット又はバッグ内に保管されておらず、テーブル又は表面に置いてある場合に、ユーザはボイストリガを有効にするよう試みようとする。この機器がテーブル又はデスクなどの表面の上に下向き(又は、上向き)に置かれている場合、機器の片面は塞がれ、他の表面が周囲光に露出する一方で、その片面には微弱な光しかあたらない又は光がまったくあたらない。したがって、機器の前面及び背面の光センサが、著しく異なる光レベルを検出する場合、機器は保管されていないと判定する。一方で、対向する面にある光センサが、同じ又は類似の光レベルを検出する場合、機器は実質的な閉鎖空間内に保管されていると判定する。また、双方の光センサが、日中に低い光レベルを検出する場合(又は、電話が明るい環境にあると機器が予想する場合)、機器は保管されていると大きな信頼値を伴って判定する。」

「 【0129】
図6は、いくつかの実施態様に係る、ボイストリガシステムを動作させる方法600を示す(例えば、図4のボイストリガシステム400、図4)。いくつかの実施態様では、方法600は、1つ以上のプロセッサ及び、1つ以上のプロセッサ(例えば、電子機器104)によって実行される命令を記憶するメモリを含む電子機器にて実行されている。電子機器は、所定の向きにあるか判定する(602)。いくつかの実施態様では、電子機器は、光センサ(カメラを含む)、マイクロフォン、近接センサ、磁気センサ、加速度計、ジャイロスコープ、チルトセンサ、等を使用して、その向きを検出する。例えば、電子機器は、前面カメラのセンサに入射する光の量又は輝度を、背面カメラのセンサに入射する光の量又は輝度と比較することで、表面の上で下向き又は上向きに置かれているか判定する。前面カメラによって検出された量及び/又は輝度が、背面カメラによって検出されたそれよりも十分に大きい場合は、電子機器は、上向きにあると判定する。一方で、背面カメラによって検出された量及び/又は輝度が、前面カメラのそれよりも十分に大きい場合は、機器は、下向きにあると判定する。電子機器が所定の向きにあることを判定すると、この電子機器は、ボイストリガの所定のモードを有効にする(604)。いくつかの実施態様では、所定の向きは、機器のディスプレイスクリーンが実質的に水平で下向きにあることに対応し、所定のモードはスタンバイモードである。(606)。例えば、いくつかの実施態様では、スクリーンが下向きとなるように、スマートホン又はタブレットがテーブル又はデスクに置かれている場合、ボイストリガはスタンバイモード(例えば、電源切)となり、ボイストリガの意図しない起動を防止する。
【0130】
一方で、いくつかの実施態様では、所定の向きは、機器のディスプレイスクリーンが実質的に水平で上向きにあることに対応し、所定のモードはリスニングモードである(608)。したがって、例えば、スクリーンが上向きとなるように、スマートホン又はタブレットがテーブル又はデスクに置かれている場合、ボイストリガはリスニングモードとなり、トリガを検出すると、ユーザに応答できる。」

また、明細書の段落【0021】?【0022】、【0131】?【0134】には、次の記載がある。
「 【0021】
いくつかの実施態様では、この方法は、電子機器が所定の向きにあるか判定すること、及び、電子機器が所定の向きにあることを判定すると、ボイストリガの所定のモードを有効にすることを含む。いくつかの実施態様では、所定の向きは、機器のディスプレイスクリーンが実質的に水平で下向きにあることに対応し、所定のモードはスタンバイモードである。いくつかの実施態様では、所定の向きは、機器のディスプレイスクリーンが実質的に水平で上向きにあることに対応し、所定のモードはリスニングモードである。
【0022】
いくつかの実施態様は、ボイストリガを動作させる方法を提供する。この方法は、1つ以上のプロセッサ及び、1つ以上のプロセッサによって実行される命令を記憶するメモリを含む電子機器にて実行されている。この方法は、ボイストリガを第1のモードにて動作させることを含む。この方法は、電子機器のマイクロフォン及びカメラのうちの1つ以上が塞がっていることを検出することで、電子機器が実質的な閉鎖空間内にあるか判定することを更に含む。この方法は、電子機器が実質的な閉鎖空間内にあることを判定すると、ボイストリガを第2のモードに切り換えることを更に含む。いくつかの実施態様では、第2のモードは、スタンバイモードである。

【0131】
図7は、いくつかの実施態様に係る、ボイストリガを動作させる方法700を示す(例えば、ボイストリガシステム400、図4)。いくつかの実施態様では、方法700は、1つ以上のプロセッサ及び、1つ以上のプロセッサ(例えば、電子機器104)によって実行される命令を記憶するメモリを含む電子機器にて実行されている。電子機器は、ボイストリガ(例えば、ボイストリガシステム400)を第1のモードにて動作させる(702)。いくつかの実施態様では、第1のモードは、通常のリスニングモードである。
【0132】
電子機器は、電子機器のマイクロフォン及びカメラのうちの1つ以上が塞がっていることを検出することで、実質的な閉鎖空間内にあるか判定する(704)。いくつかの実施態様では、実質的な閉鎖空間は、ポケット、財布、バッグ、引き出し、グローブボックス、ブリーフケース、等を含む。
【0133】
上述したように、いくつかの実施態様では、この機器は、スピーカ又はトランスデューサから、1つ以上の音(例えば、トーン、クリック、ピン、等)を発し、1つ以上のマイクロフォン又はトランスデューサを監視し、省略音(単数又は複数)のエコーを検出することで、マイクロフォンが塞がっていることを検出する。例えば、相対的に広い環境(例えば、室内又は車内)は、相対的に狭い、実質的な閉鎖環境(例えば、財布又はポケット)とは異なって音を反射する。したがって、マイクロフォン(又は、音を発したスピーカ)が塞がっていることを、エコー(又は無エコー)に基づいて機器が検出すると、この機器は、実質的な閉鎖空間内にあると判定する。いくつかの実施態様では、この機器は、マイクロフォンが閉鎖空間特有の音を拾うことを検出することで、マイクロフォンが塞がっていることを検出する。例えば、機器がポケット内にある場合、マイクロフォンがポケットの繊維に接触又は近接することによる、特徴的な柔らかいノイズを、マイクロフォンは検出することができる。いくつかの実施態様では、この機器は、センサによる受光レベルに基づいて、又は焦点の合った画像を得ることができるか判定することで、カメラが塞がっていることを検出する。例えば、高レベルの光が予想される時間(例えば、日中)に、カメラセンサが低レベルの光を検出する場合、この機器は、カメラが塞がっており、機器が実質的な閉鎖空間内にあることを判定する。別の例として、カメラは、そのセンサ上の焦点の合った画像を取得するよう試みてもよい。通常、これは、カメラが非常に暗い場所(例えば、ポケット又はバックパック)にある場合、又は焦点を合わせようと試みる被写体に近すぎる(例えば、財布又はバックパック内)にある場合に難しくなる。したがって、カメラが焦点の合った画像を取得できない場合、機器が実質的な閉鎖空間内にあると判定する。
【0134】
電子機器が実質的な閉鎖空間内にあることを判定すると、電子機器は、ボイストリガを第2のモードに切り換える(706)。いくつかの実施態様では、第2のモードは、スタンバイモードである(708)。いくつかの実施態様では、スタンバイモードにある場合、ボイストリガシステム400は、周囲の音声の監視を続けるが、ボイストリガシステム400をさもなければ起動するかに関わらず、受け取った音に応答しない。いくつかの実施態様では、スタンバイモードでは、ボイストリガシステム400は無効となっており、音声を処理してトリガ音を検出することをしない。いくつかの実施態様では、第2のモードは、第1のモードとは異なるデューティサイクルに従って、ボイストリガシステム400の1つ以上の音検出器を動作させることを含む。いくつかの実施態様では、第2のモードは、第1のモードとは異なる組み合わせの音検出器を動作させることを含む。」

イ 上記段落【0021】、【0108】、【0129】及び【0130】には、電子機器が所定の向きにあるか判定し、電子機器が所定の向きにあることを判定すると、ボイストリガの所定のモードを有効にする実施態様に関連して、前面カメラのセンサに入射する光の量又は輝度を、背面カメラのセンサに入射する光の量又は輝度と比較し、その差異に基づいて、表面の上で下向き又は上向きに置かれているかを判定し、上向きにある場合はリスニングモード、下向きにある場合はスタンバイモードとなることが記載されているといえる。

ウ また、上記段落【0022】、【0110】、【0131】?【0134】には、電子機器が実質的な閉鎖空間内にあるか判定し、電子機器が実質的な閉鎖空間内にあることを判定すると、ボイストリガを第2のモード(スタンバイモード)に切り換える実施態様に関連して、センサによる受光レベルに基づいて、例えば、高レベルの光が予想される時間(例えば、日中)に、カメラセンサが低レベルの光を検出する場合、この機器は、カメラが塞がっていることを検出して、機器が実質的な閉鎖空間内にあると判定し、第1のモード(通常のリスニングモード)から第2のモード(スタンバイモード)に切り換えることが記載されている。
さらに、上記段落【0110】には、機器の対向する面に位置するセンサによって検出された光の差異に基づいて、機器の前面及び背面の光センサが、著しく異なる光レベルを検出する場合、機器は保管されていないと判定し(なお、この場合に、電子機器が上向きにあるか下向きにあるかも判定し得ることは上記イのとおりである。)、対向する面にある光センサが、同じ又は類似の光レベルを検出する場合、機器が実質的な閉鎖空間内に保管されていると判定することが記載されている。

エ これらの記載を技術常識を踏まえて総合すると、前面の光センサの検出結果だけでは電子機器が所定の向きにあるかまでは判定できないものの、少なくとも前面の光センサで検出された光レベルが所定のレベルより小さいときには([本件補正後]の請求項1の「前記電子機器の少なくとも前面で検出された光量を閾値光量と比較することに基づいて」に対応。)、電子機器が下向きにあるか実質的な閉鎖空間内に保管されているかのいずれかであり、下向き及び実質的な閉鎖空間内に保管のいずれにおいても、スタンバイモードになるのであるから、ボイストリガをリスニングモードからスタンバイモードに切り換え得ること([本件補正後]の請求項1の「前記スピーチベースのサービスを開始する前記ボイストリガの動作モードを判定する」ことに対応。)が把握できる。

オ よって、請求項1に係る補正は、願書に最初に添付した明細書、特許請求の範囲及び図面とみなされた外国語書面の翻訳文(以下、「本願翻訳文」という。)に記載した事項の範囲内においてする補正であるといえる。

(2)補正の目的(第17条の2第5項第1号ないし第4号)
ア 請求項1に係る補正は、[本件補正前]の請求項1に「前記電子機器の少なくとも前面で検出された光量を閾値光量と比較することに基づいて、前記スピーチベースのサービスを開始する前記ボイストリガの動作モードを判定する工程」を追加する補正であるから、特許法第17条の2第5項に規定する、請求項の削除(第1号)、誤記の訂正(第3号)、明りょうでない記載の釈明(第4号)のいずれを目的とするものでもないことは明らかである。

イ そこで、請求項1に係る補正が、特許法第17条の2第5項第2号に規定する特許請求の範囲の減縮(第36条第5項の規定により請求項に記載した発明を特定するために必要な事項を限定するものであって、その補正前の当該請求項に記載された発明とその補正後の当該請求項に記載される発明の産業上の利用分野及び解決しようとする課題が同一であるものに限る。)(以下、「限定的減縮」という。)を目的としたものか否かにつき検討する。

ウ まず、補正前の請求項1に記載された発明と補正後の請求項1に記載される発明とを比較する。
補正前の請求項1に記載された発明は、「音入力を受け取る工程」から「スピーチベースのサービスを開始する工程」までを特定した「ボイストリガを動作させるための方法」であって、スピーチベースのサービスを継続して動作させる場合に消費電力を削減することを課題として、消費電力の大きい「スピーチベースのサービス」を開始させる前に、消費電力の小さい音種類検出器やトリガ音検出器によって「音入力の少なくとも一部」が「所定の種類の音に対応」し、「所定の内容を含むこと」を判定するものといえる。
一方、補正後の請求項1に記載される発明は、電子機器が下向きにある場合や実質的な閉鎖空間内に保管されている場合には通常のリスニングモードからスタンバイモードに切り換えて消費電力を削減するという新たな課題を解決するために、補正前の請求項1に記載された発明に、「前記電子機器の少なくとも前面で検出された光量を閾値光量と比較することに基づいて、前記スピーチベースのサービスを開始する前記ボイストリガの動作モードを判定する工程」を追加したものといえる。
そうすると、補正前の請求項1に記載された発明と補正後の請求項1に記載される発明の解決しようとする課題が同一であるとはいえないから、特許法第17条の2第5項第2号に規定する特許請求の範囲の減的的減縮を目的としたものということはできない。

エ 次に、補正前の請求項1を引用する請求項16に記載された発明と補正後の請求項1に記載される発明とを比較する。
本件補正後の請求項16の「前記電子機器が所定の向きにあるか判定する工程と、 前記電子機器が前記所定の向きにあることを判定すると、前記ボイストリガの所定のモードを有効にする工程」は、上記(1)イの電子機器が所定の向きにあるか判定し、電子機器が所定の向きにあることを判定すると、ボイストリガの所定のモードを有効にする実施態様に対応するものといえる。
しかし、上記(1)ア?エで検討したとおり、補正後の請求項1の「前記電子機器の少なくとも前面で検出された光量を閾値光量と比較すること」のみでは、「前記電子機器が所定の向きにあるか判定する」(補正前の請求項16)ことができないことが明らかであるから、補正後の請求項1に記載される発明が、補正前の請求項16に記載された発明を減縮したものということもできない。

オ 上記ウ及びエのとおりであるから、本件補正は、特許法第17条の2第5項第2号に規定する特許請求の範囲の限定的減縮を目的とするものとはいえない。

カ 上記ア?オより、本件補正は、特許法第17条の2第5項に規定する要件に違反するものである。

(3)小括
以上より、本件補正は、特許法第17条の2第5項に規定する要件に違反するものであるから、同法第159条第1項の規定において読み替えて準用する同法第53条第1項の規定により却下されるべきものである。
よって、上記補正の却下の決定の結論のとおり決定する。

第3 本願発明について
1 本願発明
平成29年12月26日にされた手続補正は、上記のとおり却下されたので、本願の請求項に係る発明は、平成29年4月7日にされた手続補正により補正された特許請求の範囲の請求項1ないし20に記載された事項により特定されるものであるところ、その請求項1に係る発明(以下、「本願発明」という。)は、その請求項1に記載された事項により特定される、以下のとおりのものである。

「【請求項1】
1つ以上のプロセッサと、前記1つ以上のプロセッサによる実行のための命令を記憶するメモリと、を含む電子機器にて実行される、ボイストリガを動作させるための方法であって、
音入力を受け取る工程と、
前記音入力の少なくとも一部が所定の種類の音に対応するか判定する工程と、
前記音入力の少なくとも一部が前記所定の種類に対応することを判定すると、前記音入力の入力レプリゼンテーションを1つ以上のリファレンスレプリゼンテーションと比較することに基づいて前記音入力が所定の内容を含むか判定する工程であって、前記入力レプリゼンテーションは前記音入力のオーディオシグニチャを表現する、工程と、
前記音入力が前記所定の内容を含むことを判定すると、スピーチベースのサービスを開始する工程と、
を含むことを特徴とする方法。」

2 原査定の拒絶の理由
原査定の拒絶の理由の概要は、次のとおりである。
(1)(新規性)この出願の請求項1に係る発明は、その出願前に日本国内又は外国において、頒布された下記の引用文献1に記載された発明又は電気通信回線を通じて公衆に利用可能となった発明であるから、特許法第29条第1項第3号に該当し、特許を受けることができない。
(2)(進歩性)この出願の請求項1に係る発明は、その出願前に日本国内又は外国において、頒布された又は電気通信回線を通じて公衆に利用可能となった下記の引用文献1に記載された発明及び周知技術に基いて、その出願前にその発明の属する技術の分野における通常の知識を有する者が容易に発明をすることができたものであるから、特許法第29条第2項の規定により特許を受けることができない。

引用文献1.特開平10-312194号公報

3 引用発明及び周知技術
(1)引用文献1の記載事項及び引用発明
原査定の拒絶の理由に引用された特開平10-312194号公報(平成10年11月24日出願公開。以下「引用文献」という。)には、図面とともに、次のとおりの記載がある(なお、下線は当審において付したものである。以下、同様。)。

ア 「【0001】
【発明の属する技術分野】
本発明は、入力音声を認識してその認識結果に基づいて何らかの動作を行う音声認識装置において、装置側が入力音声を常に待つ状態となっている場合、入力音声を効率よく検出して消費電流を少なくする認識対象音声検出方法およびその装置に関する。
【0002】
【従来の技術】
最近、音声認識を用いた機器が様々な分野で実用化されてきている。この種の機器は、スイッチを入れて初めて認識動作を開始することで十分な機能を果たすものもあるが、音声が入力されると、直ちに入力音声を認識してその認識結果に基づいた動作を行うというように、常に、入力音声を待ち状態としておく必要のあるものもある。
【0003】
後者の例としては、たとえば、ユーザが時刻を問い合わせると現在時刻を応答する時計などがある。この種の機器は、乾電池で動作するものが殆どであり、また、機器の小型、軽量化を考えたとき、乾電池は小容量のものを使用することが望ましく、かつ、長時間、電池交換をしないで済むことが望まれる。
【0004】
しかし、この種の機器は、常に音声入力を待ち状態にしておく必要があるため、待ち状態においても、常に電流が消費されることになり、その消費電流を如何に小さく抑えるかが大きな課題である。
(中略)
【0010】
そこで、本発明は、入力音声を効率よく検出することで、認識対象音声の入力待ち状態における機器の消費電流を小さく抑え、乾電池を使用する機器においては、小容量の電池で長時間使用することができる認識対象音声検出方法およびその装置を実現することを目的としている。」

イ 「【0030】
図1は本発明の実施の形態を説明するブロック図であり、たとえばコンデンサマイクロホンなどの音入力手段1、音入力手段1から入力された音のレベルが一定以上あるか否かを判定する入力レベル判定手段2、入力レベル判定手段2で一定以上のレベルがあると判定された音が音声らしきものであるかそれ以外の雑音であるか否かを判定する音判定手段3、音判定手段3で音声らしきものであると判定された場合、それが音声であるか否かを判定する音声判定手段4、音声判定手段4で音声であると判定された場合、その音声に対して認識動作を行う音声認識手段5、間欠駆動制御手段6などから構成されている。なお、この間欠駆動制御手段6は、前記音入力手段1に対しては、間欠駆動信号(これについては後述する)を与えるとともに、他の手段に対してはそれぞれの手段が動作を行うときに動作電圧を与える。
(中略)
【0036】
したがって、音声入力手段1は、間欠駆動制御手段6によって間欠的に設定されるる0.1 秒間の動作可能状態のときにのみ音の入力を可能とし、それ以外では音声入力動作やその他の動作を行わない状態(これをここではスリープ状態という)となる。
【0037】
そして、たとえば、ある時刻において音信号が存在し、このとき、音入力手段1が動作可能状態となっていれば、その音は音入力手段1により取り込まれる。この音入力手段1に入力された音信号は、入力レベル判定手段2で、入力レベルの判定が行われる。つまり、この段階では音の有無だけの判定を行う。
(中略)
【0041】
音が有りと判断された場合は、第2段階の処理として、音判定手段3によりその音が音声らしき音であるか雑音であるかを判定する。この音声らしき音であるか雑音であるかを判定する手段としては幾つかの考えられるが、ここでは、その一例として図4に示すように、所定以上のレベルの音の継続時間を調べて突発的な雑音であるか否かを判定する。
(中略)
【0045】
この第2段階の処理において、入力音声が突発的な雑音ではなく、音声である可能性があると判定された場合、第3段階の処理として、音声判定手段4によりその音声らしき音が人間の音声であるか否かを判定する。この音声判定手段4による音声判定処理について以下に説明する。
【0046】
この音声判定手段4が行う処理は、まず、音声らしき音が人間の音声かそれ以外の音かを区別することが必要であるが、これに対しては、入力音を特徴抽出処理(たとえばLPC分析)し、その分析結果に基づいて人間の音声であるか否かを判定する。具体的には、人間の音声生成機構のモデル化による特徴抽出処理を行って、その誤差を求め、誤差の大きさから人間の音声か否かを判定する。たとえば、第2段階の処理で突発的な雑音ではなく音声らしき音と判定された場合でも、音信号をLPC分析による誤差を求めることで明確に判断できる。なお、この音声判定手段4は、音声認識装置がもともと持っている特徴分析手段により行うことができることは勿論である。
【0047】
以上の第3段階の処理は、図3のフローチャートのステップs6,s7の処理である。つまり、第2段階の処理(音声らしい音か否かの判定処理)において、音声らしいと判定された場合、音声判定処理として、特徴抽出を行い(ステップs6)、その結果に基づいて人間の音声であるか否かを判定し、人間の音声であると判定した場合は認識対象音声として(ステップs7)、音声認識手段5にその特徴データを送り、認識処理に移る。もし、ステップs7で、人間の音声でないと判定された場合は、認識対象音声でないとしてスリープ状態に戻る。また、音声認識手段5により認識処理を行い(ステップs8)、認識処理が終了するとスリープ状態に戻る。」

ウ 「【0065】
また、第3段階の処理として、音声判定手段4が行う処理は、LPC分析などの音声特徴抽出により非音声を除去する処理であるが、たとえば、テレビジョンやラジオから流れてくる人間の音声は認識対象の音声と判断してしまうことになる。このような認識対象ではない人間の音声特徴データが音声認識部5に与えられると、音声認識部5ではその音声に反応して訳の分からない応答をすることがある。このような認識対象音声以外の音声を排除するために、その後の音声認識手段5における認識処理をキーワードを用いて認識を行うようにしてもよい。
【0066】
つまり、音声認識手段5における認識可能な登録単語の1つとしてキーワードを予め登録しておき、そのキーワードを含んだ音声を入力することで認識動作が可能とするような設定としておく。
【0067】
たとえば、時刻を問い合わせると現在時刻を応答する時計を考えた場合、キーワードとしてたとえば「太郎」を予め登録しておき、時刻を問い合わせるときに、単に「今何時」というのではなく、たとえば、「太郎、今何時」というように、キーワードを含んだ内容の問いかけを行うようにする。装置側では、キーワードが含まれている場合だけ認識対象音声として受け付けるようにする。これにより、キーワードを含まない音声は、認識対象音声として受け付けないので、前述したように、テレビジョンやラジオから流れてくる人間の音声に装置が反応して訳の分からない応答をするというようなことがなくなり、これによっても、無駄な電流消費を抑えることができる。」

エ 「【0069】
なお、本発明の処理を行う処理プログラムは、フロッピィディスク、光ディスク、ハードディスクなどの記憶媒体に記憶させておくことができ、本発明は、それらの記憶媒体をも含むものであり、また、ネットワークからデータを得る形式でもよい。
【0070】
【発明の効果】
以上説明したように、本発明によれば、音入力手段を間欠駆動させ、音入力手段が動作状態のときのみに音声入力動作を行うことにより、待ち状態における消費電流を小さく抑えることができる。
【0071】
また、本発明では、音入力手段が動作状態のときの処理を幾つかの段階に分けて行う。まず、処理時間が短く、しかも、電流消費が小さくて済む音の有無検出を第1段階の処理として行い、この第1段階の処理を通過した音信号に対し、その音がどのような音であるかの判定を第2段階の処理として行い、この第2段階の処理により音声らしいと判定された場合に、第3段階の処理として、人間の音声であるか否かの判定処理を行うというように、幾つかの工程に分けて処理を行うようにしている。しかも、工程を経るにしたがって、処理時間と消費電流を要する処理とし、それぞれの工程での条件が満たされない場合は、装置を非動作状態に戻し、音声入力手段のみが間欠駆動するモードに戻すようにしている。
【0072】
このように、工程を経るにしたがって、処理時間と消費電流を要する処理とすることにより、音入力手段を間欠駆動することによる様々な問題点に対応することができ、しかも、消費電流を大幅に抑えることが可能となる。」

オ 図1は以下のとおりである。



上記ア、ウの段落【0067】及びエの段落【0069】の記載によれば、「装置側が入力音声を常に待つ状態となっている場合、入力音声を効率よく検出して消費電流を少なくする認識対象音声検出方法」は、「ユーザが時刻を問い合わせると現在時刻を応答する時計など」のように「入力音声を認識してその認識結果に基づいて何らかの動作を行う音声認識装置」において、「処理プログラム」を利用して処理を行うことで実行される方法といえる。

したがって、引用文献には次の発明(以下、「引用発明」という。)が記載されていると認める。

「 ユーザが時刻を問い合わせると現在時刻を応答する時計などのように入力音声を認識してその認識結果に基づいて何らかの動作を行う音声認識装置において処理プログラムを利用して処理を行うことで実行される、装置側が入力音声を常に待つ状態となっている場合、入力音声を効率よく検出して消費電流を少なくする認識対象音声検出方法であって、
ある時刻において音信号が存在し、このとき、音入力手段1が動作可能状態となっていれば、その音は音入力手段1により取り込まれ、
この音入力手段1に入力された音信号は、入力レベル判定手段2で、入力レベルの判定が行われ、この段階では音の有無だけの判定を行い、
音が有りと判断された場合は、第2段階の処理として、音判定手段3によりその音が音声らしき音であるか雑音であるかを判定し、
この第2段階の処理において、入力音声が突発的な雑音ではなく、音声である可能性があると判定された場合、第3段階の処理として、音声認識装置がもともと持っている特徴分析手段により、音声判定手段4が、入力音を特徴抽出処理(たとえばLPC分析)し、その分析結果に基づいて人間の音声であるか否かを判定し、人間の音声であると判定した場合は認識対象音声として、音声認識手段5にその特徴データを送り、認識処理に移り、
第3段階の処理として、音声判定手段4が行う処理は、LPC分析などの音声特徴抽出により非音声を除去する処理であるが、認識対象音声以外の音声を排除するために、その後の音声認識手段5における認識処理をキーワードを用いて認識を行うようにしてもよく、音声認識手段5における認識可能な登録単語の1つとしてキーワードを予め登録しておき、そのキーワードを含んだ音声を入力することで認識動作が可能とするような設定としておき、たとえば、時刻を問い合わせると現在時刻を応答する時計を考えた場合、キーワードとしてたとえば「太郎」を予め登録しておき、時刻を問い合わせるときに、「太郎、今何時」というように、キーワードを含んだ内容の問いかけを行うようにし、キーワードが含まれている場合だけ認識対象音声として受け付けるようにした、方法。」

(2)周知技術
ア 特開2009-169470号公報には、次のとおりの記載がある。
「【0013】
演算部12は、CPU、MPU、DSP、FPGA等の一般的な動作回路を組み合わせて、音声検索部17と、辞書更新部18と、ナビゲーション機能部19とより構成されている。
音声検索部17は、マイクロフォン10を介してユーザから取得した発話音声の一部、あるいは全てについて、認識辞書データベース13に記憶された語彙(キーワード)との比較・照合を行い、一致度の高い尤もらしい語彙の一つあるいは複数を認識結果として取得する。
【0014】
なお、音声検索部17による、音声認識処理における発話音声と認識辞書データベース13に記憶された情報との比較には、特徴量を用いることができる。特徴量としては、LPCケプストラム、LPCデルタケプストラム、メルケプストラム、対数パワー等を組み合わせた時系列ベクトルデータが知られている。
音声検索部17はまた、ユーザの音声および手操作による施設検索利用履歴を監視し、地域別に利用頻度を記録する機能を備えている。」

上記記載によれば、「音声の特徴量を用いて、マイクロフォンを介してユーザから取得した発話音声と認識辞書データベースに記憶された語彙(キーワード)との比較・照合を行うことにより、語彙の一つを認識結果として取得する」ことが記載されているといえる。

イ 特開2009-116841号公報には、次のとおりの記載がある。
「【0015】
本発明によれば、音声指示認識部では、音声指示認識辞書に記憶される単語に基づいて、音声指示入力部から入力される指示が認識される。音声指示認識辞書には、指示を表す単語だけが記憶される。したがって指示の認識に要する時間を短縮することができる。」

「【0032】
図4は、音声指示入力手段12の構成を示すブロック図である。前述のように、音声指示入力手段12は、音声指示入力部16および音声指示認識部17を有する。音声指示認識部17は、音声指示認識辞書31と、音響分析部32と、類似度演算部33と、指示照合処理部34とを有する。
【0033】
音声指示認識辞書31は、メモリ18に記憶される。音声指示認識辞書31には、指示を表す単語だけが予め登録される。音響分析部32は、音声指示入力部16から入力される音声をデジタル波形に変換し、短い時間間隔のフレーム毎に周波数分析し、スペクトルを表すパラメータのベクトルに変換する。周波数分析には、線形予測分析(LPC)メルケプストラムのような表現方法が用いられる。類似度演算部33は、音響分析部32によって得られるパラメータのベクトルに対して、隠れマルコフモデルなどの音響モデルを作用させて、音韻毎に類似度を算出する。指示照合処理部34は、類似度演算部33によって算出される類似度に基づいて、音声指示認識辞書31に予め登録されている全ての単語との照合を行い、各単語のスコアを算出し、スコアの高い単語を認識結果として出力する。」

「【0040】
図7は、音声指示入力後の処理を説明するためのフローチャートである。音声指示入力後の処理は、制御部7によって実行される。音声指示の入力が終了すると、ステップa1で、入力された音声指示に基づいてキーワードを認識する。複数の指示が入力されたときは、入力された各指示を個別に認識して、複数のキーワードを認識する。次のステップa2では、キーワードを複数の区分に分類する。複数の区分は、動作区分および設定区分を含む。次のステップa3では、動作区分に分類されたキーワードに基づいて、タスクを作成する。次のステップ4では、設定区分に分類されたキーワードに基づいて、タスクにパラメータを設定する。この後、タスクを実行する。」

上記記載によれば、「音声の周波数分析には線形予測分析(LPC)メルケプストラムのような表現方法を用い、音声指示入力部16から入力される音声と音声指示認識辞書31に予め登録された指示を表す単語との照合を行うことにより、音声指示入力部から入力される音声指示に基づいてキーワードを認識する」ことが記載されているといえる。

ウ 特開平11-288296号公報には、次のとおりの記載がある。
「【0030】
音声認識部31は、音声入力部34から入力された音声データを、対話制御部32からの指示により入力音声の認識処理を行い、その認識結果を対話制御部32に返す。すなわち、音声入力部34から取得した音声データに対し、記憶している辞書データを用いて照合を行ない、複数の比較対象パターン候補と比較して一致度の高い上位比較対象パターンを対話制御部32へ出力する。入力音声中の単語系列の認識は、音声入力部34から入力された音声データを順次音響分析して音響的特徴量(例えばケプストラム)を抽出し、この音響分析によって得られた音響的特徴量時系列データを得る。そして、周知のDPマッチング法、HMM(隠れマルコフモデル)あるいはニューラルネットなどによって、この時系列データをいくつかの区間に分け、各区間が辞書データとして格納されたどの単語に対応しているかを求める。
【0031】
対話制御部32は、その認識結果及び自身が管理する内部状態から、音声合成部33への応答音声の発声指示や、システム自体の処理を実行するマルチメディアECU10に対して例えばナビゲート処理のために必要な目的地を通知して設定処理を実行させるよう指示する処理を実行する。このような処理が確定後処理であり、結果として、この音声認識装置30を利用すれば、上記操作スイッチ群8を手動しなくても、音声入力によりナビゲーションのための目的地の指示などが可能となるのである。また、ナビゲーションのための目的地指示ではなく、後述するように利用者が自分の利用者識別情報を音声入力した場合に、その利用者識別情報に基づく利用者特定もできるようにされている。」

上記記載によれば、「音響的特徴量(例えばケプストラム)を用いて、音声入力部34から取得した音声データと記憶している辞書データとを照合することにより、音声入力による目的地の指示が辞書データとして格納されたどの単語に対応しているかを求める」ことが記載されている。

エ 上記ア?ウによれば、本願出願当時、次の技術が周知であったことが認められる。

「入力された音声の特徴量を用いて、入力された音声と予め登録されたキーワードとを比較する」技術(以下、「周知技術」という。)。

4 対比
本願発明と引用発明とを対比する。
ア 引用発明の「入力された音信号」及び「音声信号」は、本願発明の「音入力」に相当し、引用発明において、音入力手段1が、ある時刻において存在する音信号を取り込むことは、本願発明にいう「音入力を受け取る工程」に相当する。

イ 引用発明は、入力レベル判定手段2で音の有無を判定し、音が有りと判断された場合は、第2段階の処理として、音判定手段3でその音が音声らしき音であるか雑音であるかを判定し、第2段階の処理において音声である可能性があると判定された場合、第3段階の処理として、音声認識装置がもともと持っている特徴分析手段により、入力音を特徴抽出処理(たとえばLPC分析)し、その分析結果に基づいて人間の音声であるか否かを判定するから、引用発明の「人間の音声」は、本願発明の「所定の種類の音」に含まれるといえ、本願発明と引用発明とは、「前記音入力の少なくとも一部が所定の種類の音に対応するか判定する工程」を含む点で一致する。

ウ 引用発明は、「キーワードを予め登録しておき、そのキーワードを含んだ音声を入力することで認識動作が可能とするような設定」とし、「人間の音声であると判定した場合」に、入力音声に「キーワードが含まれている場合だけ認識対象音声として受け付ける」ものであるところ、引用発明の「キーワード」は、本願発明の「所定の内容」に含まれるといえ、本願発明と引用発明とは、「前記音入力の少なくとも一部が前記所定の種類に対応することを判定すると、前記音入力が所定の内容を含むか判定する工程」を含む点で共通するといえる。

エ 引用発明の「ユーザが時刻を問い合わせると現在時刻を応答する」ような「入力音声を認識してその認識結果に基づいて」行われる「何らかの動作」は、本願発明の「スピーチベースのサービス」に含まれる。そして、引用発明は、「入力音声」に「キーワードが含まれている場合だけ認識対象音声として受け付け」て、「ユーザ時刻を問い合わせると現在時刻を応答する」ような「入力音声を認識してその認識結果に基づいて何らかの動作を行う」ものであるから、引用発明の「認識対象音声として受け付け」て「認識結果に基づいて何らかの動作を行う」ことは、本願発明にいう「スピーチベースのサービスを開始する」ことに含まれるといえる。
そうすると、本願発明と引用発明とは、「前記音入力が前記所定の内容を含むことを判定すると、スピーチベースのサービスを開始する工程」を含む点で一致する。

オ 引用発明は、「キーワードを含んだ内容の問いかけを行うようにし、キーワードが含まれている場合だけ認識対象音声として受け付け」て、「ユーザが時刻を問い合わせると現在時刻を応答する」ような「何らかの動作」を行うよう「音声認識装置」を動作させるための方法であるから、本願発明にいう「ボイストリガを動作させるための方法」に含まれるといえる。そして、引用発明の当該方法は、「音声認識装置において処理プログラムを利用して処理を行うことで実行される」から、引用発明の「処理プログラムを利用して処理を行う」「音声認識装置」は、本願発明の「電子機器」に対応し、本願発明と引用発明とは、「電子機器にて実行される、ボイストリガを動作させるための方法」である点で共通する。

したがって、本願発明と引用発明とは、
「【請求項1】
電子機器にて実行される、ボイストリガを動作させるための方法であって、
音入力を受け取る工程と、
前記音入力の少なくとも一部が所定の種類の音に対応するか判定する工程と、
前記音入力の少なくとも一部が前記所定の種類に対応することを判定すると、前記音入力が所定の内容を含むか判定する工程と、
前記音入力が前記所定の内容を含むことを判定すると、スピーチベースのサービスを開始する工程と、
を含むことを特徴とする方法。」

である点で一致し、以下の各点で相違する。

[相違点1]
「電子機器にて実行される、ボイストリガを動作させるための方法」に関し、本願発明では、「1つ以上のプロセッサと、前記1つ以上のプロセッサによる実行のための命令を記憶するメモリと、を含む」電子機器にて実行されるのに対し、引用発明では、電子機器にて「処理プログラムを利用して処理を行うことで」実行されるものの、電子機器が「1つ以上のプロセッサと、前記1つ以上のプロセッサによる実行のための命令を記憶するメモリと、を含む」ことについて特定がない点。

[相違点2]
「前記音入力が所定の内容を含むか判定する工程」に関し、本願発明では、「前記音入力の入力レプリゼンテーション」が「前記音入力のオーディオシグニチャを表現する」ものであり、「前記音入力の入力レプリゼンテーションを1つ以上のリファレンスレプリゼンテーションと比較することに基づいて」判定するのに対し、引用発明では、キーワードを予め登録しておき、そのキーワードを含んだ音声を入力することで認識動作が可能であるものの、入力された音声に予め登録したキーワードが含まれているかをどのように判定するか特定がない点。

5 相違点に対する判断
(1)相違点1について
引用発明は、「処理プログラムを利用して処理を行う」「音声認識装置」であるから、明示の特定はないものの、「1つ以上のプロセッサと、前記1つ以上のプロセッサによる実行のための命令を記憶するメモリと、を含む」と解するのが合理的であり、相違点1は相違点とはいえない。

また、仮に相違点であるとしても、「1つ以上のプロセッサと、前記1つ以上のプロセッサによる実行のための命令を記憶するメモリと、を含む」「音声認識装置」とすることは、当業者が容易になし得る。

(2)相違点2について
引用発明は、キーワードを含んだ音声を認識するものであるところ、音声の認識は、入力された音声の特徴を既知の音声の特徴とを比較することで、入力された音声が何であるかを認識することによって行われることが技術常識であるから、引用発明においても、明示の記載はないものの、入力された音声の特徴を既知の特徴と比較することに基づいて(本願発明にいう「音入力のオーディオシグニチャの表現」である「音入力のレプリゼンテーション」「を1つ以上のリファレンスレプリゼンテーションと比較することに基づいて」に相当。)入力された音声を認識し、予め登録されたキーワードが含まれているか否かを判定しているといえる。
よって、相違点2は相違点とはいえない。

また、仮に相違点であるとしても、上記3(2)のとおり、「入力された音声の特徴量を用いて、入力された音声と予め登録されたキーワードとを比較する」技術は、音声認識の分野における周知技術であり、引用発明において、入力された音声に予め登録したキーワードが含まれているかを判定する際に、上記周知技術を採用して、入力された音声の特徴量(本願発明の「音入力のオーディオシグニチャの表現」である「音入力のレプリゼンテーション」に相当。)を用いて、入力された音声と予め登録されたキーワードとを比較すること(本願発明の「前記音入力の入力レプリゼンテーションを1つ以上のリファレンスレプリゼンテーションと比較すること」に相当。)は、当業者が容易になし得る。

(3)小括
上記(1)及び(2)のとおりであるから、本願発明は引用発明と同一であり、特許法第29条第1項第3号に該当し、特許を受けることができない。
また、相違点があるとしても、引用発明及び上記周知技術に基いて、当業者が容易に発明をすることができたものであるから、特許法第29条第2項の規定により特許を受けることができない。

第4 むすび
以上のとおり、本願の請求項1に係る発明は、引用文献に記載された発明であるから、特許法第29条第1項第3号に該当し、特許を受けることができない。
また、本願の請求項1に係る発明は、引用文献に記載された発明及び周知技術に基づいて、当業者が容易に発明をすることができたものであるから、特許法第29条第2項の規定により特許を受けることができない。
したがって、本願の他の請求項について検討するまでもなく、本願は拒絶されるべきものである。

よって、結論のとおり審決する。
 
別掲
 
審理終結日 2018-12-19 
結審通知日 2018-12-25 
審決日 2019-01-07 
出願番号 特願2015-557147(P2015-557147)
審決分類 P 1 8・ 121- Z (H04M)
P 1 8・ 572- Z (H04M)
P 1 8・ 113- Z (H04M)
最終処分 不成立  
前審関与審査官 山田 倍司  
特許庁審判長 吉田 隆之
特許庁審判官 北岡 浩
中野 浩昌
発明の名称 デジタルアシスタントのためのボイストリガ  
代理人 永川 行光  
代理人 下山 治  
代理人 木村 秀二  
代理人 大塚 康弘  
代理人 高柳 司郎  
代理人 大塚 康徳  
  • この表をプリントする

プライバシーポリシー   セキュリティーポリシー   運営会社概要   サービスに関しての問い合わせ