• ポートフォリオ機能


ポートフォリオを新規に作成して保存
既存のポートフォリオに追加保存

  • この表をプリントする
PDF PDFをダウンロード
審決分類 審判 査定不服 5項独立特許用件 特許、登録しない。 G10L
審判 査定不服 2項進歩性 特許、登録しない。 G10L
管理番号 1263672
審判番号 不服2010-28329  
総通号数 155 
発行国 日本国特許庁(JP) 
公報種別 特許審決公報 
発行日 2012-11-30 
種別 拒絶査定不服の審決 
審判請求日 2010-12-14 
確定日 2012-09-18 
事件の表示 特願2007-524151「スピーチエンドポインタ」拒絶査定不服審判事件〔平成18年12月21日国際公開、WO2006/133537、平成20年 3月21日国内公表、特表2008-508564〕について、次のとおり審決する。 
結論 本件審判の請求は、成り立たない。 
理由 第1 手続の経緯

本願は、平成18年4月3日に出願された国際出願(パリ条約に基づく優先権主張:2005年6月15日(米国))であって、平成19年2月1日付けで国内書面が提出され、平成22年1月5日付けで拒絶理由が通知されたが応答がなく、平成22年8月13日付けで拒絶査定がされたものである。
これに対して平成22年12月14日に拒絶査定不服審判が請求されるとともに、同日付けで手続補正書が提出された。
その後、当審において審査官の作成した前置報告書の内容を利用した審尋を行ったところ、平成23年9月6日付けで回答書が提出されている。

第2 平成22年12月14日付けの手続補正についての補正の却下の決定

[補正の却下の決定の結論]
平成22年12月14日付けの手続補正を却下する。

[理由]
1.補正後の本願発明

当該補正書による補正後の請求項に係る発明は、平成22年12月14日付けで補正された特許請求の範囲の請求項1ないし39に記載された次のものと認められる。

【請求項1】
音声発話セグメントの開始および終了のうちの少なくとも一方を決定するエンドポインタであって、該エンドポインタは、
発話事象を含む音声ストリームの一部分を識別する音声トリガーモジュールと、
該音声トリガーモジュールと通信するルールモジュールであって、該ルールモジュールは、該音声ストリームの少なくとも一部を分析することによって、該発話事象を含む該音声ストリームの該識別された一部分の前または後の該音声ストリームの一つ以上の部分が音声エンドポイント内の音声発話セグメントを含むかを決定する複数の継続時間ルールを含み、該複数の継続時間ルールは、所定の継続時間より長く継続する連続的なエネルギーの期間を検出すると該音声エンドポイントを設定するルールを含む、ルールモジュールと
を備える、エンドポインタ。
【請求項2】
前記音声トリガーモジュールが母音を前記発話事象として識別する、請求項1に記載のエンドポインタ。
【請求項3】
前記音声トリガーモジュールがS音またはX音を前記発話事象として識別する、請求項1に記載のエンドポインタ。
【請求項4】
前記音声ストリームの前記識別された一部分がフレームを有する、請求項1に記載のエンドポインタ。
【請求項5】
前記ルールモジュールが前記音声ストリームの前記識別された一部分におけるエネルギーの不足を分析する、請求項1に記載のエンドポインタ。
【請求項6】
前記ルールモジュールが前記音声ストリームの前記識別された一部分におけるエネルギーを分析する、請求項1に記載のエンドポインタ。
【請求項7】
前記ルールモジュールが前記音声ストリームの前記識別された一部分における経過時間を分析する、請求項1に記載のエンドポインタ。
【請求項8】
前記ルールモジュールが前記音声ストリームの前記識別された一部分における所定の数の破裂音を分析する、請求項1に記載のエンドポインタ。
【請求項9】
前記ルールモジュールが前記音声発話セグメントの前記開始と終了とを検出する、請求項1に記載のエンドポインタ。
【請求項10】
エネルギー検出器モジュールをさらに備える、請求項1に記載のエンドポインタ。
【請求項11】
マイクロフォン出力部、処理ユニットおよびメモリと通信する、処理環境をさらに備え、前記ルールモジュールは該メモリ内に存在する、請求項1に記載のエンドポインタ。
【請求項12】
複数の決定ルールを有するエンドポインタを用いて音声発話セグメントの開始および終了のうちの少なくとも一方を決定する方法であって、該方法は、
音声ストリームの一部分を受信することと、
該音声ストリームの該一部分がトリガー特性を含むかを決定することと、
少なくとも1つの継続時間決定ルールを該トリガー特性に関する該音声ストリームの一部分に対して適用し、該音声ストリームの該一部分が音声エンドポイント内にあるかを決定することであって、該少なくとも1つの継続時間決定ルールは、所定の継続時間より長く継続する連続的なエネルギーの期間を検出すると該音声エンドポイントを設定するルールを含む、ことと
を包含する、方法。
【請求項13】
前記決定ルールが、前記トリガー特性を含む前記音声ストリームの前記一部分に対して適用される、請求項12に記載の方法。
【請求項14】
前記決定ルールが、前記音声ストリームのうちの前記トリガー特性を含む前記一部分とは異なる一部分に対して適用される、請求項12に記載の方法。
【請求項15】
前記トリガー特性が母音である、請求項12に記載の方法。
【請求項16】
前記トリガー特性がS音またはX音である、請求項12に記載の方法。
【請求項17】
前記音声ストリームの前記一部分がフレームである、請求項12に記載の方法。
【請求項18】
前記ルールモジュールが前記音声ストリームの前記一部分におけるエネルギーの不足を分析する、請求項12に記載の方法。
【請求項19】
前記ルールモジュールが前記音声ストリームの前記一部分におけるエネルギーを分析する、請求項12に記載の方法。
【請求項20】
前記ルールモジュールが前記音声ストリームの前記一部分における経過時間を分析する、請求項12に記載の方法。
【請求項21】
前記ルールモジュールが前記音声ストリームの前記一部分における所定の数の破裂音を分析する、請求項12に記載の方法。
【請求項22】
前記ルールモジュールが潜在的な発話セグメントの開始および終了を検出する、請求項12に記載の方法。
【請求項23】
音声ストリームにおける音声発話セグメントの開始および終了のうちの少なくとも一方を決定するエンドポインタであって、該エンドポインタは、
該音声ストリームのうちの少なくとも1つのダイナミックな局面を分析することによって該音声発話セグメントが音声エンドポイント内にあるかを決定する複数の継続時間ルールを含む、エンドポインタモジュールと、
該エンドポインタモジュールと通信するメモリであって、該複数のルールのうちの1つ以上の継続時間を変更するプロファイル情報を保存するように構成されている、メモリと を備え、該複数の継続時間ルールは、該保存されたプロフィール情報に基づいて変更される継続時間より長く継続する連続的なエネルギーの期間を検出すると該音声エンドポイントを設定するルールを含む、エンドポインタ。
【請求項24】
前記音声ストリームの前記ダイナミックな局面が話者の少なくとも1つの特徴を含む、請求項23に記載のエンドポインタ。
【請求項25】
前記話者の前記特徴が話者の話すペースを含む、請求項24に記載のエンドポインタ。
【請求項26】
前記音声ストリームの前記ダイナミックな局面が前記音声ストリームにおけるバックグラウンドノイズを含む、請求項23に記載のエンドポインタ。
【請求項27】
前記音声ストリームの前記ダイナミックな局面が、該音声ストリームにおいて予測された音を含む、請求項23に記載のエンドポインタ。
【請求項28】
前記予測された音が、話者に対して与えられた質問に対する少なくとも1つの予測された回答を含む、請求項27に記載のエンドポインタ。
【請求項29】
マイクロフォン入力部、処理ユニットおよびメモリと通信する、処理環境をさらに備え、前記エンドポインタモジュールは該メモリ内に存在する、請求項23に記載のエンドポインタ。
【請求項30】
音声ストリームにおける音声発話セグメントの開始および終了のうちの少なくとも一方を決定するエンドポインタであって、該エンドポインタは、
周期的な音声信号を含む音声ストリームの一部分を識別する音声トリガーモジュールと、
複数のルールに基づいて認識装置へ入力された該音声ストリームの量を変動させる、エンドポインタモジュールと
を備え、
該複数のルールは、該周期的な音声信号を含む該音声ストリームの該識別された一部分の前または後の音声ストリームの一部分が音声エンドポイント内にあるかを決定するための継続時間ルールを含み、該複数のルールは、所定の継続時間より長く継続する連続的なエネルギーの期間を検出すると該音声エンドポイントを設定するルールを含む、エンドポインタ。
【請求項31】
前記認識装置が自動音声認識装置である、請求項30に記載のエンドポインタ。
【請求項32】
音声発話セグメントの開始および終了のうちの少なくとも一方を決定するための命令のセットを含む、コンピュータ可読記憶媒体であって、該命令のセットは、
音波を電気信号に変換することと、
該電気信号の周期性を識別することと、
該識別された周期性に関する該電気信号の可変部分を分析することによって、該電気信号が音声エンドポイント内にあるかを決定することと
を含み、所定の継続時間より長く継続する連続的なエネルギーの期間を検出すると該音声エンドポイントが設定される、コンピュータ可読記憶媒体。
【請求項33】
前記電気信号の可変部分を分析することが、有声発話音の前の継続時間を分析することを含む、請求項32に記載のコンピュータ可読記憶媒体。
【請求項34】
前記電気信号の可変部分を分析することが、有声発話音の後の継続時間を分析することを含む、請求項32に記載のコンピュータ可読記憶媒体。
【請求項35】
前記電気信号の可変部分を分析することが、有声発話音の前または後の推移の数を分析することを含む、請求項32に記載のコンピュータ可読記憶媒体。
【請求項36】
前記電気信号の可変部分を分析することが、有声発話音の前の連続した沈黙の継続を分析することを含む、請求項32に記載のコンピュータ可読記憶媒体。
【請求項37】
前記電気信号の可変部分を分析することが、有声発話音の後の連続した沈黙の継続を分析することを含む、請求項32に記載のコンピュータ可読記憶媒体。
【請求項38】
前記コンピュータ可読媒体が車両のオンボードコンピュータ内に格納されている、請求項32に記載のコンピュータ可読記憶媒体。
【請求項39】
前記コンピュータ可読媒体が音声システムと通信する、請求項32に記載のコンピュータ可読記憶媒体。

この補正は、補正前の請求項1、12、23、30に記載の発明を特定するために必要な事項である「複数の継続時間ルール」を限定的に減縮したものであるから、当該補正は特許法第17条の2第4項第2号(平成18年法律第55号改正附則第3条第1項によりなお従前の例によるとされる同法による改正前の特許法(以下、これを平成18年改正前特許法と記す)第17条の2第4項第2号))に規定する特許請求の範囲の減縮を目的とするものに該当する。

そこで、補正後の請求項1ないし39の内、請求項1に係る発明が特許出願の際独立して特許を受けることができたものであるか(平成18年改正前特許法第17条の2第5項において準用する同法第126条第5項の規定に適合するか)について以下に検討する。
以下、平成22年12月14日付けで補正された特許請求の範囲の請求項1に係る発明を「本願補正後発明」とする。

2.公知刊行物の記載

公知刊行物である、原査定の拒絶の理由で引用された刊行物1(国際公開第2004/111996号)には、対応する図面と共に、その第12頁?第20頁に、以下の内容が記載されている。

(ア)「発明を実施するための最良の形態
(実施の形態1)
以下、図面を参照しながら本発明の実施の形態1に係る音声区間検出装置について説明する。図1は、本実施の形態に係る音声区間検出装置20のハードウェア構成を示すブロック図である。
音声区間検出装置20は、入力音響信号(以下、単に「入力信号」という。)の中から人間が発声している区間である音声区間を決定する装置であり、FFT部200と、調波構造抽出部201と、有声評価部210と、音声区間決定部205とを備える。
FFT部200は、入力信号にFFTを施し、フレームごとにパワースペクトル成分を求める。ここで、1フレームあたりの時間は10msecとするが、この時間に限定されるものではない。
調波構造抽出部201は、FFT部200で抽出されたパワースペクトル成分から雑音成分等を取り除き、調波構造のみを残したパワースペクトル成分を抽出する。
有声評価部210は、調波構造抽出部201で抽出された調波構造のみを残したパワースペクトル成分のフレーム間での相関性を評価することにより、母音の区間であるか否かを評価し、有声区間を抽出する装置であり、特徴量保存部202と、特徴量フレーム間相関値算出部203と、差分処理部204とを備える。なお、調波構造は、母音の発声区間内のパワースペクトル分布において主に見られる性質であり、子音の発声区間内のパワースペクトル分布においては、母音ほどの調波構造は見られない。
特徴量保存部202は、調波構造抽出部201より出力されるパワースペクトルを所定数のフレーム分保存する。特徴量フレーム間相関値算出部203は、調波構造抽出部201より出力されるパワースペクトルと、特徴量保存部202に保存されている一定フレーム前のパワースペクトルとの相関値を算出する。差分処理部204は、特徴量フレーム間相関値算出部203で求められた相関値のある一定期間における平均値を求め、特徴量フレーム間相関値算出部203より出力される相関値から平均値を引き、相関値と平均値との平均差分による補正相関値を求める。
音声区間決定部205は、差分処理部204より出力される平均差分による補正相関値に基づいて、音声区間を決定する。
以上のように構成された音声区間検出装置20の動作について以下に説明する。図2は、音声区間検出装置20が実行する処理のフローチャートである。
FFT部200は、調波構造を抽出するために使用する音響特徴量として、入力信号にFFTを施すことにより、パワースペクトル成分を求める(S2)。より具体的には、FFT部200は、入力信号を所定のサンプリング周波数Fs(たとえば、11.025kHz)でサンプリングし、1フレーム(たとえば、10msec)ごとに、所定のポイント(たとえば、1フレームあたり128ポイント)でFFTのスペクトル成分を求める。FFT部200は、各ポイントで求められたスペクトル成分を対数化することによりパワースペクトル成分を求める。以下、パワースペクトル成分を、適宜単にスペクトル成分と表記する。
次に、調波構造抽出部201は、FFT部200で抽出されたパワースペクトル成分から雑音成分等を取り除き、調波構造のみを残したパワースペクトル成分を抽出する(S4)。
FFT部200で算出されたパワースペクトル成分には、雑音によるオフセットや声道形状によって形成されるスペクトル包絡形状が含まれており、それぞれが時間変動を起こしている。このため、調波構造抽出部201は、これらの成分を取り除き、声帯振動によって形成される調波構造のみを残したパワースペクトル成分をとりだす。これにより、より効果的に有声区間検出が行なわれる。
調波構造抽出部201による処理(S4)を図3および図4を参照しながらより詳細に説明する。図3は、調波構造抽出部201による調波構造抽出処理のフローチャートであり、図4は、各フレームにおけるスペクトル成分から調波構造のみを残したスペクトル成分を抽出する過程を模式的に示す図である。
図4(a)に示されるように、調波構造抽出部201は、各フレームのスペクトル成分S(f)より、その極大値をピークホールドした値Hmax(f)を算出し(S22)、スペクトル成分S(f)の極小値をピークホールドした値Hmin(f)を算出する(S24)。
図4(b)に示されるように、調波構造抽出部201は、スペクトル成分S(f)から極小値のピークホールド値Hmin(f)を引くことにより、スペクトル成分S(f)に含まれるフロア成分を除去する(S26)。これにより、雑音オフセット成分およびスペクトル包絡に起因する変動成分が除去される。
図4(c)に示されるように、調波構造抽出部201は、極大値のピークホールド値Hmax(f)と極小値のピークホールド値Hmin(f)との差分値を求め、ピーク変動量を算出する(S28)。
図4(d)に示されるように、調波構造抽出部201は、ピーク変動量を周波数方向に微分し、その変化量を算出する(S30)。これは、調波構造成分を有する帯域では、ピーク変動量の変化が小さいという仮定に基づいて、調波構造の検出を行なうことを目的としている。
図4(e)に示されるように、調波構造抽出部201は、上記仮定が反映されるような重みW(f)を算出する(S32)。すなわち、調波構造抽出部201は、ピーク変動量の変化量の絶対値と所定のしきい値とを比較し、当該変化量の絶対値が所定のしきい値θ以下であれば重みW(f)を1とし、所定のしきい値θ以上であれば当該変化量の絶対値の逆数を重みW(f)とする。これにより、ピーク変動量の変化が大きい部分の重みを小さくし、ピーク変動量の変化が小さい部分の重みを大きくすることができる。
図4(f)に示されるように、調波構造抽出部201は、フロア成分が除去されたスペクトル成分(S(f)-Hmin(f))に重みW(f)を掛け合わせ、スペクトル成分S’(f)を求める(S34)。この処理により、ピーク変動量の変化の大きい非調波構造成分を除去することが可能となる。
再度、図2に示される音声区間検出装置20の動作説明を続ける。調波構造抽出処理(図2のS4、図3)の後、特徴量フレーム間相関値算出部203は、調波構造抽出部201より出力されるスペクトル成分と、特徴量保存部202に保存されている所定フレーム前のスペクトル成分との間の相関値を算出する(S6)。
ここでは、着目しているフレームをj番目のフレームとした場合、隣接するフレームのスペクトル成分を用いて相関値E1(j)を求める方法について説明する。相関値E1(j)は、次式(1)?(5)に従い求められる。すなわち、iフレームおよびi-1フレームの128ポイントにおけるパワースペクトル成分P(i)およびP(i-1)を次式(1)および(2)でそれぞれ表すものとする。また、パワースペクトル成分P(i)およびP(i-1)の相関関数xcorr(P(j-1),P(j))の値を次式(3)で表すものとする。すなわち、相関関数xcorr(P(j-1),P(j))の値は、各ポイントにおける内積値からなるベクトル量である。z1(i)を次式(4)に示されるようにxcorr(P(j-1),P(j))のベクトルの要素の最大値を求める。これをjフレームの相関値E1(j)としてもよいし、次式(5)で表されるようにたとえば3フレーム分加算した値を用いても良い。

( (1)?(5)の諸式の引用を省略 )

相関値E1(j)の一例を図5に示すグラフを用いて説明する。図5は、入力信号を処理することにより得られる信号を表すグラフである。図5(a)は入力信号の波形を示している。この波形は、掃除機の雑音(SNR=0.5dB)がある環境において、約1200?3000msecの間に「アールアンドビーホテルヒガシニホン」と発音している場合の波形である。この入力信号には、約500msecの箇所に掃除機を動かした際の「カタッ」という突発音が含まれ、2800msec頃に掃除機のモータの回転速度を弱から強に変更し、掃除機の音のレベルが大きくなっている。図5(b)は、図5(a)に示される入力信号にFFTを施した場合のパワーを示しており、図5(c)は、相関値算出処理(S6)で求められた相関値の遷移を示している。
ここで、相関値E1(j)の算出は、以下に示すような知見に基づいて算出される。すなわち、フレーム間の音響特徴量の相関値は、時間的に連続するフレームにおいて調波構造が連続していることに基づいている。このため、この調波構造を時間的に近いフレーム同士で相関をとることで、有声検出が行なわれる。調波構造が時間的に持続するのは主に母音区間である。このため、母音区間では相関値は大きくなり、子音区間では母音区間よりも相関値は小さくなるものと想定される。このように、調波構造に着目しフレーム間でパワースペクトル成分の相関値をとることによって、非周期的な雑音区間においては、相関値が小さくなるものと考えられる。このため、有声区間がより際立って識別可能となる。
また、一般的な発話スピードにおいて母音区間の持続時間は50?150msec(5?15フレーム)と言われており、その持続時間内であれば、フレーム間の相関係数の値は隣接するフレームでなくとも高くなるものと想定できる。この仮定が正しければ、やはり非周期的な雑音の影響を受けにくい評価関数であるということがいえる。相関値E1(j)を算出する際に、数フレームにわたる相関関数の値の和を用いているのは、突発的に生じる雑音の影響を除去するためと、母音であれば、上記のように50?150msecの持続時間があるという知見によるものである。従って、図5(c)に示されるように、50フレームの近傍で発声する突発音に対しては反応せずに、相関値は小さいままである。
次に、差分処理部204は、特徴量フレーム間相関値算出部203で算出された相関値の一定時間にわたる平均値を求め、各フレームにおける相関値から当該平均値を減算し、平均差分による補正相関値を求める(S8)。なぜならば、相関値から平均値を引くことにより、長時間にわたり生じている周期性の雑音の影響を取り除くことができると考えられるためである。ここでは、5秒程度の相関値の平均値を求めており、図5(c)では、平均値を実線502で示している。すなわち、実線502よりも上の部分に相関値が存在する区間が上記平均差分による補正相関値が正の区間である。
次に、音声区間決定部205は、主に有音区間を検出する相関値E1(j)の差分処理部204で算出された平均差分による補正相関値に基づいて、後述する、相関値による選別、区間の持続長、子音区間や促音区間を加味した区間の連結、の3つの区間補正方法に従い音声区間を決定する(S10)。
ここで、音声区間決定部205による音声区間決定処理(図2のS10)についてより詳細に説明する。図6は、一発声単位で音声区間決定する処理の詳細を示すフローチャートである。
まず、第一の区間の補正方法である相関値による区間の判定について述べる。音声区間決定部205は、着目しているフレームについて、差分処理部204で求められた補正相関値が所定のしきい値よりも大きいか否かを調べる(S44)。たとえば、所定のしきい値を0とした場合には、図5(c)に示される相関値が相関値の平均値(実線502)よりも大きいか否かを調べることと等価である。
補正相関値が所定のしきい値よりも大きい場合には(S44でYES)、当該着目フレームは音声フレームであると判断し(S46)、補正相関値が所定のしきい値以下の場合には(S44でNO)、当該着目フレームは非音声フレームであると判断する(S48)。以上の音声判断処理(S44?S48)を音声区間検出対象となっているすべてのフレームについて繰返す(S42?S50)。以上の処理により、図5(d)に示されるようなグラフが得られ、音声フレームが連続する区間が有声区間として検出される。
このように、補正相関値の値がしきい値以下である場合には、そのフレームを非音声フレームであると判断する。ただし、騒音のレベルの影響や、音響特徴量のさまざまな条件に応じて、検出区間において期待される補正相関値が異なる。このため、音声フレームと非音声(雑音)フレームとを区別するためのしきい値は、事前の実験を通じて適宜定め用いることも可能である。この処理により調波構造性を有する信号の選別基準を厳しくすることにより、平均差分を求めた時間長より短い、例えば500ms程度の周期雑音を非音声フレームとすることが期待できる。
次に、第二の区間の補正方法である隣接有声区間の連結法について述べる。音声区間決定部205は、着目している有声区間と、当該有声区間に隣接する有声区間との間の距離が所定フレーム数未満であるかを調べる(S54)。たとえば、ここでは所定フレーム数を30フレームとする。当該距離が30フレーム未満の場合には(S54でYES)、隣接する2つの有声区間を連結する(S56)。以上の処理(S54?S56)をすべての有声区間について行なう(S52?S58)。以上の有声区間連結処理により、図5(e)に示されるようなグラフが得られ、近接する有声区間が連結されていることが分かる。
有声区間の連結をするのは、以下のような理由による。すなわち、子音区間、特に破裂音(/k/,/c/,/t/,/p/)や摩擦音などの無声子音の区間においては、調波構造が表れにくいため、相関値が小さく、有声区間として検出されにくい。しかし、子音の近傍には母音が存在するため、母音が連続する区間は有声区間とみなされるという理由による。これにより、子音部分も有声区間とすることが可能になる。
最後に、第三の区間の補正方法である区間持続時間について述べる。音声区間決定部205は、着目している有声区間について、その持続時間が所定時間よりも長いか否かを調べる(S62)。たとえば、所定時間は、50msecであるとする。持続時間が50msecよりも長い場合には(S62でYES)、当該有声区間を音声区間と決定し(S64)、持続時間が50msec以下の場合には(S62でNO)、当該有声区間を非音声区間と決定する(S66)。以上の処理(S62?S66)をすべての有声区間について行なうことにより音声区間が決定される(S60?S68)。以上説明した処理により、図5(f)に示すようなグラフが得られ、110?280フレームあたりに音声区間が検出される。また、図5(e)のグラフに存在していた325フレームあたりに存在していた周期性ノイズに対する有声区間は、非音声区間と決定されていることが分かる。このように、有声区間の持続時間により有声区間を選別する処理では、相関値が高い短時間の周期的雑音を取り除くことができる。
以上説明したように本実施の形態によれば、調波構造を有するスペクトル成分のフレーム間での持続性を評価することにより、有声区間を決定している。このため、ローカルピークをトラッキングする従来の方法に比べ、精度よく音声区間を決定することができる。
特に、調波構造の持続性をフレーム間のスペクトル成分の相関値により評価している。このため、フレーム間での振幅差分を取り調波構造の持続性を評価する従来方法に比べ、調波構造の有する情報を残した評価が可能である。よって、短いフレームにわたる突発雑音が生じたような場合であっても、突発雑音を有声区間として検出することがない。
また、時間的に隣接する有声区間を連結することにより音声区間と決定している。このため、母音に比べ調波構造が小さい子音をも音声区間と決定することが可能である。また、有声区間の持続時間を評価することにより、周期性を有する雑音を除去することが可能になる。 」

そして、当該内容を要約すれば、刊行物1には、次の(イ)なる発明が記載されていると認められる。
以下、これを「刊行物発明」という。

[刊行物発明]
(イ)入力音響信号(入力信号)から人間が発声している区間である音声区間を決定する音声区間検出装置であって、FFT部200と、調波構造抽出部201と、有声評価部210と、音声区間決定部205を備えるものであり、
FFT部200は、入力信号にFFTを施し、例えば10msecフレームごとにパワースペクトル成分を求めるものであり、
調波構造抽出部201は、FFT部200で抽出されたパワースペクトル成分から雑音成分等を取り除き、調波構造のみを残したパワースペクトル成分を抽出するものであり、
有声評価部210は、調波構造抽出部201で抽出された調波構造のみを残したパワースペクトル成分のフレーム間での相関性を評価することにより、母音の区間であるか否かを評価し、有声区間を抽出する装置であり、特徴量保存部202と、特徴量フレーム間相関値算出部203と、差分処理部204とを備え、
特徴量保存部202は、調波構造抽出部201より出力されるパワースペクトルを所定数のフレーム分保存するものであり、
特徴量フレーム間相関値算出部203は、調波構造抽出部201より出力されるパワースペクトルと、特徴量保存部202に保存されている一定フレーム前のパワースペクトルとの相関値を算出するものであり、
差分処理部204は、特徴量フレーム間相関値算出部203で求められた相関値のある一定期間における平均値を求め、特徴量フレーム間相関値算出部203より出力される相関値から平均値を引き、相関値と平均値との平均差分による補正相関値を求めるものであり、
音声区間決定部205は、主に有音区間を検出する相関値E1(j)の差分処理部204で算出された平均差分による補正相関値に基づいて、相関値による選別、区間の持続長、子音区間や促音区間を加味した区間の連結、の3つの区間補正方法に従い音声区間を決定する(S10)ものであって、
相関値による選別は、補正相関値が所定のしきい値よりも大きい場合には(S44でYES)、当該着目フレームは音声フレームであると判断し(S46)、補正相関値が所定のしきい値以下の場合には(S44でNO)、当該着目フレームは非音声フレームであると判断するものであり、
子音区間や促音区間を加味した区間の連結とは、着目している有声区間と、当該有声区間に隣接する有声区間との間の距離が所定フレーム数未満であるかを調べる(S54)ものであって、たとえば、ここでは所定フレーム数を30フレームとして、当該距離が30フレーム未満の場合には(S54でYES)、隣接する2つの区間を連結(S56)して継続する音声フレームとするものであり、
区間の持続長とは、音声フレームであると判断された区間について、その持続時間が所定時間よりも長いか否かを調べ(S62)、例えば、持続時間が50msecよりも長い場合には(S62でYES)、当該有声区間を音声区間と決定し(S64)、持続時間が50msec以下の場合には(S62でNO)、当該有声区間を非音声区間と決定する(S66)ものであり、
これらの処理(S62?S66)をすべての有声区間について行うことにより、音声フレームが連続する区間を有声区間として検出する音声区間検出装置。

3 対比

本願補正後発明と刊行物発明とを対比する。

以下に詳述するように、刊行物発明の「3つの区間決定方法」は、以下に詳述するように、本願補正後発明の「ルールモジュール」の備える「複数の継続時間ルール」に相当する。かつ、刊行物発明の「音声区間決定部」は、その「3つの区間決定方法」に基づいた価により音声区間を決定するものであるから、本願補正後発明の「発話事象を含む音声ストリームの一部分を識別する音声トリガーモジュール」に相当する。
そして、刊行物発明の「音声フレームが連続する区間を有声区間として検出する音声区間検出装置」は、本願補正後発明における「エンドポインタ」に相当する。

刊行物発明の「3つの区間決定方法」について詳述すれば、刊行物発明は、「音声区間決定部205は、主に有音区間を検出する相関値E1(j)の差分処理部204で算出された平均差分による補正相関値に基づいて、相関値による選別、区間の持続長、子音区間や促音区間を加味した区間の連結、の3つの区間補正方法に従い音声区間を決定する(S10)もの」であるから、音声区間を決定するための3つ、すなわち複数のルールを用いる区間補正を行うものであり、3つのルールの内の「子音区間や促音区間を加味した区間の連結」とは子音区間や促音区間を加味して継続した区間とするものであるから、該「子音区間や促音区間を加味した区間の連結」「区間の持続長」の2つの決定方法は、音声区間を決定するための、継続時間に関するルールに相当する。
すなわち、引用発明は、隣接するフレーム(音声ストリームの一部分)間の信号内容に基づいて、音声セグメントが継続する信号であると判断し、これが所定の継続時間より長く継続する区間を音声区間(本願補正後発明における「音声エンドポイント」に相当)とするものである。

そして、引用発明における「音声区間決定部」は、音声区間を決定するための3つ、すなわち複数のルールに基づいて区間を決定するものであるから、該「音声区間決定部」の評価手法は、本願補正後発明における「ルールモジュール」の保有するルールに基づいて有声区間を判断する手法と等価である。

したがって、本願補正後発明と刊行物1発明とは、 次の(ウ)において一致し、(エ)及び(オ)において相違する。

[一致点]
(ウ)音声発話セグメントの開始および終了のうちの少なくとも一方を決定するエンドポインタであって、該エンドポインタの、
発話事象を含む音声ストリームの一部分を識別する手法は、
該音声ストリームの少なくとも一部を分析することによって、該発話事象を含む該音声ストリームの該識別された一部分の前または後の該音声ストリームの一つ以上の部分が音声エンドポイント内の音声発話セグメントを含むかを決定する複数の継続時間ルールを含むルールに基づくものであって、該複数の継続時間ルールは、音声発話セグメントを含む区間が所定の継続時間より長く継続する期間を検出すると該音声エンドポイントを設定するルールを含むものである、
エンドポインタ。

[相違点]
(エ)本願補正後発明が「所定の継続時間より長く継続する連続的なエネルギーの期間を検出すると該音声エンドポイントを設定するルールを含む」ものであるのに対し、刊行物1発明は「連続的なエネルギーの期間」を検出して判断するルールとはされていない点。

(オ)「音声ストリームの少なくとも一部を分析することによって、該発話事象を含む該音声ストリームの該識別された一部分の前または後の該音声ストリームの一つ以上の部分が音声エンドポイント内の音声発話セグメントを含むかを決定する複数の継続時間ルールを含むルールに基づくものであって、該複数の継続時間ルールは、音声発話セグメントを含む区間が所定の継続時間より長く継続する期間を検出すると該音声エンドポイントを設定するルールを含む」ことによる「発話事象を含む音声ストリームの一部分を識別する手法」が、本願補正後発明において、音声エンドポイントを設定するルールは「ルールモジュール」に存在し、「音声トリガーモジュール」が「ルールモジュール」と通信することにより評価、決定を行っているものであるのに対し、刊行物1発明は、「音声区間決定部」において有声区間の評価、決定を行っている点。

4.当審の判断

上記相違点(エ)について検討する。

音声信号の処理における、入力信号を微小区間に分割して分析し、微小区間を連続した継続区間とする手法として、その微小区間のエネルギーを指標として判断する手法は周知技術にすぎない。
判断する手法として多々のものが存在するが、エネルギーを指標とする手法は、技術的に単純な古典的手法である。
例えば、前置報告書において例示されているように、、特開2000-250565号公報の【0021】、【0032】、あるいは米国特許第5692104号明細書の「POWER AND ZERO CROSSING」の欄には、音声区間を検出するものであって、所定のレベル以上の音声パワーを有する期間が所定の継続時間長であるか否かに基づいて、音声区間であるか否か判定する手法が記載されている。

したがって、所定のレベル以上の音声パワーを有する期間が所定の継続時間長であるか否かに基づいて、音声区間であるか否か判定する、すなわち、音声区間であるか否か判定ルールとして、「所定の継続時間より長く継続する連続的なエネルギーの期間を検出すると該音声エンドポイントを設定する」とすることは、当業者が容易に想到することである。

上記相違点(オ)について検討する。

本願補正後発明が、「音声トリガーモジュール」と「ルールモジュール」が通信し、協働して「発話事象の一部分を識別する」ことと、刊行物1発明が、「音声区間決定部」により音声区間(発話事象の一部分を識別)を決定することは等価である。

本願補正後発明においては、「ルールモジュール」は単にルールを記憶するメモリ(108)であって、実際の判断はプロセッシングユニット104で行われるものであるのに対し、刊行物1発明は、明記されてはいないものの、ルールが何らかのメモリに記憶されている必要があるるから(メモリにルールが存在していなければ実際に評価を実行することはできないから)、刊行物発明における「音声区間決定部」はその一部の構成として、本願補正後発明の「ルールモジュール」に相当するメモリを備えているものである。
してみれば、刊行物1発明は、本願補正後発明の「ルールモジュール」に相当するメモリと通信することによりルールを読み出して音声区間の決定を実行し「発話事象の一部分を識別」しているものである。
そして、「音声区間決定部」は、そのルールに基づいて音声区間を決定するものであるから、本願補正後発明の「音声トリガモジュール」の機能と同様の機能を実行する要素を備えているものといえる。

そうすると、刊行物1発明は、実質的に「ル-ルモジュール」「音声トリガーモジュール」に相当する要素を備えているものであるといえる。

一方、ある機能を複数のユニット、モジュールで分担して実行するように構成し、複数のユニット、モジュールが協働して実行することは周知であり、各ユニット、各モジュールで実行で処理をどのように分担させるかは設計上の切り分けにすぎないことである。

してみれば、刊行物1発明おける、「音声区間決定部」の機能を、音声エンドポイントを設定するルールをルールモジュールに存在させ、音声トリガーモジュールが「ルールモジュール」と通信することにより演算処理を実行するようにすることは、当業者が容易に想到することである。

相違点(エ)及び(オ)についての判断は以上のとおりであるから、本願補正後発明は、刊行物1に記載の発明に基づいて当業者が容易に発明をすることができたものである。

5.補正の却下についてのむすび

相違点についての判断は以上のとおりであるから、本件補正後発明は、特許法第29条第2項の規定により特許受けることができない。
したがって、本件補正は、平成18年改正前特許法第17条の2第5項において準用する同法第126条第5項の規定に違反するので、特許法第159条第1項の規定において読み替えて準用する同法第53条第1項の規定により却下すべきものである。

第3 本願発明について

1.本願発明の認定

平成22年12月14日付けの手続補正は上記のとおり却下されたので、本願の各請求項に係る発明は、平成19年2月1日付けで提出された国内書面の特許請求の範囲の請求項1から請求項39までに記載した事項により特定されるとおりのものと認められるところ、そのうち、請求項1に係る発明は、下記のとおりである。

【請求項1】
音声発話セグメントの開始および終了のうちの少なくとも一方を決定するエンドポインタであって、該エンドポインタは、
発話事象を含む音声ストリームの一部分を識別する音声トリガーモジュールと、
該音声トリガーモジュールと通信するルールモジュールであって、該ルールモジュールは、該音声ストリームの少なくとも一部を分析することによって、発話事象に関する音声発話セグメントが音声エンドポイント内にあるかを決定する複数の継続時間ルールを含む、ルールモジュールと
を備える、エンドポインタ。

2.引用刊行物に記載の発明

原査定の拒絶理由に引用された刊行物1および、その記載事項は、前記「第2」における[理由]の2.に記載したとおりである。

3.対比・判断

本願請求項1に係る発明は、前記「第2における[理由]の1.」で検討した本願補正後発明における、「複数の継続時間ルール」についての限定事項を省いたものである。
そうすると、本願請求項1に係る発明の構成要件を全て含み、さらに他の構成要件を付加したものに相当する本願補正後発明が、前記「第2における[理由]の4.」に記載したとおり、引用刊行物の記載に基づいて、当業者が容易に発明をすることができたものであるから、本願請求項1に係る発明も、同様の理由により、引用刊行物の記載に基づいて、当業者が容易に発明をすることができたものである。

4.むすび

以上のとおり、本願請求項1に係る発明は、引用刊行物1に記載された発明に基づいて、当業者が容易に発明をすることができたものであるから、特許法第29条第2項の規定により特許を受けることができない。
したがって、残る請求項に係る各発明について特に検討するまでもなく、本願は拒絶をすべきものである。

第4 まとめ

審判請求の理由について審理した結果は上記のとおりであり、拒絶査定を取り消す理由は存在しないから、結論のとおり審決する。

第5 付記

審判請求人は、平成23年9月6日提出の回答書において、特許請求の範囲の補正案を示し、補正の機会を求めている。
しかしながら、原審審査における判断に瑕疵はなく、当該補正案による補正の機会を与えることはできない。
また、仮に補正を認めたとしても、入力信号について所定のレベルを超えたものだけを真正な信号として扱うことは、信号検出において極めて普通、むしろ当然になされることであって、音声入力信号に対して、「所定の閾値を超えた状態を維持する」ことを条件とすることに格別の技術的進歩性は認められないから、示されている補正案が本件発明であるとしても、本審決の結論には影響しない。
 
審理終結日 2012-04-25 
結審通知日 2012-04-26 
審決日 2012-05-08 
出願番号 特願2007-524151(P2007-524151)
審決分類 P 1 8・ 575- Z (G10L)
P 1 8・ 121- Z (G10L)
最終処分 不成立  
前審関与審査官 田部井 和彦  
特許庁審判長 板橋 通孝
特許庁審判官 山田 洋一
関谷 隆一
発明の名称 スピーチエンドポインタ  
代理人 大塩 竹志  

プライバシーポリシー   セキュリティーポリシー   運営会社概要   サービスに関しての問い合わせ