• ポートフォリオ機能


ポートフォリオを新規に作成して保存
既存のポートフォリオに追加保存

  • この表をプリントする
PDF PDFをダウンロード
審決分類 審判 査定不服 2項進歩性 特許、登録しない。 G10L
審判 査定不服 5項独立特許用件 特許、登録しない。 G10L
管理番号 1293026
審判番号 不服2013-16398  
総通号数 180 
発行国 日本国特許庁(JP) 
公報種別 特許審決公報 
発行日 2014-12-26 
種別 拒絶査定不服の審決 
審判請求日 2013-08-23 
確定日 2014-10-15 
事件の表示 特願2010- 96043「話し手に暗黙的に順応する技術を用いた音声認識システム」拒絶査定不服審判事件〔平成22年 9月24日出願公開、特開2010-211221〕について、次のとおり審決する。 
結論 本件審判の請求は、成り立たない。 
理由 第1 手続の経緯
本願は、2002年3月22日(パリ条約による優先権主張外国庁受理2001年3月28日、米国)を国際出願日とした特願2002-578283号の一部を平成19年10月26日に新たな特許出願とした特願2007-279235号の一部を平成22年4月19日に新たな特許出願とした出願であって、原審において平成24年5月14日付けで拒絶理由が通知され、同年8月16日付けで手続補正され、同年11月29日付けで拒絶理由が通知され、平成25年3月4日付けで手続補正されたが、同年4月1日付けで拒絶査定がなされ、これに対し、同年8月23日に拒絶査定不服の審判が請求されるとともに、同日付けで手続補正されたものである。

第2 補正却下の決定
[補正却下の決定の結論]
平成25年8月23日付けの手続補正を却下する。

[理由]
1.本願発明と補正後の発明
上記手続補正(以下、「本件補正」という。)は、平成25年3月4日付けで手続補正された特許請求の範囲の請求項1に記載された

「【請求項1】
管理されていない音声認識学習と音声認識テストを実行するための方法であって、
音声認識エンジンにおいて、話し手から入力された音声と、話し手に依存しない音響モデルの内容とのパターンマッチングを実行し、話し手に依存しないパターンマッチングスコアを生成することと、
前記音声認識エンジンによって、前記話し手から入力された音声と、前記話し手に合うように調整された話し手に依存する音響モデルのテンプレートに関連づけられたスコアとのパターンマッチングを実行することと、
このパターンマッチングで得られたパターンマッチングスコアと、前記話し手に依存しないパターンマッチングスコアとを比較することと、
前記話し手に依存しないパターンマッチングスコアが、前記話し手に依存する音響モデルのテンプレートとのパターンマッチングで得られたパターンマッチングスコアよりも高いのであれば、前記話し手に依存しないパターンマッチングスコアに基づいて、前記話し手に依存する音響モデルのための新たなテンプレートを生成することとを備え、
前記話し手に依存しない音響モデルは、少なくとも1つのガーベッジテンプレートを含み、前記比較することは、前記入力された音声を前記少なくとも1つのガーベッジテンプレートと比較することを含む方法。」

という発明(以下、「本願発明」という。)を、

「【請求項1】
管理されていない音声認識学習と音声認識テストを実行するための方法であって、
音声認識エンジンにおいて、話し手から入力された音声と、話し手に依存しない音響モデルの内容とのパターンマッチングを実行し、話し手に依存しないパターンマッチングスコアを生成することと、
前記音声認識エンジンによって、前記話し手から入力された音声と、前記話し手に合うように調整された話し手に依存する音響モデルのテンプレートに関連づけられたスコアとのパターンマッチングを実行することと、
このパターンマッチングで得られたパターンマッチングスコアと、前記話し手に依存しないパターンマッチングスコアとを比較することと、
前記話し手に依存しないパターンマッチングスコアが、前記話し手に依存する音響モデルのテンプレートとのパターンマッチングで得られたパターンマッチングスコアよりも高いのであれば、前記話し手に依存しないパターンマッチングスコアに基づいて、前記話し手に依存する音響モデルのための新たなテンプレートを生成し、前記生成されたテンプレートを、前記話し手に依存する音響モデル内に格納することとを備え、
前記話し手に依存しない音響モデルは、少なくとも1つのガーベッジテンプレートを含み、前記比較することは、前記入力された音声を前記少なくとも1つのガーベッジテンプレートと比較することを含む方法。」

という発明(以下、「補正後の発明」という。)に変更することを含むものである。

2.新規事項の有無、補正の目的要件について
本件補正は、願書に最初に添付した明細書、特許請求の範囲又は図面に記載した事項の範囲内において、補正前の特許請求の範囲の請求項1に記載された、「話し手に依存する音響モデルのための新たなテンプレートを生成すること」に関し、「話し手に依存する音響モデルのための新たなテンプレートを生成し、前記生成されたテンプレートを、前記話し手に依存する音響モデル内に格納すること」と限定して、特許請求の範囲を減縮するものであるから、平成14年法律第24号改正附則第3条第1項によりなお従前の例によるとされる同法による改正前の特許法第17条の2第3項に適合するとともに、平成14年法律第24号改正附則第2条第1項によりなお従前の例によるとされる同法による改正前の特許法第17条の2第4項第2号に掲げる特許請求の範囲の減縮を目的とするものに該当する。

3.独立特許要件について
本件補正は特許請求の範囲の減縮を目的とするものであるから、上記補正後の発明が特許出願の際独立して特許を受けることができるものであるのかどうか(平成18年法律第55号改正附則第3条第1項によりなお従前の例によるとされる同法による改正前の特許法第17条の2第5項において準用する同法第126条第5項の規定に適合するか否か)について以下に検討する。

(1)補正後の発明
上記「1.本願発明と補正後の発明」の項で補正後の発明として認定したとおりである。

(2)引用発明及び技術事項
A 原審の平成24年11月29日付け拒絶理由に引用された張志鵬 他,"ニュース音声認識の話者適応法の検討",日本音響学会1999年春季研究発表会講演論文集-I-,1999年 3月10日,3-1-4,p.103-104(以下、「引用例1」という。)には、図面とともに以下の事項が記載されている。

イ.「1. はじめに
話者適応技術は、音声認識において話者の個人差の問題に対処する重要な手段である。放送ニュース音声の認識においては、話者の交代が頻繁に起こり、しかも未知の話者の音声が入力されるので、オンラインの教師なし適応を行うことが必要である。本稿では、尤度比較により話者境界を自動的に検出しながら音素モデルを適応する、オンライン即時・逐次型話者適応手法を提案する。

2. 話者検出に基づく話者適応法
2.1 ニュース音声の特徴
ニュース音声にはスタジオのアナウンサーによる発声だけでなく、中継先の記者やVTR映像にあわせて原稿を読み上げた発声など様々な記者の発声が含まれている。この記者適応に関しては、次のことを考慮することが必要かつ有効と考えられる。
(1)事前に話者情報を得ることができないので、オンライン即時型適応が必要。(2)同じ話者が複数の文を続けて発声することが多いので、逐次型適応が有効。(3)話者の交代情報を得ることができないので、自動的に検出することが必要。本研究では、このような観点から、話者境界を自動的に検出しながらオンライン即時・逐次型教師なし話者適応を行う方法について検討した。」(103頁左欄10?24行)

ロ.「2.2 尤度比較による新話者検出
不特定話者の音素モデルを尤度最大化規模で特定の話者に適応した場合、同じ話者の異なる音声に対するそのモデルの尤度は、不特定話者のモデルの尤度よりも高くなると期待される。逆に、新しい話者の声質がそれ以前の話者の音声と異なる場合には、新しい話者の音声は、以前の話者に適応化したモデルよりもむしろ不特定話者のモデルに適合すると考えられる。従って、適応化モデルと不特定話者モデルの尤度を比較することによって話者境界を検出し、高い尤度を示すモデルを用いて、新しい話者に適応させるのが適当と考えられる。そして、同じ話者が複数の文を継続して発声していると判定される間は、そのモデルを逐次適応化して行くことにより、認識性能が向上すると予想される。さらに、新しい話者が検出された後でも、ニュース音声の場合は、以前のアナウンサーが再度発声することが考えられるので、ある程度の数の話者に適応したモデルをそれぞれ保存しておき、活用するのが適当であろう。このような適応化法はニュース音声認識だけでなく、対話システム、会議など、話者交代を伴う多くの場合に使えると考えられる。今回の実験では、計算時間を考慮し、尤度比較するモデルとして、直前の話者、現在の話者、および不特定話者の三つのモデルを使うことにした。オンラインの適応の流れを図1に示す。」(103頁左欄25行?同頁右欄3行)

上記引用例1の記載及び図面並びにこの分野における技術常識を考慮すると、上記イ.における「本稿では、尤度比較により話者境界を自動的に検出しながら音素モデルを適応する、オンライン即時・逐次型話者適応手法を提案する。」との記載、上記ロ.における「新しい話者の声質がそれ以前の話者の音声と異なる場合には、新しい話者の音声は、以前の話者に適応化したモデルよりもむしろ不特定話者のモデルに適合すると考えられる。従って、適応化モデルと不特定話者モデルの尤度を比較することによって話者境界を検出し、高い尤度を示すモデルを用いて、新しい話者に適応させるのが適当と考えられる。」との記載、及び図1(オンライン適応の流れ)によれば、オンライン即時・逐次型話者適応手法は、(α)入力された話者の音声(Speech)を不特定話者モデル(SI Model)を用いて認識(Recognition)するとともに、(β)話者適応化モデル(SA Model)を用いて認識(Recognition)している。
また、オンライン即時・逐次型話者適応手法は、(γ)話者適応化モデル(SA Model)の尤度と、不特定話者モデル(SI Model)の尤度とを比較している。
また、オンライン即時・逐次型話者適応手法は、(δ)不特定話者モデル(SI Model)の尤度が、話者適応化モデル(SA Model)の尤度よりも高いのであれば、新しい話者適応化モデル(SA Model)を生成している。すなわち、不特定話者モデル(SI Model)の尤度が、話者適応化モデル(SA Model)の尤度よりも高いのであれば、不特定話者モデル(SI Model)の尤度に基づいて、新しい話者適応化モデル(SA Model)を生成しているということができる。
ここで、オンライン即時・逐次型話者適応手法は、入力された音声(Speech)を不特定話者モデル(SI Model)又は話者適応化モデル(SA Model)を用いて認識(Recognition)する以上、音声認識装置を備えることは技術常識であり、これを音声認識エンジンと称することは任意である。

したがって、上記(α)ないし(δ)を纏めると、上記引用例1には、以下の発明(以下、「引用発明」という。)が記載されているものと認められる。

「オンライン即時・逐次型話者適応手法であって、
音声認識エンジンにおいて、入力された話者の音声(Speech)を不特定話者モデル(SI Model)を用いて認識(Recognition)することと、
前記音声認識エンジンによって、前記話者から入力された音声(Speech)を話者適応化モデル(SA Model)を用いて認識(Recognition)することと、
前記話者適応化モデル(SA Model)の尤度と、前記不特定話者モデル(SI Model)の尤度とを比較することと、
前記不特定話者モデル(SI Model)の尤度が、前記話者適応化モデル(SA Model)の尤度よりも高いのであれば、前記不特定話者モデル(SI Model)の尤度に基づいて、新しい話者適応化モデル(SA Model)を生成することとを備える方法。」

B 原審の平成24年11月29日付け拒絶理由に引用されたSietse H.K.,"Design and implementation of a user-oriented speech recognition interface: the synergy of technology and human factors",Interacting with Computers ,1994年,vol.6 pp.41-60(以下、「引用例2」という。)には、図面とともに以下の事項が記載されている。

ハ.「The design and implementation of a user-oriented speech recognition interface are described. The interface enables the use of speech recognition in so-called interactive voice response systems which can be accessed via a telephone connection. In the design of the interface a synergy of technology and human factors is achieved. This synergy is very important for making speech interfaces a natural and acceptable form of human-machine interaction. Important concepts such as interfaces, human factors and speech recognition are discussed. Additionally, an indication is given as to how the synergy of human factors and technology can be realised by a sketch of the interface's implementation. An explanation is also provided of how the interface might be integrated in different applications fruitfully.」(41頁5?16行)

訳文(ハ.)「ユーザ志向の音声認識インタフェースの設計および実装について説明する。このインタフェースにより、電話接続を介してアクセス可能な、いわゆる対話型音声応答システムでの音声認識の使用が可能になる。同インタフェースの設計において、技術と人的要因の相助関係(シナジー)が達成される。この相助関係は、音声インタフェースを、自然で満足のゆく形態の人間と機械との対話をする上で非常に重要である。インタフェース、人的要因および音声認識などの重要な概念について論じる。加えて、同インタフェース実装の概略を通して、人的要因と技術の相助関係の実現方法も示す。また、さまざまなアプリケーションに同インタフェースを効果的に組み込む方法も提示する。」

ニ.「Speech recognition

Speech recognition defined
Speech recognition can be considered as the process of transforming an analogue speech signal into discrete representations which may be assigned proper meanings, and which, when comprehended, may be used to effect responsive behaviour. The ultimate goal is to understand the input enough to be able to select and produce an appropriate response. This transformation from analogue speech signals into discrete representations is done by a speech recognizer which is attached to a host computer. Such a transformation is necessary because computers can only manipulate binary data.
When a user (i.e. a caller) is prompted by the application to say a word, the recognizer identifies the utterance, assigns a proper (predefined) meaning to it and presents an indication of the recognized word to the application. The application in turn is responsible for the appropriate processing of the supplied word.

Classification
Basically, speech recognizers can be classified into four classes: a recognizer recognizes isolated words or continuous speech and it can be speakerdependentor speaker-independent. Isolated word recognizers require a short pause before and after each utterance (a word or a phrase), which is interpreted as one entity. When, on the other hand, continuous speech is involved, no pause is needed and several words or phrases (each considered to be different by the recognizer) may be run together. So the user can speak whole sentences in a natural way, but they do need a silence at the beginning and at the end.
Dedicated isolated word (or discrete) recognizers are available and can be used in real, commercial applications. This is not the case with continuous speech recognizers. Some prototypes of this kind are available, but there are still problems to be solved before these recognizers will be capable of recognizing continuous speech smoothly. For instance, word boundaries are difficult to detect and semantic analysis is needed to interpret a sentence correctly.
A speaker-dependent recognizer is only capable of identifying one person's voice. This is in contrast to a speaker-independent system which, in principle, is able to recognize any person's voice. Speaker-dependent recognition can be achieved with simpler systems than speaker-independent recognition.
As we shall explain later, we use a speaker-independent isolated word recognizer for our interface.

Tokens, templates and vocabularies
The speech recognition process can be divided into two steps:
・generating a representation for the utterance to be identified,
・comparing the generated representation with all known utterances.
The generation of a representation for an unknown utterance results in a so-called token. The representation of a known utterance on the other hand is called a template. All templates form a set, named the vocabulary. The process of recognition comes down to comparing a token with all the templates in the vocabulary. The template that matches best with the token is considered to be the pronounced word.
In order to be able to recognize words, these words must be taught first. The process of teaching is called training. When a speaker-dependent vocabulary has to be learned, it is sufficient to train the recognizer with a couple of samples from just one speaker. As consequence, the system cannot recognize another's voice with much confidence. For a speaker-independent recognizer, more people have to be involved in the training process to construct a vocabulary the words of which can be identified without regard to the actual speaker.
In some communication sessions, not all words need to be under consideration at the same time. To reduce the chance that a spoken word is matched with a vocabulary entry which turns out to be a mismatch, it is possible to exclude temporarily a number of words from the vocabulary. To this goal, a vocabulary is split into various subvocabularies, which may overlap. By selecting the correct subvocabulary at a certain moment, one can reduce the set of possible recognition candidates and thus reduce the chance of picking the wrong word from the vocabulary, provided that users only say one of the words in the selected subvocabulary.」(44頁27行?45頁45行)

訳文(ニ.)「音声認識

音声認識の定義
音声認識は、アナログ音声信号を離散的表現に変換する過程と見なすことができる。その離散的表現は、適切な意味を割り当てられ、理解された後、有効な応答動作の実行に使用可能である。最終的な目標は、適切な応答を選択し生成できる程度まで十分に入力情報を理解することである。アナログ音声信号から離散的表現への変換は、ホストコンピュータに取り付けられた音声認識装置により実行される。コンピュータが操作できるのはバイナリデータのみであるため、この種の変換が必要である。
ユーザ(すなわち、発信者)がある語を話すようアプリケーションに促されると、その発話を認識装置が識別し、適切な(定義済みの)意味を割り当て、認識された語をアプリケーションに示す。次いでアプリケーションが、提示された語の適切な処理を引き受ける。

分類
基本的に、音声認識装置は4つの種類に分類できる。認識装置は、孤立語または連続音声を認識し、特定話者認識または不特定話者認識のいずれかの方式を使用できる。孤立語認識装置は、各発話(語または語句)の前後に短い休止を必要とし、その発話は1つの実体として解釈される。他方、連続音声が関係する場合、休止は必要ではなく、いくつかの語または語句(各々は認識装置により別個のものと見なされる)が同時に処理される。そのため、ユーザは、全文を自然な仕方で話すことができるが、話し始める時点と話し終える時点では沈黙することが必要である。
専用の孤立語(または離散的)認識装置が入手可能であり、実際の商用アプリケーションで使用することができる。連続音声認識装置の場合には、事情が異なる。この種の装置のプロトタイプはいくつか入手可能だが、これらの認識装置が連続音声をスムーズに認識できるようになる前に、解決が必要な問題が依然として存在する。例えば、語境界の検出は困難で、文を正確に解釈するには、意味解析が必要である。
特定話者認識装置は、1人の人物の声のみを識別することができる。これとは対照的に、不特定話者認識システムは、原則的に言って、だれの声でも認識することが可能である。特定話者認識は、不特定話者認識よりも簡潔なシステムで実現することができる。
後の箇所で説明するとおり、著者らは、インタフェースに不特定話者孤立語認識装置を使用する。

トークン、テンプレートおよび語彙
音声認識処理は、2つの段階に分けることができる。
・ 識別する発話の表現を生成する。
・ 既知の話し言葉すべてと生成された表現を比較する。
未知の発話の表現生成により、いわゆるトークンが生成される。他方、既知の話し言葉の表現は、テンプレートと呼ばれる。すべてのテンプレートは、語彙と呼ばれる語のグループを形成する。認知の処理とは、結局のところ、トークンを語彙内のすべてのテンプレートと比較することである。トークンと最もよく合致するテンプレートが、発音された語と見なされる。
語を認識するには、認識する語がまず教示されなければならない。教示の過程は訓練と呼ばれる。特定話者の語彙が学習されなければならない場合、1人の話者による2、3のサンプルを使用して認識装置を訓練すれば十分である。結果的に、そのシステムは、他の話者の声を確実に認識することができなくなる。不特定話者認識装置の場合、訓練課程により多くの話者を関与させて、実際の話者がだれかにかかわりなく識別可能な語から成る語彙を構築する必要がある。
一部の対話セッションでは、すべての語を同時に考慮する必要はない。発せられた語がある語彙の収録語と一致したとしても、不一致だったことが後で判明するといった事態を減らすため、いくつかの語を語彙から一時的に除外することができる。この目標を達成するため、重複する可能性のある語彙をいくつかの下位語彙に分割する。特定の時点において正確な下位語彙を選択することにより、潜在的な認識候補のグループを減らし、選択された下位語彙に含まれる一語のみをユーザが発話する際、語彙から誤った語を選択する可能性を減らすことが可能である。」

ホ.「Vocabulary construction
While using the interface, we found that the quality of the vocabulary plays an important role in the success of the human-machine interaction. The vocabulary affects not only response time and recognition accuracy, but also a user's expressiveness. In order to construct adequate vocabularies, we give the following rules of thumb.

Use subvocabularies
Dividing the vocabulary into several subvocabularies reduces the chance that a word not pronounced clearly confuses the recognizer (see also the section on tokens, templates and vocabularies). Particularly when information about the context of the dialogue is available, subvocabularies can be very useful.

Train thoroughly
In order to achieve speaker-independent recognition, the system must be thoroughly trained. This means that sufficient (typically, several dozen) training samples should be available. Not only is the quantity of the training samples important; but they should be taken from a representative sample of the future users.

Ensure words are distinct
The words in a vocabulary should be (phonetically) sufficiently distinct. As an illustrative example, ‘bold’ and ‘bolt’ will definitely cause problems.

Train and use in the same situation
It is important that the system has been trained on the vocabulary in the same circumstances as it will be used. If the vocabulary training is carried out in a laboratory, but the system is then used in a noisy environment, recognition performance can be expected to decrease considerably.

Choose an appropriate size
To guarantee a natural interaction, the number of words in a vocabulary should not be too small. On the other hand, if the vocabulary has too many entries, its response time may be too slow, or it may become difficult to ensure sufficient distinction between words. What ‘small’ and ‘large’ mean with respect to vocabulary size depends on the specific situation.

Use natural words
The words in the vocabulary should not be exotic, but natural. In that way, words are easy to remember and users are likely to say the correct word instinctively.

Deal with unwanted sounds
During recognition, an unknown utterance is pin-pointed to a known word in the vocabulary. To support the possibility of ‘recognizing’ words that are not in the vocabulary, a garbage template can be added to the vocabulary. Such a template must be capable of recognizing words it has never been trained with. A garbage template, however, can be trained with specific unwanted sounds (for example: breathing, coughing and laughing) and can be untrained with the words in the vocabulary. If a non-vocabulary word is spoken or true noise is encountered, the speech recognizer will select the garbage template, permitting the interface to act correspondingly. For example, the interface can play a help message on the possible input, or it can ask the user to repeat the input. This technique of coping with unwanted sounds has been proven to be very convenient.」(56頁19行?57頁25行)

訳文(ホ.)「語彙の構築
インタフェースの使用過程で、著者らは、人間と機械との対話の成功に、語彙の質が重要な役割を果たすことに気付いた。語彙は、応答時間および認識の正確性のみならず、ユーザの表現力にも影響を及ぼす。適切な語彙の構築には、次の経験則が役立つ。

下位語彙を使用する
語彙をいくつかの下位語彙に分割することにより、明確に発音されなかった語が認識装置を混乱させる可能性を減らすことができる(トークン、テンプレートおよび語彙のセクションも参照)。特に、ダイアログのコンテキストについての情報を使用できる場合、下位語彙が非常に役に立つことがある。

入念に訓練する
不特定話者認識を実現するには、システムを入念に訓練しなければならない。これは、十分な数の(通常、数十の)訓練用サンプルが利用可能であるべきことを意味する。訓練用サンプルの量のみが重要であるわけではない。訓練用サンプルは、将来のユーザの代表サンプルから取得する必要がある。

各語が確実に他と区別されるようにする
語彙中の各語は、十分に他と(音声学的に)区別されるのが望ましい。説明のための例を挙げると、「bold」と「bolt」は、間違いなく問題を生じさせる。

同じ状況で訓練し使用する
語彙に関して、使用される場合と同じ状況でシステムが訓練されていることは重要である。語彙の訓練が実験室で実施された後、システムが騒音環境で使用されるなら、認識性能は、大幅に低下することが予想される。

適切なサイズを選択する
自然な対話を確保するには、語彙内の語数が少な過ぎるようであってはならない。他方、あまりにも多くの収録語が語彙に含まれる場合、応答時間が非常に遅くなるか、語同士を十分に区別することが困難になる可能性がある。語彙のサイズに関する「小ささ」および「大きさ」は、具体的な状況に依存する。

自然語を使用する
語彙内の語は、風変わりなものではなく、自然であるべきである。そうすることで、語は記憶しやすくなり、ユーザは本能的に正しい語を発音する可能性が高くなる。

望ましくない音声に対処する
認識の際、未知の発話は、語彙内の既知の語として特定される。語彙内に存在しない語の「認識」実現をサポートするため、ガーベッジテンプレートを語彙に追加することができる。この種のテンプレートは、訓練に含まれなかった語の認識が可能でなければならない。ただし、ガーベッジテンプレートは、特定の望ましくない音声(例えば、呼吸音、咳および笑い声)で訓練し、語彙内の語で訓練しないようにする。語彙に含まれない語が発話されたり、純粋な雑音が聞こえたりした場合、音声認識装置は、ガーベッジテンプレートを選択し、インタフェースがそれに応じて動作できるようにする。例えば、インタフェースは、生じ得る入力に応じて、ヘルプメッセージを再生したり、ユーザに入力を繰り返すよう求めたりするかもしれない。望ましくない音声に対処する技術は、非常に便利であることが実証されてきた。」

上記引用例2の記載及び図面並びにこの分野における技術常識を考慮すると、上記ホ.における「不特定話者認識を実現する」との記載、同ホ.における「望ましくない音声に対処する 認識の際、未知の発話は、語彙内の既知の語として特定される。語彙内に存在しない語の「認識」実現をサポートするため、ガーベッジテンプレートを語彙に追加することができる。この種のテンプレートは、訓練に含まれなかった語の認識が可能でなければならない。ただし、ガーベッジテンプレートは、特定の望ましくない音声(例えば、呼吸音、咳および笑い声)で訓練し、語彙内の語で訓練しないようにする。語彙に含まれない語が発話されたり、純粋な雑音が聞こえたりした場合、音声認識装置は、ガーベッジテンプレートを選択し、インタフェースがそれに応じて動作できるようにする。」との記載によれば、音声認識装置は、不特定話者認識において、ガーベッジテンプレートを語彙に追加している。

したがって、上記引用例2には、以下の発明(以下、「技術事項」という。)が記載されているものと認められる。

「不特定話者認識において、ガーベッジテンプレートを語彙に追加すること。」

(3)対比・判断
補正後の発明と引用発明とを対比する。
a.引用発明の「オンライン即時・逐次型話者適応手法」と、補正後の発明の「管理されていない音声認識学習と音声認識テストを実行するための方法」とは、引用発明が、音声認識エンジンにおいて、音声(Speech)を不特定話者モデル(SI Model)又は話者適応化モデル(SA Model)を用いて認識(Recognition)しているから、いずれも、「特定の音声認識を実行する方法」という点で一致する。
b.引用発明の「入力された話者の音声(Speech)を不特定話者モデル(SI Model)を用いて認識(Recognition)する」は、「入力された話者の音声(Speech)」及び「不特定話者モデル(SI Model)」が、それぞれ「話し手から入力された音声」及び「話し手に依存しない音響モデル」といえ、「不特定話者モデル(SI Model)を用いて認識(Recognition)する」際に、音声(Speech)を、不特定話者モデル(SI Model)の内容とパターンマッチングをすることは技術常識であるから、「話し手から入力された音声と、話し手に依存しない音響モデルの内容とのパターンマッチングを実行する」ということができる。
c.引用発明の「前記話者から入力された音声(Speech)を話者適応化モデル(SA Model)を用いて認識(Recognition)する」は、「話者適応化モデル(SA Model)」が、「話し手に合うように調整された話し手に依存する音響モデル」といえ、 「話者適応化モデル(SA Model)を用いて認識(Recognition)する」際に、音声(Speech)を、話者適応化モデル(SA Model)の内容とパターンマッチングをすることは技術常識であるから、「話し手から入力された音声と、前記話し手に合うように調整された話し手に依存する音響モデルのパターンマッチングを実行する」ということができる。
d.引用発明の「前記話者適応化モデル(SA Model)の尤度と、前記不特定話者モデル(SI Model)の尤度とを比較する」は、「尤度(もっともらしさ)」が、パターンマッチングの合致度を表す「スコア」といえ、パターンマッチングにより得られるものであり、上記b.及びc.の対比を考慮すると、「このパターンマッチング(話し手に依存する音響モデルとのパターンマッチング)で得られたパターンマッチングスコアと、前記話し手に依存しないパターンマッチングスコアとを比較する」ということができる。
e.引用発明の「新しい話者適応化モデル(SA Model)を生成する」と、補正後の発明の「前記話し手に依存する音響モデルのための新たなテンプレートを生成する」とは、上記c.の対比を考慮すると、いずれも、「話し手に依存する新たな特定の音響モデルを生成する」という点で一致する。

したがって、補正後の発明と引用発明は、以下の点で一致ないし相違している。

(一致点)
「特定の音声認識を実行する方法であって、
音声認識エンジンにおいて、話し手から入力された音声と、話し手に依存しない音響モデルの内容とのパターンマッチングを実行することと、
前記音声認識エンジンによって、前記話し手から入力された音声と、前記話し手に合うように調整された話し手に依存する音響モデルのパターンマッチングを実行することと、
このパターンマッチングで得られたパターンマッチングスコアと、前記話し手に依存しないパターンマッチングスコアとを比較することと、
前記話し手に依存しないパターンマッチングスコアが、前記話し手に依存する音響モデルのパターンマッチングスコアよりも高いのであれば、前記話し手に依存しないパターンマッチングスコアに基づいて、話し手に依存する新たな特定の音響モデルを生成することとを備える方法。」

(相違点1)
「特定の音声認識を実行する方法」に関し、
補正後の発明は、「管理されていない音声認識学習と音声認識テストを実行するための方法」であるのに対し、引用発明は、「オンライン即時・逐次型話者適応手法」である点。

(相違点2)
「話し手に依存しない音響モデルの内容とのパターンマッチングを実行する」に関し、
補正後の発明は、話し手に依存しない音響モデルの内容とのパターンマッチングを実行し、「話し手に依存しないパターンマッチングスコアを生成する」のに対し、引用発明は、当該「話し手に依存しないパターンマッチングスコアを生成する」との特定がない点。

(相違点3)
「話し手に合うように調整された話し手に依存する音響モデルのパターンマッチングを実行する」に関し、
補正後の発明は、話し手に合うように調整された話し手に依存する音響モデルの「テンプレートに関連づけられたスコアとの」パターンマッチングを実行するのに対し、引用発明は、当該「テンプレートに関連づけられたスコアとの」特定がない点。

(相違点4)
「前記話し手に依存する音響モデルのパターンマッチングスコア」に関し、
補正後の発明は、前記話し手に依存する音響モデルの「テンプレートとのパターンマッチングで得られた」パターンマッチングスコアであるのに対し、引用発明は、当該「テンプレートとのパターンマッチングで得られた」との特定がない点。

(相違点5)
「話し手に依存する新たな特定の音響モデルを生成する」に関し、
補正後の発明は、「前記話し手に依存する音響モデルのための新たなテンプレートを生成する」のに対し、引用発明は、「新しい話者適応化モデル(SA Model)を生成する」点。

(相違点6)
「話し手に依存する新たな特定の音響モデルを生成する」態様に関し、
補正後の発明は、「前記生成されたテンプレートを、前記話し手に依存する音響モデル内に格納する」のに対し、引用発明は、その様な構成がない点。

(相違点7)
「話し手に依存しない音響モデル」に関し、
補正後の発明は、「前記話し手に依存しない音響モデルは、少なくとも1つのガーベッジテンプレートを含み、前記比較することは、前記入力された音声を前記少なくとも1つのガーベッジテンプレートと比較することを含む」のに対し、引用発明は、その様な構成を含まない点。

そこで、まず、上記相違点2について検討する。
引用発明は、「入力された話者の音声(Speech)を不特定話者モデル(SI Model)を用いて認識(Recognition)する」ところ、この後段において、「前記不特定話者モデル(SI Model)の尤度」(話し手に依存しないパターンマッチングスコア)を「前記話者適応化モデル(SA Model)の尤度」(話し手に依存する音響モデルのパターンマッチングスコア)と比較しているものである。
そうすると、引用発明は、「不特定話者モデル(SI Model)を用いて認識(Recognition)する」以上、その「尤度」(スコア)を前段において生成しておくことは後段における比較を簡素化する上で合理的であるから、補正後の発明のように、話し手に依存しない音響モデルの内容とのパターンマッチングを実行し、「話し手に依存しないパターンマッチングスコアを生成する」ことに格別な困難性はない。

次に、上記相違点3について検討する。
引用発明は、「前記話者から入力された音声(Speech)を話者適応化モデル(SA Model)を用いて認識(Recognition)する」ところ、音声認識において、テンプレートを用いることは、上記引用例2の上記ニ.における「認知の処理とは、結局のところ、トークンを語彙内のすべてのテンプレートと比較することである。トークンと最もよく合致するテンプレートが、発音された語と見なされる。」との記載もあるように技術常識であり、ここで、「トークンと最もよく合致するテンプレートが、発音された語と見なされる。」との記載のように、テンプレートは、スコア(合致度)と関連付けられているものである。
そうすると、引用発明は、「前記話者から入力された音声(Speech)を話者適応化モデル(SA Model)を用いて認識(Recognition)する」(パターンマッチング)をするものであって、その際テンプレートを用いることは技術常識であり、しかも、テンプレートは、スコア(合致度)と関連付けられているものであるから、補正後の発明のように、話し手に合うように調整された話し手に依存する音響モデルの「テンプレートに関連づけられたスコアとの」パターンマッチングを実行することに格別な困難性はない。

次に、相違点4について検討する。
引用発明は、「前記話者適応化モデル(SA Model)の尤度」であるところ、音声認識において、テンプレートを用いることは、前述の上記引用例2の上記ニ.における「認知の処理とは、結局のところ、トークンを語彙内のすべてのテンプレートと比較することである。」との記載もあるように技術常識であり、また、「尤度」(スコア)は、パターンマッチングにより得られるものである。
そうすると、引用発明の「前記話者適応化モデル(SA Model)の尤度」は、「前記話者適応化モデル(SA Model)」(前記話し手に依存する音響モデル)のテンプレートを用い、パターンマッチングにより得られた「尤度」(スコア)であるから、補正後の発明のように、前記話し手に依存する音響モデルの「テンプレートとのパターンマッチングで得られた」パターンマッチングスコアとなることは格別なことではない。

次に、上記相違点5及び6について検討する。
引用発明は、「新しい話者適応化モデル(SA Model)を生成する」ところ、音声認識において、テンプレートを用いることは、前述の上記引用例2の上記ニ.における「認知の処理とは、結局のところ、トークンを語彙内のすべてのテンプレートと比較することである。」との記載があるように技術常識であり、ここで、新しい話者適応化モデル(SA Model)を生成する以上、新たなテンプレートを生成しているということができる。
また、上記引用例1の図1(オンライン適応の流れ)によれば、「新しい話者適応化モデル(SA Model)を生成する」のフローチャートの後段において、適応した話者適応化モデル(SA Model)(話し手に依存する音響モデル)を用いて入力音声(Speech)を再認識(Rerecognition)することが記載されている。
そうすると、引用発明の「新しい話者適応化モデル(SA Model)を生成する」は、補正後の発明のように「前記話し手に依存する音響モデルのための新たなテンプレートを生成する」こと(相違点5)ということができ、その後段において、適応した話者適応化モデル(SA Model)(話し手に依存する音響モデル)を用いているから、「前記生成されたテンプレートを、前記話し手に依存する音響モデル内に格納する」こと(相違点6)は自然である。

次に、上記相違点7について検討する。
上記技術事項(上記「(2)B」を参照)は、「不特定話者認識において、ガーベッジテンプレートを語彙に追加すること。」であり、不特定話者認識(話し手に依存しない音響モデル)において、ガーベッジテンプレートを用いて望ましくない音声を処理するものである。
そうすると、上記技術事項に接した当業者であれば、引用発明に上記技術事項を採用して、補正後の発明のように「前記話し手に依存しない音響モデルは、少なくとも1つのガーベッジテンプレートを含む」ことは容易になし得ることである。その際、ガーベッジテンプレートについても、話し手に依存しないパターンマッチングスコアを比較することになるから、「前記比較することは、前記入力された音声を前記少なくとも1つのガーベッジテンプレートと比較することを含む」ことは格別なことではない。

次に、上記相違点1について検討する。
引用発明は、「オンライン即時・逐次型話者適応手法」であるところ、上記相違点3ないし6についての検討を踏まえると、新しい話者適応化モデル(SA Model)(話し手に依存する音響モデル)のテンプレートを生成するために、音声(Speech)を収集しているから、音声認識学習(Training)をしているということができる。
また、引用発明のオンライン即時・逐次型話者適応手法は、不特定話者モデル(SI Model)(話し手に依存しない音響モデル)又は話者適応化モデル(SA Model)(話し手に依存する音響モデル)を用いて認識(Recognition)している以上、音声(Speech)を音響モデルのテンプレートとマッチングさせているから、音声認識テスト(Testing)をしているということができる。
また、本願明細書段落【0006】における「管理されていない学習では、一組の学習特徴ベクトルのおのおのに関連付けられた発声クラスは、予め知らされていない。」との記載によれば、管理されていない学習は、発声クラスが、予め知らされていないものである。一方、上記引用例1の音声認識学習は、発声クラスに関して特段の記載がないから、発声クラスが、予め知らされていない学習ということができる。
そうすると、引用発明の「オンライン即時・逐次型話者適応手法」は、音声認識学習(Training)と音声認識テスト(Testing)を管理されていない学習で実行しているから、補正後の発明のように「管理されていない音声認識学習と音声認識テストを実行するための方法」ということができることは当然である。

そして、補正後の発明の作用効果も、引用発明及び引用例2に記載の技術事項から当業者が容易に予測できる範囲のものである。

以上のとおり、補正後の発明は引用発明及び引用例2に記載の技術事項に基づいて容易に発明できたものであるから、特許法第29条第2項の規定により、特許出願の際独立して特許を受けることができないものである。

4.結語
したがって、本件補正は、平成18年法律第55号改正附則第3条第1項によりなお従前の例によるとされる同法による改正前の特許法第17条の2第5項において準用する同法第126条第5項の規定に違反するので、同法第159条第1項において読み替えて準用する同法第53条第1項の規定により却下すべきものである。

第3 本願発明について
1.本願発明
平成25年8月23日付けの手続補正は上記のとおり却下されたので、本願発明は、上記「第2 補正却下の決定 1.本願発明と補正後の発明」の項で「本願発明」として認定したとおりである。

2.引用発明
引用発明は、上記「第2 補正却下の決定」の項中の「3.独立特許要件について」の項中の「(2)引用発明」の項で認定したとおりである。

3.対比・判断
本願発明は上記補正後の発明から当該本件補正に係る限定を省いたものである。
そうすると、本願発明の構成に当該本件補正に係る限定を付加した補正後の発明が、上記「第2 補正却下の決定」の項中の「3.独立特許要件について」の項で検討したとおり、引用発明及び引用例2に記載の技術事項に基づいて容易に発明できたものであるから、本願発明も同様の理由により、容易に発明できたものである。

4.むすび
以上のとおり、本願請求項1に係る発明は、引用発明及び引用例2に記載の技術事項に基づいて当業者が容易に発明をすることができたものであるから、特許法第29条第2項の規定により特許を受けることができない。
したがって、本願はその余の請求項について論及するまでもなく拒絶すべきものである。

よって、結論のとおり審決する。
 
審理終結日 2014-05-14 
結審通知日 2014-05-20 
審決日 2014-06-02 
出願番号 特願2010-96043(P2010-96043)
審決分類 P 1 8・ 121- Z (G10L)
P 1 8・ 575- Z (G10L)
最終処分 不成立  
前審関与審査官 菊地 陽一間宮 嘉誉  
特許庁審判長 石井 研一
特許庁審判官 井上 信一
萩原 義則
発明の名称 話し手に暗黙的に順応する技術を用いた音声認識システム  
代理人 河野 直樹  
代理人 井関 守三  
代理人 中村 誠  
代理人 砂川 克  
代理人 井上 正  
代理人 峰 隆司  
代理人 野河 信久  
代理人 赤穂 隆雄  
代理人 堀内 美保子  
代理人 岡田 貴志  
代理人 佐藤 立志  
代理人 蔵田 昌俊  
代理人 福原 淑弘  

プライバシーポリシー   セキュリティーポリシー   運営会社概要   サービスに関しての問い合わせ