• ポートフォリオ機能


ポートフォリオを新規に作成して保存
既存のポートフォリオに追加保存

  • この表をプリントする
PDF PDFをダウンロード
審決分類 審判 査定不服 特17 条の2 、4 項補正目的 特許、登録しない。 G10L
審判 査定不服 2項進歩性 特許、登録しない。 G10L
審判 査定不服 5項独立特許用件 特許、登録しない。 G10L
管理番号 1296629
審判番号 不服2014-7105  
総通号数 183 
発行国 日本国特許庁(JP) 
公報種別 特許審決公報 
発行日 2015-03-27 
種別 拒絶査定不服の審決 
審判請求日 2014-04-17 
確定日 2015-01-23 
事件の表示 特願2011- 43572「音声処理装置、音声処理方法及び音声処理プログラム」拒絶査定不服審判事件〔平成24年 9月20日出願公開、特開2012-181307〕について、次のとおり審決する。 
結論 本件審判の請求は、成り立たない。 
理由 1.手続の経緯
本願は,平成23年 3月 1日の出願であって,平成25年 1月15日付け拒絶理由通知に対して,同年 3月18日付けで意見書を提出するとともに手続補正がなされ,更に平成25年 6月11日付け拒絶理由通知に対して,同年 8月 8日付けで意見書を提出するとともに手続補正がなされたが,平成26年 1月10日付けで,平成25年 8月 8日付けの手続補正について補正却下の決定がされるとともに,同日付で拒絶査定され,これに対し,同年 4月17日に拒絶査定不服審判がされるとともに,同日付で手続補正がなされたものである。

2.平成26年 4月17日付の手続補正についての補正却下の決定

[補正却下の決定の結論]

平成26年 4月17日付の手続補正を却下する。

[理由]
(1)本願補正発明

本件補正は,特許請求の範囲の請求項1を補正前の
「 入力した音声データを記憶する記憶手段と,
前記記憶手段に記憶された音声データを音節単位に分割する音声分割手段と,
前記音声分割手段による分割によって生成された複数の音節音声データを少なくとも2つの音声認識エンジンを用いて認識し,音節ごとの文字データに変換する音声認識手段と,
前記音節ごとの文字データを統合して文書データを生成する統合手段と,
前記音節ごとの文字データと,該文字データの認識の元となった前記音節音声データとを紐付けて,前記文書データが表わす文書を表示する表示手段と,
表示された前記文書中の指示された文字に対応する前記文字データに紐付けられた前記音節音声データから,音声再生を開始する音声再生手段と,
を備えたことを特徴とする音声処理装置。」から,

補正後の
「 入力した音声データを記憶する記憶手段と,
前記記憶手段に記憶された音声データを,特定の時間長単位に分割する音声分割手段と,
前記音声分割手段による分割によって生成された複数の音声データを少なくとも2つの音声認識エンジンを用いて認識し,分割された音声データごとの文字データに変換する音声認識手段と,
前記分割された音声データごとの文字データを統合して文書データを生成する統合手段と,
前記音声認識手段による認識結果として表示された文字に対応する文字データと,該文字の認識の元となった前記分割された音声データの記憶位置とを紐付けて,前記文書データが表わす文書を表示する表示手段と,
表示された前記文書中のカーソル位置の文字に対応する前記文字データに紐付けられた記憶位置の音声データから,音声を再生する音声再生手段と,
を備え,
前記音声分割手段は,前記音声データにおける無音区間の割合を算出し,その無音割合が所定値よりも小さい場合には,分割前の音声データを無音部分も含めて前記特定の時間長単位に等分割し,前記無音割合が所定値よりも大きい場合には,分割前の音声データから無音部分を除いた音声部分を前記特定の時間長単位に等分割することを特徴とする音声処理装置。」
(以下,本願補正発明,という)に補正しようとするものである。

上記補正のうち,補正前の「音声データを音節単位に分割する音声分割手段」を「音声データを,特定の時間長単位に分割する音声分割手段」と変更する補正について,審判請求人は「最後の拒絶理由通知で不明瞭と指摘された記載の釈明でありますので,特許法第17条の2第5項第2号又は第4号の規定に従う補正であります。」としている。
ここで,「音声データを音節単位に分割する音声分割手段」は,「音声分割手段」が「音声データ」を「音節単位に分割する」ことを意味する記載であることが明確であり,記載自体が不明瞭といえないばかりか,本願について,最後の拒絶理由通知として通知された平成25年 6月11日付けの拒絶理由通知書により通知された拒絶理由のうち「理由a」は,「本願は,特許法29条2項の規定により特許を受けることができない」旨のものであり,「理由b」は,「本願が,特許法36条第4項第1号,第6項第1号に規定する要件を満たしていない」旨のものであって,「音声データを音節単位に分割する音声分割手段」が不明瞭な記載である旨の拒絶の理由が示されたものとはいえないから,特許法17条の2第5項第4号に掲げる事項を目的とするものとはいえない。

そして,「音声データを音節単位に分割する」は,「音声データ」を「音節単位に分割する」ことを意味するのに対して,「音声データを,特定の時間長単位に分割する」は,「音声データ」を「音節単位に分割する」だけでなく,他の「特定の時間長に分割する」ことを含むから,音声データを分割する単位について,補正前よりも,その範囲を拡張するものであって,17条の2第5項第2号にいう「特許請求の範囲の減縮」といえないことは明らかである。
また,本件補正は,請求項の削除や誤記の訂正に該当するものともいえない。

したがって,本件補正は,特許法17条の2第5項各号に掲げる場合において特許請求の範囲についてする補正とはいえないから,同法159条第1項において読み替えて準用する同法53条1項の規定により却下すべきものである。

なお,補正前の「音声データを音節単位に分割する音声分割手段」を「音声データを,特定の時間長単位に分割する音声分割手段」と変更する補正を含む平成25年 8月 8日付手続補正書による補正について,平成26年 1月10日付の補正却下の決定には,審判請求人が審判請求書において指摘するとおり「請求項1についての補正は限定的減縮を目的としている。」との記載があることに鑑み,本件補正が,特許請求の範囲の限定的減縮を目的とするものと仮定して,本願補正発明が,特許出願の際独立して特許を受けることができるものであるか(特許法17条の2第5項において準用する同法126条7項の規定に適合するか)についても,以下(2)ないし(4)において検討する。

(2)本願補正発明の効果について
(2-1)本願補正発明の効果に関する審判請求人の主張について
審判請求人は,審判請求書において,本願補正発明の効果について,
「(1)音声データを特定の時間長単位に分割し,分割された音声データを少なくとも2つの音声認識手段を用いて認識して文字データに変換し,文字データを統合して文書データを生成します。
(2)その生成された文書データを,文字データと文字の認識の元となった分割された音声データの記憶位置とを紐付けて,表示して,カーソル位置の文字データに紐付けられた音声データから音声再生をします。
(3)その場合に,音声データの分割において,音声データにおける無音区間の割合を算出し,その無音割合が所定値よりも小さい場合には,分割前の音声データを無音部分も含めて特定の時間長単位に等分割し,無音割合が所定値よりも大きい場合には,分割前の音声データから無音部分を除いた音声部分を特定の時間長単位に等分割します。
その結果,分割処理スピードが速いというメリットと,音声認識スピードが速いというメリットとを,無音割合が所定値よりも小さいか大きいかに対応して,適切に切り替えるることで,効率のよい音声処理ができるという,顕著な効果を奏します。
かかる作用効果については,
『音声データの分割方法として,分割前の音声データを無音部分も含めて等分割する方法601と,分割前の音声データを無音部分を除いた音声部分を等分割する方法602と,が考えられる。方法601には,分割処理スピードが速いというメリットがあり,方法602には,音声認識スピードが速いというメリットがある。』(段落[0023]参照)との記載,および,
『予め,分割前音声データにおける無音部分の割合を算出し,その無音割合が所定値よりも小さい場合には方法601を採用し,無音割合が処理値よりも多い場合には方法602を採用するように切り替えても良い。』(段落[0024]参照)との記載により,支持されています。」と説明する。(下線は,当審において付した。以下同様。)

(2-2)本願補正発明の効果の検討
本願明細書の発明の詳細な説明には,審判請求人の指摘するとおりの記載があるから,本願補正発明の構成は,本願の明細書に記載されたものといえる。

ここで,本願補正発明の構成を採用した場合には,段落【0024】に記載されるとおり「予め,分割前音声データにおける無音部分の割合を算出」した上で,その無音割合を所定値と比較することが必要になるが,この「予め,分割前音声データにおける無音部分の割合を算出」する処理は,言い換えると「音声ファイルに存在する無音の区間を検索し,無音区間の継続時間を足し合わせる」処理ともいえるから,方法602の「言い換えると,音声ファイルに存在する無音の区間を検索し,無音区間が開始又は終了するタイミングで音声を分割する」(段落【0023】)処理に要する時間と比較して,実質的な差異があるものとは認められない。
(なお,本願明細書には,分割処理について,並列処理により行うことに関する具体的な記載はないが,仮に本願補正発明が,パイプライン処理などの並列処理を行うものであり,「予め,分割前音声データにおける無音部分の割合を算出」する処理が,音声分割処理や,音声認識処理と並列に行われるため,無音割合を算出する処理に要する時間を無視できるものとした場合には,本願補正発明は,音声分割処理と音声認識処理とが並列処理される構成を前提とするものとなり,段落【0023】に記載された方法601と方法602のスピードの比較は,その前提において成り立たないことになるから,本願補正発明はこれらの処理が並列処理されることを前提とするものとはいえない。)

すると,本願補正発明の構成を採用すると,無音割合を算出するためには,実質的に方法602による分割に要する時間と同様の時間を要することになるから,算出された無音割合と所定値の比較との結果,方法601と方法602のいずれを採用するにしても,無音時間を算出する時間が付加されることになり,方法601,方法602のいずれに要する時間よりも長い時間を要することは明らか^(*)である。

(*:例えば,方法601が採用される場合において,無音割合の算出のために,方法602による音声区間の分割処理に要する時間と実質的に同じ時間が付加されるから,方法602に比べて「分割処理スピードが速いというメリット」があるとはいえないことは明らかである。)

(2-3)本願補正発明の効果の判断
上記の通り,本願明細書の発明の詳細な説明には,本願補正発明が「分割処理スピードが速いというメリットと,音声認識スピードが速いというメリットとを,無音割合が所定値よりも小さいか大きいかに対応して,適切に切り替えるることで,効率のよい音声処理ができるという,顕著な効果を奏」することが,当業者が実施をすることができる程度に明確かつ十分に記載されているとはいえないから,審判請求人が主張する上記の効果を奏する本願補正発明は,特許法第36条第4項第1号に規定する要件を満たすものとはいえないから,特許出願の際独立して特許を受けることができないものである。

(3)本願補正発明の進歩性の判断
(3-1)引用例の記載
ア 引用例1
原査定の拒絶の理由に引用された特開2007-293600号公報(以下,「引用例1」という。)には,図面と共に,以下の記載がある。

「【課題を解決するための手段】
【0012】
本発明の医療用サーバ装置は,医療画像に関連する所見データを保存する医療用サーバ装置であって,前記医療画像と関連する音声データから変換された文章データ,および,前記音声データを前記文章データに変換する際の変換候補である変換候補データを入力装置から受け取る手段と,前記文章データおよび前記変換候補データを校正装置に送出する手段と,前記変換候補データに基づいて修正された前記文章データである校正データを前記校正装置から取得する手段と,取得した校正データを保存する手段と,を備える。
【0013】
上記構成によれば,入力装置で入力された音声データをテキストに変換した文章データとともに,音声データをテキストに変換する際の中間データである変換候補データを校正装置に送出することにより,校正装置において,変換候補データを利用して文章データを修正することができるため,文章データの修正作業を容易かつ正確に行なうことができる。」
「【0022】
また,本発明の校正装置は,医療画像に関する所見データを保存する医療用サーバ装置に接続され,前記医療画像に関する文章データを修正する校正装置であって,前記医療画像に関する音声データから変換された文章データ,および,前記音声データを前記文章データに変換する際の変換候補である変換候補データを,前記医療用サーバ装置を介して取得する手段と,前記変換候補データを表示させる手段と,前記変換候補データに基づいて前記文章データを修正して校正データを生成する手段と,を備える。
【0023】
上記構成によれば,校正装置の利用者は,変換候補データを利用して文章データを修正することができるため,文章データの修正作業を容易かつ正確に行なうことができる。」
「【発明を実施するための最良の形態】
【0029】
図1は,本発明の実施形態にかかる音声入力レポートシステムを説明するための図である。本実施形態の音声入力レポートシステムでは,音声認識による音素の認識,文節の区切り,単語の変換候補全て(変換候補データ)を保存する。
【0030】
例えば,図1に示すように,音声認識装置11に「音声を入力しました。」という音声を入力すると,音声認識装置11は,音声データより作成された文章データとともに,「1.お_ん_せい_を」,「2.おん_せい_を」,「3.おんせい_を」等の音声データの文節区切り候補,および「1.音声」,「2.音性」,「3.音勢」等の同音異義語の候補群など,音声をテキストに変換する際の中間データである変換候補データも保存する。なお,文章データは,音声認識装置等を用いてテキストに変換される。この時の変換精度は低くても問題ない。」
「【0033】
図2は,本発明の実施形態にかかる音声入力レポートシステム100の概略構成を説明するための図である。本実施形態の音声入力レポートシステム100は,医療画像と所見データを保存する医療用サーバ装置21と,入力者が医療画像に関する所見を入力する入力端末22と,校正者が医療画像に関する文章データを修正する校正端末23と,医療画像を閲覧するための閲覧端末24とを含む。医療用サーバ装置21は,校正端末23で修正された文章データを保存する。
【0034】
入力端末22は,医療画像に関する音声データを文章データに変換するとともに,変換候補を変換候補データとして作成し,文章データおよび変換候補データを医療用サーバ装置21に送信する。
【0035】
校正端末23は,医療用サーバ装置21から,医療画像に関する音声データから変換された文章データ,および音声データを文章データに変換する際の変換候補データを取得し,変換候補データを表示して文章データを校正する。
【0036】
医療用サーバ装置21は,入力端末22から,医療画像に関する音声データから変換された文章データ,および音声データを文章データに変換する際の変換候補データを受け取り,文章データおよび変換候補データを校正端末23に送出し,文章データおよび変換候補データに基づいて校正された校正データを校正端末23から受け取って保存する。
【0037】
また,閲覧端末24は,医療画像に関する音声データから変換された文章データと,音声データを文章データに変換する際の変換候補データとを含む検索条件を,検索式として医療用サーバ装置21に送信し,文章データおよび変換候補データに含まれる語句データを検索することができる。」
「【実施例4】
【0058】
図10は,本発明の実施例4にかかる音声入力レポートシステム100のデータ構造を示す。本実施例の音声入力レポートシステム100は,文章データに変換する前の音声データも保存するものであり,所見データは画像データと関連づけられている。さらに,所見データは,音声データから変換された文章データと,音声データを文章データに変換する際の変換候補データと,文章データに変換する前の音声データと,音声データと文章データとを関連づけるデータとで構成される。
【0059】
本実施例の音声入力レポートシステム100によれば,文章データに変換する前の音声データと,音声データと文章データとを関連づけるデータを所見データとして保存するので,音声データおよび関連づけデータを参照することにより,より正確な校正が可能になる。すなわち,音声データと文章データの各音素,文字の対応付けデータによって,文章データの修正が必要な箇所の音声がピンポイントで再生できるので,より効率よく校正ができるようになる。
【0060】
図11は,本実施例にかかる音声入力レポートシステム100の処理フローを示す。本実施例の音声入力レポートシステム100では,まず,入力端末22において,入力者が所見を音声で入力する(ステップS41)。入力端末22は,音声を音素に区切り(ステップS42),音素を文字に変換し,文章データ内の文字に対応する音声データ上の音素の位置(時刻)を関連づけデータとして記録する(ステップS43)。また,文章データ,変換候補データ,関連づけデータを医療用サーバ装置21に登録する(ステップS44)。
【0061】
次に,校正端末23において,校正者が,医療用サーバ装置21から文章データ,変換候補データ,関連づけデータを取得し(ステップS45),文章データ,変換候補データを利用して文章データを校正する(ステップS46)。
【0062】
次に,関連づけデータを用いて校正したい文章データの文字に対応する音声データ上の音素の位置を取得する(ステップS47)。そして,音素の位置の前後の音声データを再生し校正する(ステップS48)。
【0063】
このように本実施例の音声入力レポートシステム100によれば,文章データに変換する前の音声データと文章データの各音素,文字の対応付けデータによって,文章データの修正が必要な箇所の音声がピンポイントで再生できるので,より効率よく校正ができるようになる。また,文章データの校正が必要な箇所の変換候補データも存在するので,変換候補データに望ましい候補が含まれていれば選択を指示するのみで校正ができるので,校正はより効率よくできるようになる。また,音声データの参照は変換候補データに合理的な変換候補が存在しない場合にのみ行うとすることもできるで,校正はより効率よくできるようになる。」

以上の記載によれば,引用例1には,実施例4にかかる音声入力レポートシステムとして,下記の発明(以下,「引用発明」という。)が記載されていると認められる。
「入力端末22は,医療画像に関する音声データを文章データに変換するとともに,変換候補を変換候補データとして作成し,文章データおよび変換候補データを医療用サーバ装置21に送信する
校正端末23は,医療用サーバ装置21から,医療画像に関する音声データから変換された文章データ,および音声データを文章データに変換する際の変換候補データを取得し,変換候補データを表示して文章データを校正する
医療用サーバ装置21は,入力端末22から,医療画像に関する音声データから変換された文章データ,および音声データを文章データに変換する際の変換候補データを受け取り,文章データおよび変換候補データを校正端末23に送出し,文章データおよび変換候補データに基づいて校正された校正データを校正端末23から受け取って保存する
音声入力レポートシステム100において,
入力端末22は,音声を音素に区切り,音素を文字に変換し,文章データ内の文字に対応する音声データ上の音素の位置(時刻)を関連づけデータとして記録するとともに,文章データに変換する前の音声データも保存するものであり,音声データから変換された文章データと,文章データに変換する前の音声データと,音声データと文章データとを関連づけるデータを医療用サーバ装置に登録し,
校正端末23において,校正者が文章データ,変換候補データを利用して文章データを校正する際に,関連づけデータを用いて校正したい文章データの文字に対応する音声データ上の音素の位置を取得して,音素の位置の前後の音声データを再生し校正することにより,文章データに変換する前の音声データと文章データの各音素,文字の対応付けデータによって,文章データの修正が必要な箇所の音声がピンポイントで再生できる
音声入力レポートシステム100。」

イ 引用例2
原査定の拒絶の理由に引用された特開2008-107624号公報(以下,「引用例2」という。)には,図面と共に,以下の記載がある。

「【技術分野】
【0001】
本発明は,音声として記録された会話から文字を起こす文字起こしシステムに関する。」
「【発明を実施するための最良の形態】
【0020】
以下,本発明の実施形態について図面を参照しながら説明する。
≪第1の実施形態≫
図1は,本発明の第1の実施形態による文字起こしシステムの構成図を示したものである。同図において,この文字起こしシステムは管理サーバ10と,複数台の情報端末20a,20b,…,20cとから構成されており,これらがネットワーク30によって接続されている。
【0021】
管理サーバ10は,本システムで処理される各データを管理する管理用コンピュータであり,記憶部11と,音声分割手段12と,管理手段13と,文章データ生成手段14と,通信部15とから構成されている。
【0022】
記憶部11は,文字起こしの対象となる会話を音声データとして記憶するハードディスク記憶装置である。なお,この音声データは,ICレコーダ等の録音装置(図示せず)を利用してデジタル録音したものを,当該録音装置から管理サーバ10内蔵の外部機器インタフェース(図示せず)を介して取り込んだものである。
【0023】
音声分割手段12は,記憶部11から読み出した音声データをあらかじめ設定された時間長T程度の長さの音声断片データに分割して,文字起こしの単位の細分化を行う。ここで一例として,ある会議における発言を録音した音声データαが,音声断片データα1,α2,…,αkに分割された様子を図2に概念的に示す。同図において,音声断片データα1?α2は発言者Aの発言であり,音声断片データα3?α5は発言者Bの発言であり,音声断片データα6は発言者Cの発言である。そして,音声データの分割は,音声分割手段12が音声データ内の無音区間を識別し,音声断片データの頭から時間長T程度経過した付近に存在する無音区間を分割点として音声断片データを切り出していくことによって行われる。なお,発言者間の声質の違いを識別することによって,発言者A,B,C,…の発言の境目は時間長Tに拘らず必ず分割の切れ目となるように処理される(後述する図6参照)。」
「【0029】
説明を再び図1に戻す。
文章データ生成手段14は,通信部15を介して各情報端末20a?20cから受け取った文字列(音声断片データを文字起こししたもの)を,管理手段13が管理している管理情報(図3参照)を参照して正しい順番に並べ替えた上で結合させ,元の音声データ全体の会話を文字化した文章データを生成する。
【0030】
通信部15は,ネットワーク30に接続された通信用インタフェースであり,情報端末20a?20cへ音声断片データを送信し,また,情報端末20a?20cから音声断片データを文字起こしした文字列を受信するためのものである。
【0031】
情報端末20a?20cは,音声断片データの文字起こしを行うクライアントコンピュータであり,それぞれ音声認識手段21と,文字変換手段22と,通信部23とから構成される。
【0032】
音声認識手段21は,管理サーバ10から送信されて通信部23を介して入力された音声断片データに含まれる音声を言葉として認識し,結果を文字変換手段22に出力する。文字変換手段22は,音声認識手段21からの入力を文字に変換し,音声断片データの全体について,含まれる音声に対応する文字列を生成する。生成された文字列は,通信部23を介して管理サーバ10に送られる。通信部23は,管理サーバ10との間でデータを送受信するための通信用インタフェースである。」
「【0036】
次に,上記割り当てにしたがって,各音声断片データα1?αkが情報端末20a?20cに通信部15から送信される(ステップS5)。
【0037】
音声断片データを受け取った情報端末では,同データが音声認識手段21へ送られて音声の認識が行われ,その結果がさらに文字変換手段22へ送られてその音声を表す文字列が生成されることで,音声データαの一部分である音声断片データが文字起こしされる(ステップS6)。
【0038】
生成された文字列は,各情報端末20a?20cの通信部23から管理サーバ10へ送信される(ステップS7)。
【0039】
そして,管理サーバ10では,各情報端末20a?20cから受信した音声断片データα1?αkに対応する各文字列が文章データ生成手段14へ送られる。文章データ生成手段14は,ステップS4で記憶した各音声断片データの割り当てを表す管理情報を参照することによって,上記の各文字列を正しい順番に並べ替えた上で結合し,元の音声データαに含まれる会話全体を文字化した文章データを生成する(ステップS8)。」

以上の記載によれば,引用例2には,下記の発明(以下,「引用例2発明」という。)が記載されていると認められる。
「文字起こしの対象となる会話を音声データとして記憶する記憶部11と,記憶部11から読み出した音声データをあらかじめ設定された時間長T程度の長さの音声断片データに分割して,文字起こしの単位の細分化を行う音声分割手段12と,管理手段13と,各情報端末20a?20cから受け取った文字列を,管理手段13が管理している管理情報を参照して正しい順番に並べ替えた上で結合させ,元の音声データ全体の会話を文字化した文章データを生成する文章データ生成手段14と,通信部15とから構成されている管理サーバ10と,
それぞれ管理サーバ10から送信されて通信部23を介して入力された音声断片データに含まれる音声を言葉として認識し,結果を文字変換手段22に出力する音声認識手段21と,音声認識手段21からの入力を文字に変換し,音声断片データの全体について,含まれる音声に対応する文字列を生成する文字変換手段22と,通信部23とから構成され,音声断片データの文字起こしを行う複数の情報端末20a?20cと,
これらがネットワーク30によって接続され,音声として記録された会話から文字を起こす文字起こしシステムにおいて,
管理サーバ10の通信部15から,各音声断片データα1?αkが情報端末20a?20cに送信されると,
音声断片データを受け取った情報端末では,同データが音声認識手段21へ送られて音声の認識が行われ,その結果がさらに文字変換手段22へ送られてその音声を表す文字列が生成されることで,音声データαの一部分である音声断片データが文字起こしされ,通信部23から管理サーバ10へ送信され,
管理サーバ10では,各情報端末20a?20cから受信した音声断片データα1?αkに対応する各文字列が文章データ生成手段14へ送られ,文章データ生成手段14は,ステップS4で記憶した各音声断片データの割り当てを表す管理情報を参照することによって,上記の各文字列を正しい順番に並べ替えた上で結合し,元の音声データαに含まれる会話全体を文字化した文章データを生成する
文字起こしシステム。」

ウ 引用例3
原査定の拒絶の理由に引用された特開2006-11066号公報(以下,「引用例3」という。)には,図面と共に,以下の記載がある。

「【課題を解決するための手段】
【0017】
本発明の音声認識/合成システムは,入力した音声データを解析する音声認識処理または/および音声データを生成する音声合成処理を行う音声認識/合成システム(例えば音声認識/合成システム100,300,500,700,900,1000)であって,音声データが複数の区間に分割された各音声分割データ(例えば音声データパケット)のうち処理対象の音声分割データを特定するための識別情報(例えば識別子)を設定した制御指令を発行する制御指令手段(例えば制御手段103,303,504,703,905,音声対話管理サーバ1001)と,制御指令手段からの制御指令に従って,当該制御指令に設定されている識別情報によって特定される音声分割データに対して音声認識処理または/および音声合成処理を行う音声処理手段(例えば音声認識手段102,302,502,503,902,音声生成手段701,903)と,を備えたことを特徴とする。」
「【0109】
実施の形態2.
次に,本発明の第2の実施の形態について図面を参照して説明する。
図3は,本発明の第2の実施の形態における音声認識/合成システム300の構成例を示すブロック図である。
【0110】
図3に示すように,本例の音声認識/合成システム300は,音声入力手段301と,音声認識手段302a?302nの集合302と,制御手段303とを含む。音声入力手段301と,複数の音声認識手段302a?302nと,制御手段303とは,それぞれ伝送手段304によって接続されている。
【0111】
音声入力手段301は,上述した音声入力手段101と同様の構成とされる。音声認識手段の集合302は,2つ以上の音声認識手段によって構成される。個々の音声認識手段302a?302nは,それぞれ,上述した音声認識手段102と同様の構成とされる。伝送手段304は,上述した伝送手段104と同様の構成とされる。」
「【0123】
一方,ある音声データにおける異なる区間のデータを,各音声認識手段302a?302cに別個に処理させるようにしてもよい。
【0124】
具体的には,例えば,図4に示すように,時刻B6,時刻B7,時刻B8に入力された各音声データに付加された識別子が,それぞれ識別子「BI6」,識別子「BI7」,識別子「BI8」であるとする。そして,制御手段303が,音声認識処理開始指令「BC3」に識別子「BI6」を設定し,指令「BC4」に識別子「BI7」を設定し,「BC5」に識別子「BI8」を設定する。このように構成すれば,各音声認識手段302a?302cに,それぞれ異なる音声区間の音声データを処理対象として音声認識処理を実行させることができる。」

以上の記載によれば,引用例3には,実施の形態2にかかる発明として,下記の発明(以下,「引用例3発明」という。)が記載されていると認められる。
「入力した音声データを解析する音声認識処理または/および音声データを生成する音声合成処理を行う音声認識/合成システムであって,
音声データが複数の区間に分割された各音声分割データのうち処理対象の音声分割データを特定するための識別情報を設定した制御指令を発行する制御指令手段と,
制御指令手段からの制御指令に従って,当該制御指令に設定されている識別情報によって特定される音声分割データに対して音声認識処理または/および音声合成処理を行う音声処理手段とを備え,
ある音声データにおける異なる区間のデータを,各音声認識手段302a?302cに別個に処理させるようにした
音声認識/合成システム。」

(3-2)本願補正発明と引用発明の対比
引用発明の「入力端末22」は,文章データに変換する前の音声データも保存するから,引用発明は,入力した音声データを記憶する記憶手段を備えるものである。
また,「音声を音素に区切り,音素を文字に変換」する処理は,「音声データを文字データに変換する」処理であり,音声認識された文字データを並べた文章データは,文書データといえるから,引用発明は,「音声認識手段」,及び「文書データを生成する手段」を備えるものといえる。
さらに,引用発明の「校正端末23」は,「校正者が文章データ,変換候補データを利用して文章データを校正する際に,関連づけデータを用いて校正したい文章データの文字に対応する音声データ上の音素の位置を取得して,音素の位置の前後の音声データを再生し校正することにより,文章データに変換する前の音声データと文章データの各音素,文字の対応付けデータによって,文章データの修正が必要な箇所の音声がピンポイントで再生できる」から,校正端末23の表示手段に表示された「校正したい文章データの文字」と,「音声データ上の音素の位置」とは,「関連づけデータ」により紐付けられ,表示された「校正したい文章データの文字」に紐付けられた音声データ上の音素の位置から,音声を再生する手段を備えるものといえる。

以上より,本願補正発明と引用発明を対比すると,両者は,
「入力した音声データを記憶する記憶手段と,
前記記憶手段に記憶された音声データを文字データに変換する音声認識手段と,
前記音声データの文字データから文書データを生成する手段と,
前記音声認識手段による認識結果として表示された文字に対応する文字データと,該文字の認識の元となった前記音声データの記憶位置とを紐付けて,前記文書データが表わす文書を表示する表示手段と,
表示された前記文書中の文字に対応する前記文字データに紐付けられた記憶位置の音声データから,音声を再生する音声再生手段と,
を備える音声処理装置。」
の点で一致し,以下の点で相違している。

[相違点1]
本願補正発明は,「特定の時間長単位に分割する音声分割手段」を備え,「音声認識手段」は,「音声分割手段による分割によって生成された複数の音声データを少なくとも2つの音声認識エンジンを用いて認識し,分割された音声データごとの音声データを文字データに変換する」とともに,「統合手段」が,「分割された音声データごとの文字データを統合して」文書データを生成するのに対し,引用例1発明では,「音声分割手段」により,音声を特定の時間長に分割し,「音声認識手段」が「分割によって生成された複数の音声データを少なくとも2つの音声認識エンジンを用いて認識し,分割された音声データごとの音声データを文字データに変換する」ものではなく,文書データの生成も,「統合手段」が「分割された音声データごとの文字データを統合して」行うものではない点。

[相違点2]
本願補正発明は,「前記音声分割手段は,前記音声データにおける無音区間の割合を算出し,その無音割合が所定値よりも小さい場合には,分割前の音声データを無音部分も含めて前記特定の時間長単位に等分割し,前記無音割合が所定値よりも大きい場合には,分割前の音声データから無音部分を除いた音声部分を前記特定の時間長単位に等分割する」のに対し,引用発明は,音声部分の分割について記載されていない点。

[相違点3]
本願補正発明は,表示された文書中の「カーソル位置の文字」に対応する文字データの記憶位置の音声データから,音声を再生するのに対して,引用発明は,「校正したい文章データの文字」をカーソル位置により指定することが特定されていない点。

(3-3)相違点の判断
[相違点1]について
上記(3-1)イ,ウのとおり,引用例2,3には,音声データを特定の時間長に分割するとともに,複数の音声認識手段を用いて,分割によって生成された複数の音声データごとに認識し,認識された文字データを統合して音声認識処理をする発明(引用例2発明,引用例3発明)が記載されている。
対象となる情報を分割して,それぞれに対して並列的に処理を行うことは,情報処理の効率化を目的とした当業者の常とう的手法であるから,引用発明において,音声認識処理の効率化を目的として,引用例2,3に記載された発明を適用し,「特定の時間長単位に分割する音声分割手段」を備え,「音声認識手段」は,「音声分割手段による分割によって生成された複数の音声データを少なくとも2つの音声認識エンジンを用いて認識し,分割された音声データごとの音声データを文字データに変換する」とともに,「統合手段」が「分割された音声データごとの文字データを統合して」文書データを生成するように構成することは,当業者が容易になし得ることに過ぎない。

[相違点2]について
入力された音声信号から無音部分を除いた音声区間に対して認識処理を行うことは,例えば,特開昭56-144498号公報(第2頁右上欄?左下欄参照),特開平9-50288号公報(段落【0014】?【0017】,【0023】,【0026】参照)に記載されているように,音声認識処理における周知慣用技術であるから,音声データを「分割前の音声データを無音部分も含めて」を認識処理の対象とするのと,「分割前の音声データから無音部分を除いた音声部分」を認識処理の対象とするのを選択可能とし,いずれかの音声データについて,「特定の時間長単位に等分割する」ようにすることは,当業者の設計的事項にすぎない。

そして,本願補正発明は,「予め,分割前音声データにおける無音部分の割合を算出」し,「無音割合を所定値と比較」した結果の大小に応じて,「特定の時間長単位に等分割する」対象の音声データとして,「分割前の音声データを無音部分も含めて」と「分割前の音声データから無音部分を除いた音声部分」とを選択する構成を備えるものであるが,上記(2)のとおり,本願補正発明は「分割処理スピードが速いというメリットと,音声認識スピードが速いというメリットとを,無音割合が所定値よりも小さいか大きいかに対応して,適切に切り替えるることで,効率のよい音声処理ができるという,顕著な効果を奏」するものとはいえず,また,「音声データにおける無音部分の割合を算出」し,「無音割合を所定値と比較」する処理自体は,音声データにおける無音割合の大小を判定する処理として,当業者において自明の処理であると認められるから,このような構成を付加して相違点2の構成とすることに特段の困難性は認められない。

[相違点3]について
文章中の文字の位置を指定するのにカーソルを用いることは,当業者の常とう的手法であるから,引用発明において,「校正したい文章データの文字」の位置の指定を,カーソルにより行い,表示された文書中の「カーソル位置の文字」に対応する音声データから,音声を再生することは,当業者が容易になし得ることに過ぎない。

そして,本願補正発明の作用効果も,引用例1ないし3,及び周知慣用技術から当業者が予測できる範囲のものである。
したがって,本願補正発明は,引用例1ないし3に記載された発明,及び周知慣用技術に基づいて,当業者が容易に発明をすることができたものであるから,特許法29条2項の規定により特許出願の際独立して特許を受けることができないものである。

(4)本件補正発明の独立特許要件の判断のむすび
上記(2),(3)のとおり,本件補正は,特許法17条の2第6項で準用する同法126条7項の規定に違反するものであり,同法159条1項において読み替えて準用する同法53条1項の規定により却下されるべきものである。


3.本願発明について
平成26年 4月17日付の手続補正書による補正は上記のとおり却下されたので,本願の請求項1に係る発明(以下,「本願発明」という。)は,平成25年 3月18日付手続補正書の特許請求の範囲の請求項1に記載された事項により特定される,以下のとおりのものである。

「 入力した音声データを記憶する記憶手段と,
前記記憶手段に記憶された音声データを音節単位に分割する音声分割手段と,
前記音声分割手段による分割によって生成された複数の音節音声データを少なくとも2つの音声認識エンジンを用いて認識し,音節ごとの文字データに変換する音声認識手段と,
前記音節ごとの文字データを統合して文書データを生成する統合手段と,
前記音節ごとの文字データと,該文字データの認識の元となった前記音節音声データとを紐付けて,前記文書データが表わす文書を表示する表示手段と,
表示された前記文書中の指示された文字に対応する前記文字データに紐付けられた前記音節音声データから,音声再生を開始する音声再生手段と,
を備えたことを特徴とする音声処理装置。」

(1)特許法第36条第4項1号,第6項1号に規定する要件(原査定の拒絶の理由b)について
請求項1には,「音声データを音節単位に分割する音声分割手段」と記載されているが,発明の詳細な説明には,音声データを「例えば,10msや1s等の」特定の長さで分割することが記載されているのみであり,音声データの音節単位を如何にして認識し,かかる認識した音節単位で音声を分割するか,発明の詳細な説明を参照しても理解することができない。
よって,この出願の発明の詳細な説明は,当業者が当該請求項に係る発明を実施することができる程度に明確かつ十分に記載されたものでない。

また,請求項1には,「音節ごとの文字データと,該文字データの認識の元となった前記音節音声データとを紐付けて,前記文書データが表わす文書を表示する表示手段と,表示された前記文書中の指示された文字に対応する前記文字データに紐付けられた前記音節音声データから,音声再生を開始する」と記載されているが,本願明細書の発明の詳細な説明には,「音節音声データから,音声再生を開始する」ことに関する記載はない。
よって,当該請求項に係る発明は,発明の詳細な説明に記載されたものでない。

この出願は,発明の詳細な説明の記載は,特許法第36条第4項第1号に規定する要件を満たしておらず,特許請求の範囲の記載は,同法第6項第1号に規定する要件を満たしていない。

(2)特許法第29条第2項(原査定の拒絶の理由a)について
原査定の拒絶の理由に引用された引用例1ないし3,及びその記載事項は,前記「2.(3-1)」の「ア」ないし「ウ」に記載したとおりである。

ア 本願発明と引用発明との対比
本願発明と引用発明とを対比すると,両者は,
「入力した音声データを記憶する記憶手段と,
前記記憶手段に記憶された音声データを文字データに変換する音声認識手段と,
前記音声データの文字データから文書データを生成する手段と,
前記音声認識手段による認識結果として表示された文字に対応する文字データと,該文字の認識の元となった前記音声データの記憶位置とを紐付けて,前記文書データが表わす文書を表示する表示手段と,
表示された前記文書中の文字に対応する前記文字データに紐付けられた記憶位置の音声データから,音声を再生する音声再生手段と,
を備える音声処理装置。」
の点で一致し,以下の点で相違している。

[相違点4]
本願発明は,「音節単位に分割する音声分割手段」を備え,「音声認識手段」は,「音声分割手段による分割によって生成された複数の音節音声データを少なくとも2つの音声認識エンジンを用いて認識し,音節ごとの文字データに変換する」とともに,「統合手段」が「音節ごとの文字データを統合して」文書データを生成するのに対し,引用例1発明では,「音声分割手段」により,音声を音節単位に分割し,「音声認識手段」が「分割によって生成された複数の音節音声データを少なくとも2つの音声認識エンジンを用いて認識し,音節ごとの文字データに変換する」ものではなく,文書データの生成も,「統合手段」が「音節ごとの文字データを統合して」行うものではない点。

[相違点5]
本願発明は,表示された文書中の「指示された文字」に対応する文字データの記憶位置の音声データから,音声を再生するのに対して,引用発明は,「校正したい文章データの文字」を指示することが特定されていない点。

相違点の判断
[相違点4]について
上記(3-1)イ,ウのとおり,引用例2,3には音声データを特定の時間長に分割するとともに,複数の音声認識手段を用いて,分割によって生成された複数の音声データごとに認識し,認識された文字データを統合して音声認識処理をする発明(引用例2発明,引用例3発明)が記載されている。
ここで,音声認識処理において,入力音声データを音素単位で区切るか,音節単位で区切るかは適宜選択し得る事項にすぎない。
また,対象となる情報を分割して,それぞれに対して並列的に処理を行うことは,情報処理の効率化を目的とした当業者の常とう的手法であるから,引用発明において,音声認識処理の効率化を目的として,引用例2,3に記載された発明を適用して相違点4の構成とすることは,当業者が容易になし得ることに過ぎない。

[相違点5]について
引用発明は,「校正者が文章データ,変換候補データを利用して文章データを校正する際に,関連づけデータを用いて校正したい文章データの文字に対応する音声データ上の音素の位置を取得して,音素の位置の前後の音声データを再生」するものであるから,校正者は「校正したい文章データの文字」を何らかの手段により指示するものと認められ,相違点5は,実質的な差異とは認められない。

したがって,本願発明は,引用例1ないし3に記載された発明に基づいて,当業者が容易に発明をすることができたものであるから,特許法29条2項の規定により特許を受けることができないものである。

(3)むすび
以上のとおり,この出願の発明の詳細な説明の記載は,特許法第36条第4項第1号に規定する要件を満たしておらず,特許請求の範囲は同法第36条第6項第1号に規定する要件を満たしていない。
また,本願発明は,引用例1ないし3に記載された発明に基づいて,当業者が容易に発明をすることができたものであるから,特許法29条2項の規定により特許を受けることができない。

よって,結論のとおり審決する。
 
審理終結日 2014-11-26 
結審通知日 2014-11-27 
審決日 2014-12-09 
出願番号 特願2011-43572(P2011-43572)
審決分類 P 1 8・ 57- Z (G10L)
P 1 8・ 575- Z (G10L)
P 1 8・ 121- Z (G10L)
最終処分 不成立  
前審関与審査官 金田 孝之安田 勇太  
特許庁審判長 酒井 朋広
特許庁審判官 丹治 彰
関谷 隆一
発明の名称 音声処理装置、音声処理方法及び音声処理プログラム  
代理人 加藤 卓士  

プライバシーポリシー   セキュリティーポリシー   運営会社概要   サービスに関しての問い合わせ