• ポートフォリオ機能


ポートフォリオを新規に作成して保存
既存のポートフォリオに追加保存

  • この表をプリントする
PDF PDFをダウンロード
審決分類 審判 査定不服 2項進歩性 特許、登録しない。 G06F
管理番号 1216025
審判番号 不服2005-21825  
総通号数 126 
発行国 日本国特許庁(JP) 
公報種別 特許審決公報 
発行日 2010-06-25 
種別 拒絶査定不服の審決 
審判請求日 2005-11-11 
確定日 2010-05-06 
事件の表示 特願2002-104915「記録音声を探索し、関連セグメントを検索する方法及びシステム」拒絶査定不服審判事件〔平成14年12月20日出願公開、特開2002-366552〕について、次のとおり審決する。 
結論 本件審判の請求は、成り立たない。 
理由 1.手続きの経緯・本願発明
本願は、平成14年4月8日(優先権主張2001年4月10日米国、2001年9月24日米国)の出願であって、その請求項12に記載された発明(以下、「本願発明」という。) は、平成17年11月11日付けの手続補正書によって補正された明細書及び図面の記載からみて、その特許請求の範囲の請求項12に記載された次のとおりのものである。
「【請求項12】
データベース内の記録音声を探索するシステムであって、
音声認識システムを用いて、前記記録音声をテキストに変換する手段であって、変換音声内で自然に発生する途切れが、複数のタイムスタンプを提供するために使用される、前記変換する手段と、
情報エクステンダを用いて、前記変換された記録音声のテキストから前記記録音声のフル・テキスト索引を作成する手段であって、前記フル・テキスト索引が、前記記録音声内での単語の出現を指し示す前記複数のタイムスタンプを含む、前記作成する手段と、
フル・テキスト・サーバにより、前記作成されたフル・テキスト索引を用いて、前記変換されたテキストを探索する手段と、
前記探索されたテキスト、前記フル・テキスト索引、及び前記記録音声を前記データベースに記憶する手段と、
を含み、前記記録音声中の特定の内容が、全部の記録音声を聴取することなく、前記複数のタイムスタンプにより特定の時点における記録音声を指し示す前記フル・テキスト索引を用いて再生されるシステム。」

2.引用例
原査定の拒絶の理由に引用された特表平10-507554号公報(以下、「刊行物1」という。)には、
ア 「(4)オーディオデータおよびビデオ画像からディジタルライブラリを作成する装置は;前記オーディオデータを転換し、そして前記転換オーディオデータに第1組の時刻記録を付ける手段(27)と;
前記転換オーディオデータを索引する手段(30)と;
前記ビデオデータをディジタル化し、そして前記ディジタル化ビデオデータに前記第1組の時刻記録に関連する第2組の時刻記録を付ける手段(31)と;
1組のルールを格納する手段(37)と;
前記ディジタル化ビデオデータを前記格納した1組のルール(37)に従ってパラグラフ(33)に分割する手段と;そして
各自の組の時刻記録の付いた前記索引オーディオデータおよび前記ディジタル化ビデオデータを格納する手段(36);
とを備えていることを特徴とする前記装置。
(5)前記データが索引される前に、前記転換オーディオデータを処理する自然言語インタプリタ手段(29)を備えていることを特徴とする、請求の範囲第4項記載の装置。
(6)前記自然言語インタプリタ手段(29)は前記1組のルール(37)を更新することを特徴とする、請求の範囲第4項記載の装置。」(2頁20行?3頁9行)、
イ 「(24)さらに、前記索引オーディオデータおよび前記ディジタル化ビデオデータが各自の組の時刻記録を付けて格納される前に、前記ディジタル化ビデオデータを圧縮する手段(34)を備えていることを特徴とする、請求の範囲第4項記載の方法。
(25)前記オーディオデータを転換し、そして前記転換オーディオデータに第1組の時刻記録を付ける前記手段(27)は;
各語の発生は開始時間と複数の可能な終了時間を持つ、1組の可能な語の発生を生じる手段(52)と;
前記終了時間の各々に対して複数の可能な開始時間を生成する手段(54)と;
前記オーディオデータに対して1組のN-最良仮定を発生する手段(56)と;そして
前記転換オーディオデータを生成するために、前記1組のN-最良仮定から最良スコアリング仮定を選択する手段(58);
とを備えていることを特徴とする、請求の範囲第4項記載の装置。
(26)前記1組の可能な語の発生を生じる前記手段は順方向時間同期パス機能(52)を利用していることを特徴とする、請求の範囲第25項記載の装置。
(27)前記複数の可能な開始時間を生成する前記手段は逆方向時間同期パス機能(54)を利用していることを特徴とする、請求の範囲第25項記載の装置。
(28)前記転換オーディオデータを索引する前に、前記転換オーディオデータに自然言語インタプリタを通過させる前記手段は;
前記転換オーディオデータを集約する手段(150)と;
データ抽出技術を利用して、前記転換オーディオデータにタグを付ける手段(152)と;そして
意味的および統語的制約と音声知識ベースを利用して、前記タグ付き転換オーディオデータを修正する手段(154);
とを備えていることを特徴とする、請求の範囲第5項記載の装置。」(5頁13行?6頁12行)、
ウ 「発明の背景の説明
マルチメディア技術の出現の結果として、間もなく、膨大なディジタルビデオライブラリがわが国の情報スーパーハイウエイで利用可能になるであろう。これらのライブラリは、業務の遂行、職業的活動および個人的活動に強い衝撃を与えるであろう。しかし、利用できる情報の純粋量のために、情報を単に記憶して、後日その情報を再生するだけでは十分でない。本質的に、それは、コマーシャルビデオ即時回答サービスの概念であって、比較的単純なものである。新規技術は、膨大なデータライブラリを作成し、編成し、かつ探索し、次いでそれらを検索し、かつ有効に再利用する必要がある。
現在、多くの放送テレビジョンは限定字幕つきであっても、わが国のビデオおよびフィルム資産の大部分はそうではない。この理由から、どんなタイプのディジタルビデオライブラリでも、ある種のオーディオ転換装置を利用しなければならない。このオーディオ転換の文脈に、多くの誤りおよび可変性の原因が生じるのは当然である。例えば、放送ビデオ作品は、ドキュメンタリ風のインタビューにしても劇場作品にしても、様々な場所に置かれた複数のスピーカーから音声を録音しなければならない。その結果、様々な信号対雑音比特性を持つ音声信号品質を生じる。さらに、スピーカの様々な配置および部屋の特別な反響特性の効果が問題を産み出している。さらになお、放送ビデオ作品において伝統的に利用されている卓上マイクロフォン、ラペルマイクロフィン、および指向性ブームマイクロフォンがオーディオ転換の音源として利用されているので、マイクロフォン特性の差および信号対雑音比の差から生じる可変性のために性能をかなり劣化させることもありうる。
その上、典型的なビデオインタビューでは、人々はよどみなく話している。このことは、多くの言葉が切り詰められていたり、間違って発音されていたりすることを含んでいる。注意深い明瞭な発音が基準になっている通常の口述用システムで利用される発音の語彙記述は、自発的な、よどみない話し方に対して非常に良好に働くとは言えない。さらに、定義域が文中に使用されそうな語量のサイズと特質を限定しているウォールストリートジャーナルディクテーションモデルとは異なり、放送ビデオからのオーディオ転換は、一般に、そのような制約を持たない傾向がある。従って、いずれのディジタルビデオライブラリシステムによってもアドレスされなくてはならない生のビデオテープの場面のオーディオ部分によって、多くの難問難題が提示される。」(9頁9行?10頁13行)、
エ 「テキスト探索には、代表的に、キーワードあるいは、若干の環境では、限定された自然言語の推論を利用することが含まれる。現在の検索技術は、新聞、電子アーカイブおよび、文法的に誤りのない、適切な綴りで書かれた内容のその他の資料からのテキスト材料については良好に働く。さらに、自然言語の問い合わせはユーザによる所望の主題についての直接描写を許容している。しかし、有限な1組の誤りを含む転換を探索することに基づいたビデオ検索作業は、最新技術への挑戦である。オーディオの完全な転換を理解することでさえ、現在の自然言語技術にとっては複雑すぎるであろう。
・・・(中略)・・・
ビデオ探索に関する問題と同様に、もう少し明瞭に、オーディオを探索することに関する類似した問題もある。走査中、オーディオを高速でプレイすることは実用的でない。通常速度の1.5から2倍を超えると、高速再生速度は周波数を聞き取れない範囲に偏移させるので、オーディオは理解できなくなる。ディジタル信号処理技術は、高い再生速度における周波数偏移を低減するのに役立つが、これらのディジタル信号処理技術は、アナログビデオディクス走査のそれによく似たサウンドバイトを提供する。
想像できるように、マルチメディアシナリオにおいては問題はより複雑である。テキスト、オーディオおよびビデオの統合は、このように、克服すべき多くの障害を提示している。平均的インタービュービデオでは、1分間に約 150ワードが話される。それは、1時間ビデオでは約9000ワードあるいはざっと15ページのテキストに換算される。テキストをざっと読む人は、関連する部分を比較的素早く見つけることができる。しかし、ビデオテープの話の中に含まれる特定の話題を探索しようとする場合、探索問題は重大である。通常速度の3倍から4倍の高い再生速度が理解できるとしても、オーディオおよびビデオの連続プレイは全体的に受け入れ難い探索メカニズムである。目的情報が1時間ビデオファイルの中間にあるとすると、それを見つけるのになお、約7分から10分かかるであろう。」(11頁1行?12頁8行)、
オ 「発明はまた、オーディオデータおよびビデオ画像からディジタルライブラリを作成する装置に関する。この装置は、オーディオデータを転換し、そして転換したオーディオデータに第1組の時刻記録を付ける手段と、転換したオーディオデータを索引する手段と、ビデオデータをディジタル化し、そしてディジタル化ビデオデータに第1組の時刻記録に関連する第2組の時刻記録を付ける手段と、1組のルールを格納する手段と、格納した1組のルールに従ってディジタル化ビデオデータをパラグラフに分割する手段とを含んでいる。さらに、各自の組の時刻記録を持つ索引したオーディオデータおよびディジタル化ビデオデータを格納する手段も設けられている。この装置はさらに、オーディオデータが索引される前に転換したオーディオデータを処理し、そして1組のルールセットを更新する自然言語インタプリタを含んでいる。
本発明はまた、自然言語技術を利用して、ディジタルライブラリから情報を検索するのに利用される探索を公式化する方法および装置に関する。この探索方法は独立モードあるいはネットワーク環境において実現することができる。
本発明の目的は、デスクトップコンピュータおよびデータ通信ネットワークを介して、全内容および知識ベース型探索ならびに検索を行わせる大型、オンライン、ディジタル、ビデオライブラリを含むシステムを確立することである。本発明の目的はなお、ディジタルビデオライブラリを作成し、編成するための方法を開発することである。本発明の目的はさらに、マルチメディアシステムによって提示された独自の要求のために、ディジタルビデオライブラリの部分を効果的に探索し、検索する技術を開発することである。
本発明の特徴は、音声、自然言語および画像理解技術がディジタルライブラリの作成および研究のために統合されていることである。本発明の別の特徴は、高品質の音声認識機能が提供されていることである。本発明のなお別の特徴は、全テキスト探索および検索システムに対して自然言語理解システムが備えられていることである。発明のなお別の特徴は、ビデオシーケンスを分割するために画像理解機能が備えられていることである。最後に、もう1つの特徴は、このシステムは種々のネットワークアーキテクチャに適応できることである。」(15頁14行?16頁13行)、
カ 「システム概観
第1図では、本発明によって構成されたディジタルビデオライブラリシステムの大要が10で示されている。同じ要素を表わすために、種々の図において同じ参照番号が使用される。第1図では、ディジタルビデオライブラリシステム10は2つの部分12,14を持っている。オフライン部分12はディジタルライブラリ36の作成に携わる。オンライン部分14は、ディジタルライブラリ36の探究で利用される機能を含んでいる。ここで使用される場合、用語ディジタルビデオライブラリシステム10はシステム全体を指すが、用語ディジタルライブラリはオフライン部分12によって作成されたデータベース30を指す。
オフライン部分12は、オーディオデータ18およびビデオデータ20から成る生のビデオ材料16を受信する。生のビデオ材料16は、種々の資料の1つまたは幾つかからのオーディオビデオを含むことができる。」(17頁17行?28行)、
キ 「オーディオデータ18は音声と言語解釈28および音声と言語索引30の機能に委ねられるが、その各々について詳細に説明する。ビデオデータ20はビデオ分割32とビデオ圧縮34の機能に委ねられるが、これもまた、詳細に説明する。合成ディジタルライブラリ36は索引されたオーディオデータのテキスト転換38、および分割され、圧縮されたオーディオ/ビデオデータ40を含む。ディジタルライブラリはまた、索引されたテキストおよび分割され、圧縮されたビデオデータを含む。ディジタルライブラリ36はディジタルビデオライブラリシステム10のオフライン部分12の出力であるディジタルライブラリ36がオンライン部分14によって利用され、そして商業的環境において、アクセスされ、あるいはユーザにとって利用可能になる。
次に、ディジタルビデオライブラリシステム10のオフライン部分12では、ディジタルライブラリ36はユーザワークステーション42で利用可能である。ワークステーション42は好ましいことに音声コマンドとテキスト自然言語問合わせの両者を認識し、それらのどちらも自然言語探究機能1299を呼び出すであろう。対話型ビデオ分解機能46によってビデオセグメント48はディジタルライブラリ36から検索される。ビデオセグメント48はワークステーション42で見ることができて、将来の利用のために、選択的に格納される。
システム10のオフライン部分12はソフトウエアで実現されて、150MIPS DEC Alphaワークステーションあるいは他の同様なマシンで作動して、自動的にディジタルライブラリを発生できる、ということを読者は理解するであろう。本発明の教示に従って、一旦、ディジタルライブラリ36が作成されると、それはどんな通常の記憶媒体にでも格納することができる。システム10のオンライン部分14はソフトウエアで実現され、そして、以下で述べるような様々なネットワーク構成によって、ディジタルライブラリ36にアクセスを持つ様々な異なるマシンで作動することができる。あるいはまた、ネットワーク環境はディジタルライブラリ36へのより大きいアクセスを認めてはいるが、「オンライン」部分は独立モードで実現することができる。
ディジタルライブラリの作成
内容は、話(音声と言語)および画像の両方で伝達される。画像、音声、そして自然言語理解技術の協力的相互作用によってのみ、本発明は、納得のゆく再現率および精度で、様々なビデオコレクションを、自動的に分布させ、分割し、索引し、そして探索することができる。このアプローチは、誤りの多い、曖昧なデータ環境における解釈および探索の諸問題を独自に補正する。」(18頁12行?19頁18行)、
ク 「オーディオ転換と時刻記録機能27
第2図では、第1図の音声と言語解釈機能28は、オーディオ転換と時刻記録機能27および自然言語解釈機能29によって実現される。オーディオ転換と時刻記録機能27のオーディオ転換部分は、自動音声認識における既知の技術を利用して、オーディオデータ18のディジタル化バージョンに作用して、話しと会話を自動的に転換する。例えば、Sphinx-II音声認識システムを利用できると都合がよいかもしれない。Sphinx-IIシステムは、カーネギーメロン大学で開発された語葉の豊富な、話者独立型、連続音声認識装置である。現在、Sphinx-IIシステムは約20,000語の語棄を利用して、多くの異なる話者が話した関連する発言を認識する。Sphinx-II音声認識システムは、ファン(Huang)の、Sphinx-II音声認識システム、概要、コンピュータと音声言語、(1993)でより詳細に記述されており、ここで引用される。しかし、当業者に理解されるように、人による転換あるいは、限定字幕付き番組の場合、単に番組そのものから字幕を利用することを含む、その他の転換方法も利用することができる。機能27のオーディオ転換部分によって発生され転換はユーザによって見られる必要はなく、隠しておくことができる。
誤り率の改善を予想することができて、同様に、教育アプリケーションのために有用なビデオ場面は、典型的に高いオーディオ品質のものとなり、そして容易に誤りの少ない転換になる熟練したプロによって語られるであろう。しかし、ビデオライブラリの予想サイズのために、より豊富な語葉が予想される。ビデオライブラリの豊富な語量は、それだけで、認識率を劣化させ、誤りを増加する傾向がある。応答において、オーディオ転換機能の誤りを低減するために、幾つかの革新的技術が開発され、利用されている。
話題にもとづいた用語集および関心度ランクづけ語集のような、番組特定情報の使用は、機能27のオーディオ転換部分によって利用されると好都合である。語の仮定は、既知の適応型、「長距離」言語モデルを使用することによって改善される。さらに、複文文脈を考慮することができるような複数パス認識処理が実行される。
さらに、時刻記録を適用する既知の技術を利用する機能27によって、転換は時刻記録されるであろう。オーディオ時刻記録は、以下で説明するように、後続の検索のために、処理されたビデオに関連する時刻記録と位置合わせされるであろう。
このディジタルビデオライブラリシステム10は、人の読み取れる転換を発生するのに必要とされるであろうものより高い誤り率を黙認することが期待される。また、オンラインスクリプトおよび、利用できれば、限定字幕付けが、認識のための基本ベース語彙および探索可能テキストを提供するために利用されると、好都合であるかもしれない。
良好な実施例において、機能27のオーディオ転換部分は通常、第3A図で示されるように、4つの既知の段階で、発言を処理する。枠52で表わされる第1段階は、音声依存コードブックを持つ、語間セノニック半連続音響モデルおよびバイグラム言語モデルを利用する順方向時間同期パスである。順方向時間同期パス機能52は1組の可能な語の発生を生じ、各語の発生は1つの開始時間と複数の可能終了時間とを持っている。次いで、同じシステム構成を利用する逆方向時間同期パス機能54が実行される。逆方向時間同期パス機能54の結果は、順方向時間同期パス52で予測された各終了時間に対する複数の可能開始時間である。段階56では、近似A*アルゴリズムを利用して、順方向時間同期パス52と逆方向時間同期パス54の結果から、発語に対する1組のN-最良仮定を発生する幾つかの言語モデルのどれでも段階56で適用することができる。トリグラム言語モデルがデフォルトであると、好都合である。この近似A*アルゴリズムは、最初に最良-スコアリング仮定を発生するとは保証されていない。最後に、段階58では、最良-スコアリング仮定が、発生されたN-最良リストから選択される。最良-スコアリング仮定が、オーディオ転換機能27からの出力として段階58から出力される。このように発生された時刻記録転換は、以下で述べるように、自然言語解釈機能29に送られる。
機能27のオーディオ転換部分は、当然、生じるような誤りと可変性の原因の多くをアドレスすることができる。例えば、複数の信号対雑音比によっで提出された問題に関して、オーディオ転換機能は、そのような可変性を自動的に修正する、信号の前処理および早期検出を含む信号適応技術を利用する。複数の未知のマイクロフォンによって起こる問題に関しては、オーディオ転換機能は動的マイクロフォン適応技術を利用して、誤りを低減することができて、新しいマイクロフォンを再教育しなくてもよい。よどみない話し方についての問題に関しては、現在、唯一の既知技術は、博識な言語に通じている人々を利用して、用語集を手動で適応することである。機能27のオーディオ転換部分は、既知のエキスパートシステムを利用して、そのような言語に通じた人々の知識に基づいたタスク領域を、自動発音学習が行われることができるように公式化することができる。
拡張した語葉に関連する問題に関しては、長距離言語モデルにおける当研究は、以前の発話の中で最近観察された語に基づいた語葉を動的に適応することによって、精度の20%から30%の改善を実現できたことを示している。さらに、多くの放送ビデオ番組は、利用できるかなり写実的なテキストを持っている。これらには、ドラマ構成と呼ばれる番組設計の初期描写、作業スクリプト、番組を描写する抄録、および字幕が含まれる。これらの資源は組み合わせられて、オーディオ転換機能によって利用される辞書に貴重な付加部分を与える。ディジタルビデオライブラリシステム10の作成部分12は代表的にオフラインで実行されるので、処理時間は高い精度と交換され、よって大きい、連続して拡張する辞書および一層計算集約型言語モデルを利用することができる。この技術によって達成できる誤り率は、語葉要件が増大しても、12%から15%に達するであろう。そしてコンピュータ技術、探索技術および音声処理技術が進歩することによって、5%から6%に達するであろうと評価されている。」(20頁5行?23頁1行)、
ケ 「自然言語解釈29
自然言語処理は、ディジタルビデオライブラリシステム10の2つの部分で利用される、オフライン部分12では、オーディオ38の索引テキスト転換の作成に利用される最終転換を作成するために、そしてオンライン部分14では、自然言語探索問合わせ129の公式化のために利用される、現存の検索研究は典型的に、新聞、電子アーカイブ、および他の「清浄な」ドキュメントの資料に集中しているが、複雑な問合わせ言語とは対照的に、自然言語問合わせは、描写された材料を直接に描写することができる。
自然言語解釈機能29は幾つかの既知の副機能を実行する。その第一は、第3B図で「集約」150と呼ばれていて、各視覚パラグラフ(「視覚パラグラフ」の概念は以下の、「内容に基づいた画像理解」と題する章で説明する)に対するオーディオトラックにおける語を分析することによって、そのビデオパラグラフに対する話しの主領域とテーマが決定される。集約を利用して、見出しあるいは、各ビデオパラグラフまたはセグメントの要約を発生することができて、アイコン、目次あるいは索引を作成するのに利用される。
第2の機能は「タグ付け」152と定義され、当業者に既知のデータ抽出技術を利用して、サウンドトラックで挙げられた人々、場所、会社、組織および他の構成要素の名前を決定することができる。これによって、ユーザは、単一の問合わせによって特定構成要素に対するすべての参照事項を見つけることができる。
第3の機能は転換修正154である。例えば Sphinx-II辞書あるいは、別のオーディオ転換機能からの類似の辞書であってもよい音声知識ベースと組み合わせて、意味的そして統語的制約を利用して、若干の誤りの認識およびそのような誤りの修正が達成される。従って、転換修正機能154 は、音声認識誤りを修正されたオーディオの最終転換を、自動的に発生することができる。
この自然言語解釈機能29,129は既知の技術に基づいており、そして、例えば、統計技術あるいはエキスパートシステムに応用することができる。例えば、自然言語解釈機能29は、カーネギーメロン大学において開発されたスカウトシステムで具体化されている。他の自然言語インタプリタまたは処理装置は当業者には周知であり、そしてそれに対して利用することができる。スカウトシステムは全テキスト情報記憶および検索システムであり、そしてまた、情報検索およびデータ抽出技術のためのテストベッドとしても役立つ。自然言語解釈機能29はまた、オーディオ転換と時刻記録機能27によって発生された転換に適用されて、キーワードを識別することができる。この点での処理はオフラインで発生するので、自然言語解釈機能20は多くの処理時間という利点があり、それは理解を促進し、そして転換誤りを修正することができる。
この目的言語解釈機能29は当技術の幾つかの欠陥を解決する。第一に、自然言語解釈機能29はパターン照合および構文解析を高めて、トークンストリングの誤りから回復し、それを修正する。機能27のオーディオ転換部分によって発生された音声類似性測度を利用して、段階的ストリング類似性測度は、部分的照合を検索しかつ配列するのに利用される。」(23頁2行?24頁14行)、
コ 「音声と言語索引30
引き続き第1図および第2図について、音声と言語索引機能30は自然言語解釈機能20によって生成された最終転換に適用される。索引機能30は当業者に周知の技術を利用する。例えば、各用語およびそのような用語が利用されている全場所のリストを含む逆索引が作成される。ポインター、すなわち時刻記録が、用語の各発生に対して、検索用に備えられる。
音声と自然言語索引機能30はまた、ビデオスキム性能を与えるのに有用である。ビデオスキム性能は、「ディジタルオーディオ/ビデオデータをスキムするためのシステムおよび方法」と題する米国特許(モールディン他の名前で本件と同時出願された)の主題であり、本書に引用される。本出願およびモールディン他の出願の両者は同じ実体によって保有される。
オーディオデータ20の処理の流れの最終結果は、テキストの索引された転換38であり、それは将来の利用のためにディジタルライブラリ36に格納される。」(26頁8行?20行)、
サ 「ディジタルライブラリの探究
対話型ユーザステーション42
第1図の対話型ユーザステーション42は、好ましいことに、各セッションの大域ヒストリを保持するように装備されている。それは、セッションからのオリジナルディジタル化音声、機能27のオーディオ転換部分によって認識された関連テキスト、自然言語処理機能129 によって発生された問合わせ、およびリターンしたビデオ対象、ユーザによって作成された合成、全ユーザ対話のログのすべてを含む。本質的に、ステーション42は、総合統計的研究および詳細な個別プロトコル分析の両方を可能にする完全セッションを再生することができるであろう。
最初の問合わせは、キーボードまたはマウスによって入力されたテキストの語、あいはワークステーション42でマイクロフォンを介して入力されて、システム10のオンライン部分14によって認識された話された語、であることができる。後続する問合わせ、あるいは新規の関連問合わせの詳細化は、「同様な視覚背景をもつ画面を見つける」、のような視覚的属性に関することができる。スカウトプログラムによって例示される自然言語処理機能129は、自然言語処理機能29が転換されたオーディオを処理するのに利用されたのとちょうど同様に、問合わせを処理するのに利用される。」(31頁23行?32頁13行)、
シ 「第4図では、良好なネットワークアーキテクチャ80が示されている。ディジタルビデオ/オーディオアーカイブ82は、トップ「メディアサーバ」ノード84における全ディジタルデータ、および「サイトサーバ」ノード88,90,92におけるごく最近アクセスしたメディアのキャッシュを有する階層的キャッシュファイルシステム、を持っている。トップメディアサーバノード84は1テラバイトの容量を持ち、そしてサイトサーバノード80,90および92の各々は40から50ギガバイトの容量を持っていると好都合である。トップメディアサーバノード84は、標準ネットワーク接続における連続メディアデータを通信する国定優先政策スケジューラを持つ、UNIXシステムでの多重スレッドユーザレベル処理として実現されると好都合である。
「サイトサーバ」ノード88,90,92は、エンドユーザ局所対話型ユーザワークステーション42を持つローカルエリアネットに置かれている。ディジタルライブラリ36の探索できる部分、すなわち、転換および補助索引、はトップメディアサーバノード84にあり、そして各サイトにおいて反復可能である。これによって、CPU集約探索が局所的に実行され、そしてメディアはサイトサーバ88,90,92のローカルキャッシュからでも、あるいはトップメディアサーバノード84からでも供給されることができる。局所対話型ユーザワークステーション42は、そのサイズおよび性能クラスに依存して、緩衝表示ステーションでも、表示プラス探索エンジンでも、あるいは後者プラス、約2ギガバイトの容量を持つメディアキャッシュ98であってもよい。キャッシュ戦略は、例えばトランザークのアンドリューファイルシステム(AFS)およびOSFの工業標準分散型ファイルシステム(DFS)のような、標準ファイルシステム実現によって実現されるであろう。見ることの集中はシステムアーキテクチャに強い影響を与え、従ってアプリケーション依存である。どこで、どの程度キャッシュするかは、「見ることの局所性」に依存する。」(34頁11行?35頁8行)、
ス 「動作の概要
以下の例は、仮定的探索に関連して、本発明の処理を説明している。ディジタルライブラリ36はオフライン部分12によって生成されているものとする。
一人の学生は、モニタに話すことによって開始する、「カルチュアとサテライトに何かを一緒に置かなければなりません。それは何でしょう?」 ユーザに対してトランスペアレントであるので、ユーザワークステーション42はこの問合わせについて、まさに、非常に正確な、話者独立の連続音声認識を実行した。次いで、ディジタルライブラリシステム10のオンライン部分14は精巧な自然言語処理機能129を適用して、問合わせを理解し、それを検索コマンドに翻訳して、分割された圧縮ビデオ40の関連部分を位置指定する。分割圧縮ビデオ40はテキスト38の関連索引転換を利用して探索される。」(36頁27行?37頁9行)が記載されている。

これらの記載ア?ス及び図面図1?図6によれば、刊行物1には、
「オーディオデータおよびビデオ画像からディジタルライブラリを作成し、該ディジタルライブラリから、「分割され、圧縮されたオーディオ/ビデオデータ」(40)を検索するディジタルビデオライブラリシステムであって、該システムは、音声認識システムを利用して、オーディオデータを転換し、そして転換したオーディオデータに第1組の時刻記録を付ける手段(27)と、転換したオーディオデータが索引つけされる前に、転換したオーディオデータを処理する自然言語インタプリタ手段(29)と、当業者に周知の技術を利用した、各用語およびそのような用語が利用されている全場所のリストを含む逆索引が作成され、ポインタ、すなわち時刻記録が、用語の各発生に対して、検索用に備えられる、転換したオーディオデータを索引つけする手段(30)と、システムのオンライン部分14と、ディジタルライブラリに各自の組の時刻記録の付いた索引したオーディオデータのテキスト転換(38)および「分割され、圧縮されたオーディオ/ビデオデータ」(40)を格納する手段(36)とを含み、該システムのオンライン部分14において、精巧な自然言語処理機能(129)を適用して、問合わせを理解し、それを検索コマンドに翻訳して、「分割され、圧縮されたオーディオ/ビデオデータ」(40)の関連部分が位置指定され、「分割され、圧縮されたオーディオ/ビデオデータ」(40)が、テキスト(38)の関連索引転換を利用して探索され、「分割され、圧縮されたオーディオ/ビデオデータ」(40)が再生されることを特徴とするディジタルビデオライブラリシステム。」の発明(以下、「引用発明」という。)が記載されているといえる。

3.対比
そこで、本件発明と引用発明とを対比すると、引用発明の「音声認識システムを利用して」、「オーディオデータ」、「時刻記録」及び「格納する手段(36)」は、本願発明の「音声認識システムを用いて」、「記録音声」、「タイムスタンプ」及び「記憶する手段」に相当する。
引用発明において、「用語ディジタルライブラリはオフライン部分12によって作成されたデータベース30を指す」(2.引用例 カの記載)のであるから、引用発明の「ディジタルライブラリ」は、本願発明の「データベース」に相当する。
引用発明の「分割され、圧縮されたオーディオ/ビデオデータ」(40)はオーディオデータ及びビデオ画像を記録した情報であり、上位概念化すると、「記録音声を含む情報」といえ、本願発明の「記録音声」は該「記録音声を含む情報」の下位概念であるといえる。
引用発明の「検索するディジタルビデオライブラリシステム」は、「探索するシステム」といえる。
引用発明の「オーディオデータを転換」は、その転換したオーディオデータが「オーディオデータのテキスト転換(38)」、「テキスト(38)」であることから、「オーディオデータをテキスト(データ)に変換」を意味するといえるので、本願発明の「記録音声をテキストに変換」に相当する。
引用発明の「転換したオーディオデータを索引つけする手段」は、本願発明の「変換された記録音声のテキストから索引を作成する手段」に相当する。
引用発明の「システムのオンライン部分14」は、「精巧な自然言語処理機能(129)を適用して、問合わせを理解し、それを検索コマンドに翻訳して、「分割され、圧縮されたオーディオ/ビデオデータ」(40)の関連部分が位置指定され、「分割され、圧縮されたオーディオ/ビデオデータ」(40)が、テキスト(38)の関連索引転換を利用して探索され、「分割され、圧縮されたオーディオ/ビデオデータ」(40)が再生されることを特徴とする」のであるから、本願発明の「作成された索引を用いて、探索する手段」に相当し、また、引用発明は、生のビデオ材料中の特定の内容が、全部の生のビデオ材料を聴取することなく、特定の「分割され、圧縮されたオーディオ/ビデオデータ」を指し示す索引を用いて再生されるものであるといえる。

したがって、本願発明と引用発明は、「データベース内の記録音声を含む情報を探索するシステムであって、
音声認識システムを用いて、前記記録音声をテキストに変換する手段と、
索引を作成する手段と、
前記作成された索引を用いて、探索する手段と、
記録音声を含む情報と作成された索引を前記データベースに記憶する手段と、
を含み、前記記録音声を含む情報中の特定の内容が、全部の記録音声を含む情報を聴取することなく、特定の記録音声を含む情報を指し示す索引を用いて再生されるシステム。」の点で一致し、以下の点1?4で相違する。

相違点1
本願発明では、探索する「記録音声を含む情報」が、「記録音声」である対して、引用発明では、「分割され、圧縮されたオーディオ/ビデオデータ」である点。
相違点2
本願発明では、音声認識システムを用いて、「記録音声をテキストに変換する手段」が、「変換音声内で自然に発生する途切れが、複数のタイムスタンプを提供するために使用される」のに対して、引用発明では、「転換したオーディオデータに第1組の時刻記録を付ける」点。
相違点3
(1)本願発明では、「索引を作成する手段」が、「情報エクステンダを用いて、前記変換された記録音声のテキストから前記記録音声のフル・テキスト索引を作成する手段であって、前記フル・テキスト索引が、前記記録音声内での単語の出現を指し示す前記複数のタイムスタンプを含む、前記作成する手段」であるのに対して、引用発明では、「当業者に周知の技術を利用した、各用語およびそのような用語が利用されている全場所のリストを含む逆索引が作成され、ポインタ、すなわち時刻記録が、用語の各発生に対して、検索用に備えられる、転換したオーディオデータを索引つけする手段」である点。
(2)また、本願発明では、「作成された索引を用いて、探索する手段」が、「フル・テキスト・サーバにより、前記作成されたフル・テキスト索引を用いて、前記変換されたテキストを探索する手段」という構成を備えるのに対して、引用発明では、その構成が示されていない点。
(3)加えて、本願発明では、「記録音声を含む情報と作成された索引をデータベースに記憶する手段」が記憶するものは、「前記探索されたテキスト、前記フル・テキスト索引、及び前記記録音声」であるのに対して、引用発明では、「各自の組の時刻記録の付いた索引したオーディオデータのテキスト転換(38)および分割され、圧縮されたオーディオ/ビデオデータ」である点。
相違点4
本願発明では、「前記記録音声を含む情報中の特定の内容が、全部の記録音声を含む情報を聴取することなく、特定の記録音声を含む情報を指し示す索引を用いて再生される」システムが、「前記記録音声中の特定の内容が、全部の記録音声を聴取することなく、前記複数のタイムスタンプにより特定の時点における記録音声を指し示す前記フル・テキスト索引を用いて再生される」システムであるが、引用発明では、その構成が示されていない点。

4.当審の判断
以下、相違点1?4について検討する。
相違点1について
引用発明の「分割され、圧縮されたオーディオ/ビデオデータ」は、オーディオデータ及びビデオ画像を記録した情報であって、引用発明で、特定の「分割され、圧縮されたオーディオ/ビデオデータ」が再生される場合には、特定のオーディオデータ及びビデオ画像が検索され再生されるといえるから、引用発明は、特定のオーディオデータが探索され再生される技術思想を内在しているといえる。そして、引用発明は、特定の「分割され、圧縮されたオーディオ/ビデオデータ」が検索され再生されるために、記録音声が探索されるための各構成を含むものであるといえる。
また、情報処理の技術分野において、特定の記録音声を探索し再生する技術課題は、一般に知られていることである。
なお、本願の特許請求の範囲請求項21には「前記記録音声がビデオを含む,請求項12記載のシステム」という記載がある。
してみると、引用発明において、「分割され、圧縮されたオーディオ/ビデオデータ」を検索するに代え、「記録音声」を探索することは、当業者が容易に想到できたことである。

相違点2について
引用発明は、音声認識システムを利用して、オーディオデータを転換し、そして転換したオーディオデータに第1組の時刻記録を付ける手段(27)を含むものであるが、引用例には、時刻記録に関し、「さらに、時刻記録を適用する既知の技術を利用する機能27によって、転換は時刻記録されるであろう。」(2.引用例(1)クの記載参照。)の記載がある。
ところで、話者のスピ-チ等を記録再生すること自体は周知な技術事項であるが、その中で、スピーチ等の中で、自然に発生する途切れ(無音区間)に着目して、音声を管理する技術が当業者に知られている(例えば、特開平11-25112号公報参照。)。受信した通話内容毎に管理することも知られている(例えば、特開平3-274950号公報参照。)。音声データ毎に管理することも知られている(例えば特開平6-4598号公報参照。)。そして、自然に発生する途切れ(無音区間)が、タイムスタンプを提供するために使用されるといえる技術も知られている(例えば特開2000-67063号公報、特開2000-67064号公報参照。)
さらに、ViaVoiceTM音声認識システムなどの転記エンジンに適用されて,タイムスタンプ付き語の転記ファイルが生成されることも知られている(例えば特開2000-348064号公報参照。)。この様な構成であれば、各語毎のタイムスタンプを比較することにより、変換後のデータから自然に発生する途切れ(無音区間)を推定することができることは明らかである。
なお、念のため、「変換音声内で自然に発生する途切れが、複数のタイムスタンプを提供するために使用される」の技術的意義について、本願明細書発明の詳細な説明を参酌しても、段落番号0005に「本システム及び方法は、音声認識システムを用いて、記録音声をテキストに変換するステップを含む。音声が変換されているとき、自然に発生する言語の途切れが、記録から時間索引を取り出すために使用される。」、段落番号0012に「図2は、データベースを介して記録音声を探索するプロセスを示すフローチャートである。本発明に従うシステム及び方法は、記録音声が次のように探索されることを可能にする。最初に、例えばDB2オーディオ・エクステンダを用いて、記録音声が索引ツールに記憶される(ステップ202)。次に、Via Voiceなどの音声認識システムを用いて、記録音声がテキストに変換される(ステップ204)。この変換の間、変換音声内で自然に発生する途切れが、複数のタイムスタンプを提供するために使用される。次に、DB2テキスト情報システムなどの情報エクステンダを用いて、記録音声のフル・テキスト索引が作成される(ステップ206)。最後に、テキストが、言語探索機能を有するフル・テキスト探索サーバにより探索され(ステップ210)、テキスト索引が提供される。こうした探索サーバには、DB2テキスト・エクステンダなどがある。テキスト索引は、記録音声内での単語の出現を指し示すタイムスタンプを含む。このようにして、全部の記録を聴取することなく、特定の内容が再生される。その後、探索テキスト、フル・テキスト索引及び記録音声がデータベースに記憶される(ステップ212)。」、段落番号0014に「図3は、本発明に従う再生プロセスの1例を示す。再生プロセスはテキスト索引302を使用し、これはタイムスタンプ306a乃至306dにより、特定の時点における記録音声304を指し示す。このプロセスの可能な状況には、a)ボイスメール・システムに記憶されるボイスメールを探索する状況、b)内容(すなわち電話の会話)を後に使用可能にするために、記録セッションを探索する状況、c)内容を後に立証するために、記憶された記録セッションを探索する状況、d)フォイル(foil)上で使用可能でない、または講義が行われたときに聞き手が理解できなかった詳細を得るために、記録講義を探索する状況、及びe)特定の情報をみいだすために、テレビ番組の記録放送番組または音声トラックを探索する状況が含まれる。」と記載があるとおりであり、「変換音声内で自然に発生する途切れが、複数のタイムスタンプを提供するために使用される」の技術的意義は、この文言とおりに解釈するほかない。
してみると、引用発明において、上述した各事項を採用し、音声認識システムを用いて、「記録音声をテキストに変換する手段」が、「変換音声内で自然に発生する途切れが、複数のタイムスタンプを提供するために使用される」こととすることは、当業者が容易になし得たことである。

相違点3について
(1)引用発明における「索引つけする手段」は、当業者に周知の技術を利用した、各用語およびそのような用語が利用されている全場所のリストを含む逆索引が作成され、ポインタ、すなわち時刻記録が、用語の各発生に対して、検索用に備えられる、転換したオーディオデータを索引つけする手段(30)である。
そして、情報処理の技術分野においては、フル・テキスト検索は広く知られた技術であり、また、検索の利便性を高めるため、予めフル・テキスト索引を作成することは慣用手段となっている。
また、索引が、本文中のその索引用語の位置あるいはその用語が含まれる文、段落、頁を示す位置(アドレス)を、直接的あるいは間接的にタイムスタンプで表すことは、時刻情報を含むデータの検索においては、普通に行われていることである(例えば特開2000-67063号公報、特開2000-67064号公報参照。)。
なお、索引作成手段(プログラム)として、IBM社製DB2テキストエクステンダーは周知なものである。該手段(プログラム)を「情報エクステンダ」と呼称することは適宜なし得ることである。
してみると、引用発明の「索引つけする手段」に上記各事項を採用し、「情報エクステンダを用いて、前記変換された記録音声のテキストから前記記録音声のフル・テキスト索引を作成する手段であって、前記フル・テキスト索引が、前記記録音声内での単語の出現を指し示す前記複数のタイムスタンプを含む、前記作成する手段」としたことは、当業者が、容易になし得たことである。

(2)引用発明は、システムのオンライン部分14において、精巧な自然言語処理機能(129)を適用して、問合わせを理解し、それを検索コマンドに翻訳して、「分割され、圧縮されたオーディオ/ビデオデータ」(40)の関連部分が位置指定され、「分割され、圧縮されたオーディオ/ビデオデータ」(40)が、テキスト(38)の関連索引転換を利用して探索されるものである。
引用発明において、「分割され、圧縮されたオーディオ/ビデオデータ」を検索するに代え、「記録音声」を探索することは、上記「相違点1について」で述べたとおりであり、また、フル・テキスト索引を作成する手段を用いることも、上記(1)で述べたとおりであるが、その際、これらを踏まえれば、引用発明が、フル・テキスト索引を用いて、変換されたテキストを探索する手段を、更に備えればよいとすることは、阻害する特段の要因もなく、当業者が自然に推考できることである。
また、引用例には、探索を、ネットワークに拡張し、サーバにより行う構成が記載されている(2.引用例 シの記載参照。)から、サーバにより行うことが示唆されているといえる。該サーバを、「フル・テキスト・サーバ」と呼称することは適宜なし得ることである。
してみると、引用発明に上記各事項を採用し、「作成された索引を用いて、探索する手段」として「システムのオンライン部分14」に代え、「フル・テキスト・サーバにより、前記作成されたフル・テキスト索引を用いて、前記変換されたテキストを探索する手段」という構成を備えることとすることは、当業者が、容易になし得たことである。

(3)引用発明は、ディジタルライブラリに各自の組の時刻記録の付いた索引したオーディオデータのテキスト転換(38)および分割され、圧縮されたオーディオ/ビデオデータを格納する手段(36)とを含むものである。
引用発明において、「分割され、圧縮されたオーディオ/ビデオデータ」を検索するに代え、「記録音声」を探索することは、上記「相違点1について」で述べたとおりであり、また、フル・テキスト索引を作成する手段を用いることも、上記(1)で述べたとおりであり、更に、変換されたテキストを探索する手段をそなえることも、上記(2)で述べたとおりであり、その際、データベースに記憶する手段に記憶する情報として、これらを対象とし、作成し、探索した情報とすることは、当業者が格別困難無く推考できることである。
してみると、引用発明に上記各事項を採用し、「記録音声を含む情報と作成された索引をデータベースに記憶する手段」が記憶するものは、「前記探索されたテキスト、前記フル・テキスト索引、及び前記記録音声」としたことは、当業者が、容易になし得たことである。

相違点4について
引用発明は、生のビデオ材料中の特定の内容が、全部の生のビデオ材料を聴取することなく、特定の「分割され、圧縮されたオーディオ/ビデオデータ」を指し示す索引を用いて再生されるものである。
引用発明において、「分割され、圧縮されたオーディオ/ビデオデータ」を検索するに代え、「記録音声」を探索することは、上記「相違点1について」で述べたとおりであり、また、記録音声内での単語の出現を指し示す前記複数のタイムスタンプを含むフル・テキスト索引を作成する手段を用いることも、上記「相違点3について(1)」で述べたとおりであり、フル・テキスト索引を用いて、変換されたテキストを探索することは、上記「相違点3について(2)」で述べたとおりである。
してみると、引用発明に上記各事項を採用し、「前記記録音声中の特定の内容が、全部の記録音声を聴取することなく、前記複数のタイムスタンプにより特定の時点における記録音声を指し示す前記フル・テキスト索引を用いて再生される」こととすることは、当業者が、容易になし得たことである。

5.むすび
以上のとおり、本願発明は、刊行物1に記載された発明に基づき当業者が容易に発明することができたものであるから、特許法第29条第2項の規定により特許を受けることができない。
したがって、本願は、他の請求項に記載された発明について検討するまでもなく、拒絶されるべきものである。
よって、結論のとおり審決する 。
 
審理終結日 2009-11-25 
結審通知日 2009-12-01 
審決日 2009-12-14 
出願番号 特願2002-104915(P2002-104915)
審決分類 P 1 8・ 121- Z (G06F)
最終処分 不成立  
前審関与審査官 野崎 大進上嶋 裕樹鶴谷 裕二  
特許庁審判長 田口 英雄
特許庁審判官 長島 孝志
池田 聡史
発明の名称 記録音声を探索し、関連セグメントを検索する方法及びシステム  
代理人 矢口 太郎  
代理人 山口 康明  

プライバシーポリシー   セキュリティーポリシー   運営会社概要   サービスに関しての問い合わせ