• ポートフォリオ機能


ポートフォリオを新規に作成して保存
既存のポートフォリオに追加保存

  • この表をプリントする
PDF PDFをダウンロード
審決分類 審判 査定不服 2項進歩性 特許、登録しない(前置又は当審拒絶理由) G06F
管理番号 1292008
審判番号 不服2012-20827  
総通号数 179 
発行国 日本国特許庁(JP) 
公報種別 特許審決公報 
発行日 2014-11-28 
種別 拒絶査定不服の審決 
審判請求日 2012-10-23 
確定日 2014-09-18 
事件の表示 特願2006-191207「翻訳機能付き携帯電話装置,音声データ翻訳方法,音声データ翻訳プログラムおよびプログラム記録媒体」拒絶査定不服審判事件〔平成20年 1月31日出願公開,特開2008- 21058〕について,次のとおり審決する。 
結論 本件審判の請求は、成り立たない。 
理由
1.手続の経緯

本件審判請求に係る出願(以下,「本願」という。)は,平成18年7月12日を出願日とする出願であって,平成21年6月12日付けで審査請求がなされ,平成24年1月20日付けで拒絶理由通知(同年1月31日発送)がなされ,これに対して平成24年3月29日付けで意見書が提出されると共に同日付けで手続補正がなされたが,同年7月31日付けで拒絶査定(同年8月7日謄本送達)がなされた。
これに対して,「原査定を取り消す,本願は特許をすべきものであるとの審決を求める。」との請求の趣旨で,平成24年10月23日付けで審判請求がなされると共に同日付けで手続補正がなされ,同年12月18日付けで審査官により特許法第164条第3項に定める報告(前置報告)がなされ,平成25年6月12日付けで当審により特許法第134条第4項の規定に基づく審尋(同年6月18日発送)がなされ,同年8月16日付けで回答書の提出があった。
そして,平成26年4月18日付けで当審により拒絶理由通知(同年4月22日発送)がなされ,これに対して平成26年5月30日付けで意見書が提出されると共に同日付けで手続補正がなされたものである。


2.本願発明

本願の請求項1に記載された発明(以下,「本願発明」という。)は,上記平成26年5月30日付け手続補正書により補正された明細書及び図面の記載からみて,その特許請求の範囲の請求項1に記載された以下のとおりのものと認める。
(当審注:下線は,参考のために当審で付与したものである。)

「ユーザの顔画像を撮影可能なカメラ部と,該ユーザの音声を文字変換して音声データを生成する音声データ生成部と,文字変換した前記音声データを通話相手の言語の翻訳文に翻訳する音声データ翻訳部と,翻訳した前記翻訳文を通話相手に送信する無線部とを備えた翻訳機能付き携帯電話装置において,前記カメラ部で撮影したユーザの顔画像から当該ユーザの表情データを抽出する表情データ抽出部と,該表情データ抽出部にて抽出したユーザの表情データに基づいて,当該ユーザの音声を文字変換した前記音声データの感情部分を文字フォント,文字サイズ,文字色,アンダライン,太字,斜体のいずれか1ないし複数を用いて,ユーザの感情ごとに異なる書式で修飾した補正を行い補正音声データとして出力する音声データ補正部と,をさらに備え,前記音声データ補正部にて補正した前記補正音声データを用いて,前記音声データ翻訳部にて通話相手の言語の翻訳文に翻訳し,
前記表情データ抽出部は,前記カメラ部で撮影した当該ユーザの顔画像の目,眉,眉間,額,鼻,口唇のいずれか1ないし複数の各パーツ間の相対位置とその変化量を特徴量として解析する表情解析部と,当該ユーザの表情の前記特徴量を表情パターンとしてあらかじめ登録している表情パターンデータベースとを含み,前記表情解析部において解析された当該ユーザの前記特徴量により前記表情パターンデータベースを参照することにより,当該ユーザの表情データを抽出し,
前記表情パターンデータベースに登録するユーザの前記表情パターンとして,あらかじめ定めた複数の感情それぞれに該当する当該ユーザの表情の特徴量をあらかじめ登録し,
前記表情データ抽出部が,前記表情パターンデータベースを参照してユーザの表情データを抽出する際に,前記表情パターンデータベースに前記表情パターンとして登録したユーザの複数の感情それぞれの前記特徴量との近似度を,当該ユーザのそれぞれの感情の度合いとして表情データに含めて出力し,
前記音声データ補正部は,感情部分を補正した前記補正音声データを生成する際に,ユーザの感情に適合した言い回しの翻訳を行うように指示する付加情報を前記補正音声データに追加して出力し,
前記音声データ翻訳部は,前記補正音声データを通話相手の言語の翻訳文に翻訳する際に,前記補正音声データに前記付加情報が追加されていた場合,該付加情報に指示されている言い回しに適合する表現を用いて翻訳し,
前記音声データ翻訳部は,前記補正音声データを通話相手の言語の翻訳文に翻訳する際に,ユーザの感情ごとに異なる書式で修飾した前記補正音声データに対応する前記通話相手の言語の書式に変換する
ことを特徴とする翻訳機能付き携帯電話装置。」

なお,上記平成26年5月30日付け手続補正書により補正された特許請求の範囲の請求項1に記載された「当該ユーザの表情の前記特徴量を表情パターンとしてあらかじめ登録している表情パターンデータベースとを含み,前記表情解析部において解析された当該ユーザの前記特徴量により前記表情パターンデータデースを参照することにより,当該ユーザの表情データを抽出し,」における,「前記表情パターンデータデース」については,「前記表情パターンデータベース」の誤記であると認定した。


3.引用文献

(1)引用文献1に記載されている技術的事項および引用発明

本願出願前に頒布され,当審の上記平成26年4月18日付けの拒絶理由通知において引用された,特開2004-15478号公報(平成16年1月15日出願公開,以下,「引用文献1」という。)には,関連する図面とともに,以下の技術的事項が記載されている。
(当審注:下線は,参考のために当審で付与したものである。)

A 「【0003】
【発明が解決しようとする課題】
しかしながら,これら従来の音声を文字情報に変換して送信する音声通信端末装置では,通話相手と円滑なコミュニケーションを図るという点では不十分であった。これは,通常の通話で交わされる音声情報には,言語的情報のほかに感情などの非言語的情報が含まれており,通話者は言語的情報と非言語的情報を合わせて通話相手とコミュニケーションを行っているのに対し,従来の文字情報には非言語的情報が含まれていないため,円滑なコミュニケーションを行うための情報が不足しているためである。
本発明は,このような状況に鑑みてなされたものであり,音声を文字情報に変換して送信する音声通信端末装置において,感情などの非言語的情報の伝達を可能とすることを目的とする。」

B 「【0007】
【発明の実施の形態】
以下に図を用いて発明の実施の形態を説明する。
[実施の形態1]
図1は,本発明に係る携帯電話機のハードウェア構成の一例を示すブロック図であり,本発明の実施の形態1を示す。図1に示すように,実施の形態1に係る携帯電話機は,制御部101,無線部102,操作部103,マイクロホン104,スピーカ105,撮像部106およびアンテナ107を有しており,制御部101は,無線部102,操作部103,マイクロホン104,スピーカ105および撮像部106とそれぞれ接続され,無線部102はアンテナ107と接続されている。
【0008】
制御部101は演算処理装置と記憶装置と記憶装置に記録された処理プログラム(ソフトウェア)とから構成されており,処理プログラムが演算処理装置で実行されることにより携帯電話機の制御と後述するデータ処理を行う。無線部102は,アンテナ107を介した電波の送受信と信号の変復調を行う周知の無線回路である。操作部103は,表示画面108とテンキー109と選択スイッチ110とを有するマンマシンインタフェースである。この場合,表示画面108は階調表示の可能なカラー液晶表示器を用いる。テンキー109と選択スイッチ110は,従来の携帯電話機で用いられているものと同じものでよい。
【0009】
マイクロホン104とスピーカ105は,携帯電話機の音声入力と音声出力の機能を担う入力装置と出力装置であり,従来の携帯電話機で用いられているものと同じものである。撮像部106は,例えばCCDなどの撮像素子を用いた電子カメラで構成されており,通話時に通話者の顔を撮影可能なように配置されている。アンテナ107は,従来の携帯電話機で用いられているものと同じものである。
【0010】
図2は,制御部105の実施の形態1に係る部分の機能構成を示す機能ブロック図である。図2に示すように,制御部105は文字データ生成部201,音声解析部202,画像解析部203および文字修飾部204を有する。文字データ生成部201は,マイクロホン104より入力された音声信号を文字データに変換する機能を有する。この場合,文字データ生成部201は,入力された音声信号をあらかじめ通話者が選択スイッチ110で選択した入力言語の文字データを生成する。例えば,入力言語として日本語が選択されているときは,入力された音声信号を日本語として処理し,周知の日本語音声認識辞書と音声認識プログラムにより漢字仮名交じり文の文字データを生成する。また,入力言語として英語が選択されているときは,入力された音声信号を英語として処理し,周知の英語音声認識辞書と音声認識プログラムにより英文の文字データを生成する。」

C 「【0013】
図4は,画像解析部203の機能構成を示す機能ブロック図である。図4に示すように,画像解析部203は,特徴抽出部401と照合部402と表情パターンデータベース403とから構成されており,撮像部106が撮影した通話者の顔画像から通話者の感情を自動判別し,判別した感情を感情データとして出力する機能を有する。この場合,特徴抽出部401が連続撮影された顔画像から「目」,「眉」,「鼻」,「口」などの各パーツ間の相対位置とその変化量を特徴量として抽出し,照合部402が抽出された特徴量を表情パターンデータベース403に格納された表情パターンと照合し,「怒り」,「悲しみ」,「喜び」,「平静」の内,もっとも近い感情を出力する。
【0014】
顔画像から表情を判別する方法は,各パーツ間の相対位置とその変化量を抽出する方法に限られるものではなく,他の方法を用いてもよい。また,判別する感情の種類も「怒り」,「悲しみ」,「喜び」,「平静」の4つに限られるものではなく,4つより少なくしてもよいし多くしてもよい。さらに,感情のほかにその度合いを加えてもよい。この場合,出力する感情は1つに限らず,判別する感情ごとにその度合いを出力するようにしてもよい。
【0015】
図5は,文字装飾部204の機能構成を示す機能ブロック図である。図5に示すように,文字装飾部204は,音声修飾部501と音声修飾情報データベース502と画像修飾部503と画像修飾情報データベース504とから構成されており,文字データ生成部201が生成した文字データを音声解析部202が検知した通話者の感情と画像解析部203が検知した通話者の感情とに基づいて修飾する機能を有する。
【0016】
この場合,音声修飾部501は,音声解析部202から入力された感情データをキーにして音声修飾情報データベース502を検索し,入力された感情データに関係づけられた修飾データを読み出し,この修飾データで文字データ生成部201から入力された文字データを修飾し,画像修飾部503へ出力する。ここで,音声修飾情報データベース502は,感情データごとに対応する修飾データを格納しており,修飾データとして文字フォントと文字の大きさの組合せを用いている。
【0017】
画像修飾部503は,画像解析部203から入力された感情データをキーにして画像修飾情報データベース504を検索し,入力された感情データに関係づけられた修飾データを読み出し,この修飾データで音声修飾部501から入力された文字データを修飾し,無線部102へ出力する。ここで,画像修飾情報データベース504は,感情データごとに対応する修飾データを格納しており,修飾データとして文字の色と濃さの組合せを用いている。
【0018】
この実施の形態の携帯電話機は,通話先の携帯電話機に表示される文字が通話者の感情に応じて修飾されるので,表示される文字でしか通話相手の話すことが理解できない,通常の携帯電話機では出力できない大音量にしなければ聞き取れない人や聴力障害者にも通話者の感情を伝達することができる。このため,単に文字を表示する場合に比べて,より円滑な通話を行うことが可能となる。
【0019】
この実施の形態では,文字装飾部204は通話者の音声の抑揚から検知した感情に基づいて文字のフォントと大きさを制御し,通話者の顔の表情から検知した感情に基づいて文字の色と濃さを制御するようにしたが,これに限られるものではない。例えば,音声と画像で制御する対象を入れ替えてもよいし,それぞれ組合せではなくフォントのみの制御や大きさのみの制御,色のみの制御や濃さのみの制御としてもよい。」

D 「【0021】
[実施の形態2]
次に,本発明の実施の形態2を説明する。この実施の形態に係る携帯電話機のハードウェア構成は,図1で示したものと同じである。図6は,図1の制御部105の実施の形態2に係る機能構成を示す機能ブロック図である。この実施の形態の携帯電話機が実施の形態1で示した携帯電話機と異なる点は,制御部105が言語変換部205と修飾変換部206とをさらに備え,文字修飾部204から出力される修飾された文字データを言語変換部205が他言語に翻訳し,修飾変換部206が翻訳文の文字データを翻訳前の文字データに付加された装飾データに基づいて装飾し,無線部102に出力するように構成したことである。
【0022】
図6において,言語変換部205と修飾変換部206を除いた各部は実施の形態1と同じであるから説明を省略する。次に,図7を参照して言語変換部205と修飾変換部206の動作を説明する。図7は,言語変換部205と修飾変換部206の動作を説明する図である。言語変換部205は,文字修飾部204から入力される修飾された文字データから修飾データを除く。この場合,言語変換部205は,1つの文から単語ごとに文字データに付加されたフォントと文字サイズと文字色と色濃度とを含む装飾データを取り外し,一時保管する。このとき,文字データと装飾データのそれぞれに同じ識別子を付加する。
【0023】
次に,装飾データを取り外した文字データからなる1つの文をあらかじめ通話者が選択スイッチ110で選択した入力言語と出力言語からなる翻訳辞書と翻訳プログラムにより出力言語へ変換し,出力言語の文字データを生成する。このとき,入力言語の単語に付加されていた識別子を出力言語の単語に付加する。さらに,生成した文字データと入力文字データから除いた修飾データとを修飾変換部206に出力する。翻訳辞書と翻訳プログラムは,周知の翻訳手段を用いるので説明を省略する。
【0024】
修飾変換部206は,言語変換部205から文字データと修飾データが入力されると,修飾データを出力言語に対応した修飾データに変換した後,変換後の修飾データで文字データを修飾し,無線部102へ出力する。この場合,修飾データの変換は,文字フォントのような入力言語と出力言語で同じものがない修飾データについて,入力言語と出力言語が1対1で対応した変換テーブルを用いて行う。例えば,入力言語が日本語で出力言語が英語のときは,明朝体に対しTimes New Roman,ゴシック体に対しArialのようにあらかじめ設定された変換テーブルにより文字フォントの変換を行う。また,装飾データは,同じ識別子を持つ文字データに付加し,識別子を削除する。なお,翻訳処理により新たに生成した入力言語と直接対応しない出力言語の文字コードは,前後の単語の装飾データを付加するなどして文中で文字の装飾が唐突に変化するのを防止する。
【0025】
この実施の形態の携帯電話機は,通話先の携帯電話機に通話者の話した内容が翻訳されて表示されるとともに,表示される文字が通話者の感情に応じて修飾されるので,異なる言語を話す者同士の通話においても,通話者の感情を伝達することが可能となる。このため,単に文字を表示する場合に比べて,より円滑な通話を行うことが可能となる。」

ここで,上記引用文献1に記載されている事項を検討する。

(ア)上記Bの「マイクロホン104とスピーカ105は,携帯電話機の音声入力と音声出力の機能を担う入力装置と出力装置であり,従来の携帯電話機で用いられているものと同じものである。撮像部106は,例えばCCDなどの撮像素子を用いた電子カメラで構成されており,通話時に通話者の顔を撮影可能なように配置されている。」,「図2に示すように,制御部105は文字データ生成部201,音声解析部202,画像解析部203および文字修飾部204を有する。文字データ生成部201は,マイクロホン104より入力された音声信号を文字データに変換する機能を有する。この場合,文字データ生成部201は,入力された音声信号をあらかじめ通話者が選択スイッチ110で選択した入力言語の文字データを生成する。」との記載からすると,携帯電話機は撮像部のほか,制御部内に,画像解析部,文字データ生成部,音声解析部,文字修飾部を備えており,撮像部は通話者の顔を撮影可能なように配置され,文字データ生成部はマイクロホンより入力された音声信号を文字データに変換すると解される。
また,上記Dの「図6は,図1の制御部105の実施の形態2に係る機能構成を示す機能ブロック図である。この実施の形態の携帯電話機が実施の形態1で示した携帯電話機と異なる点は,制御部105が言語変換部205と修飾変換部206とをさらに備え,文字修飾部204から出力される修飾された文字データを言語変換部205が他言語に翻訳し,修飾変換部206が翻訳文の文字データを翻訳前の文字データに付加された装飾データに基づいて装飾し,無線部102に出力するように構成したことである。」との記載からすると,携帯電話機は言語変換部と修飾変換部を備える態様を含み,無線部は修飾変換部により修飾された翻訳文を電波で送信を行うことが読みとれるから,引用文献1には,
「通話者の顔を撮影可能な撮像部と,画像解析部と,マイクロホンより入力された音声信号を文字データに変換する文字データ生成部と,音声解析部と,文字修飾部と,言語変換部と,修飾変換部と,前記修飾変換部により修飾された翻訳文を電波で送信を行う無線部とを備えた携帯電話機」
が記載されていると解される。

(イ)上記Cの「画像解析部203は,特徴抽出部401と照合部402と表情パターンデータベース403とから構成されており,撮像部106が撮影した通話者の顔画像から通話者の感情を自動判別し,判別した感情を感情データとして出力する機能を有する。この場合,特徴抽出部401が連続撮影された顔画像から「目」,「眉」,「鼻」,「口」などの各パーツ間の相対位置とその変化量を特徴量として抽出し,照合部402が抽出された特徴量を表情パターンデータベース403に格納された表情パターンと照合し,「怒り」,「悲しみ」,「喜び」,「平静」の内,もっとも近い感情を出力する。」との記載からすると,画像解析部を構成する特徴抽出部が,撮像部が連続撮影した顔画像から各パーツ間の相対位置とその変化量を特徴量として抽出し,照合部が「怒り」,「悲しみ」,「喜び」,「平静」の内,もっとも近い感情を出力するものであり,前記撮像部が撮影した通話者の顔画像から通話者の感情を自動判別し,判別した感情を感情データとして出力すると解されるから,引用文献1には,
「前記画像解析部は,特徴抽出部と照合部と表情パターンデータベースとから構成され,前記特徴抽出部は,前記撮像部が連続撮影した顔画像から「目」,「眉」,「鼻」,「口」などの各パーツ間の相対位置とその変化量を特徴量として抽出し,前記照合部が抽出した特徴量を表情パターンデータベースに格納された表情パターンと照合し,「怒り」,「悲しみ」,「喜び」,「平静」の内,もっとも近い感情を自動判別し,判別した感情を感情データとして出力」すること
が記載されていると解される。

(ウ)上記Cの「図5に示すように,文字装飾部(「文字修飾部」の誤記と認める。)204は,音声修飾部501と音声修飾情報データベース502と画像修飾部503と画像修飾情報データベース504とから構成されており,文字データ生成部201が生成した文字データを音声解析部202が検知した通話者の感情と画像解析部203が検知した通話者の感情とに基づいて修飾する機能を有する。」,「音声修飾部501は,音声解析部202から入力された感情データをキーにして音声修飾情報データベース502を検索し,入力された感情データに関係づけられた修飾データを読み出し,この修飾データで文字データ生成部201から入力された文字データを修飾し,画像修飾部503へ出力する。」,「画像修飾部503は,画像解析部203から入力された感情データをキーにして画像修飾情報データベース504を検索し,入力された感情データに関係づけられた修飾データを読み出し,この修飾データで音声修飾部501から入力された文字データを修飾し,無線部102へ出力する。」との記載からすると,文字修飾部は,音声修飾部や画像修飾部などから構成され,音声修飾部は,音声解析部から入力された感情データに関係づけられた修飾データで文字データ生成部から入力された文字データを修飾し,画像修飾部は,画像解析部から入力された感情データに関係づけられた修飾データで文字データ生成部から入力された文字データを修飾すると解される。
また,上記Cの「この実施の形態では,文字装飾部(「文字修飾部」の誤記と認める。)204は通話者の音声の抑揚から検知した感情に基づいて文字のフォントと大きさを制御し,通話者の顔の表情から検知した感情に基づいて文字の色と濃さを制御するようにしたが,これに限られるものではない。例えば,音声と画像で制御する対象を入れ替えてもよいし,それぞれ組合せではなくフォントのみの制御や大きさのみの制御,色のみの制御や濃さのみの制御としてもよい。」との記載からすると,通話者の音声の抑揚,顔の表情など,通話者から検知した感情に基づき,文字のフォント,大きさ,色,濃さが制御されることが読みとれるから,引用文献1には,
「前記文字修飾部は,音声修飾部や画像修飾部などから構成され,前記音声修飾部は,前記音声解析部から入力された感情データに関係づけられた修飾データで前記文字データ生成部から入力された文字データを修飾し,前記画像修飾部は,前記画像解析部から入力された感情データをキーにして画像修飾情報データベースを検索し,入力された感情データに関係づけられた修飾データを読み出し,この修飾データで前記文字データ生成部から入力された文字データを修飾し,通話者から検知した感情に基づいて文字のフォント,大きさ,色,濃さを制御」すること
が記載されていると解される。

(エ)上記Dの「図6は,図1の制御部105の実施の形態2に係る機能構成を示す機能ブロック図である。この実施の形態の携帯電話機が実施の形態1で示した携帯電話機と異なる点は,制御部105が言語変換部205と修飾変換部206とをさらに備え,文字修飾部204から出力される修飾された文字データを言語変換部205が他言語に翻訳し,修飾変換部206が翻訳文の文字データを翻訳前の文字データに付加された装飾データに基づいて装飾し,無線部102に出力するように構成したことである。」,「修飾変換部206は,言語変換部205から文字データと修飾データが入力されると,修飾データを出力言語に対応した修飾データに変換した後,変換後の修飾データで文字データを修飾し,無線部102へ出力する。」との記載からすると,言語変換部と修飾変換部をさらに備えた携帯電話機の態様について,言語変換部は文字修飾部から出力される修飾された文字データを他言語に翻訳すると解され,また,修飾変換部は言語変換部から文字データと修飾データが入力されると,修飾データを出力言語に対応した修飾データに変換した後,変換後の修飾データで文字データを修飾すると解されるから,引用文献1には,
「前記言語変換部は,前記文字修飾部から出力される修飾された文字データを他言語に翻訳し,
前記修飾変換部は,前記言語変換部から文字データと修飾データが入力されると,修飾データを出力言語に対応した修飾データに変換した後,変換後の修飾データで文字データを修飾する」こと
が記載されていると解される。

以上,(ア)乃至(エ)で指摘した事項から,引用文献1には,次の発明(以下,「引用発明」という。)が記載されているものと認める。

「通話者の顔を撮影可能な撮像部と,画像解析部と,マイクロホンより入力された音声信号を文字データに変換する文字データ生成部と,音声解析部と,文字修飾部と,言語変換部と,修飾変換部と,前記修飾変換部により修飾された翻訳文を電波で送信を行う無線部とを備えた携帯電話機において,
前記画像解析部は,特徴抽出部と照合部と表情パターンデータベースとから構成され,前記特徴抽出部は,前記撮像部が連続撮影した顔画像から「目」,「眉」,「鼻」,「口」などの各パーツ間の相対位置とその変化量を特徴量として抽出し,前記照合部が抽出した特徴量を表情パターンデータベースに格納された表情パターンと照合し,「怒り」,「悲しみ」,「喜び」,「平静」の内,もっとも近い感情を自動判別し,判別した感情を感情データとして出力し,
前記文字修飾部は,音声修飾部や画像修飾部などから構成され,前記音声修飾部は,前記音声解析部から入力された感情データに関係づけられた修飾データで前記文字データ生成部から入力された文字データを修飾し,前記画像修飾部は,前記画像解析部から入力された感情データをキーにして画像修飾情報データベースを検索し,入力された感情データに関係づけられた修飾データを読み出し,この修飾データで前記文字データ生成部から入力された文字データを修飾し,通話者から検知した感情に基づいて文字のフォント,大きさ,色,濃さを制御し,
前記言語変換部は,前記文字修飾部から出力される修飾された文字データを他言語に翻訳し,
前記修飾変換部は,前記言語変換部から文字データと修飾データが入力されると,修飾データを出力言語に対応した修飾データに変換した後,変換後の修飾データで文字データを修飾することを特徴とする携帯電話機。」

(2)引用文献2に記載されている技術的事項

本願出願前に頒布され,当審の上記平成26年4月18日付けの拒絶理由通知において引用された,特開平2-183371号公報(平成2年7月17日出願公開,以下,「引用文献2」という。)には,関連する図面とともに,以下の技術的事項が記載されている。
(当審注:下線は,参考のために当審で付与したものである。)

E 「[発明が解決しようとする課題]
ところで,上述した従来の自動通訳装置にあっては,話者の正確な気持や感情をおり込んで翻訳音声を出力することができないので,この感情の伝達ができない分翻訳精度のレベルが低くなっているという欠点があった。
そこで,本発明の課題は,話者の感情をおり込んだ翻訳音声を出力することができるようにする点にある。
[課題を解決するための手段]
このような課題を解決するための本発明の技術的手段は,話者の音声を認識する音声認識手段と,話者の表情を認識する表情認識手段と,表情認識手段により認識された表情の変化に対応した感情情報を抽出する感情抽出手段と,前記音声認識結果及び感情情報に基づいて機械翻訳する機械翻訳手段と,機械翻訳手段の翻訳結果及び上記感情情報に基づいて音声を合成する音声合成手段とを備えた自動通訳装置にある。」(第1頁下段右欄7行?第2頁上段左欄7行)

F 「上記機械翻訳装置2は,音声認識結果及び感情情報に対応した言いまわしを蓄積した知識ベース4から,該当するデータを選択するものである。
従って,この実施例に係る自動通訳装置によれば,話者の音声は音声認識部1で音声認識される。通常単語又は文節単位で機械翻訳部2に送られる。機械翻訳装置2では構文解析,意味解析,文脈解析等を行って翻訳をする。このとき,知識ベース4に蓄積された常識的言いまわしや感情抽出装置7から抽出された感情情報に対応した言いまわしが選択される。」(第2頁上段右欄15行?下段左欄8行)


4.対比

本願発明と引用発明とを対比する。

(1)引用発明の「携帯電話機」は本願発明の「携帯電話装置」に対応することは明らかであり,引用発明の「撮像部」は通話者の顔を撮影し,「文字データ生成部」は入力された音声信号を文字データに変換し,「無線部」は携帯電話機で翻訳された翻訳文を電波で送信することから,引用発明の「撮像部」,「文字データ生成部」,「無線部」はそれぞれ,本願発明の「カメラ部」,「音声データ生成部」,「無線部」に相当するといえる。
そうすると,引用発明の「通話者の顔を撮影可能な撮像部と,画像解析部と,マイクロホンより入力された音声信号を文字データに変換する文字データ生成部と,音声解析部と,文字修飾部と,言語変換部と,修飾変換部と,前記修飾変換部により修飾された翻訳文を電波で送信を行う無線部とを備えた携帯電話機」と,本願発明の「ユーザの顔画像を撮影可能なカメラ部と,該ユーザの音声を文字変換して音声データを生成する音声データ生成部と,文字変換した前記音声データを通話相手の言語の翻訳文に翻訳する音声データ翻訳部と,翻訳した前記翻訳文を通話相手に送信する無線部とを備えた翻訳機能付き携帯電話装置」とは,後記する点で相違するものの,“ユーザの顔画像を撮影可能なカメラ部と,該ユーザの音声を文字変換して音声データを生成する音声データ生成部と,翻訳した翻訳文を通話相手に送信する無線部とを備えた翻訳機能付き携帯電話装置”である点で共通しているといえる。

(2)引用発明の「画像解析部」では,顔画像から抽出された各パーツ間の相対位置とその変化量である特徴量を表情パターンデータベースに格納された表情パターンと照合して,「怒り」,「悲しみ」,「喜び」,「平静」の内,もっとも近い感情を「感情データ」として出力していることから,引用発明の「感情データ」は本願発明の「表情データ」に対応しており,本願発明では,ユーザのそれぞれの感情の度合いとして,複数の感情それぞれの特徴量との近似度も「表情データ」に含めることから,引用発明の「感情データ」と本願発明の「表情データ」とは,“1ないし複数の感情を表す表情データ”である点で共通するといえる。
また,引用発明の「画像解析部」における「表情パターンデータベース」は,ユーザの表情の特徴量を表情パターンとしてあらかじめ登録していることは明らかであるから,本願発明の「表情パターンデータベース」に相当するものである。
そうすると,引用発明の「特徴抽出部と照合部と表情パターンデータベースとから構成され,前記特徴抽出部は,前記撮像部が連続撮影した顔画像から「目」,「眉」,「鼻」,「口」などの各パーツ間の相対位置とその変化量を特徴量として抽出し,前記照合部が抽出した特徴量を表情パターンデータベースに格納された表情パターンと照合し,「怒り」,「悲しみ」,「喜び」,「平静」の内,もっとも近い感情を自動判別し,判別した感情を感情データとして出力」する「画像解析部」と,本願発明の「前記カメラ部で撮影した当該ユーザの顔画像の目,眉,眉間,額,鼻,口唇のいずれか1ないし複数の各パーツ間の相対位置とその変化量を特徴量として解析する表情解析部と,当該ユーザの表情の前記特徴量を表情パターンとしてあらかじめ登録している表情パターンデータベースとを含み,前記表情解析部において解析された当該ユーザの前記特徴量により前記表情パターンデータベースを参照することにより,当該ユーザの表情データを抽出し,前記表情パターンデータベースに登録するユーザの前記表情パターンとして,あらかじめ定めた複数の感情それぞれに該当する当該ユーザの表情の特徴量をあらかじめ登録し,」「前記表情パターンデータベースを参照してユーザの表情データを抽出する際に,前記表情パターンデータベースに前記表情パターンとして登録したユーザの複数の感情それぞれの前記特徴量との近似度を,当該ユーザのそれぞれの感情の度合いとして表情データに含めて出力」する「表情データ抽出部」とは,後記する点で相違するものの,“前記カメラ部で撮影した当該ユーザの顔画像の目,眉,鼻,口唇のいずれか1ないし複数の各パーツ間の相対位置とその変化量を特徴量として解析し,当該ユーザの表情の前記特徴量を表情パターンとしてあらかじめ登録している表情パターンデータベースを含み,解析された当該ユーザの前記特徴量により前記表情パターンデータベースを参照することにより,当該ユーザの表情データを抽出し,前記表情パターンデータベースに登録するユーザの前記表情パターンとして,あらかじめ定めた複数の感情それぞれに該当する当該ユーザの表情の特徴量をあらかじめ登録し,前記表情パターンデータベースを参照してユーザの表情データを抽出する際に,前記表情パターンデータベースに前記表情パターンとして登録したユーザの1ないし複数の感情を表情データに含めて出力する表情データ抽出部”である点で共通しているといえる。

(3)引用発明の「文字修飾部」における画像修飾部は,入力された感情データに関係づけられた修飾データで文字データ生成部から入力された文字データを修飾し,通話者から検知した感情に基づいて文字のフォント,大きさ,色,濃さを制御していることから,文字データの感情の表れている部分を修飾して,文字フォント,文字サイズ,文字色,アンダライン,太字,斜体のいずれか1ないし複数を用いて,ユーザの感情ごとに異なる書式で修飾した補正を行い補正音声データとして出力しているといえる。
また,引用文献1の上記Dの「言語変換部205は,文字修飾部204から入力される修飾された文字データから修飾データを除く。」との記載からすると,引用発明の「修飾データ」は,修飾された文字データに付加されて文字修飾部から言語変換部に出力されると解されるから,引用発明の「修飾データ」と本願発明の「付加情報」は“感情部分を補正した補正音声データを生成する際に,ユーザの感情に関係づけられた付加情報”である点で共通するといえる。
そうすると,引用発明の「音声修飾部や画像修飾部などから構成され,前記音声修飾部は,前記音声解析部から入力された感情データに関係づけられた修飾データで前記文字データ生成部から入力された文字データを修飾し,前記画像修飾部は,前記画像解析部から入力された感情データをキーにして画像修飾情報データベースを検索し,入力された感情データに関係づけられた修飾データを読み出し,この修飾データで前記文字データ生成部から入力された文字データを修飾し,通話者から検知した感情に基づいて文字のフォント,大きさ,色,濃さを制御」する「文字修飾部」と,本願発明の「該表情データ抽出部にて抽出したユーザの表情データに基づいて,当該ユーザの音声を文字変換した前記音声データの感情部分を文字フォント,文字サイズ,文字色,アンダライン,太字,斜体のいずれか1ないし複数を用いて,ユーザの感情ごとに異なる書式で修飾した補正を行い補正音声データとして出力」するとともに,「感情部分を補正した前記補正音声データを生成する際に,ユーザの感情に適合した言い回しの翻訳を行うように指示する付加情報を前記補正音声データに追加して出力」する「音声データ補正部」とは,後記する点で相違するものの,“前記表情データ抽出部にて抽出したユーザの表情データに基づいて,当該ユーザの音声を文字変換した前記音声データの感情部分を文字フォント,文字サイズ,文字色,アンダライン,太字,斜体のいずれか1ないし複数を用いて,ユーザの感情ごとに異なる書式で修飾した補正を行い補正音声データとして出力するとともに,感情部分を補正した前記補正音声データを生成する際に,ユーザの感情に関係づけられた付加情報を前記補正音声データに追加して出力する音声データ補正部”である点で共通しているといえる。

(4)引用発明の「言語変換部」では,文字修飾部から出力される修飾された文字データを他言語に翻訳することから,引用発明の「言語変換部」は本願発明の「音声データ翻訳部」に対応しているといえる。
また,上記(3)の検討から,引用発明では,「修飾データ」が修飾された文字データに付加されて文字修飾部から言語変換部に出力されると解され,引用発明の「修飾データ」と本願発明の「付加情報」は“感情部分を補正した補正音声データを生成する際に,ユーザの感情に関係づけられた付加情報”である点で共通するといえる。
そうすると,引用発明の「文字修飾部から出力される修飾された文字データを他言語に翻訳」する「言語変換部」と,本願発明の「文字変換した前記音声データを通話相手の言語の翻訳文に翻訳する」とともに,「前記補正音声データを通話相手の言語の翻訳文に翻訳する際に,前記補正音声データに前記付加情報が追加されていた場合,該付加情報に指示されている言い回しに適合する表現を用いて翻訳し」,「前記補正音声データを通話相手の言語の翻訳文に翻訳する際に,ユーザの感情ごとに異なる書式で修飾した前記補正音声データに対応する前記通話相手の言語の書式に変換する」「音声データ翻訳部」とは,後記する点で相違するものの,“文字変換した前記音声データを通話相手の言語の翻訳文に翻訳し,前記補正音声データを翻訳する際に,前記補正音声データにユーザの感情に関係づけられた前記付加情報が付加されている,音声データ翻訳部”である点で共通しているといえる。

以上から,本願発明と引用発明とは,以下の点で一致し,また,以下の点で相違する。

(一致点)

「ユーザの顔画像を撮影可能なカメラ部と,該ユーザの音声を文字変換して音声データを生成する音声データ生成部と,翻訳した翻訳文を通話相手に送信する無線部とを備えた翻訳機能付き携帯電話装置において,
前記カメラ部で撮影した当該ユーザの顔画像の目,眉,鼻,口唇のいずれか1ないし複数の各パーツ間の相対位置とその変化量を特徴量として解析し,当該ユーザの表情の前記特徴量を表情パターンとしてあらかじめ登録している表情パターンデータベースを含み,解析された当該ユーザの前記特徴量により前記表情パターンデータベースを参照することにより,当該ユーザの表情データを抽出し,前記表情パターンデータベースに登録するユーザの前記表情パターンとして,あらかじめ定めた複数の感情それぞれに該当する当該ユーザの表情の特徴量をあらかじめ登録し,前記表情パターンデータベースを参照してユーザの表情データを抽出する際に,前記表情パターンデータベースに前記表情パターンとして登録したユーザの1ないし複数の感情を表情データに含めて出力する表情データ抽出部と,
前記表情データ抽出部にて抽出したユーザの表情データに基づいて,当該ユーザの音声を文字変換した前記音声データの感情部分を文字フォント,文字サイズ,文字色,アンダライン,太字,斜体のいずれか1ないし複数を用いて,ユーザの感情ごとに異なる書式で修飾した補正を行い補正音声データとして出力するとともに,感情部分を補正した前記補正音声データを生成する際に,ユーザの感情に関係づけられた付加情報を前記補正音声データに追加して出力する音声データ補正部と,
文字変換した前記音声データを通話相手の言語の翻訳文に翻訳し,前記補正音声データを翻訳する際に,前記補正音声データにユーザの感情に関係づけられた前記付加情報が付加されている,音声データ翻訳部と,
を備える翻訳機能付き携帯電話装置。」

(相違点1)

表情データの抽出に関し,本願発明では,表情データ抽出部がユーザの顔画像の目,眉,眉間,額,鼻,口唇のいずれか1ないし複数の各パーツ間の相対位置とその変化量を特徴量として,ユーザの複数の感情それぞれの前記特徴量との近似度を,当該ユーザのそれぞれの感情の度合いとして表情データに含めて出力しているのに対して,
引用発明では,画像解析部が顔画像から「目」,「眉」,「鼻」,「口」などの各パーツ間の相対位置とその変化量を特徴量として抽出し,「怒り」,「悲しみ」,「喜び」,「平静」の内,該特徴量ともっとも近い感情を感情データとして出力している点。

(相違点2)

文字変換した音声データの翻訳に関し,本願発明では,音声データ翻訳部が音声データを通話相手の言語の翻訳文に翻訳するほか,補正音声データに付加情報が追加されていた場合,該付加情報に指示されている言い回しに適合する表現を用いて翻訳するとともに,ユーザの感情ごとに異なる書式で修飾した前記補正音声データに対応する前記通話相手の言語の書式に変換しているのに対して,
引用発明では,言語変換部は文字修飾部から入力される修飾された文字データを他言語に翻訳するだけで,修飾変換部が前記言語変換部から文字データと修飾データが入力されると,該修飾データを出力言語に対応した修飾データに変換した後,変換後の修飾データで文字データを修飾している点。


5.当審の判断

上記相違点1及び2について検討する。

(1)相違点1について

引用発明では,顔画像から各パーツ間の相対位置とその変化量を特徴量として抽出し,「怒り」,「悲しみ」,「喜び」,「平静」の内,該特徴量ともっとも近い感情を感情データとして出力しているが,これに関し,引用文献1の上記Cには「また,判別する感情の種類も「怒り」,「悲しみ」,「喜び」,「平静」の4つに限られるものではなく,4つより少なくしてもよいし多くしてもよい。さらに,感情のほかにその度合いを加えてもよい。この場合,出力する感情は1つに限らず,判別する感情ごとにその度合いを出力するようにしてもよい。」と記載されている。すなわち,引用文献1には,画像解析部を構成する照合部は,判別する感情の種類は「怒り」,「悲しみ」,「喜び」,「平静」の4つに限られるものではないこと,判別される感情はもっとも近い1つだけでないこと,感情の判別だけでなく,判別された感情ごとの度合いも感情データとして出力するようにしてもよいことなど,他の態様について示唆する記載が認められる。
また,ある事象の特徴量(引用発明では,顔画像から各パーツ間の相対位置とその変化量)をそのデータの特性からカテゴリ(引用発明では,感情の種類)に分類する場合に,各カテゴリについての度合いを近似度を用いて評価する手法は,当該技術分野においては周知慣用の手法である。
してみると,引用発明において,引用文献1に記載の他の態様についての示唆や当該技術分野の周知慣用の手法を適用し,顔画像から「目」,「眉」,「鼻」,「口」などの各パーツ間の相対位置とその変化量を特徴量とすることに代えて,顔画像の目,眉,眉間,額,鼻,口唇のいずれか1ないし複数の各パーツ間の相対位置とその変化量を特徴量とし,また,「怒り」,「悲しみ」,「喜び」,「平静」の内,特徴量ともっとも近い感情を感情データとして出力することに代えて,ユーザの複数の感情それぞれの前記特徴量との近似度を,当該ユーザのそれぞれの感情の度合いとして表情データに含めて出力することは,当業者であれば適宜なし得たものである。
したがって,引用発明において,適宜,顔画像の特徴量を目,眉,眉間,額,鼻,口唇のいずれか1ないし複数から抽出し,ユーザの複数の感情それぞれの特徴量との近似度を表情データに含めて出力すること,すなわち,相違点1に係る構成とすることは,当業者が容易に想到し得たことである。

よって,相違点1は格別なものではない。

(2)相違点2について

引用発明では,言語変換部において文字修飾部から出力される修飾された文字データを他言語に翻訳しているが,話者の感情に対応した言いまわしで機械翻訳処理を行う技術は,例えば引用文献2(上記E,F参照)に記載されているように,本願出願前には当該技術分野の周知技術であった。
また,引用文献1の上記Aの「本発明は,このような状況に鑑みてなされたものであり,音声を文字情報に変換して送信する音声通信端末装置において,感情などの非言語的情報の伝達を可能とすることを目的とする。」との記載からすると,引用発明は音声情報を文字情報に変換して送信する時に,話者の感情も併せて伝送することを目的としていることから,話者の感情に対応した言いまわしで機械翻訳処理を行う引用文献2に記載の周知技術とは,話者の感情も併せて文字情報として伝送する点で目的が一致していることは明らかである。
一方,引用発明では,言語変換部が出力言語に対応した修飾データによる文字データの修飾処理までは実行せず,修飾変換部で翻訳後の文字データに対して,修飾データを出力言語に対応した修飾データに変換してから修飾処理を実行していると解されるが,言語変換部と修飾変換部を1つの処理部,例えば言語変換部で,修飾された文字データと修飾データを入力とし,出力言語に対応した修飾データにより修飾された翻訳後文字データを出力することは,当業者にとって単なる設計変更に過ぎない。そして,この場合,1つの処理部として実行することで実質的な違いは生じないといえる。
してみると,引用発明において,話者の感情に対応した言いまわしで機械翻訳処理を行う旨の上記周知技術を適用し,言語変換部が文字修飾部から入力される文字データを他言語に翻訳し,修飾変換部で翻訳後の文字データに対して,修飾データを出力言語に対応した修飾データに変換してから修飾処理を実行することに代えて,適宜,1つの処理部で,文字修飾部から入力される文字データを,感情に関係づけられた修飾データに対応した言いまわしで他言語に翻訳するとともに,修飾データを出力言語に対応した修飾データに変換して,翻訳後文字データについて出力言語に対応した書式で修飾処理を実行することは,当業者であれば適宜なし得たものである。
したがって,引用発明において,引用文献2に記載の周知技術を適用し,適宜,言語変換部で,文字データを,修飾データに対応した言いまわしで他言語に翻訳するとともに,翻訳後文字データについて,出力言語に対応した書式で修飾処理を実行すること,すなわち,相違点2に係る構成とすることは,当業者が容易に想到し得たことである。

よって,相違点2は格別なものではない。

(3)小括

上記で検討したごとく,相違点1及び2は格別のものではなく,そして,これらの相違点を総合的に勘案しても,本願発明の奏する作用効果は,上記引用発明及び引用文献2に記載の周知技術の奏する作用効果から予測される範囲内のものにすぎず,格別顕著なものということはできない。


6.意見書の主張について

(1)なお,請求人は上記平成26年5月30日付けの意見書において,次の様に主張している。
『5.本願補正後の発明と引用文献との比較
本願補正後の新請求項1は,上記記載の如く,「前記音声データ翻訳部は,前記補正音声データを通話相手の言語の翻訳文に翻訳する際に,ユーザの感情ごとに異なる書式で修飾した前記補正音声データに対応する前記通話相手の言語の書式に変換する」点を特徴とするものである。すなわち,本願発明は,補正音声データを「補正後(修飾後)に翻訳を行う」ものである。こ
れにより,明細書段落0025に記載の如く,「音声データの精度向上させ,通話を円滑に行うことができる」という特有の効果を奏するものである。
一方で,引用文献1は,「翻訳文の文字データを対応する翻訳前の文字データの修飾情報に基づいて修飾する」ものであり,「翻訳後に修飾を行う」ものであり,本願発明の「補正後(修飾後)に翻訳を行う」とは相違している。
また,引用文献2は,「音声認識結果と感情情報とに基づいて知識ベースから機械翻訳を行う」ものであるが,本願発明の「ユーザの感情ごとに異なる書式で修飾した前記補正音声データに対応する前記通話相手の言語の書式に変換する」ものとは相違している。さらに,引用文献2には,本願発明の「ユーザの感情に適合した言い回しの翻訳を行うように指示する付加情報を前記補正音声データに追加」という構成も開示されておらず,具体的にどのようにして感情情報を用いて翻訳を行うのかが開示されていない。』

(2)しかしながら,上記「5.当審の判断」「(2)相違点2について」での検討のとおり,引用発明の言語変換部と修飾変換部を1つの処理部,例えば言語変換部で,修飾された文字データと修飾データを入力とし,出力言語に対応した修飾データにより修飾された翻訳後文字データを出力することは,当業者にとって設計的事項である。そして,引用発明の言語変換部と修飾変換部を1つの処理部としてみると,当該処理部は,修飾された文字データを翻訳文に翻訳する際に,修飾データを出力言語に対応した修飾データに変換して,翻訳後文字データについて出力言語に対応した書式に変換しているといえる。
そうすると,請求人が主張する『引用文献1は,「翻訳文の文字データを対応する翻訳前の文字データの修飾情報に基づいて修飾する」ものであり,「翻訳後に修飾を行う」ものであり,本願発明の「補正後(修飾後)に翻訳を行う」とは相違している。』点については,引用発明と本願発明との間の実質的な差異であると認めることはできない。

したがって,上記意見書の主張を認めることはできない。


7.むすび

以上のとおり,本願の請求項1に係る発明は,特許法第29条第2項の規定により特許を受けることができないものであるから,その余の請求項に係る発明について検討するまでもなく,本願は拒絶すべきものである。

よって,結論のとおり審決する。
 
審理終結日 2014-07-18 
結審通知日 2014-07-22 
審決日 2014-08-07 
出願番号 特願2006-191207(P2006-191207)
審決分類 P 1 8・ 121- WZ (G06F)
最終処分 不成立  
前審関与審査官 長 由紀子  
特許庁審判長 仲間 晃
特許庁審判官 辻本 泰隆
田中 秀人
発明の名称 翻訳機能付き携帯電話装置、音声データ翻訳方法、音声データ翻訳プログラムおよびプログラム記録媒体  
代理人 家入 健  

プライバシーポリシー   セキュリティーポリシー   運営会社概要   サービスに関しての問い合わせ