• ポートフォリオ機能


ポートフォリオを新規に作成して保存
既存のポートフォリオに追加保存

  • この表をプリントする
PDF PDFをダウンロード
審決分類 審判 査定不服 特36条6項1、2号及び3号 請求の範囲の記載不備 特許、登録しない。 G06T
管理番号 1392974
総通号数 13 
発行国 JP 
公報種別 特許審決公報 
発行日 2023-01-27 
種別 拒絶査定不服の審決 
審判請求日 2022-04-28 
確定日 2022-12-01 
事件の表示 特願2018−164408「画像解析装置、画像解析方法、およびプログラム」拒絶査定不服審判事件〔令和 2年 3月12日出願公開、特開2020− 38432〕について、次のとおり審決する。 
結論 本件審判の請求は、成り立たない。 
理由 第1 手続の経緯
本願は、平成30年9月3日を出願日とするものであって、その手続の経緯は以下のとおりである。
令和3年 9月30日付け:拒絶理由通知書
同年12月 2日 :意見書、手続補正書の提出
令和4年 2月 4日付け:拒絶査定
同年 4月28日 :審判請求書、手続補正書の提出
同年 6月 3日 :前置報告

第2 本件補正発明について
本願の請求項1ないし8に係る発明は、令和4年4月28日提出の手続補正書により補正(以下、本件補正という)された特許請求の範囲の請求項1ないし8に記載された事項によって特定されるものであるところ、その請求項1に係る発明(以下、本件補正発明1という)は、本件補正により補正された特許請求の範囲の請求項1に記載された、以下のとおりのものである。(下線は補正箇所を示す。また、符号A〜Dは請求項の記載を分説するため当審で付したものであり、請求項1の記載を、符号A〜Dを用いて、以下では、「構成A」〜「構成D」と称する。以下同様。)

「【請求項1】
A 発話者が含まれる画像を取得する取得部と、
B 取得された前記画像において視線を誘引される可能性がある物標を検出し、取得された前記画像において前記発話者の視線の方向を推定し、検出された前記物標の内、推定された前記発話者の視線の方向の先の位置に存在する前記物標に基づいて、取得された前記画像上における前記発話者の視線の先の位置を推定する視線先位置推定部と、
C 発話内容の参考情報である文章情報および発話内容の文脈に関する情報を含む発話推測情報を学習することにより生成されたLSTM(Long short-term memory)言語モデルに対して、推定された前記視線の先の位置にある前記物標を示す単語を入力して連続する言葉の並びに基づいて次に出現させる言葉を推測することで、前記発話者の発話内容を推測する発話内容推測部と、
D を備える画像解析装置。」

第3 原査定の理由
原審の令和4年2月4日付け拒絶査定における理由のうち、理由1は概略以下のとおりである。

●理由1(特許法第36条第4項第1号)について
・請求項 1−8
発明の詳細な説明の段落[0048],[0051]には、「発話内容推測部140は、発話内容の予測に視線先位置推定部132による視線先位置の推定結果の一部または全部を用いてもよい」、「発話内容推測部140は、例えば、図3に示す画像xiから、2名の人物が船上にいる様子であり、出航準備中であるものとして、“Are you ready for leave port?”という発話内容を推測するものとして、その推測方法を説明する。」と記載されているが、「発話内容」を「推測」するための構成が特定できない。
「視線先位置の推定結果」をどのように用いて「発話内容」を「予測」するのかが記載されておらず、「視線先位置」は位置の情報であって、「発話内容」と関連するものではないから、「視線先位置の推定結果の一部または全部を用い」、「発話内容」を「推測」するための構成が特定できない。
例えば、「図3に示す画像」について、「発話内容の予測に視線先位置推定部132による視線先位置の推定結果の一部または全部を用い」た場合に、どのような処理によりどのような「発話内容」を「推測」するのかが不明であるから、「視線先位置の推定結果の一部または全部を用い」、「発話内容」を「推測」するための構成が特定できない。
(中略)
発明の実施の形態の記載において、請求項1の「取得された前記画像および推定された前記視線の先の位置にある前記物標を示す単語が入力されたときに前記発話者の発話内容を出力するように学習されたモデルを用いて、前記発話者の発話内容を推測する発話内容推測部」に関し、具現すべき構成等が不明瞭である。
よって、当業者が請求項1に係る発明を実施することができる程度に明確かつ十分に記載されているとは認められない。

第4 当審の判断
そこで、本件補正発明1の構成Cの「発話内容の参考情報である文章情報および発話内容の文脈に関する情報を含む発話推測情報を学習することにより生成されたLSTM(Long short-term memory)言語モデルに対して、推定された前記視線の先の位置にある前記物標を示す単語を入力して連続する言葉の並びに基づいて次に出現させる言葉を推測することで、前記発話者の発話内容を推測する発話内容推測部」に関連する、発明の詳細な説明の記載について検討する。

1 構成Cの上記「発話内容推測部」に関連して、発明の詳細な説明には以下の記載がある。(下線は強調のため、当審で付したものである。)

(1) 「【0014】
<第1実施形態>
[全体構成]
図1は、第1実施形態の画像解析装置100の使用環境および構成の一例を示す図である。・・・
【0015】
画像解析装置100は、例えば、取得部110と、特徴量導出部120と、発話者推定部130と、発話内容推測部140と、発話相手推測部150と、出力部160と、記憶部170とを備える。
・・・
【0020】
発話者推定部130は、例えば、視線先位置推定部132を備える。視線先位置推定部132は、特徴量導出部120により出力された特徴量と、発話者推定部130により推定された発話者とに基づいて、発話者の視線の先の位置(視線先位置)を推定する。
・・・
【0022】
発話内容推測部140は、特徴量導出部120により出力された特徴量、発話者推定部130により推定された発話者、および視線先位置推定部132により推定された人物の視線先位置に基づいて、発話者の発話内容を推測する。発話内容には、話題に挙がる目的語や、話題の方向性(例えば、ポジティブな内容か、ネガティブな内容か)の情報が含まれる。
【0023】
発話内容推測部140は、推測した発話者および発話内容を発話相手推測部150および出力部160に出力する。
・・・
【0026】
記憶部170は、発話推測情報171を記憶する。発話推測情報171とは、発話内容推測部140により参照され、発話内容の参考情報として用いられる文章情報、および発話内容の文脈に関する情報を含むものである。
【0027】
発話内容推測部140は、推測結果を発話推測情報171として記憶させることで、発話内容推測部140による推測結果を学習させてもよい。また、発話推測情報171には、特徴量導出部120により導出される場面タイトルが含まれていてもよい。また、発話内容推測部140は、発話推測情報171として、図1に示すネットワークNWを介して、発話内容の参考情報として用いられる文章情報や、発話内容の文脈に関する情報を他の情報源を学習させてもよい。」

(2) 「【0039】
図3は、視線先位置推定部132により視線先位置が推定された結果の一例を示す図である。例えば、視線先位置推定部132は、図3の右側の人物の視線先位置を推定し、どの人物に対して視線先位置を推定したかの推定結果を顔の上の丸印で示す。なお、画像解析装置100は、視線先位置推定部132によって視線先位置を推定した右の人物を、発話者であるものとして、発話内容の推測を行う。
【0040】
視線先位置推定部132による視線先位置推定処理は、下記の式(2)〜(5)により示すことができる。
【0041】
【数2】


【0042】
式(2)において、aは受信者区分(addressee class;発話者の視線の先が画像xi内の物標であるか、撮像者であるか、それ以外であるかを示す分類区分)を示し、I1は顕著性マップS(xi)によって得られる特徴量を示し、I2は視線マスクマップG(xh,xp)によって得られる発話者特徴量を示し、θはLSTM言語モデルp(a|I1,I2,S1,…,ST)におけるモデルパラメータを示す。発話内容を構成する単語S1‐STはベクトル値によって示される。単語S1‐STは予め用意された多数の候補から抽出されたものである。また、argmaxは対象項を最大にするパラメータを求める関数であり、p()は視線先位置推定モデルを示す式であり、1以上のモダリティストリームを含むモデルを定式化するものである。モダリティストリームとは、話している内容に対する話し手の判断や感じ方を表す言語表現モデルの構成要素の一部のことである。モダリティストリームとは、例えば、saliency-estimation-feature stream、speaker-appearance-feature stream、utterance-based-feature streamと称されるものである。

(3) 「発話内容推測部140は、例えば、発話者の表情や仕草に応じて発話内容に反映する単語S1‐STの抽出方法を選択したり、抽出元となる単語群を発話推測情報171から選択したりする。θ*はp()を最大にするパラメータθを示す。また、Tは発話内容の単語の数を示す正の整数である。発話内容推測部140は、式(2)に示す関係をモデル化するため、例えば、式(3)〜(5)を用いて、モダリティストリーム毎に1つずつモデル化する。
【0043】
【数3】

【0044】
式(3)〜(5)において、W1およびW2はネットワークパラメータであり、b1およびb2はバイアス値であり、ReLU(Rectified Linear Unit)は、正規化線形関数であり、concatは、結合関数である。発話内容推測部140は、顕著性マップS(xi)を式(3)で、視線マスクマップG(xh,xp)を式(4)で処理し、その処理結果を式(5)で統合する。式(5)のconcatは、ベクトルを結合する関数である、concatenate関数を示す。」

(4) 「【0045】
[発話内容推測]
発話内容推測部140による発話内容の推測処理は、例えば、以下の2段階の手順により実現される。
(e)画像全体分析
(f)発話内容推測
【0046】
以下、(e)〜(f)の各手順について説明する。
【0047】
(e)画像全体分析
発話内容推測部140は、例えば、画像xiに映り込む人物、物標、背景等の物標を分析する。発話内容推測部140は、特徴量導出部120の導出結果を用いて物標を分析してもよい。
【0048】
発話内容推測部140は、例えば、発話者推定部130によって画像xiに映り込む人物から発話者を推測された結果に基づいて、画像xiにおいてその発話者の映り込む部分を分析する。なお、発話内容推測部140は、発話内容の予測に視線先位置推定部132による視線先位置の推定結果の一部または全部を用いてもよいし、依頼元端末200による視線の入力を取得した結果を用いてもよい。
【0049】
(f)発話内容推測
発話内容推測部140は、例えば、手順(e)で分析された物標を示す単語や、それらから連想される単語に基づいて、発話者の発話しそうな文章を構成することで、発話者の発話内容を推測する。
【0050】
発話内容推測部140による発話内容推測は、例えば、LSTM(Long short-term memory)言語モデルにより実現される。LSTM言語モデルとは、学習内容を長期的に活用する再帰型ニューラルネットワーク(RNN)により実現されるモデルであり、例えば、演算過程が累積記憶して以後の計算に用いられる。LSTM言語モデルを用いて処理を行う方法は、イメージ・キャプショニング(Image Captioning;画像説明文自動生成)方法と称される場合がある。なお、LSTM言語モデルは、注意モデル(Attention Model;例えば、発話者や発話者の視線を示す画像xiの一部分に注目を向けさせる補完情報)で拡張されてもよい。
【0051】
図4は、発話内容推測部140によって推測された発話内容の構成を示す図である。発話内容推測部140は、例えば、図3に示す画像xiから、2名の人物が船上にいる様子であり、出航準備中であるものとして、“Are you ready for leave port〜”という発話内容を推測するものとして、その推測方法を説明する。
【0052】
例えば、図4の上図に示す一般的なニューラルネットワーク言語モデルに基づいて文章が構成される場合、文章を構成する第4単語S4(文頭から4つ目の単語)の“for”を導出する過程において、入力データとして第4単語の直前に用いられる第3単語S3(文頭から3つ目の単語)の“ready”のみが用いられる。
【0053】
一方、図4の下図に示すLSTM言語モデルに基づいて文章が構成される場合、文章を構成する第4単語を導出する過程において、第1単語〜第3単語("Are you ready")を入力データとして、第4単語が導出される。したがって、LSTM言語モデルは、連続する言葉の並びに基づいて次に出現させる言葉を推測することができ、単語や文の並びの妥当性を高めることができる。」

2 上記1の(1)〜(4)の記載から、発明の詳細な説明には以下の事項が記載されているといえる。

(1)画像解析装置100は、視線先位置推定部132を備えた発話者推定部130と発話者内容推測部140とを備え、視線先位置推定部132は、発話者の視線の先の位置(視線先位置)を推定し、発話内容推測部140は、視線先位置推定部132により推定された人物の視線先に基づいて、発話者の発話内容を推測する。

(2)視線先位置推定部132による視線先位置推定処理は、下記の式(2)〜(5)により示すことができる。


式(2)において、θはLSTM言語モデルp(a|I1,I2,S1,…,ST)におけるモデルパラメータを示す。発話内容を構成する単語S1‐STはベクトル値によって示される。単語S1‐STは予め用意された多数の候補から抽出されたものであり、argmaxは対象項を最大にするパラメータを求める関数であり、p()は視線先位置推定モデルを示す式であり、1以上のモダリティストリームを含むモデルを定式化するものであり、モダリティストリームとは、話している内容に対する話し手の判断や感じ方を表す言語表現モデルの構成要素の一部のことである。

(3)発話内容推測部140は、式(2)

に示す関係をモデル化するため、例えば、式(3)〜(5)


を用いて、モダリティストリーム毎に1つずつモデル化する。
式(3)〜(5)において、W1およびW2はネットワークパラメータであり、b1およびb2はバイアス値であり、ReLU(Rectified Linear Unit)は、正規化線形関数であり、concatは、結合関数である。発話内容推測部140は、顕著性マップS(xi)を式(3)で、視線マスクマップG(xh,xp)を式(4)で処理し、その処理結果を式(5)で統合する。式(5)のconcatは、ベクトルを結合する関数である、concatenate関数を示す。

(4)発話内容推測部140による発話内容の推測処理は、(e)画像全体分析と(f)発話内容推測の2段階の手順により実現され、
画像全体分析では、発話内容推測部140は画像xiに映り込む物標を分析し、視線先位置推定部132による視線先位置の推定結果を用いて発話内容を予測し、
発話内容推測では、(e)の画像全体分析で分析された物標を示す単語や、それらから連想される単語に基づいて、発話者の発話しそうな文章を構成することで、発話者の発話内容を推測するものであり、例えばLSTM言語モデルにより実現されものである。

(5)LSTM言語モデルとは、学習内容を長期的に活用する再帰的ニューラルネットワークにより実現されるモデルであり、演算過程が累積記憶して以後の計算に用いられるものであり、LSTM言語モデルは、連続する言葉の並びに基づいて次に出現する言語を推測するものである。

3 そこで、本件補正発明1の構成Cに関する発明の詳細な説明の記載について検討する。

(1)そもそも、LSTM言語モデルとは、2(5)のとおり、
「学習内容を長期的に活用する再帰的ニューラルネットワークにより実現されるモデルであり、演算過程が累積記憶して以後の計算に用いられるものであり、LSTM言語モデルは、連続する言葉の並びに基づいて次に出現する言語を推測するものである」
以上、時系列的に入力される言語情報、例えば文章、を入力して、次に出現する単語を予測したり、文章の内容を分類するような技術が把握できるにすぎず、通常、単に物標を示す単語1つやその単語と関連する単語1つを入力したり、これらの単語を順不同でばらばらに入力したところで、次に出現する単語を予測できるわけではないし、ましてや発話者が発話しそうな文章を構成できるものではない。

このような技術的前提ないし技術水準に基づき、発明の詳細な説明に記載される事項について、当該記載事項がおよそ当業者にとって実施可能なものであるかどうかについて検討する。

(2)上記2(2)において、視線先位置推定部132による視線先位置推定処理にはLSTM言語モデルにおけるパラメータを勘案するものであるが、画像中に写る人物の視線先位置推定処理にLSTM言語モデルを導入すると、視線先がなぜ正しく推測できるのか、その推測処理を実施するための具体的な処理は、LSTM言語モデルに関する技術的前提ないし技術水準を踏まえても理解することができないため、当業者が当該記載事項を実施することができない。
すなわち、画像情報だけからどのようにして発話内容を構成する単語S1−STが得られるのかすらも理解することができず、そのような単語を視線先位置推定部132に入力することで、LSTM言語モデルにより視線先を正しく推定するという技術事項を実現するための具体的な処理は、技術的に理解することができないため、当業者が当該記載事項を実施することができない。

(3)上記2(3)において、式(3)〜(5)は顕著性マップや視線マスクマップを処理した後、その結果を統合するというものであり、視線先位置に関する情報を用いることが把握できるにすぎない。
そして、発話内容推測部140において、話している内容に対する話し手の判断や感じ方を表す言語表現モデルの構成要素の一部であるモダリティストリーム毎に、式(2)に示す関係をモデル化するために、式(3)〜(5)により得られた結果を、どのように用いてモデル化をするのかが理解できない。
さらに、式(2)に示す関係をモデル化することと関連する、モダリティストリームの例示的説明すらも存在しないことを踏まえると、当該記載から発話内容推測部140がどのような処理を行えば「推定された前記視線の先の位置にある前記物標を示す単語を入力して連続する言葉の並びに基づいて次に出現させる言葉を推測する」ことが実現できるのか、その具体的な処理について、LSTM言語モデルに関する技術的前提ないし技術水準を踏まえても、技術的に理解することできないため、当業者が当該記載事項を実施することができない。

(4)上記2(4)において、発話内容推測部140は、画像全体分析で画像xiに映り込む物標を分析し、視線先位置推定部132による視線先位置の推定結果を用いて発話内容を予測するというものであるが、物標の分析結果と視線先位置の推定結果を用いて発話内容を予測するための具体的な処理について、LSTM言語モデルに関する技術的前提や技術水準を踏まえても、技術的に理解できない。
さらに、発話内容推測では、画像全体分析で分析された物標を示す単語や、それらから連想される単語に基づいて、発話者の発話しそうな文章を構成することで、発話者の発話内容を推測することができるのか、その具体的な処理について、LSTM言語モデルに関する技術的前提ないし技術水準を踏まえても、理解できない。
したがって、当業者が当該記載事項を実施することができない。

(5)(2)〜(4)を総括するに、本件補正発明1の構成Cに関して、発明の詳細な説明に記載の技術事項、とりわけ上記2(1)〜(5)のような技術事項、を実現するための具体的な処理は、発明の詳細な説明及びLSTM言語モデルに関する技術的前提ないし技術水準を踏まえても、技術的に理解することができないため、当業者が当該技術事項を実施することができない。
したがって、本件明細書の発明の詳細な説明は、当業者が本件補正発明1を実現できる程度に明確かつ十分に記載されていない。

第5 審判請求人の主張について

審判請求人は、審判請求書の「3.拒絶理由について 3−1.理由1(特許法第36条第4項第1号):実施可能要件」において、「出願当初の明細書の段落[0026]、[0027]、[0049]〜[0053]に基づいて、「発話内容推測部」の構成を限定する補正を行いました。具体的には、請求項1において、「発話内容の参考情報である文章情報および発話内容の文脈に関する情報を含む発話推測情報を学習することにより生成されたLSTM(Long short-term memory)言語モデルに対して、推定された前記視線の先の位置にある前記物標を示す単語を入力して連続する言葉の並びに基づいて次に出現させる言葉を推測することで、前記発話者の発話内容を推測する発話内容推測部」とする補正を行いました。」と説明している。

しかしながら、上記第4の3のとおり、出願当初の明細書の上記箇所の記載を踏まえても、依然として本件補正発明1の構成Cは、当業者が実施できる程度に記載されているとはいえない。

第6 むすび
以上のとおり、本件明細書の発明の詳細な説明には、当業者が本件補正発明1を実現できる程度に明確かつ十分に記載されているということはできず、本件出願は特許法第36条第4項第1項に規定する要件を満たしていない。
したがって、その他の請求項について検討するまでもなく、本件出願は、拒絶をすべきものである。
よって、上記結論のとおり審決する。
 
別掲 (行政事件訴訟法第46条に基づく教示) この審決に対する訴えは、この審決の謄本の送達があった日から30日(附加期間がある場合は、その日数を附加します。)以内に、特許庁長官を被告として、提起することができます。
 
審理終結日 2022-09-29 
結審通知日 2022-10-04 
審決日 2022-10-17 
出願番号 P2018-164408
審決分類 P 1 8・ 537- Z (G06T)
最終処分 02   不成立
特許庁審判長 五十嵐 努
特許庁審判官 田中 啓介
川崎 優
発明の名称 画像解析装置、画像解析方法、およびプログラム  
代理人 酒井 太一  
代理人 松沼 泰史  
代理人 沖田 壮男  
代理人 渡辺 伸一  

プライバシーポリシー   セキュリティーポリシー   運営会社概要   サービスに関しての問い合わせ