• ポートフォリオ機能


ポートフォリオを新規に作成して保存
既存のポートフォリオに追加保存

  • この表をプリントする
PDF PDFをダウンロード
審決分類 審判 査定不服 2項進歩性 特許、登録しない(前置又は当審拒絶理由) A63F
管理番号 1367773
審判番号 不服2019-7116  
総通号数 252 
発行国 日本国特許庁(JP) 
公報種別 特許審決公報 
発行日 2020-12-25 
種別 拒絶査定不服の審決 
審判請求日 2019-05-31 
確定日 2020-11-05 
事件の表示 特願2017-253701「情報処理装置及び情報処理プログラム」拒絶査定不服審判事件〔令和 1年 7月22日出願公開,特開2019-118461〕について,次のとおり審決する。 
結論 本件審判の請求は,成り立たない。 
理由 第1 手続の経緯

本願は,平成29年12月28日の出願であって,平成30年7月23日付けで拒絶理由が通知され,その指定期間内である同年9月28日に意見書が提出されるとともに手続補正がなされ,これに対し,同年11月1日付けで新たに拒絶理由が通知され,その指定期間内である平成31年1月18日に意見書が提出されたが,同年2月27日付けで拒絶査定(以下,「原査定」という。)がなされ,これに対し,令和1年5月31日に拒絶査定不服審判が請求され,令和2年6月3日付けで拒絶理由通知がされ,同年7月2日付けで意見書が提出されるとともに手続補正がなされたものである。


第2 本願発明について

本願の請求項に係る発明は,令和2年7月2日にされた手続補正により補正された特許請求の範囲の請求項1-7に記載された事項により特定されるものであるところ,その請求項1に係る発明(以下,「本願発明」という。)は,その請求項1に記載された以下のとおりのものである。

「 【請求項1】
複数のオブジェクトを使用する電子ゲームに関するゲーム進行履歴であって、ゲームにおいて影響を与えているオブジェクトの情報を含むゲームの状況の情報、当該オブジェクトのうち当該状況において使用されたオブジェクトの情報、及び当該オブジェクトの使用によって生じたゲーム上の効果を示す情報を含むゲームログ、に基づいて、前記オブジェクトの各々の特徴を表す特徴ベクトルを学習する表現学習部を備える情報処理装置であって、
前記表現学習部は、前記ゲームのターンtにおける前記ゲームの状況の情報gtから当該ターンtにおいて使用されたオブジェクトct1の情報を除いた情報と、当該オブジェクトct1に関する情報と、を組み合わせた情報(gt,ct1)を入力として、当該オブジェクトct1を使用した際の前記ゲーム上の効果の情報rtを教師データとして表現学習を行うことによって、前記複数のオブジェクトの種類の数より少ない次元数で前記複数のオブジェクトの各々を表現した前記特徴ベクトルを求めることを特徴とする情報処理装置。」


第3 原査定の拒絶の理由

原査定の拒絶の理由は,この出願の請求項1-8に係る発明は,本願の出願前に日本国内又は外国において,頒布された又は電気通信回線を通じて公衆に利用可能となった下記の引用文献1に記載された発明及び引用文献2-3に記載された技術的事項に基づいて,その出願前にその発明の属する技術の分野における通常の知識を有する者が容易に発明をすることができたものであるから,特許法第29条第2項の規定により特許を受けることができない,というものである。(なお,拒絶査定中,「・引用文献等 1-4」と記載されているのは,実際に引用されている文献は3つであることから,「・引用文献等 1-3」の誤記であると認める。)

引用文献1.特開2013-81683号公報
引用文献2.特許第6018345号公報(周知技術を示す文献)
引用文献3.“30分でわかる機械学習用語「次元削減(DimensionalityReduction)」”,[online],Qiita,2016年12月27日,[平成30年10月31日検索],インターネット,<URL: https://qiita.com/aya_taka/items/4d3996b3f15aa712a54f>(周知技術を示す文献)


第4 引用文献等の記載及び引用発明

1 引用文献1
(1)本願の出願前に頒布された又は電気通信回線を通じて公衆に利用可能となった引用文献であって,原審の拒絶の査定の理由である平成30年11月1日付けの拒絶理由通知において引用文献1として引用された特開2013-81683号公報(平成25年5月9日出願公開。以下,「引用文献1」という。)には,図面とともに次の記載がある。(当審注:下線は,参考のために当審で付与したものである。)

「【0071】
1つの特徴量ベクトルは、1つの学習用データを構成するデータを基底関数リストに含まれる各基底関数に入力することで得られる。つまり、1つの学習用データには1つの特徴量ベクトル(特徴量座標)が対応する。そのため、特徴量座標の分布を特徴量空間における学習用データの分布と呼ぶことにする。特徴量空間における学習用データの分布は、例えば、図14のようになる。なお、表現の都合上、図14の例では2次元の特徴量空間を考えているが、特徴量空間の次元数はこれに限定されない。」

「【0130】
(2-1-2:思考ルーチンの構成)
図35に示すように、本実施形態に係る思考ルーチンは、行動履歴データに基づく思考ルーチンの自動構築技術により生成される。この行動履歴データは、状態S、行動a、報酬rにより構成される。例えば、状態S=S1において、NPC#1が行動a=“右へ移動”をとった場合にNPC#2からダメージを受けてヒットポイントが0になったとしよう。この場合、行動履歴データは、状態S=S1、行動a=“右へ移動”、報酬r=“0”となる。このような構成を有する行動履歴データを予め蓄積しておき、この行動履歴データを学習データとする機械学習により思考ルーチンを自動構築することができる。」

「【0139】
(全体的な機能構成)
まず、図39を参照しながら、全体的な機能構成について説明する。図39に示すように、情報処理装置10は、主に、行動履歴データ取得部11と、報酬推定機構築部12と、入力データ取得部13と、行動選択部14とにより構成される。
・・・(中略)・・・
【0141】
行動履歴データ取得部11により取得された行動履歴データは、報酬推定機構築部12に入力される。行動履歴データが入力されると、報酬推定機構築部12は、入力された行動履歴データに基づく機械学習により報酬推定機を構築する。例えば、報酬推定機構築部12は、既に説明した遺伝アルゴリズムに基づく推定機の自動構築方法を利用して報酬推定機を構築する。また、行動履歴データ取得部11から追加の行動履歴データが入力された場合、報酬推定機構築部12は、行動履歴データを統合し、統合後の行動履歴データを利用して報酬推定機を構築する。」

「【0144】
(報酬推定機構築部12の機能構成)
次に、図40を参照しながら、報酬推定機構築部12の機能構成について詳細に説明する。図40に示すように、報酬推定機構築部12は、基底関数リスト生成部121と、特徴量計算部122と、推定関数生成部123と、行動履歴データ統合部124とにより構成される。
【0145】
思考ルーチンの構築処理が開始されると、まず、基底関数リスト生成部121は、基底関数リストを生成する。そして、基底関数リスト生成部121により生成された基底関数リストは、特徴量計算部122に入力される。また、特徴量計算部122には、行動履歴データが入力される。基底関数リスト及び行動履歴データが入力されると、特徴量計算部122は、入力された行動履歴データを基底関数リストに含まれる各基底関数に入力して特徴量を算出する。特徴量計算部122により算出された特徴量の組(特徴量ベクトル)は、推定関数生成部123に入力される。
【0146】
特徴量ベクトルが入力されると、推定関数生成部123は、入力された特徴量ベクトル及び行動履歴データを構成する報酬値rに基づいて回帰/判別学習により推定関数を生成する。なお、遺伝アルゴリズムに基づく推定機の構築方法を適用する場合、推定関数生成部123は、生成した推定関数に対する各基底関数の寄与率(評価値)を算出し、その寄与率に基づいて終了条件を満たすか否かを判定する。終了条件を満たす場合、推定関数生成部123は、基底関数リスト及び推定関数を含む報酬推定機を出力する。
【0147】
一方、終了条件を満たさない場合、推定関数生成部123は、生成した推定関数に対する各基底関数の寄与率を基底関数リスト生成部121に通知する。この通知を受けた基底関数リスト生成部121は、遺伝アルゴリズムにより各基底関数の寄与率に基づいて基底関数リストを更新する。基底関数リストを更新した場合、基底関数リスト生成部121は、更新後の基底関数リストを特徴量計算部122に入力する。更新後の基底関数リストが入力された場合、特徴量計算部122は、更新後の基底関数リストを用いて特徴量ベクトルを算出する。そして、特徴量計算部122により算出された特徴量ベクトルは、推定関数生成部123に入力される。
【0148】
上記のように、遺伝アルゴリズムに基づく推定機の構築方法を適用する場合、終了条件が満たされるまで、推定関数生成部123による推定関数の生成処理、基底関数リスト生成部121による基底関数リストの更新処理、及び特徴量計算部122による特徴量ベクトルの算出処理が繰り返し実行される。そして、終了条件が満たされた場合、推定関数生成部123から報酬推定機が出力される。」

「【0150】
行動履歴データ統合部124は、先に紹介したデータセットの統合方法を応用して既存の行動履歴データと追加の行動履歴データとを統合する。例えば、行動履歴データ統合部124は、特徴量空間において特徴量ベクトルにより示される座標(特徴量座標)の分布が所定の分布となるように行動履歴データを間引いたり、行動履歴データに重みを設定したりする。行動履歴データを間引いた場合、間引き後の行動履歴データが統合後の行動履歴データとして利用される。一方、行動履歴データに重みを設定した場合、推定関数生成部123による回帰/判別学習の際に各行動履歴データに設定された重みが考慮される。」

「【0203】
[3-5:「ロールプレイングゲーム」への応用]
次に、図68?図79を参照しながら、本実施形態に係る技術を「ロールプレイングゲーム」へと応用する方法について説明する。ここでは、「ロールプレイングゲーム」の戦闘シーンにおいてプレーヤに代わってキャラクタを賢く自動操作する思考ルーチンの自動構築方法について考える。なお、ここで考える「ロールプレイングゲーム」のルールは、図68に示した通りである。また、図68に示すように、状態Sはプレーヤに提供される情報であり、行動aはキャラクタを操作するコマンドである。
【0204】
戦闘シーンの環境は、図69に示した通りである。まず、戦闘に勝つと生存者で経験値が山分けされる。さらに、経験値が貯まるとレベルアップする。また、レベルアップすると、キャラクタの職業に応じてステータスの値がアップしたり、魔法を覚えたりする。また、戦闘に5回連続で勝つと敵のレベルが1つアップすると共に、キャラクタのヒットポイントが回復する。また、敵のレベルが31に達するとゲームをクリアしたことになる。
【0205】
なお、戦闘シーンにおいて、キャラクタが持つステータスの1つである“素早さ”の値に応じて各キャラクタが行動をおこせるタイミングが決まる。また、キャラクタがとれる行動は、“攻撃”及び“魔法(魔法を覚えている場合)”である。魔法の種類としては、Heal、Fire、Iceがある。Healは、味方のヒットポイント(HP)を回復する魔法である。Fireは、火を用いて敵を攻撃する魔法である。Iceは、氷を用いて敵を攻撃する魔法である。また、魔法をかけるターゲットは、単体又は全体のいずれかを選択可能である。但し、全体を選択した場合には魔法の効果が半減する。また、使える魔法の種類やレベルは、キャラクタのレベルに応じて変わる。さらに、同じ魔法でもレベルの高い魔法ほどマジックポイント(MP)を多く消費するが、効果は高い。
【0206】
キャラクタの職業及び職業毎のステータスは、図70に示した通りである。ステータス上昇率は、キャラクタのレベルが1つアップする度にステータスがアップする割合を示している。また、魔法を覚えるLvは、記載された値のレベルに達した場合にキャラクタが魔法を覚えるレベルを示している。但し、空欄に対応する魔法は覚えられない。また、0と記載されている箇所は、最初から魔法を覚えていることを示している。なお、味方のパーティは、上側4種類の職業を持つキャラクタにより構成される。一方、敵のパーティは、下側4種類の職業を持つキャラクタから選択されたキャラクタにより構成される。
【0207】
状態Sとして利用される味方側の情報は、図71に示した通りである。例えば、生存する味方のレベル、職業、HP、最大HP、MP、最大MP、攻撃力、防御力、素早さなどが状態Sとして利用される。なお、職業の欄は、当てはまる職業の欄に1、それ以外の欄に0が記入される。また、その他の欄には現状の値が記入される。一方、状態Sとして利用される敵側の情報は、図72に示した通りである。例えば、生存する敵のレベル、職業、累積ダメージなどが状態Sとして利用される。なお、累積ダメージは、それまでに与えたダメージの合計値を示している。
【0208】
また、行動aとして利用される味方側の情報は、図73に示した通りである。例えば、行動者の欄には、これから行動を行うキャラクタの場合に1、それ以外の場合に0が記入される。また、行動対象の欄には、行動の対象となるキャラクタの場合に1、それ以外の場合に0が記入される。例えば、回復魔法を受けるキャラクタに対応する行動対象の欄には1が記入される。また、アクションの種類の欄には、行う行動の欄に1、行わない行動の欄に0が記入される。一方、行動aとして利用される敵側の情報は、図74に示した通りである。図74に示すように、敵側の情報としては行動対象の情報が利用される。
【0209】
さて、これまで説明してきた応用例と同様、情報処理装置10は、まず、行動履歴データを取得する。このとき、情報処理装置10は、行動の種類毎に選択確率に重みを付けた上で、ランダムに行動を選択するInnateを用いて行動履歴データを取得する。例えば、情報処理装置10は、魔法よりも攻撃を選択する確率を高く設定したInnateを用いてキャラクタを行動させる。また、図75に示すように、情報処理装置10は、味方がやられた場合には報酬“-5”を行動履歴データに設定し、敵を倒した場合には報酬“1”を行動履歴データに設定する。その結果、図76のA図に示すような行動履歴データが得られる。但し、味方や敵がやられる過程の評価も考慮するため、情報処理装置10は、図76のB図に示すように、直線的に報酬の値をDecayさせる。
【0210】
情報処理装置10は、上記のようにして取得された行動履歴データを用いて思考ルーチンを構築する。このとき、情報処理装置10は、時刻tにおける状態S及び行動aから時刻t+1における状態S’を推定する予測機を構築する。また、情報処理装置10は、時刻t+1における状態S’から推定報酬を算出する報酬推定機を構築する。そして、情報処理装置10は、図77に示すように、現在の状態Sにおいてキャラクタがとりうる行動毎に、予測機を用いて次の状態S’を予測する。さらに、情報処理装置10は、予測した状態S’を報酬推定機に入力して推定報酬yを算出する。推定報酬yを算出した情報処理装置10は、推定報酬yが最大となる行動aを選択する。
【0211】
図77の例では、行動a=“敵全体にFire”に対応する推定報酬yが最大となっている。そのため、この例においては、最適な行動として、行動a=“敵全体にFire”が選択される。但し、思考ルーチンは、図78に示すように、推定報酬が高く、推定誤差が大きく、特徴量空間における密度が疎な特徴量座標に対応する行動を選択するように構成されていてもよい。つまり、先に説明した効率的な推定報酬機の構築方法で紹介した報酬スコア、未知スコア、誤差スコアに基づいて思考ルーチンが構築されていてもよい。」

「図76


(図76には,左側に,上から下へと時間の経過を示す矢印が記載され,当該時間の経過に沿って複数の行動履歴データが構成されていることが記載されている。)

「図78


(図78から,「行動a」のそれぞれに対してプロットが行われていることを読み取ることができる。)

(2)上記(1)の記載について検討すると,次のことがいえる。
ア 【0203】の「本実施形態に係る技術を「ロールプレイングゲーム」へと応用する方法について説明する。」との記載は,引用文献1に記載された「情報処理装置10」をロールプレイングゲームへ応用する場合について説明することを述べたものであると認められる。

イ 【0209】の「情報処理装置10は、味方がやられた場合には報酬“-5”を行動履歴データに設定し、敵を倒した場合には報酬“1”を行動履歴データに設定する。その結果、図76のA図に示すような行動履歴データが得られる。但し、味方や敵がやられる過程の評価も考慮するため、情報処理装置10は、図76のB図に示すように、直線的に報酬の値をDecayさせる」との記載について,対応する図76を参照すると,「味方がやられた場合」や「敵を倒した場合」とは,対応する行動履歴データを構成する状態Sの状況において,当該行動履歴データを構成する行動aを行った場合に生じるゲーム上の効果について述べているものであることが明らかであり,上記報酬は,当該ゲーム上の効果についての評価値として設定されているものと認められるところ,上記記載から,情報処理装置10は,行動履歴データに対して,行動履歴データを構成する状態Sの状況において当該行動履歴データを構成する行動aを行った場合に生じるゲーム上の効果についての評価値である報酬rを設定するものと認められる。

ウ 【0146】に記載された「報酬値r」は,【0130】に記載された「報酬r」と同じ対象を表しているものと認められる。
この点を踏まえ,「報酬値r」を「報酬r」に言い換えると,【0144】-【0148】の上記引用する記載から,「報酬推定機構築部12」は,
「行動履歴データが入力されると,
特徴量計算部122は,基底関数リスト生成部121により生成された基底関数リストに入力された行動履歴データを入力して特徴量ベクトルを算出し,
推定関数生成部123は,入力された特徴量ベクトル及び行動履歴データを構成する報酬rに基づいて回帰/判別学習により推定関数を生成し,生成した推定関数に対する各基底関数の寄与率(評価値)を算出し,その寄与率に基づいて終了条件を満たすか否かを判定し,
終了条件を満たさない場合に,基底関数リスト生成部121は,推定関数生成部123から通知を受けた各基底関数の寄与率に基づいて基底関数リストを更新し,
特徴量計算部122は,更新後の基底関数リストを用いて特徴量ベクトルを算出し,
終了条件が満たされるまで,上記の推定関数生成部123による推定関数の生成処理,基底関数リスト生成部121による基底関数リストの更新処理,及び特徴量計算部122による特徴量ベクトルの算出処理が繰り返し実行されるものである」と認められる。

エ 【0071】の「1つの特徴量ベクトルは、1つの学習用データを構成するデータを基底関数リストに含まれる各基底関数に入力することで得られる。つまり、1つの学習用データには1つの特徴量ベクトル(特徴量座標)が対応する。」との記載,【0150】の「特徴量空間において特徴量ベクトルにより示される座標(特徴量座標)の分布」との記載,及び,【0211】の「図78に示すように、推定報酬が高く、推定誤差が大きく、特徴量空間における密度が疎な特徴量座標に対応する行動を選択するように構成されていてもよい。」との記載から,図78は「特徴量空間」にプロットされる特徴量ベクトルの分布を表しているものと認められる。
また,図78の記載から,「行動a」の各々に対してプロットが行われていることを読み取ることができる。
そして,これらのことから,図78にプロットされる「特徴量ベクトル」は,行動履歴データを構成する「行動a」のそれぞれについて算出されるものであると認められる。

オ 【0210】の「情報処理装置10は、上記のようにして取得された行動履歴データを用いて思考ルーチンを構築する。このとき、情報処理装置10は、時刻tにおける状態S及び行動aから時刻t+1における状態S’を推定する予測機を構築する。」との記載,及び,図76の記載から,「行動履歴データ」のそれぞれは,各時刻tに対応付けて構成されていることを読み取ることができる。

(3)上記(1)の記載及び上記(2)での検討を踏まえると,引用文献1には,以下の発明(以下,「引用発明」という。)が記載されているものと認められる。

「 情報処理装置10であって,

情報処理装置10は,報酬推定機構築部12により構成され,
行動履歴データは,状態S,行動a,報酬rにより構成され,
行動履歴データが入力されると,報酬推定機構築部12は,入力された行動履歴データに基づく機械学習により報酬推定機を構築し,

報酬推定機構築部12は,基底関数リスト生成部121と,特徴量計算部122と,推定関数生成部123とにより構成され,
行動履歴データが入力されると,
特徴量計算部122は,基底関数リスト生成部121により生成された基底関数リストに入力された行動履歴データを入力して特徴量ベクトルを算出し,
推定関数生成部123は,入力された特徴量ベクトル及び行動履歴データを構成する報酬rに基づいて回帰/判別学習により推定関数を生成し,生成した推定関数に対する各基底関数の寄与率(評価値)を算出し,その寄与率に基づいて終了条件を満たすか否かを判定し,
終了条件を満たさない場合に,基底関数リスト生成部121は,推定関数生成部123から通知を受けた各基底関数の寄与率に基づいて基底関数リストを更新し,
特徴量計算部122は,更新後の基底関数リストを用いて特徴量ベクトルを算出し,
終了条件が満たされるまで,上記の推定関数生成部123による推定関数の生成処理,基底関数リスト生成部121による基底関数リストの更新処理,及び特徴量計算部122による特徴量ベクトルの算出処理が繰り返し実行されるものであり,

特徴量ベクトルは,行動履歴データを構成する行動aのそれぞれについて算出されるものであり,

前記情報処理装置10を,ロールプレイングゲームへと応用する場合,
状態Sはプレーヤに提供される情報であり,行動aはキャラクタを操作するコマンドであり,
状態Sとして利用される味方側の情報は,生存する味方のレベル,職業,HP,最大HP,MP,最大MP,攻撃力,防御力,素早さなどが状態Sとして利用され,状態Sとして利用される敵側の情報は,生存する敵のレベル,職業,累積ダメージなどが状態Sとして利用され,
行動aとして利用される味方側の情報は,行動者の欄には,これから行動を行うキャラクタの場合に1,それ以外の場合に0が記入され,行動対象の欄には,行動の対象となるキャラクタの場合に1,それ以外の場合に0が記入され,アクションの種類の欄には,行う行動の欄に1,行わない行動の欄に0が記入され,行動aとして利用される敵側の情報は,行動対象の情報が利用され,
情報処理装置10は,行動履歴データに対して,行動履歴データを構成する状態Sの状況において当該行動履歴データを構成する行動aを行った場合に生じるゲーム上の効果についての評価値である報酬rを設定し,

行動履歴データのそれぞれは,各時刻tに対応付けて構成されている,

情報処理装置10。」

2 引用文献2
(1)本願の出願前に頒布された又は電気通信回線を通じて公衆に利用可能となった引用文献であって,原審の拒絶の査定の理由である平成30年11月1日付けの拒絶理由通知において引用文献2として引用された特許第6018345号公報(平成28年11月2日発行。以下,「引用文献2」という。)には,図面とともに次の記載がある。(当審注:下線は,参考のために当審で付与したものである。)

「【0005】
機械学習では、まず、学習対象の実行ファイル(教師データ)を、いくつかのパラメータの組に変換してから機械学習アルゴリズムで学習を行う。このパラメータの組を特徴ベクトル、または、単に特徴と呼び、この組に含まれるパラメータの数を特徴ベクトル次元と呼ぶ。また、実行ファイルを特徴ベクトルに変換することを特徴抽出と呼ぶ。特徴ベクトルの例として、特許文献1に記載の技術では、単語の単語名とその単語の出現数との組が特徴ベクトルであり、単語種別の数が特徴ベクトル次元となる。
【0006】
特徴ベクトル次元が大きいほど、判定精度が良くなるというわけではなく、逆に悪くなる場合がある。この現象は「次元の呪い」(非特許文献1,2)として知られている。非特許文献3に記載の技術では、実行ファイルのPE(Portable Executable)ヘッダ情報を用いた機械学習によるマルウェア判定を試みており、次元圧縮という手法を用いることで、特徴ベクトル次元を小さくし、より良い判定精度が得られることを示している。次元圧縮の手法でよく使われるものとして、例えば、主成分分析がある。これは、相関がある特徴同士を自動的に1つの特徴にまとめる手法である(例えば、人間の身長と体重という2つの特徴は大体比例関係にあるので、これら2つの特徴を1つの特徴にまとめる等の手法。この例では、1つにまとめた特徴を、例えば体の大きさと意味づけできるが、通常は意味づけできないことが多い)。」

3 引用文献3
(1)本願の出願前に頒布された又は電気通信回線を通じて公衆に利用可能となった引用文献であって,原審の拒絶の査定の理由である平成30年11月1日付けの拒絶理由通知において引用文献3として引用された,「“30分でわかる機械学習用語「次元削減(Dimensionality Reduction)」”,[online],Qiita,2016年12月27日,[平成30年10月31日検索],インターネット,<URL: https://qiita.com/aya_taka/items/4d3996b3f15aa712a54f>」(以下,「引用文献3」という。)には,次の記載がある。(当審注:下線は,参考のために当審で付与したものである。)

A 「30分でわかる機械学習用語「次元削減(Dimensionality Reduction)」」(タイトル)

B 「次元削減

次元削減とは?

「次元削減」とは、文字通り、データの次元数を減らすことです。
ここでいう「次元数」は、データセットのフィーチャーの数と言い換えることができます。

以下に次元削減の例を示します。





上図上は身長と体重の関係を示したグラフです。
このグラフにおいて、プロットされている×は体格を示したもので、右上方向に進むほど、体格が良いととらえることができます。

それを一次元の線上に落とし込んだものが上図下の赤い直線になります。
この状態でも、右へ進むほど体格が良くなっている、と認識することができるかと思います。

今回の例は、二次元から一次元に落とし込んでいますが、削減後も体格を示すというデータの意味を保つことができています。
この場合、赤い直線は「体格」の軸と呼ぶことができるでしょう。
次元削減とは、多次元からなる情報を、その意味を保ったまま、それより少ない次元の情報に落とし込むことです。」(「次元削減」の項)

4 参考文献1
(1)本願の出願前に頒布された又は電気通信回線を通じて公衆に利用可能となった文献である「氏原 淳志,“第2章 ディープラーニング入門 CNNで画像分類とドキュメント分類にチャレンジ!”,SoftwareDesign,(株)技術評論社,2017年7月18日,第322号、p.26-34」(以下,「参考文献1」という。)には,次の記載がある。(当審注:下線は,参考のために当審で付与したものである。)

「Character-level CNN
Character-level CNNは2015年ごろから見るようになった手法です^(注12)。Character-level CNNのありがたい特徴の1つは、上で述べたとおり形態素解析が必要ないことです。文を文字単位でCNNに入力して特徴マップに落とし込み、全結合層に流し込んで分類を学習します。具体的にその手法を見ていきましょう。
まずは文を文字単位に分解して文字の配列にします。

いぶりがっこのクリームチーズのせ

[い,ぶ,り,が,っ,こ,の,ク,リ,ー,ム,チ,ー,ズ,の,せ]

次に個々の文字に固有のIDを割り当てます。自分でIDを振ってもいいのですが、ここは簡便のためUNICODEの値を代用しましょう。

[い,ぶ,り,が,っ,こ,の,ク,リ,ー,ム,チ,ー,ズ,の,せ]

[12356,12406,12426,12364,12387,12371,12398,12463,12522,12540,12512,12481,12540,12474,12398,12379]

・・・(中略)・・・

▼図71Dの埋め込み表現



IDを埋め込み表現に変換します。これはIDをone-hotベクトルにして、その次元削減を行うところです(図7)。
one-hotベクトルとは1つの要素の値だけ1で、それ以外が0のベクトルです。この場合、扱うIDの最大値と同じ大きさの次元のベクトルを用意し、IDの値が示す要素だけを1にしてそれ以外を0にします。つまり、文字種が0xffff個あるのであれば0xffff次元の0ベクトルを用意し、「あ」が12355番めの要素なら12355番めを1にします。これをたとえば128次元に次元を削減することで、1文字が128次元のベクトルとして得られます。
次元削減というと面倒そうですが、幸いにも埋め込み表現の学習はたいていのライブラリでAPIとして用意されているはずです。Kerasでは「Embedding」というのがそれで、次のように書きます。

fromkeras.layersimport Embedding
Embedding(0xffff, 128)

第1引数にone-hotベクトルの次元、第2引数に削減後の次元を指定するだけでお手軽です。」(第31頁右欄?第32頁右欄)

5 参考文献2
(1)本願の出願前に頒布された又は電気通信回線を通じて公衆に利用可能となった文献である「“トピックモデルで単語の分散表現 - 理論編”,[online],AI LAB,2017年8月7日,[令和2年8月24日検索],インターネット,<URL: https://ai-lab.lapras.com/nlp/topicmodel-lda-basic/>」(以下,「参考文献2」という。)には,次の記載がある。(当審注:下線は,参考のために当審で付与したものである。)

「単語をベクトルで表したい!

自然言語データを使ったレコメンドエンジンの構築やテキストの分類などで、単語をクラスタリング(意味の似ているグループごとに分ける)やDeepLearningを使って識別したいというシーンはよく見かけます。 しかし、「りんご」「コンピューター」といった単語そのままという形では、DeepLearningなどのような手法に入力することが出来ません。そこで、コンピューターでもわかるように単語を「ベクトル」という形式に変換してあげる必要があります。その形に変換することで、いろんな分析手法を適用することができますが、その方法は簡単ではありません。研究者によっていろいろな方法が提案されてきました。


局所表現と分散表現

Deep Learningの登場以前は、単語をベクトルで表す方法は、ボキャブラリーサイズ(扱う全単語の数)の次元数を持ち、該当インデックスだけ1で他の値が0というone-hotベクトル(1つの概念を1つの成分で表すので局所表現という)が使われていました。 次に、「もし、2つの単語が似ている文脈(つまりその単語の周りの単語のこと)で使われているなら、その単語は似ている」というDistributional Hypothesis に基いて、単語を、その単語と同時に使われる単語たちの生起回数でベクトル表現する(これは複数の成分で概念を表現しているので分散表現という)という共起表現が現れましたが、この方法でもベクトルの次元が(同じくボキャブラリーサイズなので)大きくなりすぎ、かつスパース(0が多すぎる)になってしまうため問題がありました。

そこで、せいぜい100?200次元くらいの低次元ベクトルでひとつの単語の意味を表現するにはどうしたら良いか?という問が生まれ、Deep Learningの流行と相まって近年いろいろな手法が生まれました。Word2Vecで使われているSkip-Gramなどは主流ですが、このシリーズ記事では、そのやり方の一つであるトピックモデル(とLDA)を用いて単語の分散表現を作ることについて解説します。今回の理論編では、トピックモデルとLDAの基礎理論について解説します。



6 参考文献3
(1)本願の出願前に頒布された又は電気通信回線を通じて公衆に利用可能となった文献である「川上 雄仁,“ニューラルネットワークを用いたテキストデータからの低次元特徴の抽出”,[online],高知工科大学情報学群,2016年2月26日,p.1-39,[令和2年8月24日検索],インターネット,<URL: http://www.lab.kochi-tech.ac.jp/yoshilab/thesis/1160303.pdf>」(以下,「参考文献3」という。)には,次の記載がある。(当審注:下線は,参考のために当審で付与したものである。)

「2.2 One-Hot表現と分散表現

One-Hot表現とは単語のベクトル表現の一つであり,ある文章中に使用される語彙数分の要素があり,ある単語の表現をその単語に対応する要素のみが非零で,それ以外の次元は0となるものである[4].このベクトルの次元は一般に数千?十数万になる.このOne-Hot表現を用いて文章などを表現する際には,文章中に登場する各単語のOne-Hot表現を加算し,各単語の出現頻度を計算することで文章を表現する. このベクトルを記事数分にまとめた行列を単語文書行列という.一方,分散表現とは,単語や文章の意味などを数百次元ほどの固定長ベクトルで表現したものである.ニューラルネットワークはこの分散表現を導き出すために有効であり,テキストを基に学習させることで,各単語の分散表現ベクトルに対してどのような実数値を割り当てるかを決める.図2.2 は,One-Hot表現と分散表現の例を示した図である.」(第2?3頁)



図2.2 One-Hot表現と分散表現の例」(第4頁)

7 本願出願前の技術常識
上記2-6において引用する引用文献2-3及び参考文献1-3の記載から,次のことがいえる。

(1)引用文献2-3及び参考文献1の上記引用する記載から,機械学習の分野において,特徴ベクトルに含まれる特定のパラメータを削減することにより特徴ベクトルの次元を小さくする演算手法は,広く知られたものであった。

(2)参考文献1-3の上記引用する記載から,機械学習の分野において,one-hotベクトルにより対象物を表現する場合,当該対象物の種類と同数の次元数のベクトルにより表現することになるのに対し,埋め込み表現あるいは分散表現により対象物を表現すると,当該対象物の種類より小さい数の次元数のベクトルで表現できることが期待されることが,本願出願前の技術常識であった。


第5 対比

1 本願発明と引用発明とを対比する。

(1)引用発明の「行動履歴データ」は,「状態S,行動a,報酬rにより構成され」るものであり,引用発明である「情報処理装置10」を「ロールプレイングゲームへと応用する場合」の当該行動履歴データは,ロールプレイングゲームの進行履歴を表すものであることが明らかであるから,本願発明の「ゲーム進行履歴」に相当する。
また,引用発明の「キャラクタ」は,当該ロールプレイングゲームにおいて使用するものであることが明らかであるから,引用発明の「行動履歴データ」は,複数のキャラクタを使用するロールプレイングゲームに関する“ゲーム進行履歴”であるといえる。
そして,引用発明の「ロールプレイングゲーム」は,電子ゲームの一種であることが明らかであり,また,引用発明の「キャラクタ」は,本願発明の「オブジェクト」に相当するから,本願発明の「ゲーム進行履歴」と引用発明の「行動履歴データ」とは,“複数のオブジェクトを使用する電子ゲームに関するゲーム進行履歴”である点において一致する。

(2)引用発明において,前記情報処理装置10をロールプレイングゲームへと応用する場合の「状態S」は,「プレーヤに提供される情報であ」って,「味方側の情報」として,「生存する味方のレベル,職業,HP,最大HP,MP,最大MP,攻撃力,防御力,素早さなど状態Sとして利用され」,また,「敵側の情報」として,「生存する敵のレベル,職業,累積ダメージなどが状態Sとして利用され」るものであることから,「ロールプレイングゲームの状況の情報」であるといえる。
また,引用発明において,上記「状態S」として利用される情報に含まれる「生存する味方」及び「生存する敵」は,引用発明の「キャラクタ」であることが明らかであるから,引用発明の「状態S」は,「キャラクタの情報」を含むといえる。
また,当該「キャラクタ」は,上記「ロールプレイングゲームにおいて影響を与えている」ものであることも明らかである。
よって,引用発明の「状態S」は,「ロールプレイングゲームにおいて影響を与えているキャラクタの情報を含むロールプレイングゲームの状況の情報」であるといえるから,本願発明の「ゲームの状況の情報」と引用発明の「状態S」とは,“ゲームにおいて影響を与えているオブジェクトの情報を含むゲームの状況の情報”である点において一致する。

(3)引用発明において,前記情報処理装置10をロールプレイングゲームへと応用する場合の「行動a」は,「キャラクタを操作するコマンドであ」って,「味方側の情報」として,「行動者の欄には,これから行動を行うキャラクタの場合に1,それ以外の場合に0が記入され,行動対象の欄には,行動の対象となるキャラクタの場合に1,それ以外の場合に0が記入され,アクションの種類の欄には,行う行動の欄に1,行わない行動の欄に0が記入され,行動aとして利用される敵側の情報は,行動対象の情報が利用され」るものであり,「これから行動を行うキャラクタ」に関する情報に該当する欄に1が記入されるものであると理解されるところ,これは結局,引用発明の「行動a」は,「これから行動を行うキャラクタの情報」を表しているものと認められる。
ここで,「これから行動を行うキャラクタ」について,「これから行動を行う」とは,当該行動aを含む行動履歴データに含まれる状態Sの状況において「これから行動を行う」ことを意味するものであり,当該行動履歴データを取得した時点においては,当該状態Sにおいて「行動を行った」キャラクタとなるものであることが明らかである。
そして,「行動を行った」キャラクタとは,当該ロールプレイングゲームにおいて「使用された」キャラクタであることも明らかである。
してみると,引用発明の「行動a」は,「状態Sの状況においてこれから行動を行うキャラクタの情報」,すなわち,行動履歴データを取得した時点においては「状態Sの状況において使用されたキャラクタの情報」であるといえるから,上記(1)で検討したとおり,引用発明の「キャラクタ」は本願発明の「オブジェクト」に相当することを踏まえると,引用発明の「行動a」は,本願発明の「当該オブジェクトのうち当該状況において使用されたオブジェクトの情報」に相当する。

(4)引用発明は,「情報処理装置10は,行動履歴データに対して,行動履歴データを構成する状態Sの状況において当該行動履歴データを構成する行動aを行った場合に生じるゲーム上の効果についての評価値である報酬rを設定」するものであるところ,引用発明の「報酬r」は,「行動履歴データを構成する状態Sの状況において当該行動履歴データを構成する行動aを行った場合に生じたゲーム上の効果についての評価値」であるといえ,当該「ゲーム上の効果についての評価値」は,当該ゲーム上の効果を示す情報であることが明らかである。
よって,引用発明の「報酬r」は,上記(1)-(3)での検討も踏まえると,本願発明の「当該オブジェクトの使用によって生じたゲーム上の効果を示す情報」に相当する。

(5)引用発明の「行動履歴データ」は,「状態S,行動a,報酬rにより構成され」るものであり,また,その名称が示すとおり,ロールプレイングゲームのゲームログであるといえるから,状態S,行動a,及び報酬rを含むロールプレイングゲームのゲームログであるといえる。
よって,本願発明の「ゲームログ」と引用発明の「行動履歴データ」とは,上記(1)-(4)での検討も踏まえると,“ゲームにおいて影響を与えているオブジェクトの情報を含むゲームの状況の情報、当該オブジェクトのうち当該状況において使用されたオブジェクトの情報、及び当該オブジェクトの使用によって生じたゲーム上の効果を示す情報を含むゲームログ”である点において一致する。

(6)引用発明の「特徴量ベクトル」は,「行動履歴データを構成する行動aのそれぞれについて算出されるものであ」り,当該「行動a」は,上記(3)での検討から,“当該オブジェクトのうち当該状況において使用されたオブジェクトの情報”に相当するものである。
よって,引用発明の「特徴量ベクトル」は,“当該オブジェクトのうち当該状況において使用されたオブジェクト”の各々の特徴を表す特徴ベクトルであるといえるから,本願発明の「特徴ベクトル」と引用発明の「特徴量ベクトル」とは,後記する点で相違するものの,“前記オブジェクトの各々の特徴を表す特徴ベクトル”である点において一致する。

(7)引用発明の「報酬推定機構築部12」は,入力された行動履歴データに基づく機械学習により報酬推定機を構築」するものであるところ,「行動履歴データに基づいて,学習する」処理を行うものであるといえる。
また,引用発明の「報酬推定機構築部12」は,
「基底関数リスト生成部121と,特徴量計算部122と,推定関数生成部123とにより構成され,
行動履歴データが入力されると,
特徴量計算部122は,基底関数リスト生成部121により生成された基底関数リストに入力された行動履歴データを入力して特徴量ベクトルを算出し,
推定関数生成部123は,入力された特徴量ベクトル及び行動履歴データを構成する報酬rに基づいて回帰/判別学習により推定関数を生成し,生成した推定関数に対する各基底関数の寄与率(評価値)を算出し,その寄与率に基づいて終了条件を満たすか否かを判定し,
終了条件を満たさない場合に,基底関数リスト生成部121は,推定関数生成部123から通知を受けた各基底関数の寄与率に基づいて基底関数リストを更新し,
特徴量計算部122は,更新後の基底関数リストを用いて特徴量ベクトルを算出し,
終了条件が満たされるまで,上記の推定関数生成部123による推定関数の生成処理,基底関数リスト生成部121による基底関数リストの更新処理,及び特徴量計算部122による特徴量ベクトルの算出処理が繰り返し実行され」るものである。

ここで,報酬推定機構築部12が行う上記の「行動履歴データに基づいて,学習する」処理に関し,引用発明においては,特徴量計算部122によって算出される「特徴量ベクトル」は,「基底関数リスト」と「入力された行動履歴データ」により算出されるものであり,また,当該「基底関数リスト」は,「特徴量ベクトル及び行動履歴データを構成する報酬rに基づいて回帰/判別学習により」生成した「推定関数」に対する各基底関数の寄与率に基づいて更新されるものであることから,引用発明は,行動履歴データに基づいて,推定関数を生成する際の学習を通じて,「特徴量ベクトル」を学習するものであるといえる。

してみると,引用発明の「報酬推定機構築部12」は,行動履歴データに基づいて,特徴量ベクトルを学習する学習部であるといえるから,本願発明の「表現学習部」と引用発明の「報酬推定機構築部12」とは,上記(5)-(6)での検討も踏まえると,“ゲームログ、に基づいて、前記オブジェクトの各々の特徴を表す特徴ベクトルを学習する表現学習部”である点において一致する。

(8)引用発明の「情報処理装置10」は,本願発明の「情報処理装置」に相当し,また,引用発明の「報酬推定機構築部12により構成され」るものである。
よって,本願発明の「情報処理装置」と引用発明の「情報処理装置10」とは,“表現学習部を備える情報処理装置”である点において一致する。

(9)上記(7)で検討したとおり,引用発明の「報酬推定機構築部12」は,入力された行動履歴データに基づいて,特徴量ベクトルを算出し,特徴量ベクトル及び行動履歴データを構成する報酬rに基づいて回帰/判別学習を行い,終了条件が満たされるまで,当該処理を繰り返すことにより,当該学習を通じて特徴量ベクトルを算出するものである。
ここで,入力される「行動履歴データ」は,「状態S,行動a,報酬rにより構成され」るものであり,当該「行動a」は,上記(3)での検討から,当該状態Sの状況において行動を行ったキャラクタ,すなわち,当該状態Sの状況において使用されたキャラクタの情報であるといえる。
してみると,引用発明のロールプレイングゲームにおいて,「当該状態Sの状況において使用されたキャラクタの情報」である当該「行動a」は,当該状態S自体には含まれないことが明らかである。すなわち,引用発明の「行動履歴データ」のそれぞれは,「各時刻tに対応付けて構成されている」ものであるところ,ある時刻tにおける行動履歴データを「行動履歴データH_t=(状態S_t,行動a_t,報酬r_t)と表現すると,状態S_tには行動a_tは含まれないこととなるから,引用発明の「時刻tにおける状態S_t」は,当該状態S_tから行動a_tを除いた情報であるといえる。
さらに,引用発明において,「行動履歴データのそれぞれは,各時刻tに対応付けて構成されている」ものであり,当該「行動履歴データ」を構成する「行動a」は,「キャラクタを操作するコマンドであ」り,そして,キャラクタを操作するコマンドは,ゲーム内において各ターンにおいて実行されるのが通常であるところ,行動aにより構成される「行動履歴データ」は,当該行動aに対応するキャラクタの操作するコマンドが行われるゲームの各ターンに対応付けられているといえ,してみると,行動履歴データが対応付けられている「時刻t」は,結局,ゲームの各ターンに対応するものであるといえるから,引用発明の上記「時刻t」は,本願発明の「ゲームのターン」に相当する。そして,上記(2)-(3)での検討を踏まえると,引用発明の「状態S_t」及び「行動a_t」は,それぞれ本願発明の「前記ゲームのターンtにおける前記ゲームの状況の情報gt」及び「当該ターンtにおいて使用されたオブジェクトct1の情報」に相当するから,引用発明の「状態S_t」は,本願発明の「前記ゲームのターンtにおける前記ゲームの状況の情報gtから当該ターンtにおいて使用されたオブジェクトct1の情報を除いた情報」に相当する。
また,引用発明の「入力された行動履歴データ」のうち「時刻tにおける行動履歴データH_t」は,上記「状態S_t」及び「行動a_t」を含むものであり,「状態S_t」及び「行動a_t」を組み合わせた情報であるといえるから,引用発明の「時刻tにおける行動履歴データH_t」は,上記の検討も踏まえると,本願発明の「前記ゲームのターンtにおける前記ゲームの状況の情報gtから当該ターンtにおいて使用されたオブジェクトct1の情報を除いた情報と、当該オブジェクトct1に関する情報と、を組み合わせた情報(gt,ct1)」に相当する。
したがって,引用発明の「報酬推定機構築部12」は,時刻tにおける行動履歴データH_tを入力として,特徴量ベクトルを算出するものであるといえるから,本願発明の「表現学習部」と引用発明の「報酬推定機構築部12」とは,上記の検討及び上記(6)での検討も踏まえると,“前記ゲームのターンtにおける前記ゲームの状況の情報gtから当該ターンtにおいて使用されたオブジェクトct1の情報を除いた情報と、当該オブジェクトct1に関する情報と、を組み合わせた情報(gt,ct1)を入力として、前記複数のオブジェクトの各々を表現した前記特徴ベクトルを求める”ものである点において一致する。

(10)さらに,引用発明の「報酬推定機構築部12」について検討すると,引用発明の「報酬推定機構築部12」は,上記(7)及び(9)で検討したとおり,入力された行動履歴データに基づいて,特徴量ベクトルを算出し,特徴量ベクトル及び行動履歴データを構成する報酬rに基づいて回帰/判別学習を行い,終了条件が満たされるまで,当該処理を繰り返すことにより,当該学習を通じて特徴量ベクトルを算出するものである。
ここで,上記「回帰/判別学習」は,いわゆる教師データありの学習手法として周知のものであること,及び,引用発明の「報酬r」は,「行動履歴データを構成する状態Sの状況において当該行動履歴データを構成する行動aを行った場合に生じるゲーム上の効果についての評価値である」ことに鑑みれば,引用発明の「報酬推定機構築部12」が「特徴量ベクトル及び行動履歴データを構成する報酬rに基づいて回帰/判別学習を行」うことは,とりもなおさず,報酬rを教師データとして学習を行うことであると認められる。
してみると,引用発明の「報酬推定機構築部12」は,時刻tにおける報酬r_tを教師データとして学習を行うことによって,特徴量ベクトルを算出するものであるといえ,また,上記(4)での検討を踏まえると,引用発明の「時刻tにおける報酬r_t」は,本願発明の「当該オブジェクトct1を使用した際の前記ゲーム上の効果の情報rt」に相当するから,本願発明の「表現学習部」と引用発明の「報酬推定機構築部12」とは,さらに上記(6)での検討も踏まえると,“当該オブジェクトct1を使用した際の前記ゲーム上の効果の情報rtを教師データとして表現学習を行うことによって、前記複数のオブジェクトの各々を表現した前記特徴ベクトルを求める”ものである点において一致する。

2 上記1での検討から,本願発明と引用発明とは,以下の点で一致し,また,相違する。

<一致点>
「 複数のオブジェクトを使用する電子ゲームに関するゲーム進行履歴であって、ゲームにおいて影響を与えているオブジェクトの情報を含むゲームの状況の情報、当該オブジェクトのうち当該状況において使用されたオブジェクトの情報、及び当該オブジェクトの使用によって生じたゲーム上の効果を示す情報を含むゲームログ、に基づいて、前記オブジェクトの各々の特徴を表す特徴ベクトルを学習する表現学習部を備える情報処理装置であって、
前記表現学習部は、前記ゲームのターンtにおける前記ゲームの状況の情報gtから当該ターンtにおいて使用されたオブジェクトct1の情報を除いた情報と、当該オブジェクトct1に関する情報と、を組み合わせた情報(gt,ct1)を入力として、当該オブジェクトct1を使用した際の前記ゲーム上の効果の情報rtを教師データとして表現学習を行うことによって、前記複数のオブジェクトの各々を表現した前記特徴ベクトルを求めることを特徴とする情報処理装置。」

<相違点>
本願発明の「特徴ベクトル」は,「前記複数のオブジェクトの種類の数より少ない次元数で」前記複数のオブジェクトの各々を表現したものであるのに対し,引用発明の「特徴量ベクトル」は,そのような特定がなされていない点。


第6 判断

1 相違点について
上記相違点について検討する。

上記「第4 7(1)」で検討したとおり,引用文献2-3及び参考文献1に記載されるように,機械学習の分野において,特徴ベクトルに含まれる特定のパラメータを削減することにより特徴ベクトルの次元を小さくする演算手法は,広く知られたものであった。
引用発明も,学習を行う際に,行動a,すなわち,コマンドによって操作されるキャラクタを上記のような特徴量ベクトルを用いて表現するものであり,また,一般に,当該特徴量ベクトルの次元数は,行うべき学習の内容等に応じて適宜決定し得るものであるから,引用発明において上記周知の手法を採用することにより,特徴量ベクトルの次元を小さくし,複数のキャラクタの種類の数より少ない次元数で当該複数のキャラクタの各々を表現するように構成することは,当業者であれば容易になし得たものである。

加えて,上記「第4 7(2)」で検討したとおり,参考文献1-3に記載されるように,機械学習の分野において,one-hotベクトルにより対象物を表現する場合,当該対象物の種類と同数の次元数のベクトルにより表現することになるのに対し,埋め込み表現あるいは分散表現により対象物を表現すると,当該対象物の種類より小さい数の次元数のベクトルで表現できることが期待されることが,本願出願前の技術常識であった。
引用発明も,上記のとおり,学習を行う際にキャラクタを上記のような特徴量ベクトルを用いて表現するものであり,また,一般に,当該特徴量ベクトルの次元数は,行うべき学習の内容等に応じて適宜決定し得るものであるから,引用発明において,キャラクタを表現する特徴量ベクトルを埋め込み表現あるいは分散表現により表現することにより,one-hotベクトルにより表現した場合に比して,複数のキャラクタの種類の数より少ない次元数で当該複数のキャラクタの各々を表現するように構成することは,引用文献1に接した当業者であれば,上記した本願出願時の技術常識に鑑み,適宜行い得たものにすぎない。

したがって,本願発明は,本願出願時の周知技術を含む技術常識に鑑み,引用発明に基づいて,当業者が容易に発明をすることができたものである。

2 効果・請求人の主張について
請求人は,審判請求書の第3?4頁において,
「 これに対して、本願請求項1?3及び6?8に係る発明は、機械学習に用いる学習データにおける特徴量の次元を低減させる次元圧縮処理を行うための表現学習部において、(1)使用されたオブジェクトの情報を除いた情報、(2)味方の攻撃時に用いられていたオブジェクトの情報を除いた情報、(3)味方の防御時に用いられていたオブジェクトの情報を除いた情報、のいずれかを入力データとして用いて次元圧縮を行う構成である。
すなわち、本願請求項1?3及び6?8に係る発明は、電子ゲームの戦略を生成する「戦略学習部」において機械学習に使用される特徴ベクトルの次元を低下させる「表現学習部」において使用される入力データを限定することに特徴を有するものである。特に、「表現学習部」に入力されるデータを上記(1)?(3)の情報に限定することによって、「戦略学習部」において電子ゲームの戦略を機械学習するために使用される特徴ベクトルを適切に生成することができるという特有の効果を与えるものである。」
と述べ,このことから,本願発明は,進歩性を有する旨を主張している(当審注:上記引用記載における「請求項1?3及び6?8」は,令和2年7月2日付け手続補正による補正によって,それぞれ「請求項1?7」に補正された)。
上記述べるところについて検討するに,まず「戦略学習部」との発明特定事項は,令和2年7月2日付け手続補正による補正後の請求項4(当該補正前の請求項5)のみに記載され,上記補正後の請求項1-3,5-7には記載されていないから,「電子ゲームの戦略を生成する「戦略学習部」において機械学習に使用される特徴ベクトルの次元を低下させる「表現学習部」において使用される入力データを限定することに特徴を有するものである。」との主張は,上記補正後の請求項1-3,5-7に係る発明の進歩性についての根拠とならないものである。
また,「特に、「表現学習部」に入力されるデータを上記(1)?(3)の情報に限定することによって、「戦略学習部」において電子ゲームの戦略を機械学習するために使用される特徴ベクトルを適切に生成することができるという特有の効果を与えるものである。」との点については,上記補正後の請求項1には,「前記表現学習部は、前記ゲームのターンtにおける前記ゲームの状況の情報gtから当該ターンtにおいて使用されたオブジェクトct1の情報を除いた情報と、当該オブジェクトct1に関する情報と、を組み合わせた情報(gt,ct1)を入力として、・・・(中略)・・・前記複数のオブジェクトの種類の数より少ない次元数で前記複数のオブジェクトの各々を表現した前記特徴ベクトルを求める」(下線は,当審で付した。)と記載されており,上記(1)?(3)以外の情報である「前記ゲームのターンtにおける前記ゲームの状況の情報gtから当該ターンtにおいて使用されたオブジェクトct1の情報を除いた情報」も「表現学習部」に入力されていることが明らかであるから,主張の根拠がなく,採用できないものである。


第7 むすび

以上のとおり,本願発明は,特許法第29条第2項の規定により特許を受けることができないから,他の請求項に係る発明について検討するまでもなく,本願は拒絶されるべきものである。

よって,結論のとおり審決する。

 
審理終結日 2020-08-26 
結審通知日 2020-09-01 
審決日 2020-09-16 
出願番号 特願2017-253701(P2017-253701)
審決分類 P 1 8・ 121- WZ (A63F)
最終処分 不成立  
前審関与審査官 瀬戸 息吹大山 栄成  
特許庁審判長 田中 秀人
特許庁審判官 ▲はま▼中 信行
山崎 慎一
発明の名称 情報処理装置及び情報処理プログラム  
代理人 特許業務法人YKI国際特許事務所  

プライバシーポリシー   セキュリティーポリシー   運営会社概要   サービスに関しての問い合わせ