• ポートフォリオ機能


ポートフォリオを新規に作成して保存
既存のポートフォリオに追加保存

  • この表をプリントする
PDF PDFをダウンロード
審決分類 審判 全部申し立て 2項進歩性  G06K
管理番号 1374930
異議申立番号 異議2020-700265  
総通号数 259 
発行国 日本国特許庁(JP) 
公報種別 特許決定公報 
発行日 2021-07-30 
種別 異議の決定 
異議申立日 2020-04-16 
確定日 2021-04-15 
異議申立件数
訂正明細書 有 
事件の表示 特許第6590355号発明「学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム」の特許異議申立事件について、次のとおり決定する。 
結論 特許第6590355号の特許請求の範囲を訂正請求書に添付された訂正特許請求の範囲のとおり、訂正後の請求項〔1?10〕、11、12について訂正することを認める。 特許第6590355号の請求項1?12に係る特許を維持する。 
理由 第1 手続の経緯
特許第6590355号(以下、「本件特許」という。)の請求項1?12に係る特許についての出願は、平成31年4月26日の出願であって、令和元年9月27日にその特許権の設定登録(特許公報発行日 令和元年10月16日)がされ、その特許について、令和2年4月16日に特許異議申立人飯田進により特許異議の申立てがされた。
そして、その後の経緯は次のとおりである。

令和2年 6月29日付け 取消理由通知
同年 9月 1日 訂正請求書、意見書の提出(特許権者)
同年10月16日 意見書の提出(特許異議申立人)
同年11月10日付け 取消理由通知(決定の予告)
令和3年 1月 8日 訂正請求書、意見書の提出(特許権者)
同年 3月 9日 意見書の提出(特許異議申立人)

第2 訂正の適否についての判断
1 請求の趣旨、訂正の内容
(1)請求の趣旨
令和3年1月8日に特許権者により行われた、願書に添付した特許請求の範囲の訂正(以下、「本件訂正」という。)の請求の趣旨は、特許第6590355号の特許請求の範囲を、本訂正請求書(以下、「本件訂正請求書」という。)に添付した訂正特許請求の範囲のとおり、訂正後の請求項1?12について訂正することを求める、というものである。

(2)訂正の内容
本件訂正の内容は以下ア?ウのとおりである。

ア 訂正事項1
特許請求の範囲の請求項1に「帳票の手書き文字領域に記入されうる1又は複数の単語が登録されたデータベースと、1文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部と、前記学習用データを用いた第1学習により、学習モデルを生成する学習モデル生成部と、を備える、学習モデル生成装置」と記載されているのを、「帳票の手書き文字領域に記入されうる1又は複数の単語が前記文字領域のそれぞれに対応して登録された複数のデータベースの各々から単語を抽出し、1文字単位の手書き文字画像のデータセットから前記単語に含まれる文字ごとに対応する1文字単位の手書き文字画像を読み出すことにより、前記文字領域ごとに文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部と、前記学習用データを用いた第1学習により、前記文字領域ごとに学習モデルを生成する学習モデル生成部と、を備える、学習モデル生成装置」に訂正する(請求項1を引用する請求項2?10も同様に訂正する)。

イ 訂正事項2
特許請求の範囲の請求項11に「学習モデルを生成するコンピュータが実行する学習モデル生成方法であって、帳票の手書き文字領域に記入されうる1又は複数の単語が登録されたデータベースと、1文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成するステップと、前記学習用データを用いた第1学習により、学習モデルを生成するステップと、を含む、学習モデル生成方法」と記載されているのを、「学習モデルを生成するコンピュータが実行する学習モデル生成方法であって、帳票の手書き文字領域に記入されうる1又は複数の単語が前記文字領域のそれぞれに対応して登録された複数のデータベースの各々から単語を抽出し、1文字単位の手書き文字画像のデータセットから前記単語に含まれる文字ごとに対応する1文字単位の手書き文字画像を読み出すことにより、前記文字領域ごとに文字列画像及び正解ラベルを含む学習用データを生成するステップと、前記学習用データを用いた第1学習により、前記文字領域ごとに学習モデルを生成するステップと、を含む、学習モデル生成方法」に訂正する。

ウ 訂正事項3
特許請求の範囲の請求項12に「コンピュータを、帳票の手書き文字領域に記入されうる1又は複数の単語が登録されたデータベースと、1文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部と、前記学習用データを用いた第1学習により、学習モデルを生成する、学習モデル生成部と、して機能させるプログラム」と記載されているのを、「コンピュータを、帳票の手書き文字領域に記入されうる1又は複数の単語が登録された前記文字領域のそれぞれに対応して登録された複数のデータベースの各々から単語を抽出し、1文字単位の手書き文字画像のデータセットから前記単語に含まれる文字ごとに対応する1文字単位の手書き文字画像を読み出すことにより、前記文字領域ごとに文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部と、前記学習用データを用いた第1学習により、前記文字領域ごとに学習モデルを生成する、学習モデル生成部と、して機能させるプログラム」に訂正する。

2 一群の請求項について
訂正前の請求項2?10は、それぞれ請求項1を直接的又は間接的に引用し、請求項1の訂正に連動して訂正されるものであるから、訂正前の請求項1?10に対応する訂正後の請求項1?10は、特許法第120条の5第4項に規定する一群の請求項である。
そして、訂正事項1は、一群の請求項〔1?10〕についてされたものであるから、特許法第120条の5第4項の規定に適合するものである。

3 訂正の目的の適否、新規事項の追加の有無、特許請求の範囲の拡張・変更の存否について
(1)訂正事項1及び3について
ア 訂正の目的の適否について
訂正事項1及び3は、訂正前の請求項1及び12の「帳票の手書き文字領域に記入されうる1又は複数の単語が登録されたデータベースと、1文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部」を「帳票の手書き文字領域に記入されうる1又は複数の単語が前記文字領域のそれぞれに対応して登録された複数のデータベースの各々から単語を抽出し、1文字単位の手書き文字画像のデータセットから前記単語に含まれる文字ごとに対応する1文字単位の手書き文字画像を読み出すことにより、前記文字領域ごとに文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部」に限定し、「前記学習用データを用いた第1学習により、学習モデルを生成する学習モデル生成部」を「前記学習用データを用いた第1学習により、前記文字領域ごとに学習モデルを生成する学習モデル生成部」に限定するものであるから、特許請求の範囲の減縮を目的とするものである。
したがって、訂正事項1及び3は、特許法第120条の5第2項ただし書第1号の規定に適合するものである。

新規事項の追加の有無について
訂正事項1及び3は、「学習用データ生成部」に係る訂正が、特許公報の明細書の段落0025?0029及び図3等の記載に基づくものであり、「学習モデル生成部」に係る訂正が、特許公報の明細書の段落0032等の記載に基づくものである。
よって、訂正事項1及び3は、新たな技術的事項を導入するものではなく、願書に添付した明細書、特許請求の範囲または図面に記載した事項の範囲内の訂正である。
したがって、訂正事項1及び3は、特許法第120条の5第9項で準用する同法第126条第5項の規定に適合するものである。

ウ 特許請求の範囲の拡張又は変更の存否について
上記アから明らかなように、訂正事項1及び3は、訂正前の請求項1及び12における学習用データ生成部及び学習モデル生成部をより狭い範囲に限定するものであり、カテゴリーや対象、目的を変更するものではないから、実質上特許請求の範囲を拡張し、または変更するものには該当せず、特許法第120条の5第9項で準用する同法第126条第6項の規定に適合するものである。

(2)訂正事項2について
ア 訂正の目的の適否について
訂正事項2は、訂正前の請求項11の「帳票の手書き文字領域に記入されうる1又は複数の単語が登録されたデータベースと、1文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成するステップ」を「帳票の手書き文字領域に記入されうる1又は複数の単語が前記文字領域のそれぞれに対応して登録された複数のデータベースの各々から単語を抽出し、1文字単位の手書き文字画像のデータセットから前記単語に含まれる文字ごとに対応する1文字単位の手書き文字画像を読み出すことにより、前記文字領域ごとに文字列画像及び正解ラベルを含む学習用データを生成するステップ」に限定し、「前記学習用データを用いた第1学習により、学習モデルを生成するステップ」を「前記学習用データを用いた第1学習により、前記文字領域ごとに学習モデルを生成するステップ」に限定するものであるから、特許請求の範囲の減縮を目的とするものである。
したがって、訂正事項2は、特許法第120条の5第2項ただし書第1号の規定に適合するものである。

新規事項の追加の有無について
訂正事項2は、「学習用データを生成するステップ」に係る訂正が、明細書の段落0025?0029及び図3等の記載に基づくものであり、「学習モデルを生成するステップ」に係る訂正が、明細書の段落0032等の記載に基づくものである。
よって、訂正事項2は、新たな技術的事項を導入するものではなく、願書に添付した明細書、特許請求の範囲または図面に記載した事項の範囲内の訂正である。
したがって、訂正事項2は、特許法第120条の5第9項で準用する同法第126条第5項の規定に適合するものである。

ウ 特許請求の範囲の拡張又は変更の存否について
上記アから明らかなように、訂正事項2は、訂正前の請求項11における学習用データを生成するステップ及び学習モデルを生成するステップをより狭い範囲に限定するものであり、カテゴリーや対象、目的を変更するものではないから、実質上特許請求の範囲を拡張し、または変更するものには該当せず、特許法第120条の5第9項で準用する同法第126条第6項の規定に適合するものである。

4 独立特許要件について
本件特許異議申立事件においては、全ての請求項について特許異議の申立てがされているから、訂正事項1?3に関して、特許法第120条の5第9項で読み替えて準用する特許法第126条第7項の独立特許要件は課されない。

5 小括
以上のとおり、訂正事項1?3に係る訂正は、特許法第120条の5第2項ただし書第1号に規定する事項を目的とするものであり、かつ、同条第9項で準用する同法第126条第4項、第5項及び第6項の規定に適合する。
したがって、特許請求の範囲を、本件訂正請求書に添付された訂正特許請求の範囲のとおり、訂正後の請求項〔1?10〕、11、12について訂正することを認める。

第3 訂正後の本件特許発明
本件訂正請求により訂正された請求項1?12に係る発明(以下、「本件発明1」?「本件発明12」という。)は、訂正特許請求の範囲の請求項1?12に記載された次の事項により特定されるとおりのものである。
なお、符号(1A)?(12C)は、説明のために当審で付したものであり、以下、各構成要件を「構成1A」?「構成12C」という。

(本件発明1)【請求項1】
(1A)帳票の手書き文字領域に記入されうる1又は複数の単語が前記文字領域のそれぞれに対応して登録された複数のデータベースの各々から単語を抽出し、1文字単位の手書き文字画像のデータセットから前記単語に含まれる文字ごとに対応する1文字単位の手書き文字画像を読み出すことにより、前記文字領域ごとに文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部と、
(1B)前記学習用データを用いた第1学習により、前記文字領域ごとに学習モデルを生成する学習モデル生成部と、を備える、
(1C)学習モデル生成装置。

(本件発明2)【請求項2】
(2A)前記第1学習の後、前記帳票の画像データから切り出された文字列画像を学習用データとして用いた第2学習により、前記学習モデルを更新する学習モデル更新部をさらに備える、
(2B)請求項1に記載の学習モデル生成装置。

(本件発明3)【請求項3】
(3A)前記学習用データ生成部は、前記文字列画像に、前記帳票に印刷される透かしの少なくとも一部を重畳したものを学習用データとして生成する、
(3B)請求項1又は2に記載の学習モデル生成装置。

(本件発明4)【請求項4】
(4A)前記学習用データ生成部は、前記文字列画像に、前記帳票におけるノイズを重畳したものを学習用データとして生成する、
(4B)請求項1?3のいずれか一項に記載の学習モデル生成装置。

(本件発明5)【請求項5】
(5A)前記学習モデル生成部は、
第1ニューラルネットワーク及び第2ニューラルネットワークが結合されたネットワーク構造から学習モデルを生成するものであり、
(5B)前記第1ニューラルネットワークは畳み込みニューラルネットワークにより構成され、
前記手書き文字領域に含まれる前記文字列に関する特徴量マップを算出し、
(5C)第2ニューラルネットワークはリカレントニューラルネットワークにより構成され、前記特徴量マップから文字列インデックスを算出する、
(5D)請求項1?4のいずれか一項に記載の学習モデル生成装置。

(本件発明6)【請求項6】
(6A)前記手書き文字領域の少なくとも一つの領域は、住所に関する手書き文字領域であり、
(6B)前記住所に関する前記手書き文字領域に対応づけられたコーパスには、都道府県名、市区町村名、地域名、又は、建物名の少なくとも一つの名称を含む組み合わせが登録されている、
(6C)請求項1?5のいずれか一項に記載の学習モデル生成装置。

(本件発明7)【請求項7】
(7A)前記帳票を撮像装置で撮像することによって生成される画像データを、通信ネットワークを介して取得する画像データ取得部をさらに備える、
(7B)請求項1?6のいずれか一項に記載の学習モデル生成装置。

(本件発明8)【請求項8】
(8A)帳票の画像データに基づいて、手書き文字で記入された文字列を含む1又は複数の手書き文字領域を特定する領域特定部と、
(8B)請求項1?7のいずれか一項に記載の学習モデル生成部により生成された学習モデルを用いて、前記手書き文字領域に記入された文字列の内容を認識する文字認識部と、を備える、
(8C)文字認識装置。

(本件発明9)【請求項9】
(9A)前記帳票における所定位置に対応付けて、前記手書き文字領域を特定するためのレイアウト情報を記録する記録部を更に備え、
(9B)前記領域特定部は、前記レイアウト情報に基づいて、前記手書き文字領域を特定する、
(9C)請求項8に記載の文字認識装置。

(本件発明10)【請求項10】
(10A)前記領域特定部は、
前記帳票に記載された項目名を含む項目領域を、属性を付与した上で抽出する項目抽出部と、
(10B)前記帳票の画像データにおける項目領域の位置及び前記属性に基づいて、前記項目領域と、当該項目領域の近傍に位置する前記手書き文字領域とを対応づけ、且つ、前記手書き文字領域の属性を割り当てる属性割当部と、を更に備える、
(10C)請求項8又は9に記載の文字認識装置。

(本件発明11)【請求項11】
(11A)学習モデルを生成するコンピュータが実行する学習モデル生成方法であって、
(11B)帳票の手書き文字領域に記入されうる1又は複数の単語が前記文字領域のそれぞれに対応して登録された複数のデータベースの各々から単語を抽出し、1文字単位の手書き文字画像のデータセットから前記単語に含まれる文字ごとに対応する1文字単位の手書き文字画像を読み出すことにより、前記文字領域ごとに文字列画像及び正解ラベルを含む学習用データを生成するステップと、
(11C)前記学習用データを用いた第1学習により、前記文字領域ごとに学習モデルを生成するステップと、
を含む、
(11A)学習モデル生成方法。

(本件発明12)【請求項12】
(12A)コンピュータを、
(12B)帳票の手書き文字領域に記入されうる1又は複数の単語が前記文字領域のそれぞれに対応して登録された複数のデータベースの各々から単語を抽出し、1文字単位の手書き文字画像のデータセットから前記単語に含まれる文字ごとに対応する1文字単位の手書き文字画像を読み出すことにより、前記文字領域ごとに文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部と、
(12C)前記学習用データを用いた第1学習により、前記文字領域ごとに学習モデルを生成する、学習モデル生成部と、
(12A)して機能させるプログラム。

第4 取消理由通知の概要
令和2年11月10日付けで特許権者に通知した取消理由(決定の予告)の要旨は、次のとおりである。

本件特許の請求項1?12に係る発明は、本件特許出願前に日本国内又は外国において頒布された下記の刊行物に記載された発明又は電気通信回線を通じて公衆に利用可能となった発明に基いて、本件特許出願前にその発明の属する技術の分野における通常の知識を有する者が容易に発明をすることができたものであるから、請求項1?12に係る特許は、特許法第29条第2項の規定に違反してされたものである。



引用文献1(甲第2号証):Nam Tuan Ly、外2名、「Training an End-to-End Model for Offline Handwritten Japanese Text Recognition by Generated Synthetic Patterns」、16th International Conference on Frontiers in Handwriting Recognition(ICFHR 2018)、2018年8月5日、74?79頁
引用文献2(甲第4号証):Kartik Dutta、外3名、「Improving CNN-RNN Hybrid Networks for Handwriting Recognition」、16th International Conference on Frontiers in Handwriting Recognition(ICFHR 2018)、2018年8月5日、80?85頁
引用文献3(甲第9号証):丸川勝美、外3名、「手書き漢字住所認識のためのエラー修正アルゴリズム」、情報処理学会論文誌、1994年6月、Vol.35、No.6、1101?1110頁
引用文献4(甲第10号証):特開2015-69256号公報
引用文献5(甲第11号証):特開2016-71898号公報
引用文献6(甲第12号証):株式会社富士通研究所、「業界初、レイアウト定義不要な非定型帳票の認識技術」、2006年10月16日、インターネット<https://pr.fujitsu.com/jp/news/2006/10/16.html>
引用文献7(甲第13号証):松下貢、他4名、「リコー文書画像認識SDK」、Ricoh Technical Report、1997年9月、No.23、133?137頁、インターネット<https://jp.ricoh.com/-/Media/Ricoh/Sites/jp_ricoh/technology/techreport/23/pdf/136_140.pdf>
引用文献8(当審で追加した文献):特開平7-271916号公報
周知文献1(当審で追加した文献):特開2002-366893号公報
周知文献2(当審で追加した文献):特開2013-69150号公報

第5 引用文献、周知文献
(1)引用文献1(甲第2号証)
ア 記載事項
引用文献1(甲第2号証)には、次の記載がある。なお、以降の下線は当審により付されたものである。

(ア)「Training an End-to-End Model for Offline Handwritten Japanese Text Recognition by Generated Synthetic Patterns」(74頁1?3行)
(仮訳:生成された合成パターンによるオフライン手書き日本語テキスト認識のためのエンドツーエンドモデルの学習)

(イ)「II. OVERVIEW OF THE END-TO-END DCRN MODEL
We propose an end-to-end model of Deep Convolutional Recurrent Network (DCRN) for recognizing offline handwritten Japanese text lines. Our end-to-end model consists of 3 components, the convolutional feature extractor, the recurrent layers, and a transcription layer, from bottom to top as shown in Fig. 1.」(74頁右欄下4行?75頁左欄2行)
(仮訳:II. エンドツーエンドDCRNモデルの概要
我々は、オフライン手書き日本語テキスト行を認識するための深層畳み込みリカレントネットワーク(DCRN)のエンドツーエンドモデルを提案する。我々のエンドツーエンドモデルは、図1に示されるように、畳み込み特徴抽出器、リカレント層、書き換え層の3つの構成要素からなる。)

(ウ)「We apply this convolutional feature extractor to an input image of size w×h×c (where c is the color channels of image), resulting in a multi-channel output of dimension w′×h′×k, where k is the number of feature maps in last convolutional layer, w′ and h′ depend on the w and h of input images and the amount of pooling layers in the CNN network. 」(75頁11?16行)
(仮訳:我々は、この畳み込み特徴抽出器を、次元w’×h’×kのマルチチャネルの出力をもたらすサイズw×h×c(cは画像のカラーチャネルである。)の入力画像に適用する。ここで、kは最終畳み込み層での特徴量マップの数、w’とh’は入力画像のwとh及びCNNネットワークにおけるプーリング層の総計に依存するものである。)

(エ)「In our end-to-end DCRN model, the recurrent layers are built on top of the convolutional feature extractor to predict a label distribution for each frame of the feature sequence extracted from the previous component.」(75頁右欄32?34行)
(仮訳:我々のエンドツーエンドDCRNモデルにおいて、リカレント層は、前の構成要素から抽出された特徴シーケンスの各フレームのラベル分布を予測するために、畳み込み特徴抽出器の上に設けられる。)

(オ)「At the top of our end-to-end DCRN model, the transcription layer decodes the pre-frame predictions made by the recurrent layers into the final label sequence. Mathematically, decoding is to find the label sequence with the highest probability conditioned on the pre-frame predictions.」(75頁右欄下4?1行)
(仮訳:我々のエンドツーエンドDCRNモデルの最上部において、書き換え層は、リカレント層で生成されたプレフレーム予測を最終的なラベルシーケンスに復号する。数学的に、複合はプレフレーム予測に条件付けられた最も高い確率のラベルシーケンスを見つけることである。)

(カ)「III. TEXT LINE IMAGE GENERATION
A. Synthetic Data Generations
Since the end-to-end model requires large data for training, we propose a synthetic pattern generation method which synthesizes handwritten text line images from sentences in corpora and handwritten character patterns in the Nakayosi and Kuchibue [16] database with local elastic distortion and global elastic distortion model.
We generate the synthetic handwritten text line dataset by taking the following 6 steps:
1. Get a sentence from the listed sentences of corpus.
2. Randomly choose a writer from the listed writers of the handwritten character pattern database.
3. For each character of the sentence in the step 1, a handwritten image of this character is randomly chosen from the writer selected in the step 2.
4. Apply a local elastic distortion to each handwritten pattern in the step 3.
5. Synthesize a handwritten text line image from the sentence selected in the step 1 and elastically distorted handwritten character images in the step 4 with random spacing between each character image.
6. Apply a global elastic distortion to the generated synthetic text line image.」(76頁左欄8?27行)
(仮訳:III.テキスト行画像生成
A.合成データの生成
前記エンドツーエンドモデルには多くの学習データが必要であることから、我々は、コーパスの文とNakayosi及びKuchibueデータベースの手書き文字パターンから、ローカル伸縮歪み及びグローバル伸縮歪みのモデルを用いて手書きテキスト行画像を合成する合成パターン生成方法を提案する。
我々は、次の6ステップにより合成手書きテキスト行データセットを生成する。
1.コーパスにおけるリスト化された文から文を取得する。
2.手書き文字パターンデータベースにおけるリスト化された書き手からランダムに書き手を選択する。
3.ステップ1における前記文の各文字について、この文字の手書き画像が、ステップ2において選ばれた前記書き手からランダムに選択される。
4.ステップ3における各手書きパターンにローカル伸縮歪みモデルを適用する。
5.ステップ1において選ばれた前記文とステップ4における手書き文字画像とから、各文字画像間をランダムな間隔で手書きテキスト行画像を合成する。
6.前記生成された合成テキスト行画像にグローバル伸縮歪みを適用する。)

(キ)「D. Synthetic Handwritten Text Line Dataset
We employ the sentences of Nikkei newspaper corpus and Asahi newspaper corpus and the handwritten character database, Nakayosi and Kuchibue [16] to generate the Synthetic Handwritten Text Line Dataset (SHTL). Nikkei corpus consists of about 1.1 million sentences collected from Nikkei News and Asahi corpus consists of about 1.14 million sentences collected Asahi News. We randomly choose 30,000 sentences which contain less than 30 characters from each corpus. Since it make sure that the end-to-end model can be trainable by SHTL, SHTL consists about 60,000 of synthetic handwritten text line images. 」(77頁左欄1?10行)
(仮訳:D.合成手書きテキスト列データセット
我々は、合成手書きテキスト行データセット(SHTL)を生成するために、日経新聞コーパス及び朝日新聞コーパスの文と、手書き文字データベースNakayosi及びKuchibueとを用いた。日経コーパスは日経ニュースから集められた約110万の文を含み、朝日コーパスは朝日ニュースから集められた約114万の文を含む。我々は、各コーパスから30字未満である3万の文をランダムに選択した。前記エンドツーエンドモデルSHTLによって学習可能であることを確認するために、SHTLは約6万の合成手書きテキスト行画像からなる。)

(ク)「The end-to-end DCRN model is trained using stochastic gradient descent with the learning rate of O.OOI and the momentum of O.9. The training process stops when the recognition accuracy of validation set do not gain after 10 epochs. The end-to-end DCRN model is trained by two datasets; the first is the training set of TUAT Kondate and the second is the training set of TUAT Kondate combining the SHTL Dataset.」(77頁右欄下4行?78頁左欄4行)
(仮訳:前記エンドツーエンドDCRNモデルは、学習レート0.001、運動量0.9の確率勾配降下を用いて学習される。学習プロセスは検証セットの認識精度が10回後に改善しなければ終了する。エンドツーエンドDCRNモデルは2つのデータベースにより学習される。1つめはTUAT Kondateの学習セットであり、2つめはTUAT KondateにSHTLデータセットを併せた学習セットである。(なお、当審において、上記「O.OOI」及び「O.9」は、それぞれ「0.001」及び「0.9」の誤記と認めた。))

(ケ)「The following conclusions are drawn: 1) the end-to-end DCRN model substantially outperforms the previous model DCRN-s and the traditional segmentation-based method [1, 8]; 2) the recognition accuracy is improved by using the SHTL dataset to training the end-to-end DCRN model; 3) the recognition rate is further improved when combined with the linguistic context.」(79頁左欄18?24行)
(仮訳:以下の結論が導かれる。1)前記エンドツーエンドDCRNモデルは実質的に従来のDCRN-sモデル及び従来のセグメンテーションベースの方法より優れている。2)エンドツーエンドDCRNモデルの学習にSHTLデータセットを用いることにより認識精度が改善される。3)言語コンテキストと併せると認識率はさらに改善する。)

イ 引用発明
上記アの記載事項から、引用文献1には、次の発明(以下、「引用発明」という。)が記載されている。
なお、(a)?(d3)は、説明のために付されたものであり、以下各構成を「構成a」?「構成d3」という。

(引用発明)
(a)生成された合成パターンによるオフライン手書き日本語テキスト認識のためのエンドツーエンドモデルの学習であって、

(b)オフライン手書き日本語テキスト行を認識するための深層畳み込みリカレントネットワーク(DCRN)のエンドツーエンドモデルが用いられ、
(b1)前記エンドツーエンドモデルは、畳み込み特徴抽出器、リカレント層、書き換え層の3つの構成要素からなり、
(b11)前記畳み込み特徴抽出器を、次元w’×h’×kのマルチチャネルの出力をもたらすサイズw×h×c(cは画像のカラーチャネルである。)の入力画像に適用し、ここで、kは最終畳み込み層での特徴量マップの数、w’とh’は入力画像のwとh及びCNNネットワークにおけるプーリング層の総計に依存するものであり、
(b12)前記リカレント層は、前の構成要素から抽出された特徴シーケンスの各フレームのラベル分布を予測するために、畳み込み特徴抽出器の上に設けられるものであり、
(b13)前記書き換え層は、リカレント層で生成されたプレフレーム予測を最終的なラベルシーケンスに復号するものであり、

(c)前記エンドツーエンドモデルには多くの学習データが必要であることから、コーパスの文とNakayosi及びKuchibueデータベースの手書き文字パターンから、ローカル伸縮歪み及びグローバル伸縮歪みのモデルを用いて手書きテキスト行画像を合成する合成パターン生成方法が用いられ、
(c1)前記合成パターン生成方法は、次の6ステップにより合成手書きテキスト行データセットを生成するものであり、
(c11)1.コーパスにおけるリスト化された文から文を取得する。
(c12)2.手書き文字パターンデータベースにおけるリスト化された書き手からランダムに書き手を選択する。
(c13)3.ステップ1における前記文の各文字について、この文字の手書き画像が、ステップ2において選ばれた前記書き手からランダムに選択される。
(c14)4.ステップ3における各手書きパターンにローカル伸縮歪みモデルを適用する。
(c15)5.ステップ1において選ばれた前記文とステップ4における手書き文字画像とから、各文字画像間をランダムな間隔で手書きテキスト行画像を合成する。
(c16)6.前記生成された合成テキスト行画像にグローバル伸縮歪みを適用する。

(d1)合成手書きテキスト行データセット(SHTL)を生成するために、日経新聞コーパス及び朝日新聞コーパスの文と、手書き文字データベースNakayosi及びKuchibueとを用い、
(d2)前記エンドツーエンドDCRNモデルは、学習レート0.001、運動量0.9の確率勾配降下を用いて学習され、
(d3)エンドツーエンドDCRNモデルの学習にSHTLデータセットを用いることにより認識精度が改善される

(a)エンドツーエンドモデルの学習。

(2)引用文献2(甲第4号証)
引用文献2(甲第4号証)には、次の記載がある。

(ア)「Word recognition [10] is the problem of coverting the handwritten content present in an image into machine understandable text. In this work we use a CNN-RNN hybrid architecture, first proposed by [13].」(2頁左欄37?40行)
(仮訳:単語認識[10]とは、画像の手書きコンテンツを装置で認識できるテキストに変換する問題である。本研究では、我々は、[13]で最初に提案されたCNN-RNNハイブリッド構造を用いる。)

(イ)「To overcome the lack of availability of real handwritten training data we use the IIIT-HWS dataset [29] for pre-training our isolated word recognition networks.」(2頁右欄26行?29行)
(仮訳:現実の手書きトレーニングデータの利用可能性が不足していることを解消するために、我々は、個別の単語認識ネットワークを事前学習するためにIIIT-HWSデータセットを使用する。)

(ウ)「Given a pre-trained network using synthetic data which gives a good initialization for the deep network, we now focus onto the various data augmentation schemes which supplements the rea1 data in learning the desired invariances.」(2頁右欄41行?3頁左欄2行)
(仮訳:深層ネットワークにとって良い初期値を持った合成データを用いて事前学習されたネットワークが与えられたうえで、さらに我々は望ましい不変性の学習のため、リアルデータを補完する種々のデータ拡張スキームに取り組む。)

(エ)「IAM Handwriting Database [31]: It inc1udes contributions from 657 writers, having a total of 13,353 handwritten lines, comprising of 115,320 words.」(4頁左欄9?11行)
(仮訳:IAM手書きデータベース[31]:これは、合計13,353の手書きの行を有し、115,320語を備えた、657人の書き手による寄与を含んでいる。)

(オ)「The various models and their training strategies are mentioned below:
・ CRNN-REAL is the original architecture of [13] and trained only on the IAM train set.
・ CRNN-FULL is the original architecture of [13], first pre-trained on IIIT-HWS and then fine-tuned on IAM. Here we only use affine-transformations as mentioned in Section III-C for augmenting our data.」(4頁右欄2行?9行)
(仮訳:種々のモデルとそれらの学習ストラテジーが以下に述べられている。
・CRNN-REALは、[13]のオリジナルのアーキテクチャであり、IAM学習セットに関してのみ学習される。
・CRNN-FULLは、[13]のオリジナルのアーキテクチャであり、第1にIIIT-HWSに基づいて事前学習し、次にIAMに基づいて追加学習する。ここでは、我々は我々のデータを拡張するためにセクションIII-Cで述べたようなアフィン変換のみを使用する。)

(3)引用文献3(甲第9号証)
引用文献3(甲第9号証)には、次の記載がある。

(ア)「膨大な情報が蓄積するオフィスにおいて,情報をいかに入力・整理するかが重要な課題になっている.情報整理のキー項目として,住所あるいは姓名がその大きな役割を果たす.そして,これらキー項目の入力のオートメーション化を図るため,帳票等に手書きされた住所や姓名をOCR(Optical Character Reader)を用いて認識し,効率的に情報の入力・整理を行う方法が注目されている.」(1101頁左欄2?9行)

(イ)「また、本論文で対象とする手書き文字認識の主な応用は帳票の読み取りであり,その対象は住所や氏名である.」(1102頁左欄1行?3行)

(ウ)「3.3.2 辞書構成
階層地名辞書は、図6に示すように、4種類の地名辞書から構成される。各地名辞書は、図6に示すように、上位の階層の地名へのポインタを持つ。例えば、『千代田区』や『北区』は上位の階層の地名辞書である都道府県辞書『東京都』へのポインタを持つ。ボトムアップ処理ではこの上位へのポインタを用いて候補辞書を検定する。
3.3.3 ボトムアップ処理
3.3.1項で述べたように、住所検定ではボトムアップ処理を繰返し行う。具体的には、次の3ステップからなる。第一に、最下位の階層(字・大字の階層)の候補地名群を核としてボトムアップ処理を実行し候補住所を求める。第二に、区町村の階層の候補地名群を核としてボトムアップ処理を実行し候補住所を求める。最後に、求めた候補住所の文字列距離により正解住所を推定する。」(1106頁左欄27行?右欄12行)

(エ)「


(図6)

(4)引用文献4(甲第10号証)
引用文献4(甲第10号証)には、次の記載がある。

(ア)「【0014】
図1は、本発明の適用例であるWebサービスを用いた文書認識サービスを利用した業務のフローを示した図である。本サービスでは、業務を継続することにより文字認識辞書が改良され、認識精度が向上するという特徴を持つ。
【0015】
まず、文書認識サービスの利用者は読み取りたい文書や文字を登録する(プロセス1、0110)。文書画像や文字画像はコンピュータ(すなわちディスプレイによる表示と、マウス、キーボードによる人力)を使って行うことも可能であるが、この図では電子ペンと特殊な用紙を利用することや、カメラやスキャナで画像化した文書群(0101)を扱うとしている。入力された業務文書は、ネットワーク0102を通して認識クラウド0103に送られる。さまざまな地域、さまざまな執筆者より集められた業務文書は、認識クラウド内のデータベース0104に記録される。次に、この文書画像データに基づいて、当該文書の必要な箇所をコンピュータで認識する(0105)。認識時には文字認識用の辞書0106を用いる。認識結果は認識サービスの利用者に提示される(プロセス2、0111)。」

(5)引用文献5(甲第11号証)
引用文献5(甲第11号証)には、次の記載がある。

(ア)「【0015】
また、上記課題を解決するために、本発明に係る帳票認識システムは、帳票を含む一定形式の書類の罫線及び/もしくは枠情報を認識する枠線認識装置と、前記枠線認識装置によって認識された罫線及び/もしくは枠情報に係る領域を確定する領域確定手段と、前記領域確定手段によって確定された領域のうちの特定の領域について、該領域内の文字を撮像してデジタル情報に還元し、前記還元されたデジタル情報にマッチする文字情報をデジタル情報-文字情報対応データベースから抽出して対応文字情報を得る領域内文字認識手段と、前記領域内文字認識手段によって得られる文字情報のうち項目名情報と推定される情報に係る属性を推定及び/もしくは規定し、属性と該属性に属すことが想定可能な項目情報の一覧とを対応させた属性-属性内可能項目データベースから前記推定及び/もしくは規定された属性に対応する属性-属性内可能項目データベースを選定する属性対応項目選定手段と、前記領域内文字認識手段によって得られる文字情報のうち項目名情報と推定される情報に係る以外の文字情報について、前記属性対応項目選定手段によって選定された属性-属性内可能項目データベース内に格納された項目情報のうち類似度の高いものを選定する近接項目選定手段と、前記近接項目選定手段で選定された前記類似度の高い項目情報の妥当性を検証して前記文字情報に対応する情報を確定する文字情報確定手段とを備えて構成され、さらに、前記領域確定部と前記領域内文字認識部と前記属性対応項目選定部と前記類似項目選定部と前記文字情報確定部とにより認識した帳票の書式に関し、同一の帳票パターンに対し複数の処方表記パターンを対応付ける手段と、前記対応付けた結果に関する情報を第1の記憶として格納する手段とを備える。また、前記領域確定部と前記領域内文字認識部と前記属性対応項目選定部と前記類似項目選定部と前記文字情報確定部とにより認識した帳票に関し、罫線、手書き文字および印刷文字情報をデジタル情報として認識した結果のうち少なくとも1つを表示する手段と、前記表示したデジタル情報を訂正する手段と、前記修正した結果に関する情報を第2の記憶として格納する手段とをさらに備える。」

(6)引用文献6(甲第12号証)
引用文献6(甲第12号証)には、次の記載がある。

(ア)「課題
従来、非定型帳票内の項目やデータの論理的な構造を認識する技術として、あらかじめ見出し辞書に登録してある「帳票番号」のような文字列をまず帳票中から認識し、次に、その見出しの位置から一定の範囲内文字列を帳票番号のデータと認識していました。」

(7)引用文献7(甲第13号証)
引用文献7(甲第13号証)には、次の記載がある。

(ア)「日本においてOCR(光学的文字認識装置)の製品化が始まったのは1968年前後である。OCRのその後の進歩はめざましく、OCRでの処理対象は英数字、カナ、記号から漢字へ、活字から手書きへ、専門帳票から一般文書(一般帳票)へと広がってきた。」(133頁左欄2?6行)

(イ)「2-2-1 定型帳票処理
入力された帳票画像の中からあらかじめ登録しておいたフォーマット情報を基に文字記入領域に書かれた文字画像を抽出する。」(134頁右欄40?43行)

(8)引用文献8
引用文献8(当審で追加した文献)には、次の記載がある。

(ア)「【0002】
【従来の技術】ニューラルネットワークを用いて文字等を認識する場合、予めニューラルネットワークに認識対象文字を学習させておく。学習とは、例えば認識対象文字「C」をニューラルネットワークに入力したときに、ニューラルネットワークから「C」が出力されるように、ニューラルネットワークを構成する各ユニット間の結合荷重等のパラメータを決定することである。また、学習に用いられる文字等のパターンを「学習パターン」といい、この学習パターンの集合を「学習データ」という。学習パターンの例を図8に示す。学習パターンには、認識対象文字である学習パターン80、認識対象文字にノイズが加わった学習パターン81,82,83、認識対象文字が変形した学習パターン84,85,86等がある。」

(イ)「【図8】



(9)周知文献1、周知文献2
ア 周知文献1の記載事項
周知文献1には、次の記載がある。
(ア)「【0005】ここで、帳票中に取得したい“項目名”に対する記入文字が異なる領域に複数記載されている場合、従来の帳票フォーマット定義ファイルでは、その中で最も認識することが容易と思われる1つの領域を登録していた。しかし、この方法では、実際の帳票で帳票フォーマット定義ファイルに登録した領域にノイズやかすれがあり、同じ内容が記載されている別の領域にはノイズやかすれがない場合に文字を認識できないというケースが発生する。また、帳票フォーマット定義ファイルの文字認識要求領域を認識する際、認識精度を向上させる一手段として、“項目名”に対する記入文字の字種を限定して認識する方法が提案されている。しかし、この方法では、帳票フォーマット定義ファイル作成時に“項目名”に対する記入文字の字種を作業者が帳票毎に登録する必要があり、負荷を増大させている。」

(イ)「【0013】帳票201は、予め印刷されている項目名205,206,207,208と、個々の帳票毎に手書き若しくは活字で記入される209,210,211,212からなる。帳票フォーマット定義ファイル110には、当該帳票の項目名205,206と項目名に対する記入文字209,210を含む領域をそれぞれ“文字認識要求矩形左上位置 - 文字認識要求矩形右下位置”で登録する。共通知識データベース112は、任意の帳票で使用される項目名毎の関係と項目名に対する記入文字の字種を“項目名1 = 項目名2 = 項目名3 : 字種A”で登録する。この時、“=”で結ばれる項目名は等価を示すとし、項目名が等価であれば項目名に対する記入文字も等価であると考えられる。字種別文字辞書111は各項目名に対する記入文字で使用する文字種を、異なる辞書の金額字種辞書,番号字種辞書,住所字種辞書に分けて登録する。」

(ウ)「【0017】“項目名”が取得できたならば、“項目名”に対する記入文字の認識結果を補完するための処理を文字認識結果解析部105で行う。まず、共通知識データベース112を参照して“項目名”を検索して“項目名”に対する記入文字の字種が登録されているか判断する(ステップ307)。“項目名に対する記入”の字種が登録されているならば、文字認識部104で再度“項目名”に対する記入文字に対して字種別文字辞書111より当該字種対応する字種辞書を選択して記入文字の認識を行う(ステップ308)。」

(エ)「【0026】図6は帳票601の例であり、図7は図6の帳票601の例における、図3のステップ303,ステップ308の帳票フォーマット定義ファイルに登録されている文字認識要求領域の字種限定処理の詳細を示す。帳票601に対する帳票フォーマット定義ファイルが図7の110である時、帳票フォーマット定義ファイル110に登録されている左上座標が(X1,Y1),右下座標が(X2,Y2)である領域に対して字種別文字辞書111の中の全字種辞書1114を使用して、文字認識701を行う。図7の文字認識の例では“項目名”が“納人全額”と認識され、“項目名”に対する記入文字が“Yl0.008”と認識された。
【0027】この時、記入文字の認識確信度を算出する。この場合、認識確信度が低いため、“項目名”に対する記入文字の認識を字種限定有りで再度実行する必要がある。“項目名”に対する記入文字を字種限定有りで再度実行するための前処理として使用する字種を決定する。そのためには、認識した項目名“納人全額”を、図5で示すように、項目名単語照合辞書113を使用して単語照合処理を行い、項目名“納入金額”を取得する。項目名単語照合処理で得られた項目名“納入金額”を、共通知識データベース112より検索し、“納入金額”に対する記入文字の字種“金額字種”を決定する。
【0028】字種が決定されると、字種別文字辞書111より“金額字種”に対応する金額字種辞書1113が選択され、この金額字種辞書1113を使用して“項目名”に対する記入文字の記載領域である左上座標(X3,Y3),右下座標(X2,Y2)である領域に対して、“項目名”に対する記入文字を検出するために文字認識702が行われ、認識結果“¥10,000”が出力される。」

(オ)「【図2】



イ 周知文献2の記載事項
周知文献2には、次の記載がある。
(ア)「【0001】
本発明の実施形態は、帳票に記載された情報を読み取り、読み取った情報に含まれる文字列を項目毎に分類する文字入力装置、文字入力方法に関する。」

(イ)「【0090】
この第6実施形態の場合、入力対象の項目毎に単語辞書または単語グループを複数を備え、第2マッチング部19は単語辞書または単語グループを項目毎に切り替えて対象とする単語をマッチングする。単語辞書は例えば住所辞書、郵便番号辞書、氏名辞書などであり、単語グループは単語辞書とは異なり、例えばカタカナ、数字、記号、漢字などといったグループに分けられた単語の群をいう。
【0091】
このようにこの第6実施形態によれば、入力対象の項目毎に単語辞書または単語グループを複数備え、第2マッチング部19でマッチング対象とする単語辞書または単語グループを項目毎に切り替えることで、不必要な単語とのマッチングを減らすことで処理時間を削減することができる。また誤った単語とのマッチングで認識結果が不正確に訂正されることを防止することができる。」

ウ 周知技術
上記ア及びイの記載事項から、以下の技術は周知技術と認められる。

(周知技術)
(帳票の手書き文字入力領域が例えば住所欄であれば、文字認識の結果は住所に使用される単語のみであるというように)帳票の手書き文字入力領域ごとに文字認識に使用される単語が限定されており、当該領域ごとに限定された単語のみに対応した文字認識を行うこと。

第6 その他の甲号証、参考資料
特許異議申立書において提示された甲号証であって上記第4に示されていない甲号証、令和2年10月16日付け意見書(特許異議申立人)において提示された参考資料1、参考資料2、及び令和3年3月9日付け意見書(特許異議申立人)において提示された参考資料1、並びにそれらの記載事項は、以下のとおりである。

(1)甲第1号証
甲第1号証は、Nam-Tuan Ly、外2名、「Training an End-to-end Model for Offline Handwritten Japanese Text Recognition by Generated Synthetic Patterns」、ICFHR 2018、2018年8月5日、1?28頁、インターネット<http://icfhr2018.org/SlidesPosters/Slides-Paper106.pdf#>であり、甲第1号証には次の記載がある。

ア 「Training an End-to-end Model for Offline Handwritten Japanese Text Recognition by Generated Synthetic Patterns」(1頁)
(仮訳:生成された合成パターンによるオフライン手書き日本語テキスト認識のためのエンドツーエンドモデルの学習)

イ 「Deep Convolutional Recurrent Network(1/3)
Deep Convolutional Recurrent Network(DCRN) consists of three components.
□ Convolutional Feature Extractor.
◆ Using a standard CNN network (FC and Softmax layers are removed).
◆ Extract a feature sequence from a text line image.
□ Recurrent layers.
◆ Employing a Bidirectional LSTM.
◆ Predict pre-frames from a feature sequence.
□ Transcription layer.
◆ Using CTC - decoder.
◆ Convert the pre-frame predictions into a label sequence.」(9頁)
(仮訳:深層畳み込みリカレントネットワーク(1/3)
深層畳み込みリカレントネットワーク(DCRN)は、3つの要素を有する。
□畳み込み特徴抽出器
◆スタンダードなCNNネットワーク(FCとSoftmax層は除かれている)を使用
◆テキスト行画像から特徴シーケンスを抽出
□リカレント層
◆双方向LSTMを使用
◆特徴シーケンスからプレフレームを予測
□書き換え層
◆CTCデコーダを使用
◆プレフレーム予測をラベルシーケンスに変換)

ウ 「Synthetic Data Generation(1/3)
Synthetic pattern generation method.
◆ Sentences in corpora and handwritten character pattern database (HCP).
◆ Local and global elastic distortion model.
□ Following 6 steps:
1. Get a sentence (S) from a corpus.
2. Randomly choose a writer (A) from the HCP.
3. For each character of the sentence (S), a handwritten image of this character is randomly chosen from the writer (A).
4. Apply a local elastic distortion to each handwritten character pattern in the step 3.
5. Synthesize a handwritten text line image from the sentence (S) and handwritten character images in the step 4 with random spacing.
6. Apply a global elastic distortion to the generated synthetic text line image.」(13頁)
(仮訳:合成データ生成(1/3)
◆コーパスの文と手書き文字パターンデータベース(HCP)
◆ローカルおよびグローバルの伸縮歪みモデル
口以下の6つのステップ
1.コーパスから文章(S)を取得する。
2.HCPからランダムに書き手(A)を選択する。
3.前記文章(S)の各文字について、この文字の手書き画像が前記書き手(A)からランダムに選択される。
4.ステップ3における各手書き文字パターンに対して、ローカル伸縮歪みモデルを適用する。
5.前記文章(S)と、ステップ4における手書き文字画像とから、ランダムな間隔で手書きテキスト行画像を合成する。
6.前記生成された合成テキスト行画像にグローバル伸縮歪みを適用する。)

エ 「Synthetic Data Generation(3/3)
Synthetic Handwritten Text Line Dataset (SHTL)
□ Handwritten Japanese character pattern DBs, Nakayosi and Kuchibue.
□ Nikkei newspaper corpus (1.1 million sentences) and Asahi newspaper corpus (1.14 million sentences).
◆ Randomly choose 30,000 sentences which contain less than 30 characters from each corpus.
→ make sure that the end-to-end model can be trainable by SHTL.」(15頁)
(仮訳:合成データ生成(3/3)
合成手書きテキスト行データセット(SHTL)
□手書き日本語文字パターンDB、NakayosiとKuchibue
□日経新聞コーパス(110万の文)と朝日新聞コーパス(114万の文)
◆各コーパスから、30以下の文字を含む3万の文ランダムに選択する。
→このエンドツーエンドモデルがSHTLによって学習可能であることを確認する。)

オ 「Datasets(2/2)
Handwritten Japanese character pattern database.
□ Nakayosi & Kuchibue (originally online but converted to offline)
◆ Used for generating SHTL.
Synthetic Handwritten Text Line Dataset (SHTL)
□ 60,000 text line images.
→ used for training the end-to-end model.」(18頁)
(仮訳:データセット(2/2)
手書き日本語文字パターンデータベース
□NakayosiとKuchibue(当初はオンラインだが、オフラインに変換された)
◆SHTLを生成するために使用
合成手書きテキスト行データセット(SHTL)
□6万のテキスト行画像
→エンドツーエンドモデルを学習するために使用される。)

(2)甲第3号証
甲第3号証は、特開平8-287188号公報であり、甲第3号証には次の記載がある。

ア 「【0001】
【産業上の利用分野】帳票や郵便物に書かれた文字列を自動認識する方法に関し、特に文字枠等の記入上の制限がない帳票に書かれた文字列や郵便物に書かれた住所・氏名等のような、自由書式(不定ピッチ)で筆記された文字列を自動認識する方法に関する。」

イ 「【0027】知識処理部8は、照合部6において求められた認識候補文字18を入力データとして、文字列領域画像14の中での入力文字画像15の位置に基づいて、認識候補文字18を並べ、認識候補文字列を生成する。あらかじめ知識辞書メモリ9には、読み取り対象の知識データベースが登録されている。知識データベースとしては、住所、氏名、会社名、商品名、部品名等のさまざまな知識があるが、本実施例においては、住所知識データベースを用いた場合について説明する。知識処理部8においては、認識候補文字列を、読み取り対象の知識データベースに登録されている知識データ20に基づいて検索する。」

(3)甲第5号証
甲第5号証は、クラウドWatch、「富士通研、社外秘マークや透かし文字を検出する新技術」、2010年9月6日、インターネット< https://cloud.watch.impress.co.jp/docs/news/392038.html>であり、甲第5号証には次の記載がある。

ア 「「しかし、文書の機密性はテキスト情報だけでなく、マークや背景の透かし文字のような形式で指定される場合も少なくない」とソフト&ソリューション研究所 言語・メディア研究部主任研究員の堀田悦伸氏は指摘する。」

(4)甲第6号証
甲第6号証は、株式会社富士通研究所、「業界初!文書に含まれる社外秘マークや透かし文字を検出」、2010年9月6日、インターネット<https://pr.fujitsu.com/jp/news/2010/09/6.html>
であり、甲第6号証には次の記載がある。

ア 「株式会社富士通研究所(注1)は、機密文書に含まれる社外秘マークや、「関係者外秘」などの背景の透かし文字を検出することで、機密文書の漏えい対策を行う技術を開発しました。」

(5)甲第7号証
甲第7号証は、Ankush Gupata、他2名、「Synthetic Data for Text Localisation in Natural Images」、2016年4月22日、インターネット<https://arxiv.org/pdf/1604.06646.pdf>であり、甲第7号証には次の記載がある。

ア 「Abstract
In this paper we introduce a new method for text detection in natural images. The method comprises two contributions: First, a fast and scalable engine to generate synthetic images of text in clutter. This engine overlays synthetic text to existing background images in a natural way, accounting for the local 3D scene geometry. Second, we use the synthetic images to train a Fully-Convolutional Regression Network (FCRN) which efficiently performs text detection and bounding-box regression at all locations and multiple scales in an image.」(1頁左欄2?11行)
(仮訳:本論文において、我々は、自然画像におけるテキスト検出のための新しい方法を紹介する。この方法は、2つの貢献を備えている。第1は、クラスターにおけるテキストの合成画像を生成する高速かつスケーラブルなエンジンである。このエンジンは、3Dシーン配置を説明するため、自然な方法で合成テキストを既存の背景画像にオーバーレイする。第2に、我々は、完全畳み込み回帰ネットワーク(FCRN)を学習するために合成画像を使用するが、このFCRNは、画像中のあらゆる場所および複数のスケールでテキスト検出と文字枠回帰を効率よく実行する。)

イ 「In this paper we propose improvements similar to [20] to the complementary problem of text detection. We make two key contributions. First, we propose a new method for generating synthetic images of text that naturally blends text in existing natural scenes, using off-the-shelf deep 1earning and segmentation techniques to align text to the geometry of a background image and respect scene boundaries. We use this method to automatically generate a new synthetic dataset of text in cluttered conditions (figure 1 (top) and section 2). This dataset, called SynthText in the Wild (figure 2), is suitable for training high-performance scene text detectors. The key difference with existing synthetic text datasets such as the one of [20] is that these only contains word-level image regions and are unsuitable for training detectors.」(1頁右欄7行?2頁左欄2行)
(仮訳:本論文では、テキスト検出の補足的な問題に対して、[20]と同様の改善を提案する。我々は、2つの重要な貢献を行った。第1に、我々は、存在している自然の風景に自然にテキストをブレンドした、テキストの合成画像を生成するための新しい方法を提案する。ここでは、既成のディープラーニングとセグメンテーション技術を使用して、背景画像と関連境界の場所にテキストを配置する。我々は、この方法を使用して、クラスターされた条件(図1(上側)とセクション2)におけるテキストの新しい合成データセットを自動的に生成する。「SynthText in the Wild(図2)」と呼ばれるこのデータセットは、高パフォーマンスのシーンテキスト検出器を学習するのに適している。[20]のような既存の合成テキストデータセットとの重要な相違点は、これらは単に単語レベルの画像領域を含むものであり、検出器を学習するのには適していないことである。)

(6)甲第8号証
甲第8号証は、特開2008-219825号公報であり、甲第8号証には次の記載がある。

ア 「【0067】
部分画像切出しモジュール41は、図4に示すように、生成過程模擬モジュール42、部分画像辞書モジュール45、制御モジュール46、符号化モジュール47と接続されており、文書画像データから入力部分画像を切り出して、その入力部分画像を生成過程模擬モジュール42、部分画像辞書モジュール45へ渡し、その部分画像の位置を符号化モジュール47へ渡す。より具体的には、JBIG2 TRで採用している文字画像の切出しを用いてもよい。以下の実施の形態においても同様である。
生成過程模擬モジュール42は、図4に示すように、部分画像切出しモジュール41、パターン認識モジュール43と接続されており、部分画像切出しモジュール41から入力部分画像を受け取り、ばらつきを与えて教師パターンを生成する。その教師パターンをパターン認識モジュール43へ渡す。つまり、入力部分画像が生成される過程を模擬して、入力部分画像にばらつきを与えて教師パターンとして出力する。」

(7)甲第14号証
甲第14号証は、松田崇宏、他2名、「データクラスタリングによる局所特徴ベース情景内文字認識手法の改善」、2014年12月、電子情報通信学会技術研究報告、vol.114、no.356、PRMU2014-75、57?62頁であり、甲第14号証には次の記載がある。

ア 「あらまし 情景内文字認識とは身の回りに存在するあらゆる文字を認識対象とし,それが何の文字であるかを認識することである.既存の情景内文字認識手法の一つである松田らの手法は,画像から得られる局所特徴の対応関係を利用することで,複雑な背景やレイアウトを持つ文字であっても,領域の検出と認識を同時に行なうことができる.しかし,登録されていないフォントに対しては十分な認識率を得ることが出来ない.この問題は大量のフォントをデータベースに登録することで解決できると考えられるが,その反面データベースや処理時間が増大してしまう.そこで本稿では,データベース中の類似する局所特徴をまとめるようなクラスタリングを行なうことで,登録するデータ数の削減を図る.データ数が減ることで,データベースと局所特徴の対応関係を求めるのに必要なコストを削減できると考えられる.そこで,クラスタリングを行なうことが認識率と処理時間にどのような影響を与えるかを調べるべく,実験を行なう.実験の結果,認識率を落とすこと無く,データベースと処理時間を大幅に削減できることがわかった.」(第1頁(57頁)1?10行)

(8)令和2年10月16日付け意見書に添付の参考資料1
令和2年10月16日付け意見書に添付された参考資料1は、上記甲第3号証であり、記載事項は上記(2)のとおりである。

(9)令和2年10月16日付け意見書に添付の参考資料2
令和2年10月16日付け意見書に添付された参考資料2は、特開2006-92138号公報であり、当該参考資料2には次の記載がある。

ア 「【0009】
本発明では、複数の文字の種別にそれぞれ対応した複数の文字認識辞書を備えた文字認識装置において、最初に予め定めた文字認識辞書で文字認識を行い、その文字認識結果に応じて文字認識辞書を切り替えて再度認識を行い、それぞれの文字認識結果を適宜選択して最終文字認識結果を出力する。」

(10)令和3年3月9日付け意見書に添付の参考資料1
令和3年3月9日付け意見書に添付された参考資料1は、Monika Sharma、外2名、「Learning to Clean: A GAN Perspective」、2019年1月28日、1?12頁、インターネット<http://export.arxiv.org/pdf/1901.11382>であり、当該参考資料1には次の記載がある。

ア 「In this paper, we attempt to perform denoising of the documents before the document is being sent to text recognition network for reading and propose a document cleaning suite based on generative adversarial training. This suite is trained for background noise removal, deblurring, watermark removal and defading and learns a mapping from the distribution of noisy documents to the distribution of clean documents.」(2頁5?10行)
(仮訳:本論文では、我々は、文書が読取用テキスト認識ネットワークに送られる前に文書のノイズ除去を行うことを試み、学習に基づいた敵対的生成学習に基づいた文書のクリーニング組を提案する。この組は、バックグラウンド除去、ぼけ除去、透かし除去、及び色あせ除去のために学習されており、ノイズ文書の分布からクリーン文書の分布へのマッピングを学習している。)

イ 「Therefore, we have synthetically generated document datasets for watermark removal and defading tasks, and have also made these puclic for the benefit of research community.」(2頁43?45行)
(仮訳:したがって、我々は、透かし除去や色あせ除去のタスクのための文書のデータセットを合成的に生成し、また研究コミュニティの利益のためにこれらを公開した。)

ウ 「- Watermark Removal Dataset : As there exists no publicly available dataset for watermarked document images, we generated our own synthetic watermark removal document dataset. (略) The training set of 2000 images and test set of 200 images from this syunthetic dataset was used for experimental purposes.」(7頁10?19行)
(仮訳:-透かし除去データセット:利用可能な透かし付き文書の画像のデータセットは、公には存在しないため、我々は自身の合成的な透かし除去文書を生成した。(略)この合成データセットから、2000画像の学習セットと200画像のテストセットが実験のために使用された。)

第7 対比、判断
(1)本件発明11について
ア 対比
本件発明11を引用発明と対比する。

(ア)構成11Aについて
構成aの「エンドツーエンドモデルの学習」は、構成cにおいて合成パターンを生成し、構成d2においてエンドツーエンドDCRNモデルを学習するものであり、これらの処理がコンピュータにより実行されることは当業者に明らかな事項であるから、本件発明11と引用発明は、「学習モデルを生成するコンピュータが実行する学習モデル生成方法」として一致する。

(イ)構成11Bについて
構成cの「文」を備えた「コーパス」は、「1又は複数の文字列が登録されたデータベース」である点で、構成11Bと共通する。また、構成cの「手書き文字パターン」を備えた「Nakayosi及びKuchibueデータベース」は、構成11Bの「1文字単位の手書き文字画像のデータセット」に相当する。そして、構成cの、コーパスの文とNakayosi及びKuchibueデータベースの手書き文字パターンから、手書きテキスト行画像を合成すること、及び、構成c15のステップ5(ステップ1において選ばれた前記文とステップ4における手書き文字画像とから、各文字画像間をランダムな間隔で手書きテキスト行画像を合成すること)は、「1又は複数の文字列が登録されたデータベースから文字列を抽出し、1文字単位の手書き文字画像のデータセットから前記文字列に含まれる文字ごとに対応する1文字単位の手書き文字画像を読み出すことにより、文字列画像を含む学習用データを生成するステップ」である点で、構成11Bと共通する。
また、構成d1?構成d3の、エンドツーエンドDCRNモデルの学習に用いられる合成手書きテキスト行データセット(SHTL)を生成する際にコーパスの文が用いられるものにおいて、当該コーパスの文の文字列の情報が、前記エンドツーエンドDCRNモデルの学習時にSHTLの各々に対応した正解ラベルとして用いられることは、当業者において当然に想定されている構成と認められるから、構成d1の「合成手書きテキスト行データセット(SHTL)を生成する」処理は、各SHTLに対応した正解ラベルも学習用データとして生成することを伴うものといえる。したがって、引用発明は、「1又は複数の文字列が登録されたデータベースから文字列を抽出し、1文字単位の手書き文字画像のデータセットから前記文字列に含まれる文字ごとに対応する1文字単位の手書き文字画像を読み出すことにより、文字列画像及び正解ラベルを含む学習用データを生成するステップ」を備える点で、本件発明11と共通する。
しかしながら、前記文字列について、本件発明11では「帳票の手書き文字領域に記入されうる単語」であるのに対し、引用発明では「文」である点で、両者は相違する。
これに加えて、前記1又は複数の文字列が登録されたデータベースについて、本件発明11では「帳票の手書き文字領域に記入されうる1又は複数の単語が前記文字領域のそれぞれに対応して登録された複数の」ものであるのに対し、引用発明では「文」が登録されたものである点で、両者は相違する。
そして、前記データベースから文字列を抽出することについて、本件発明11では「複数のデータベースの各々から単語を抽出」することであるのに対し、引用発明ではデータベースから「文」を抽出することである点で、両者は相違する。
また、前記文字列画像及び正解ラベルを含む学習用データを生成することついて、本件発明11では「前記文字領域ごとに」(帳票の手書き文字領域ごとに)行われるのに対し、引用発明では当該特定がなされていない点で両者は相違する。

(ウ)構成11Cについて
構成d1の、「合成手書きテキスト行データセット(SHTL)」は、コーパスの文と手書き文字データベースとを用いて生成されるものであるから、構成cの、コーパスの文と手書き文字パターンから合成される「手書きテキスト行画像」に対応したものと認められる。したがって、構成d1?構成d3により合成手書きテキスト行データセット(SHTL)を用いてエンドツーエンドDCRNモデルを学習することは、「前記学習用データを用いた第1学習により、学習モデルを生成するステップ」に相当する。
しかしながら、前記学習モデルを生成するステップについて、本件発明11では「前記文字領域ごとに」(帳票の手書き文字領域ごとに)行われるのに対し、引用発明では当該特定がなされていない点で両者は相違する。

イ 一致点、相違点
以上のことから、本件発明11と引用発明との一致点、相違点は、次のとおりである。

(一致点)
(11A)学習モデルを生成するコンピュータが実行する学習モデル生成方法であって、
(11B’)1又は複数の文字列が登録されたデータベースから文字列を抽出し、1文字単位の手書き文字画像のデータセットから前記文字列に含まれる文字ごとに対応する1文字単位の手書き文字画像を読み出すことにより、文字列画像及び正解ラベルを含む学習用データを生成するステップと、
(11C’)前記学習用データを用いた第1学習により、学習モデルを生成するステップと、
を含む、
(11A)学習モデル生成方法。

(相違点1)
文字列について、本件発明11では「帳票の手書き文字領域に記入されうる単語」であるのに対し、引用発明では「文」である点。

(相違点2)
1又は複数の文字列が登録されたデータベースについて、本件発明11では「帳票の手書き文字領域に記入されうる1又は複数の単語が前記文字領域のそれぞれに対応して登録された複数の」ものであるのに対し、引用発明では「文」が登録されたものである点。

(相違点3)
データベースから文字列を抽出することについて、本件発明11では「複数のデータベースの各々から単語を抽出」することであるのに対し、引用発明ではデータベースから「文」を抽出することである点。

(相違点4)
文字列画像及び正解ラベルを含む学習用データを生成することついて、本件発明11では「前記文字領域ごとに」(帳票の手書き文字領域ごとに)行われるのに対し、引用発明では当該特定がなされていない点。

(相違点5)
前記学習モデルを生成するステップについて、本件発明11では「前記文字領域ごとに」(帳票の手書き文字領域ごとに)行われるのに対し、引用発明では当該特定がなされていない点。

ウ 判断
上記相違点5について、まず検討する。

引用発明は、「手書き日本語テキスト認識のためのエンドツーエンドモデルの学習」に関する発明であり、認識する上記「手書き日本語テキスト」の手書きされている対象が何であるかについては、引用文献1において特定されていない。
そして、帳票の手書き文字入力領域に記入された文字を認識することはよく行われていることであるから、引用発明を、帳票の手書き文字入力領域に記入された文字の認識のためのエンドツーエンドモデルの学習とすることは、考えられることである。
また、(帳票の手書き文字入力領域が例えば住所欄であれば、文字認識の結果は住所に使用される単語のみであるというように)帳票の手書き文字入力領域ごとに文字認識に使用される単語が限定されており、当該領域ごとに限定された単語のみに対応した文字認識を行うことは、上記周知文献1及び周知文献2に記載されているように周知技術である。
すると、引用発明を、帳票の手書き文字入力領域ごとに限定された単語のみに対応した文字認識を行うためのものとすることは、考えられることである。
しかしながら、エンドツーエンドモデルの構成を変更することは、特許異議申立人が提示した甲号証及び参考資料、並びに当審で追加した文献(上記第5及び第6を参照。)のいずれにも記載も示唆もされておらず、引用発明のエンドツーエンドモデルの構成を変更することが、当業者が容易に想起しうる範囲内のものであったとはいえない。
したがって、引用発明において、エンドツーエンドモデル(学習モデル)を帳票の手書き文字入力領域ごとに生成すること、すなわち、上記相違点5に係る本件発明11の構成は、当業者であっても容易に想到しうるものとはいえない。

よって、本件発明11は、上記相違点5以外の相違点について検討するまでもなく、引用発明及び周知技術等に基づいて、当業者が容易に発明をすることができたものとはいえない。

(2)本件発明1、本件発明12について
本件発明1の構成1A、1B及び1C、並びに、本件発明12の構成12A、12B及び12Cは、いずれも本件発明11の構成11B、11C及び11Aにそれぞれ対応するものである。
したがって、本件発明1及び本件発明12は、本件発明11と同じ相違点5に係る構成を備えるから、上記(1)と同じ理由により、当業者が容易に発明をすることができたものとはいえない。

(3)本件発明2?本件発明10について
本件発明2?本件発明10は、本件発明1の構成を含むものであって、本件発明11と同じ相違点5に係る構成を備えるから、上記(1)と同じ理由により、当業者が容易に発明をすることができたものとはいえない。

第8 むすび
以上のとおりであるから、取消理由通知(決定の予告)に記載した取消理由及び特許異議申立書に記載された特許異議申立理由によっては、本件発明1?12に係る特許を取り消すことはできない。
また、他に本件発明1?12に係る特許を取り消すべき理由を発見しない。

よって、結論のとおり決定する。

 
発明の名称 (57)【特許請求の範囲】
【請求項1】
帳票の手書き文字領域に記入されうる1又は複数の単語が前記文字領域のそれぞれに対応して登録された複数のデータベースの各々から単語を抽出し、1文字単位の手書き文字画像のデータセットから前記単語に含まれる文字ごとに対応する1文字単位の手書き文字画像を読み出すことにより、前記文字領域ごとに文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部と、
前記学習用データを用いた第1学習により、前記文字領域ごとに学習モデルを生成する学習モデル生成部と、を備える、
学習モデル生成装置。
【請求項2】
前記第1学習の後、前記帳票の画像データから切り出された文字列画像を学習用データとして用いた第2学習により、前記学習モデルを更新する学習モデル更新部をさらに備える、
請求項1に記載の学習モデル生成装置。
【請求項3】
前記学習用データ生成部は、前記文字列画像に、前記帳票に印刷される透かしの少なくとも一部を重畳したものを学習用データとして生成する、
請求項1又は2に記載の学習モデル生成装置。
【請求項4】
前記学習用データ生成部は、前記文字列画像に、前記帳票におけるノイズを重畳したものを学習用データとして生成する、
請求項1?3のいずれか一項に記載の学習モデル生成装置。
【請求項5】
前記学習モデル生成部は、
第1ニューラルネットワーク及び第2ニューラルネットワークが結合されたネットワーク構造から学習モデルを生成するものであり、
前記第1ニューラルネットワークは畳み込みニューラルネットワークにより構成され、前記手書き文字領域に含まれる前記文字列に関する特徴量マップを算出し、
第2ニューラルネットワークはリカレントニューラルネットワークにより構成され、前記特徴量マップから文字列インデックスを算出する、
請求項1?4のいずれか一項に記載の学習モデル生成装置。
【請求項6】
前記手書き文字領域の少なくとも一つの領域は、住所に関する手書き文字領域であり、
前記住所に関する前記手書き文字領域に対応づけられたコーパスには、都道府県名、市区町村名、地域名、又は、建物名の少なくとも一つの名称を含む組み合わせが登録されている、
請求項1?5のいずれか一項に記載の学習モデル生成装置。
【請求項7】
前記帳票を撮像装置で撮像することによって生成される画像データを、通信ネットワークを介して取得する画像データ取得部をさらに備える、
請求項1?6のいずれか一項に記載の学習モデル生成装置。
【請求項8】
帳票の画像データに基づいて、手書き文字で記入された文字列を含む1又は複数の手書き文字領域を特定する領域特定部と、
請求項1?7のいずれか一項に記載の学習モデル生成部により生成された学習モデルを用いて、前記手書き文字領域に記入された文字列の内容を認識する文字認識部と、を備える、
文字認識装置。
【請求項9】
前記帳票における所定位置に対応付けて、前記手書き文字領域を特定するためのレイアウト情報を記録する記録部を更に備え、
前記領域特定部は、前記レイアウト情報に基づいて、前記手書き文字領域を特定する、
請求項8に記載の文字認識装置。
【請求項10】
前記領域特定部は、
前記帳票に記載された項目名を含む項目領域を、属性を付与した上で抽出する項目抽出部と、
前記帳票の画像データにおける項目領域の位置及び前記属性に基づいて、前記項目領域と、当該項目領域の近傍に位置する前記手書き文字領域とを対応づけ、且つ、前記手書き文字領域の属性を割り当てる属性割当部と、を更に備える、
請求項8又は9に記載の文字認識装置。
【請求項11】
学習モデルを生成するコンピュータが実行する学習モデル生成方法であって、
帳票の手書き文字領域に記入されうる1又は複数の単語が前記文字領域のそれぞれに対応して登録された複数のデータベースの各々から単語を抽出し、1文字単位の手書き文字画像のデータセットから前記単語に含まれる文字ごとに対応する1文字単位の手書き文字画像を読み出すことにより、前記文字領域ごとに文字列画像及び正解ラベルを含む学習用データを生成するステップと、
前記学習用データを用いた第1学習により、前記文字領域ごとに学習モデルを生成するステップと、
を含む、
学習モデル生成方法。
【請求項12】
コンピュータを、
帳票の手書き文字領域に記入されうる1又は複数の単語が登録された前記文字領域のそれぞれに対応して登録された複数のデータベースの各々から単語を抽出し、1文字単位の手書き文字画像のデータセットから前記単語に含まれる文字ごとに対応する1文字単位の手書き文字画像を読み出すことにより、前記文字領域ごとに文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部と、
前記学習用データを用いた第1学習により、前記文字領域ごとに学習モデルを生成する、学習モデル生成部と、
して機能させるプログラム。
 
訂正の要旨 審決(決定)の【理由】欄参照。
異議決定日 2021-03-31 
出願番号 特願2019-86630(P2019-86630)
審決分類 P 1 651・ 121- YAA (G06K)
最終処分 維持  
前審関与審査官 笠田 和宏  
特許庁審判長 千葉 輝久
特許庁審判官 樫本 剛
渡辺 努
登録日 2019-09-27 
登録番号 特許第6590355号(P6590355)
権利者 Arithmer株式会社
発明の名称 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム  
代理人 龍華国際特許業務法人  
代理人 龍華国際特許業務法人  
  • この表をプリントする

プライバシーポリシー   セキュリティーポリシー   運営会社概要   サービスに関しての問い合わせ