• ポートフォリオ機能


ポートフォリオを新規に作成して保存
既存のポートフォリオに追加保存

  • この表をプリントする
PDF PDFをダウンロード
審決分類 審判 査定不服 2項進歩性 取り消して特許、登録 G06F
管理番号 1409826
総通号数 29 
発行国 JP 
公報種別 特許審決公報 
発行日 2024-05-31 
種別 拒絶査定不服の審決 
審判請求日 2023-02-20 
確定日 2024-05-21 
事件の表示 特願2020− 88498「データ品質分析」拒絶査定不服審判事件〔令和 2年10月 1日出願公開、特開2020−161147、請求項の数(37)〕について、次のとおり審決する。 
結論 原査定を取り消す。 本願の発明は、特許すべきものとする。 
理由 第1 手続の経緯

本願は、2016年6月10日(パリ条約による優先権主張外国庁受理日2015年6月12日、2016年6月7日、いずれも米国)を国際出願日とする特願2017−559576号の一部を令和2年5月20日に新たな特許出願としたものであって、令和2年6月12日に手続補正書が提出され、令和3年8月30日付けで拒絶の理由が通知され、同年11月29日に意見書とともに手続補正書が提出され、令和4年4月18日付けで拒絶の理由が通知(最後の拒絶理由通知)され、同年7月19日に意見書とともに手続補正書が提出され、同年10月19日付けで拒絶査定(謄本送達日同年10月21日。以下、「原査定」という。)がなされ、これに対して令和5年2月20日に拒絶査定不服審判の請求がなされるとともに手続補正書が提出されたところ、同年9月20日付けで同補正は補正の却下の決定により却下されるとともに拒絶理由通知(以下、「当審拒絶理由通知」という。)がなされ、令和6年3月21日付けで意見書とともに手続補正書が提出されたものである。


第2 原査定の概要

原査定の概要は次のとおりである。

この出願の下記の請求項に係る発明は、その出願前に日本国内又は外国において、頒布された下記の刊行物に記載された発明又は電気通信回線を通じて公衆に利用可能となった発明に基いて、その出願前にその発明の属する技術の分野における通常の知識を有する者が容易に発明をすることができたものであるから、特許法第29条第2項の規定により特許を受けることができない。

記 (引用文献等については引用文献等一覧参照)

・請求項 1〜6、8〜19、21〜32、34〜40
・引用文献等 1

・請求項 1、7、10〜11、14、20、23〜24、27、33、36〜37、40
・引用文献等 1、2

引用文献等一覧
1.特開2011−253491号公報
2.米国特許出願公開第2014/0229456号明細書


第3 当審拒絶理由の概要

当審拒絶理由通知の概要は次のとおりである。

この出願の下記の請求項に係る発明は、その出願前に日本国内又は外国において、頒布された下記の刊行物に記載された発明又は電気通信回線を通じて公衆に利用可能となった発明に基いて、その出願前にその発明の属する技術の分野における通常の知識を有する者が容易に発明をすることができたものであるから、特許法29条2項の規定により特許を受けることができない。

記 (引用文献等については引用文献等一覧参照)

・請求項 1〜8、10〜21、23〜34、36〜40
・引用文献等 1、2

・請求項 9、22、35
・引用文献等 1〜3

引用文献等一覧
1.米国特許出願公開第2014/0229456号明細書(拒絶査定時の引用文献2)
2.特開2011−253491号公報(拒絶査定時の引用文献1)
3.特開2012−89057号公報(当審で新たに引用した文献)


第4 本願発明

本願請求項1〜37に係る発明(以下、それぞれ「本願発明1」〜「本願発明37」という。)は、令和6年3月21日付けの手続補正書で補正された特許請求の範囲の請求項1〜37に記載された事項により特定される発明であり、本願発明1〜37は以下のとおりの発明である。

「 【請求項1】
データセットのフィールドについてのデータ品質規則を決定するためのコンピュータ実装方法であって、前記データセットは、データ要素を含む一つ以上のフィールドを有するデータ記録を含み、
前記データセットの一つ以上のインスタンスの前記データ記録の前記フィールドに含まれている前記データ要素を、一つ以上のプロセッサにより、分析し、前記データセットの前記フィールドについての基準プロファイルを決定することと、
決定された前記基準プロファイルに基づいて、前記データセットの前記フィールドについてのデータ品質規則を、前記一つ以上のプロセッサにより、自動で生成することであって、前記データセットの前記フィールドについてのデータ品質規則は、
(i)前記フィールドについての前記基準プロファイルと、前記データセットの一つ以上のデータ記録の前記フィールドについてのプロファイルとの間の許容偏差、
(ii)前記データセットのデータ記録の前記フィールドのデータ要素についての許容値、又は
(iii)前記データセットのデータ記録の前記フィールドのデータ要素についての禁止値の一つ以上を示す、ことと、
前記データ品質規則を前記データセットのインスタンスの一つ以上のデータ記録に適用し、前記データセットの前記インスタンスのデータ品質問題を識別することと、
前記データセットについての系列情報に基づいて、前記データセットの前記インスタンスの前記データ品質問題の潜在的原因である少なくとも一つの他のデータセットを識別することと、
を含むコンピュータ実装方法。
【請求項2】
請求項1に記載の方法であって、前記データ要素を分析することは、前記データセットの一つ以上の履歴インスタンスを分析することを含む、方法。
【請求項3】
請求項1に記載の方法であって、前記フィールドについての前記基準プロファイルを決定することは、前記フィールドについての履歴平均プロファイルを決定することを含む、方法。
【請求項4】
請求項3に記載の方法であって、前記データ要素を分析することは、前記フィールドのデータ要素についての前記履歴平均プロファイルの変動が閾値量より少なく変動するまで前記データセットの複数の特定のインスタンスを分析することを含む、方法。
【請求項5】
請求項1に記載の方法であって、前記フィールドについての前記基準プロファイルを決定することは、前記フィールドのデータ要素についての履歴平均値を識別することを含む、方法。
【請求項6】
請求項1に記載の方法であって、前記フィールドについての前記基準プロファイルを決定することは、前記フィールドのデータ要素についての標準偏差値を識別することを含む、方法。
【請求項7】
請求項1に記載の方法であって、前記フィールドについての前記基準プロファイルを決定することは、前記フィールドのデータ要素についての個別値の数を識別することを含む、方法。
【請求項8】
請求項1に記載の方法であって、前記データ要素を分析することは、前記データセットの予め定められた数の特定のインスタンスを分析することを含む、方法。
【請求項9】
請求項1に記載の方法であって、機械学習技術を用いて、前記データ要素を分析することを含む、方法。
【請求項10】
請求項1に記載の方法であって、前記データ品質規則を前記データセットのインスタンスの一つ以上のデータ記録に適用することは、前記データセットの前記インスタンスが誤り又は起こり得る誤りを有するものと判定することを含む、方法。
【請求項11】
請求項10に記載の方法であって、前記データセットの前記インスタンスが誤り又は起こり得る誤りを有するものと判定することは、
前記フィールドについての前記基準プロファイルと、前記データセットの一つ以上のデータ記録の前記フィールドについてのプロファイルとの間の偏差を判定することと、
前記基準プロファイルと前記プロファイルとの間の前記偏差が前記許容偏差を超えるものと判定することと
を含む、方法。
【請求項12】
請求項10に記載の方法であって、前記データセットの前記インスタンスが誤り又は起こり得る誤りを有するものと判定することは、前記許容値又は前記禁止値を満たさない前記データセットの前記インスタンスの一つ以上のデータ記録のフィールドのデータ要素を識別することを含む、方法。
【請求項13】
データセットのフィールドについてのデータ品質規則を決定することを計算システムに行わせる命令を記憶する非一時的コンピュータ可読媒体であって、前記データセットは、データ要素を含む一つ以上のフィールドを有するデータ記録を含み、前記命令は、前記計算システムに、
前記データセットの一つ以上のインスタンスの前記データ記録の前記フィールドに含まれている前記データ要素を分析し、前記データセットの前記フィールドについての基準プロファイルを決定することと、
決定された前記基準プロファイルに基づいて、前記データセットの前記フィールドについてのデータ品質規則を自動で生成することであって、前記データセットの前記フィールドについてのデータ品質規則は、
(i)前記フィールドについての前記基準プロファイルと、前記データセットの一つ以上のデータ記録の前記フィールドについてのプロファイルとの間の許容偏差、
(ii)前記データセットのデータ記録の前記フィールドのデータ要素についての許容値、又は
(iii)前記データセットのデータ記録の前記フィールドのデータ要素についての禁止値の一つ以上を示す、ことと、
前記データ品質規則を前記データセットのインスタンスの一つ以上のデータ記録に適用し、前記データセットの前記インスタンスのデータ品質問題を識別することと、
前記データセットについての系列情報に基づいて、前記データセットの前記インスタンスの前記データ品質問題の潜在的原因である少なくとも一つの他のデータセットを識別することと、
を行わせる、非一時的コンピュータ可読媒体。
【請求項14】
請求項13に記載の非一時的コンピュータ可読媒体であって、前記データ要素を分析することは、前記データセットの一つ以上の履歴インスタンスを分析することを含む、非一時的コンピュータ可読媒体。
【請求項15】
請求項13に記載の非一時的コンピュータ可読媒体であって、前記フィールドについての前記基準プロファイルを決定することは、前記フィールドについての履歴平均プロファイルを決定することを含む、非一時的コンピュータ可読媒体。
【請求項16】
請求項15に記載の非一時的コンピュータ可読媒体であって、前記データ要素を分析することは、前記フィールドのデータ要素についての前記履歴平均プロファイルの変動が閾値量より少なく変動するまで前記データセットの複数の特定のインスタンスを分析することを含む、非一時的コンピュータ可読媒体。
【請求項17】
請求項13に記載の非一時的コンピュータ可読媒体であって、前記フィールドについての前記基準プロファイルを決定することは、前記フィールドのデータ要素についての履歴平均値を識別することを含む、非一時的コンピュータ可読媒体。
【請求項18】
請求項13に記載の非一時的コンピュータ可読媒体であって、前記フィールドについての前記基準プロファイルを決定することは、前記フィールドのデータ要素についての標準偏差値を識別することを含む、非一時的コンピュータ可読媒体。
【請求項19】
請求項13に記載の非一時的コンピュータ可読媒体であって、前記フィールドについての前記基準プロファイルを決定することは、前記フィールドのデータ要素についての個別値の数を識別することを含む、非一時的コンピュータ可読媒体。
【請求項20】
請求項13に記載の非一時的コンピュータ可読媒体であって、前記データ要素を分析することは、前記データセットの予め定められた数の特定のインスタンスを分析することを含む、非一時的コンピュータ可読媒体。
【請求項21】
請求項13に記載の非一時的コンピュータ可読媒体であって、前記命令は、前記計算システムに、機械学習技術を用いて、前記データ要素を分析させる、非一時的コンピュータ可読媒体。
【請求項22】
請求項13に記載の非一時的コンピュータ可読媒体であって、前記データ品質規則を前記データセットのインスタンスの一つ以上のデータ記録に適用することは、前記データセットの前記インスタンスが誤り又は起こり得る誤りを有するものと判定することを含む、非一時的コンピュータ可読媒体。
【請求項23】
請求項22に記載の非一時的コンピュータ可読媒体であって、前記データセットの前記インスタンスが誤り又は起こり得る誤りを有するものと判定することは、
前記フィールドについての前記基準プロファイルと、前記データセットの一つ以上のデータ記録の前記フィールドについてのプロファイルとの間の偏差を判定することと、
前記基準プロファイルと前記プロファイルとの間の前記偏差が前記許容偏差を超えるものと判定することと
を含む、非一時的コンピュータ可読媒体。
【請求項24】
請求項22に記載の非一時的コンピュータ可読媒体であって、前記データセットの前記インスタンスが誤り又は起こり得る誤りを有するものと判定することは、前記許容値又は前記禁止値を満たさない前記データセットの前記インスタンスの一つ以上のデータ記録のフィールドのデータ要素を識別することを含む、非一時的コンピュータ可読媒体。
【請求項25】
データセットのフィールドについてのデータ品質規則を決定するための計算システムであって、前記データセットは、データ要素を含む一つ以上のフィールドを有するデータ記録を含み、
前記計算システムは、メモリに結合されている一つ以上のプロセッサを含み、
前記一つ以上のプロセッサ及び前記メモリは、
前記データセットの一つ以上のインスタンスの前記データ記録の前記フィールドに含まれている前記データ要素を分析し、前記データセットの前記フィールドについての基準プロファイルを決定することと、
決定された前記基準プロファイルに基づいて、前記データセットの前記フィールドについてのデータ品質規則を自動で生成することであって、前記データセットの前記フィールドについてのデータ品質規則は、
(i)前記フィールドについての前記基準プロファイルと、前記データセットの一つ以上のデータ記録の前記フィールドについてのプロファイルとの間の許容偏差、
(ii)前記データセットのデータ記録の前記フィールドのデータ要素についての許容値、又は
(iii)前記データセットのデータ記録の前記フィールドのデータ要素についての禁止値の一つ以上を示す、ことと、
前記データ品質規則を前記データセットのインスタンスの一つ以上のデータ記録に適用し、前記データセットの前記インスタンスのデータ品質問題を識別することと、
前記データセットについての系列情報に基づいて、前記データセットの前記インスタンスの前記データ品質問題の潜在的原因である少なくとも一つの他のデータセットを識別することと、
を行うように構成されている、計算システム。
【請求項26】
請求項25に記載の計算システムであって、前記データ要素を分析することは、前記データセットの一つ以上の履歴インスタンスを分析することを含む、計算システム。
【請求項27】
請求項25に記載の計算システムであって、前記フィールドについての前記基準プロファイルを決定することは、前記フィールドについての履歴平均プロファイルを決定することを含む、計算システム。
【請求項28】
請求項27に記載の計算システムであって、前記データ要素を分析することは、前記フィールドのデータ要素についての前記履歴平均プロファイルの変動が閾値量より少なく変動するまで前記データセットの複数の特定のインスタンスを分析することを含む、計算システム。
【請求項29】
請求項25に記載の計算システムであって、前記フィールドについての前記基準プロファイルを決定することは、前記フィールドのデータ要素についての履歴平均値を識別することを含む、計算システム。
【請求項30】
請求項25に記載の計算システムであって、前記フィールドについての前記基準プロファイルを決定することは、前記フィールドのデータ要素についての標準偏差値を識別することを含む、計算システム。
【請求項31】
請求項25に記載の計算システムであって、前記フィールドについての前記基準プロファイルを決定することは、前記フィールドのデータ要素についての個別値の数を識別することを含む、計算システム。
【請求項32】
請求項25に記載の計算システムであって、前記データ要素を分析することは、前記データセットの予め定められた数の特定のインスタンスを分析することを含む、計算システム。
【請求項33】
請求項25に記載の計算システムであって、前記一つ以上のプロセッサ及び前記メモリは、機械学習技術を用いて、前記データ要素を分析するように構成されている、計算システム。
【請求項34】
請求項25に記載の計算システムであって、前記データ品質規則を前記データセットのインスタンスの一つ以上のデータ記録に適用することは、前記データセットの前記インスタンスが誤り又は起こり得る誤りを有するものと判定することを含む、計算システム。
【請求項35】
請求項34に記載の計算システムであって、前記データセットの前記インスタンスが誤り又は起こり得る誤りを有するものと判定することは、
前記フィールドについての前記基準プロファイルと、前記データセットの一つ以上のデータ記録の前記フィールドについてのプロファイルとの間の偏差を判定することと、
前記基準プロファイルと前記プロファイルとの間の前記偏差が前記許容偏差を超えるものと判定することと
を含む、計算システム。
【請求項36】
請求項34に記載の計算システムであって、前記データセットの前記インスタンスが誤り又は起こり得る誤りを有するものと判定することは、前記許容値又は前記禁止値を満たさない前記データセットの前記インスタンスの一つ以上のデータ記録のフィールドのデータ要素を識別することを含む、計算システム。
【請求項37】
データセットのフィールドについてのデータ品質規則を決定するための計算システムであって、前記データセットは、データ要素を含む一つ以上のフィールドを有するデータ記録を含み、
前記計算システムは、
前記データセットの一つ以上のインスタンスの前記データ記録の前記フィールドに含まれている前記データ要素を分析し、前記データセットの前記フィールドについての基準プロファイルを決定する手段と、
決定された前記基準プロファイルに基づいて、前記データセットの前記フィールドについてのデータ品質規則を自動で生成する手段であって、前記データセットの前記フィールドについてのデータ品質規則は、
(i)前記フィールドについての前記基準プロファイルと、前記データセットの一つ以上のデータ記録の前記フィールドについてのプロファイルとの間の許容偏差、
(ii)前記データセットのデータ記録の前記フィールドのデータ要素についての許容値、又は
(iii)前記データセットのデータ記録の前記フィールドのデータ要素についての禁止値の一つ以上を示す、手段と、
前記データ品質規則を前記データセットのインスタンスの一つ以上のデータ記録に適用し、前記データセットの前記インスタンスのデータ品質問題を識別する手段と、
前記データセットについての系列情報に基づいて、前記データセットの前記インスタンスの前記データ品質問題の潜在的原因である少なくとも一つの他のデータセットを識別する手段と、
を備える、計算システム。」


第5 引用例、引用発明等

1 引用例1
(1)引用例1の記載事項
当審拒絶理由通知において引用された引用例1(米国特許出願公開第2014/0229456号明細書)には、図面とともに次の事項が記載されている。(下線は当審で付加。以下同様。)

ア “1 . A computer-implemented method for assessing the quality of data comprising:
assigning a pre-defined domain to one or more columns of the data based on a validity condition for the domain;
applying the validity condition for the domain assigned to a column to data values in the column to compute a data quality metric for the column; and
computing and displaying a metric for one or more groups of columns based on the computed data quality metric of at least one column in each group.”(請求項1)
(当審訳:
1.データ品質を評価するためのコンピュータによる方法であって、
ドメインの有効性条件に基づいて、データの1つまたは複数の列に事前に定義されたドメインを割り当て、
列に割り当てられたドメインの有効性条件を列のデータ値に適用して、列のデータ品質メトリックを計算し、
各グループ内の少なくとも1つの列の計算されたデータ品質メトリックに基づいて、1つまたは複数の列のグループのメトリックを計算し、表示することを含む方法。)

イ “[0029]An example illustrates aspects of the contrast between an embodiment of the present invention and the operation of conventional domain rules. In this example, a database contains a large number of columns and tables. More than twenty columns of different tables contain email addresses. Ten of the columns contain ZIP codes, a similar number of columns contain phone numbers, etc.”
(当審訳:
[0029]実施例は、本発明の実施形態と従来のドメインルールの動作との対比の側面を説明する。この例では、データベースが多数の列とテーブルを含んでいる。異なるテーブルの20以上の列が電子メールアドレスを含んでいる。列のうち10列は郵便番号を含み、同数の列は電話番号などを含む。)

ウ “[0032]An example computing environment for a present invention embodiment is illustrated in FIG. 1. Specifically, the environment includes application server system 100, one or more client or end-user systems 110, source 130, metadata repository 140, reference database 150, and processing engine 160, each of which may be remote from one another other and communicate over a network 120.
[0033]Network 120 may be implemented by any number of any suitable communications media (e.g., wide area network (WAN), local area network (LAN), Internet, intranet, etc.). Alternatively, any number of application server system 100, client systems 110, source 130, metadata repository 140, reference data 150, and processing engine 160 may be local to each other, and communicate via any appropriate local communication medium (e.g., local area network (LAN), hardwire, wireless link, intranet, etc.).
[0034]Application server system 100 includes a data quality module 102 to define data quality criteria and analyze data quality metrics. The data quality module may be implemented across plural application server systems. Alternatively, the data quality module may reside on a client system 110 or other computer system (e.g., processing engine 160) in communication with the client system.
[0035]Client systems 110 enable users to communicate with the data quality module (e.g., via network 120). The client systems may present any graphical user (e.g., GUI, etc.) or other interface (e.g., command line prompts, menu screens, etc.) to receive commands from users and interact with the data quality module and/or other modules or services.
[0036]Processing engine 160 receives and processes data from source 130, metadata repository 140, and reference database 150, applies data quality criteria, and stores data quality metrics and other metadata in metadata repository 140 for analysis by the data quality module.
[0037]Application server system 100, client systems 110, and processing engine 160 may be implemented by any conventional or other computer systems preferably equipped with a display or monitor, a base (e.g., including at least one processor 20, memories 30 and/or internal or external network interface or communications devices 10 (e.g., modem, network cards, etc.), optional input devices (e.g., a keyboard, mouse, or other input device), and any commercially available and custom software (e.g., data quality module software). Processing engine 160 can be, e.g., an extract, transform, and load (ETL) engine, a SQL engine, or a distributed engine. Source 130, metadata repository 140, and reference data 150 may be implemented by any conventional or other databases systems or other data storage systems.
[0038]The data quality module and processing engine may include one or more modules or units to perform the various functions of present invention embodiments described below (e.g., automatically detecting a domain to which columns belong, applying domain validity and completeness criteria, aggregating validity and completeness statistics, etc.), may be implemented by any combination of any quantity of software and/or hardware modules or units, and may reside within memory 30 of an application server system, processing engine and/or client systems for execution by processor 20.
[0039]A block diagram of source 130, metadata repository 140, and reference database 150 is illustrated in FIG. 2. The metadata repository holds information about a set of domains 141 and source metadata 142. Each domain can contain one or more domain validity and completeness criteria. The criteria may include regular expressions, rules (e.g., a rule that a column contain no repeated values), a list of valid values, etc., and may refer to a reference table 151 (e.g., containing a list of valid values) which can be stored in reference database 150. Source metadata 142 contains information about the domain and quality of columns from source 130. For example, source metadata 142 may be stored in a table listing the table, name, domain, and validity and completeness statistics for each column of data in source 130. Processing engine 160 receives data from the source, metadata repository, and reference database and analyzes the data to make a preliminary determination of the domain to which each column of the data in the source belongs and to apply the corresponding criteria to each data value and accumulate statistics. The user interacts (e.g., via client system 110 and applications server system 100) with the data quality module, which communicates with the processing engine, metadata repository, and reference database to control this process.”
(当審訳:
[0032]本発明の実施形態の例示的なコンピューティング環境は、図1に示されている。具体的環境は、アプリケーション・サーバ・システム100と、1つ以上のクライアント又はエンドユーザシステム110と、ソース130と、メタデータ・リポジトリ140、データベース150、および処理エンジン160を含み、その各々は互いに他から遠隔でも良いし、ネットワーク120を介して通信する。
[0033]ネットワーク120は、任意数の任意の好適な通信媒体(たとえば、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、インターネット、イントラネットなど)によって実装可能である。あるいは、アプリケーションサーバシステム100、クライアントシステム110、ソース130、メタデータ保持部140、参照データ150、および処理エンジン160の任意の数は、互いにローカルであっても、任意の適切な通信媒体(たとえば、ローカル・エリア・ネットワーク(LAN)、ハードワイヤ、ワイヤレス・リンク、イントラネットなど)を介して通信することができる。
[0034]アプリケーション・サーバ・システム100は、データ品質基準を規定し、データ品質メトリックを分析するデータ品質モジュール102を含む。データ品質モジュールは、複数のアプリケーションサーバ・システムの全体にわたって実施することができる。また、データ品質モジュールは、クライアントシステムとの通信においてクライアント・システム110または他のコンピュータシステム(例えば、処理エンジン160)上に存在してもよい。
[0035]クライアントシステム110は、ユーザがデータ品質モジュール(例えば、ネットワーク120を介して)通信することを可能にする。クライアントシステムは、任意のグラフィカル・ユーザ(例えば、GUI等)又はユーザからコマンドを受信し、データ品質モジュールおよび/または他のモジュール又はサービスと対話するために他のインターフェース(例えば、コマンドラインプロンプト、メニュー画面等)を提示することができる。
[0036]処理エンジン160は、ソース130、メタデータリポジトリ140、および参照データベース150からデータを受信して処理し、データ品質基準を適用し、データ品質モジュールによる分析のためにメタデータリポジトリ140にデータ品質メトリクスおよび他のメタデータを格納する。
[0037]アプリケーションサーバシステム100、クライアントシステム110、および処理エンジン160は、ディスプレイ又はモニタを好ましく装備される任意の従来または他のコンピュータシステムは、(例えば、少なくとも1つのプロセッサ20と、メモリ30および/または内部または外部ネットワークインターフェースまたは通信デバイス10を含む、(例えば、モデム、ネットワークカード等)、任意の入力装置(例えば、キーボード、マウス、またはその他の入力装置)と、任意の商業的に利用可能なソフトウェアおよび特注のソフトウェア(例えば、データ品質モジュールソフトウェア)によって実装されてもよい。処理エンジン160は、例えば、抽出、変換、およびロード(ETL)エンジンは、SQLエンジン、または圧縮することができる。ソース130は、メタデータリポジトリ140、および参照データ150は、任意の従来のまたは他のデータベースシステムまたは他のデータ記憶システムによって実装されてもよい。
[0038]データ品質モジュールおよび処理エンジンは、以下に説明する本発明の実施形態の様々な機能(例えば、列が属するドメインの自動検出、ドメインの有効性および完全性の基準の適用、有効性および完全性の統計の集計など)を実行するための1つまたは複数のモジュールまたはユニットを含んでよく、任意の量のソフトウェアおよび/またはハードウェアモジュールまたはユニットの任意の組み合わせによって実装されてよく、プロセッサ20による実行のために、アプリケーションサーバシステム、処理エンジンおよび/またはクライアントシステムのメモリ30内に存在してよい。
[0039]ソース130、メタデータ・リポジトリ140、および参照データベース150のブロック図を図2に示す。メタデータ・リポジトリは、ドメイン141およびソース・メタデータ142のセットに関する情報を保持する。各ドメインは、1つまたは複数のドメインの有効性および完全性の基準を含むことができる。基準は、正規表現、規則(たとえば、列に繰り返し値が含まれないという規則)、有効値のリストなどを含むことができ、参照データベース150に格納され得る参照テーブル151(たとえば、有効値のリストを含む)を参照することができる。ソースメタデータ142は、ドメインおよびソース130からの列の品質に関する情報を含む。たとえば、ソース130内のデータの各列のテーブル、名前、ドメイン、および有効性と完全性の統計をリストしたテーブルに格納されてよい。処理エンジン160は、ソース、メタデータ・リポジトリ、および参照データベースからデータを受信し、データを分析して、ソース内のデータの各列が属するドメインの予備判定を行い、対応する基準を各データ値に適用して統計をとる。ユーザは、処理エンジン、メタデータリポジトリ、および参照データベースと通信するデータ品質モジュールと(たとえば、クライアントシステム110およびアプリケーションサーバシステム100を介して)対話し、このプロセスを制御する。)

エ “[0040]A manner in which data quality is assessed (e.g., by data quality module 102 via application server system 100, client system 110, and/or processor engine 160) according to an embodiment of the present invention is illustrated in FIG. 3. At step 301, a user may create or modify an initial set of domains with corresponding validity and completeness criteria. A set of domains (e.g., standard or general purpose domains) may be pre-defined and provided in an embodiment of the present invention.
[0041]At step 302, the data to be analyzed are registered with the system, typically by a project administrator. For example, a project administrator may register all or some columns of source 130. The processing engine extracts metadata (e.g., location, table name, column name, etc.) for each registered column and stores the metadata in the source metadata table 142. Typically none of the columns will have been assigned a domain yet, and therefore the domain, completeness, and validity columns of the source metadata table are empty at this stage.
[0042]At step 303, columns of the data source are automatically associated with a matching domain from domain set 141. For example, the processing engine can apply the validity criteria of each domain to values from each column in order to determine which domains match which columns. If more than one domain matches a given column, the column can be assigned to the domain for which the highest percentage of values satisfied the validity criteria. Some columns may match none of the defined domains. Details of the matching algorithm are discussed below. The system may be configured to perform this step automatically or when requested by the user.
[0043]Once the initial associations of domains to columns has been made, the data quality module presents the results to the user (e.g., via application server system 100 and client system 110) at step 304. The user can review the results, remove incorrect domain assignments, manually assign domains to unclassified columns, and alter validity and/or completeness criteria for individual columns. If necessary the user may create new domain definitions during this process.
[0044]At step 305, the user can choose to verify the domain validity and completeness of all the values of a list of selected columns or tables. The processing engine subjects each distinct value of each column to all validity and completeness criteria of the associated domain and counts the number of violations. Data quality metrics (e.g., percentage of each column's values failing the validity criteria, percentage of each column's values failing the completeness criteria, etc.) can be computed from these counts and stored in the metadata repository. The user can review the data quality results in a display showing the data quality at the column, table, schema, and/or source level at step 306.”
(当審訳:
[0040]本発明の実施形態に従ってデータ品質が(例えば、アプリケーションサーバシステム100、クライアントシステム110、および/またはプロセッサエンジン160を介してデータ品質モジュール102によって)評価される態様を図3に示す。ステップ301において、ユーザは、対応する有効性および完全性基準を有するドメインの初期セットを作成または修正することができる。ドメインのセット(例えば、標準ドメインまたは汎用ドメイン)は、本発明の実施形態において予め定義されて提供されてもよい。
[0041]ステップ302で、分析されるデータは、典型的にはプロジェクト管理者によってシステムに登録される。たとえば、プロジェクト管理者は、ソース130のすべての列またはいくつかの列を登録することができる。処理エンジンは、登録された各列のメタデータ(場所、テーブル名、列名など)を抽出し、メタデータをソース・メタデータ・テーブル142に格納する。通常、どの列にもドメインはまだ割り当てられていないため、ソース・メタデータ・テーブルのドメイン、完全性、および有効性の列は、この段階では空である。
[0042]ステップ303で、データソースの列は、ドメインセット141中の一致するドメインに自動的に関連付けられる。たとえば、処理エンジンは、どのドメインがどの列に一致するかを決定するために、各ドメインの有効性基準を各列からの値に適用することができる。複数のドメインが所定の列に一致する場合、有効性基準を満たす割合が最も高いドメインを列に割り当てることができる。列によっては、定義されたドメインのどれにもマッチしないものもある。マッチングアルゴリズムの詳細については後述する。システムは、このステップを自動的に、またはユーザが要求したときに実行するように構成することができる。
[0043]ドメインと列の最初の関連付けが行われると、ステップ304で、データ品質モジュールは結果をユーザに提示する(例えば、アプリケーションサーバシステム100とクライアントシステム110を介して)。ユーザは結果を確認し、誤ったドメインの割り当てを削除し、分類されていない列に手動でドメインを割り当て、個々の列の有効性および/または完全性の基準を変更することができる。必要に応じて、ユーザはこのプロセス中に新しいドメイン定義を作成することができる。
[0044]ステップ305で、ユーザは、選択された列または表のリストのすべての値のドメインの有効性と完全性を検証することを選択できる。処理エンジンは、各列の各固有な値を、関連するドメインのすべての有効性と完全性の基準に照らし、違反の数をカウントする。データ品質メトリクス(各列の値が有効性基準に違反した割合、各列の値が完全性基準に違反した割合など)は、これらのカウントから計算され、メタデータリポジトリに格納される。ユーザは、ステップ306で、列、テーブル、スキーマ、および/またはソース・レベルでのデータ品質を示すディスプレイで、データ品質結果を確認することができる。)

オ “[0045]FIGS. 4 and 5 illustrate an example manner in which a user supplies metadata that a domain definition may contain according to an embodiment of the present invention. In particular, a GUI allows a user to define or modify the domain's name, description, short description, steward assignment (e.g., the person who defined the domain criteria), and whether the domain contains personal information (e.g., credit card numbers, social security numbers, etc.). Furthermore, the metadata includes a specification of criteria that values must match to be considered valid and complete within this domain. FIG. 4 illustrates a GUI in which the user has selected a tab to enable defining the domain validity criteria. The criteria for domain validity can be defined as one or more of the following:
[0046]1. A regular expression that the values must match to be compliant with the domain.
[0047]2. A range of values (minimum and maximum) that the values shouldn't exceed.
[0048]3. A list of possible valid values, entered, e.g., either directly in the condition if the list is short, or as a reference to an external reference table. If such a list is defined, a value is only considered as valid within the domain if it is found in the reference list of valid values.
[0049]4. A list of possible valid formats. Formats are a simpler form of regular expression which are easier for the user to enter. For example, 999AA-AA means values starting with 3 digits followed by 2 uppercase letters, a '-' and 2 other uppercase letters are valid
[0050]5. A list of data rules that the column should satisfy. A data rule should only involve one single column. It can be defined in any language and refer to an external rule engine for execution.”
(当審訳:
[0045]図4および図5は、本発明の実施形態に従って、ドメイン定義を含んでもよいメタデータをユーザが提供する例示的な態様を示す。特に、GUIにより、ユーザは、ドメインの名前、説明、短い説明、スチュワードの割り当て(例えば、ドメインの基準を定義した人)、およびドメインが個人情報(例えば、クレジットカード番号、社会保障番号など)を含むかどうかを、定義または修正することができる。さらに、メタデータには、このドメイン内で値が有効かつ完全であるとみなされるために一致しなければならない基準の仕様が含まれる。図4は、ユーザがドメイン有効性基準を定義できるようにタブを選択したGUIを示す。ドメイン有効性の基準は、以下の1つ以上として定義される:
[0046]1.ドメインに準拠するために値が一致しなければならない正規表現。
[0047]2.値が超えてはならない値の範囲(最小値と最大値)。
[0048]3.有効な値のリスト。リストが短い場合は条件に直接入力するか、外部参照テーブルを参照する。このようなリストが定義されている場合、値は、有効な値の参照リストで見つかった場合のみ、ドメイン内で有効であるとみなされる。
[0049]4.有効な書式のリスト。書式は、ユーザーが入力しやすい、より単純な正規表現である。例えば、999AA−AAは、3桁の数字で始まり、2つの大文字、「−」と他の2つの大文字が続く値が有効であることを意味する。
[0050]5.列が満たすべきデータルールのリスト。データルールは1つの列にのみ関係する。どのような言語でも定義でき、実行のために外部のルール・エンジンを参照することができる。)

カ “[0052]A manner of automatically determining a list of domains that match a column (e.g., via processing engine 160) based on the validity criteria of the domains according to an embodiment of the present invention is illustrated in FIGS. 6A and 6B . Initially, processing engine 160 selects a sample of values from a column to analyze at step 610. The sample may be relatively small compared to the full column so that the analysis can be completed quickly. The values may be required to be distinct, may be associated with corresponding frequencies, and may be sorted in order to optimize comparison against validity criteria (e.g., finding values within a range, determining whether appear in a list of valid values, etc.).”
(当審訳:
[0052]本発明の実施形態による、ドメインの有効性基準に基づいて、列に一致するドメインのリストを(例えば、処理エンジン160を介して)自動的に決定する態様は、図6Aおよび図6Bに示される。最初に、処理エンジン160は、ステップ610で分析する列から値のサンプルを選択する。サンプルは、分析が迅速に完了できるように、列全体と比較して比較的小さくてもよい。値は、固有であることが要求される場合があり、対応する頻度と関連付けられる場合があり、有効性基準(例えば、範囲内の値を見つける、有効な値のリストに表示されるかどうかを判断するなど)に対する比較を最適化するためにソートされる場合がある。)

キ “[0067]A manner of applying validity and completeness criteria against a data source (e.g., via processing engine 160) according to an embodiment of the present invention is illustrated in FIG. 9. For each table containing a column to be analyzed, the processing engine creates an empty rule set at step 910. For each column to be analyzed in the current table, the processing engine converts at step 920 the validity and completeness criteria of the domain assigned to the column to rules, and adds the rules to the rule set at step 930. At step 940, the processing engine determines whether there is another column to be analyzed in the current table. If so, the procedure returns to step 920. Otherwise, the processing engine executes the rules set against the table and collects details of the violations. At step 960, the processing engine determines whether there is another table containing columns to be analyzed. If so, the procedure returns to step 910. Otherwise, the procedure ends. To maximize performance, the procedure does not execute the validity/completeness tests of each columns individually (as in conventional approaches). Rather a rule set is built for all conditions of each column of a table. Each table results in a single analysis job covering all the tests that apply to columns of the table. As a result, a single pass over the data of each table is performed, which is more efficient than performing multiple queries for each column.”
(当審訳:
[0067]本発明の一実施形態による、データソースに対して(例えば、処理エンジン160を介して)有効性および完全性の基準を適用する態様を図9に示す。分析対象の列を含む各テーブルについて、処理エンジンはステップ910で空のルールセットを作成する。現在のテーブル内の分析される各列について、処理エンジンは、ステップ920で、列に割り当てられたドメインの有効性および完全性の基準をルールに変換し、ステップ930で、ルールをルールセットに追加する。ステップ940で、処理エンジンは、現在のテーブルに分析すべき別の列があるかどうかを判定する。そうであれば、手順はステップ920に戻る。そうでない場合、処理エンジンはテーブルに対してルールセットを実行し、違反の詳細を収集する。ステップ960で、処理エンジンは、分析すべき列を含む別のテーブルがあるかどうかを判定する。そうであれば、手順はステップ910に戻る。そうでなければ、手順は終了する。パフォーマンスを最大化するために、この手順は、(従来のアプローチのように)各列の妥当性/完全性テストを個別に実行しない。むしろ、テーブルの各列のすべての条件に対してルールセットが構築される。各表は、その表の列に適用されるすべてのテストをカバーする単一の解析ジョブになる。その結果、各テーブルのデータに対する単一のパスが実行され、各カラムに対して複数のクエリを実行するよりも効率的である。)

ク 「図1



ケ 「図2



コ 「図3



(2)引用発明
上記(1)の記載事項ア〜コより、引用例1には次の事項が記載されているといえる。

ア 上記(1)アの「A computer-implemented method for assessing the quality of data comprising:…(中略)…applying the validity condition for the domain assigned to a column to data values in the column to compute a data quality metric for the column」(データの品質を評価するコンピュータ実装方法であって、列に割り当てられたドメインの有効性条件を列のデータ値に適用して、列のデータ品質メトリックを計算…(中略)…することを含む方法。)(請求項1)との記載から、引用例1には、“列に割り当てられたドメインの有効性条件を列のデータ値に適用して、列のデータ品質メトリックを計算することを含む、データの品質を評価するコンピュータ実装方法”が記載されているといえる。

イ 上記(1)イの「 a database contains a large number of columns and tables.」(データベースが多数の列とテーブルを含んでいる。)([0029])との記載から、引用例1には、“データベースは多数の列とテーブルを含”むことが記載されているといえる。

ウ 上記(1)イの「An example computing environment for a present invention embodiment is illustrated in FIG. 1. Specifically, the environment includes application server system 100, one or more client or end-user systems 110, source 130, metadata repository 140, reference database 150, and processing engine 160, each of which may be remote from one another other and communicate over a network 120.」(本発明の実施形態の例示的なコンピューティング環境は、図1に示されている。具体的環境は、アプリケーション・サーバ・システム100と、1つ以上のクライアント又はエンドユーザシステム110と、ソース130と、メタデータ・リポジトリ140、データベース150、および処理エンジン160を含み、その各々は互いに他から遠隔でも良いし、ネットワーク120を介して通信する。)([0032])との記載、及びク(図1)から、引用例1には、“アプリケーション・サーバ・システム100と、1つ以上のクライアント又はエンドユーザシステム110と、ソース130と、メタデータ・リポジトリ140、データベース150、および処理エンジン160を含むコンピューティング環境”が記載されているといえる。

エ 上記(1)イの「Processing engine 160 receives and processes data from source 130, metadata repository 140, and reference database 150, applies data quality criteria, and stores data quality metrics and other metadata in metadata repository 140 for analysis by the data quality module.」(処理エンジン160は、ソース130、メタデータリポジトリ140、および参照データベース150からデータを受信して処理し、データ品質基準を適用し、データ品質モジュールによる分析のためにメタデータリポジトリ140にデータ品質メトリクスおよび他のメタデータを格納する。)([0036])との記載から、引用例1には、“処理エンジン160は、ソース130、メタデータリポジトリ140、および参照データベース150からデータを受信して処理し、データ品質基準を適用し、データ品質モジュールによる分析のためにメタデータリポジトリ140にデータ品質メトリクスおよび他のメタデータを格納”することが記載されているといえる。

オ 上記(1)イの「The data quality module and processing engine may include one or more modules or units to perform the various functions of present invention embodiments described below (e.g., automatically detecting a domain to which columns belong, applying domain validity and completeness criteria, aggregating validity and completeness statistics, etc.), may be implemented by any combination of any quantity of software and/or hardware modules or units, and may reside within memory 30 of an application server system, processing engine and/or client systems for execution by processor 20.」(データ品質モジュールおよび処理エンジンは、以下に説明する本発明の実施形態の様々な機能(例えば、列が属するドメインの自動検出、ドメインの有効性および完全性の基準の適用、有効性および完全性の統計の集計など)を実行するための1つまたは複数のモジュールまたはユニットを含んでよく、任意の量のソフトウェアおよび/またはハードウェアモジュールまたはユニットの任意の組み合わせによって実装されてよく、プロセッサ20による実行のために、アプリケーションサーバシステム、処理エンジンおよび/またはクライアントシステムのメモリ30内に存在してよい。)([0038])との記載から、引用例1には、“データ品質モジュールおよび処理エンジンは、列が属するドメインの自動検出、ドメインの有効性および完全性の基準の適用、有効性および完全性の統計の集計などの機能を実行するための1つまたは複数のモジュールまたはユニットを含んでよく、任意の量のソフトウェアおよび/またはハードウェアモジュールまたはユニットの任意の組み合わせによって実装されてよく、プロセッサ20による実行のために、アプリケーションサーバシステム、処理エンジンおよび/またはクライアントシステムのメモリ30内に存在してよ”いことが記載されているといえる。

カ 上記(1)イの「A block diagram of source 130, metadata repository 140, and reference database 150 is illustrated in FIG. 2. The metadata repository holds information about a set of domains 141 and source metadata 142. Each domain can contain one or more domain validity and completeness criteria. The criteria may include regular expressions, rules (e.g., a rule that a column contain no repeated values), a list of valid values, etc., …(中略)…Source metadata 142 contains information about the domain and quality of columns from source 130. For example, source metadata 142 may be stored in a table listing the table, name, domain, and validity and completeness statistics for each column of data in source 130. Processing engine 160 receives data from the source, metadata repository, and reference database and analyzes the data to make a preliminary determination of the domain to which each column of the data in the source belongs and to apply the corresponding criteria to each data value and accumulate statistics.」(ソース130、メタデータ・リポジトリ140、および参照データベース150のブロック図を図2に示す。メタデータ・リポジトリは、ドメイン141およびソース・メタデータ142のセットに関する情報を保持する。各ドメインは、1つまたは複数のドメインの有効性および完全性の基準を含むことができる。基準は、正規表現、規則(たとえば、列に繰り返し値が含まれないという規則)、有効値のリストなどを含む…(中略)…ソースメタデータ142は、ドメインおよびソース130からの列の品質に関する情報を含む。たとえば、ソース130内のデータの各列のテーブル、名前、ドメイン、および有効性と完全性の統計をリストしたテーブルに格納されてよい。処理エンジン160は、ソース、メタデータ・リポジトリ、および参照データベースからデータを受信し、データを分析して、ソース内のデータの各列が属するドメインの予備判定を行い、対応する基準を各データ値に適用して統計をとる。)([0039])との記載、及びケ(図2)から、引用例1には、“メタデータ・リポジトリは、ドメイン141およびソース・メタデータ142のセットに関する情報を保持”すること、“各ドメインは、1つまたは複数のドメインの有効性および完全性の基準を含み、基準は、正規表現、規則(たとえば、列に繰り返し値が含まれないという規則)、有効値のリストなどを含”むこと、“ソースメタデータ142は、ドメインおよびソース130からの列の品質に関する情報を含み、ソース130内のデータの各列のテーブル、名前、ドメイン、および有効性と完全性の統計をリストしたテーブルに格納され”ること、及び、“処理エンジン160は、ソース、メタデータ・リポジトリ、および参照データベースからデータを受信し、データを分析して、ソース内のデータの各列が属するドメインの予備判定を行い、対応する基準を各データ値に適用して統計をと”ることが記載されているといえる。

キ 上記(1)エの「A manner in which data quality is assessed (e.g., by data quality module 102 via application server system 100, client system 110, and/or processor engine 160) according to an embodiment of the present invention is illustrated in FIG. 3. 」(本発明の実施形態に従ってデータ品質が(例えば、アプリケーションサーバシステム100、クライアントシステム110、および/またはプロセッサエンジン160を介してデータ品質モジュール102によって)評価される態様を図3に示す。)([0040])との記載、及びコ(図3)から、引用例1には、“アプリケーションサーバシステム100、クライアントシステム110、および/またはプロセッサエンジン160を介してデータ品質モジュール102によってデータ品質が評価され”ることが記載されているといえる。

ク 上記(1)エの「At step 302, the data to be analyzed are registered with the system, typically by a project administrator. 」(ステップ302で、分析されるデータは、典型的にはプロジェクト管理者によってシステムに登録される。)([0041])との記載から、引用例1には、“分析されるデータはシステムに登録され”ることが記載されているといえる。

ケ 上記(1)エの「At step 303, columns of the data source are automatically associated with a matching domain from domain set 141. For example, the processing engine can apply the validity criteria of each domain to values from each column in order to determine which domains match which columns. …(中略)…The system may be configured to perform this step automatically or when requested by the user.」(ステップ303で、データソースの列は、ドメインセット141中の一致するドメインに自動的に関連付けられる。たとえば、処理エンジンは、どのドメインがどの列に一致するかを決定するために、各ドメインの有効性基準を各列からの値に適用することができる。…(中略)…システムは、このステップを自動的に…(中略)…実行するように構成することができる。)([0042])との記載から、引用例1には、“データソースの列は、ドメインセット141中の一致するドメインに自動的に関連付けられ、処理エンジンは、どのドメインがどの列に一致するかを決定するために、各ドメインの有効性基準を各列からの値に適用し、システムは、このステップを自動的に実行するように構成され”ることが記載されているといえる。

コ 上記(1)エの「the data quality module presents the results to the user…(中略)…The user can review the results, …(中略)… alter validity and/or completeness criteria for individual columns. 」(データ品質モジュールは結果をユーザに提示する…(中略)…ユーザは結果を確認し、…(中略)…個々の列の有効性および/または完全性の基準を変更することができる。)([0043])との記載から、引用例1には、“データ品質モジュールは結果をユーザに提示し、ユーザは結果を確認し、個々の列の有効性および/または完全性の基準を変更することができ”ることが記載されているといえる。

サ 上記(1)エの「The processing engine subjects each distinct value of each column to all validity and completeness criteria of the associated domain and counts the number of violations. Data quality metrics (e.g., percentage of each column's values failing the validity criteria, percentage of each column's values failing the completeness criteria, etc.) can be computed from these counts and stored in the metadata repository.」(処理エンジンは、各列の各固有な値を、関連するドメインのすべての有効性と完全性の基準に照らし、違反の数をカウントする。データ品質メトリクス(各列の値が有効性基準に違反した割合、各列の値が完全性基準に違反した割合など)は、これらのカウントから計算され、メタデータリポジトリに格納される。)([0044])との記載から、引用例1には、“処理エンジンは、各列の各固有な値を、関連するドメインのすべての有効性と完全性の基準に照らし、違反の数をカウントして、各列の値が有効性基準に違反した割合、各列の値が完全性基準に違反した割合などのデータ品質メトリクスが計算されて、メタデータリポジトリに格納され”ることが記載されているといえる。

シ 上記(1)オの「FIGS. 4 and 5 illustrate an example manner in which a user supplies metadata that a domain definition may contain according to an embodiment of the present invention. …(中略)…the metadata includes a specification of criteria that values must match to be considered valid and complete within this domain. …(中略)…The criteria for domain validity can be defined as one or more of the following:…(中略)…2. A range of values (minimum and maximum) that the values shouldn't exceed.…3. A list of possible valid values, 」(図4および図5は、本発明の実施形態に従って、ドメイン定義を含んでもよいメタデータをユーザが提供する例示的な態様を示す。…(中略)…メタデータには、このドメイン内で値が有効かつ完全であるとみなされるために一致しなければならない基準の仕様が含まれる。…(中略)…ドメイン有効性の基準は、以下の1つ以上として定義される:…(中略)…2.値が超えてはならない値の範囲(最小値と最大値)。…3.有効な値のリスト。)([0045]-[0048])との記載から、引用例1には、“ユーザがドメイン定義を含むメタデータを提供し、メタデータには、このドメイン内で値が有効かつ完全であるとみなされるために一致しなければならない基準の仕様が含まれ、ドメイン有効性の基準は、
(i)値が超えてはならない値の範囲(最小値と最大値)
(ii)有効な値のリスト
の1つ以上として定義され”ることが記載されているといえる。

ス 上記(1)カの「A manner of automatically determining a list of domains that match a column (e.g., via processing engine 160) based on the validity criteria of the domains according to an embodiment of the present invention is illustrated in FIGS. 6A and 6B .」(本発明の実施形態による、ドメインの有効性基準に基づいて、列に一致するドメインのリストを(例えば、処理エンジン160を介して)自動的に決定する態様は、図6Aおよび図6Bに示される。)([0052])との記載から、引用例1には、“処理エンジン160を介して、ドメインの有効性基準に基づいて列に一致するドメインのリストを自動的に決定する”方法について記載されているといえる。

セ 上記ア〜スより、引用例1には次の発明(以下、「引用発明」という。)が記載されているといえる。

「列に割り当てられたドメインの有効性条件を列のデータ値に適用して、列のデータ品質メトリックを計算することを含む、データの品質を評価するコンピュータ実装方法であって、
データベースは多数の列とテーブルを含み、
アプリケーション・サーバ・システム100と、1つ以上のクライアント又はエンドユーザシステム110と、ソース130と、メタデータ・リポジトリ140、データベース150、および処理エンジン160を含むコンピューティング環境において、
処理エンジン160は、ソース130、メタデータリポジトリ140、および参照データベース150からデータを受信して処理し、データ品質基準を適用し、データ品質モジュールによる分析のためにメタデータリポジトリ140にデータ品質メトリクスおよび他のメタデータを格納し、
データ品質モジュールおよび処理エンジンは、列が属するドメインの自動検出、ドメインの有効性および完全性の基準の適用、有効性および完全性の統計の集計などの機能を実行するための1つまたは複数のモジュールまたはユニットを含んでよく、任意の量のソフトウェアおよび/またはハードウェアモジュールまたはユニットの任意の組み合わせによって実装されてよく、プロセッサ20による実行のために、アプリケーションサーバシステム、処理エンジンおよび/またはクライアントシステムのメモリ30内に存在してよく、
メタデータ・リポジトリは、ドメイン141およびソース・メタデータ142のセットに関する情報を保持し、
各ドメインは、1つまたは複数のドメインの有効性および完全性の基準を含み、基準は、正規表現、規則(たとえば、列に繰り返し値が含まれないという規則)、有効値のリストなどを含み、
ソースメタデータ142は、ドメインおよびソース130からの列の品質に関する情報を含み、ソース130内のデータの各列のテーブル、名前、ドメイン、および有効性と完全性の統計をリストしたテーブルに格納され、
処理エンジン160は、ソース、メタデータ・リポジトリ、および参照データベースからデータを受信し、データを分析して、ソース内のデータの各列が属するドメインの予備判定を行い、対応する基準を各データ値に適用して統計をとり、
アプリケーションサーバシステム100、クライアントシステム110、および/またはプロセッサエンジン160を介してデータ品質モジュール102によってデータ品質が評価され、
分析されるデータはシステムに登録され、
データソースの列は、ドメインセット141中の一致するドメインに自動的に関連付けられ、処理エンジンは、どのドメインがどの列に一致するかを決定するために、各ドメインの有効性基準を各列からの値に適用し、システムは、このステップを自動的に実行するように構成され、
データ品質モジュールは結果をユーザに提示し、ユーザは結果を確認し、個々の列の有効性および/または完全性の基準を変更することができ、
処理エンジンは、各列の各固有な値を、関連するドメインのすべての有効性と完全性の基準に照らし、違反の数をカウントして、各列の値が有効性基準に違反した割合、各列の値が完全性基準に違反した割合などのデータ品質メトリクスが計算されて、メタデータリポジトリに格納され、
ユーザがドメイン定義を含むメタデータを提供し、メタデータには、このドメイン内で値が有効かつ完全であるとみなされるために一致しなければならない基準の仕様が含まれ、ドメイン有効性の基準は、
(i)値が超えてはならない値の範囲(最小値と最大値)
(ii)有効な値のリスト
の1つ以上として定義され、
処理エンジン160を介して、ドメインの有効性基準に基づいて列に一致するドメインのリストを自動的に決定する
コンピュータ実装方法。」

2 引用例2
(1)引用例2の記載事項
当審拒絶理由通知において引用された引用例2(特開2011−253491号公報)には、図面とともに次の事項が記載されている。

ア 「【0007】
以下、図面を参照して、実施形態を詳細に説明する。
(第1の実施形態)
図1は、第1の実施形態に係るプラント異常検知システム1を示すブロック図である。プラント異常検知システム1は、プラント10、プラント異常検知装置20を有する。プラント10は、例えば、発電プラントや化学プラント等のプラントである。プラント異常検知装置20は、プラントの動作状態を監視し、異常を検知する装置であり、プラントデータ入力部102、プラントデータ履歴ファイル部103、移動平均処理部104、移動平均データファイル部105、基準値算出部106、基準値ファイル部107、プラント条件記録ファイル部108、プラント状態判定部109、異常検知部110、表示部111、外部通知部116、音声出力部117、電子メール部118を有する。
【0008】
なお、プラント異常検知システム1は、コンピュータ(CPU(Central Processing Unit)および周辺機器(入力装置、出力装置、主記憶装置、補助記憶装置))とプログラムの組み合わせにより構成できる。
【0009】
プラントデータ入力部102は、プラント10に設置される各種センサ(プラントの状態(例えば、電流、電圧、圧力、温度)を検出する検出器)から順次にプラントデータ(測定値)を入力する。プラントデータ入力部102は、第2のプラントデータを順次に入力する入力部として機能する。
【0010】
プラントデータ履歴ファイル部103は、プラントデータ入力部102で入力されたプラントデータを履歴として順次に保存する。
【0011】
移動平均処理部104は、プラントデータ履歴ファイル部103に保存されたプラントデータを移動平均処理する。移動平均処理部104は、「第1のプラントデータを移動平均処理する第1の移動平均処理部」および「第2のプラントデータを移動平均処理する第2の移動平均処理部」として機能する。
移動平均データファイル部105は、移動平均処理されたプラントデータを順次に保存する。
【0012】
基準値算出部106は、移動平均されたプラントデータに基づいて、プラントの異常を検知するための基準値を算出する。基準値算出部106は、移動平均処理された第1のプラントデータの統計値に基づいて、プラントの異常を検知するための基準値を決定する基準値決定部として機能する。
基準値ファイル部107は、基準値算出部106で算出された基準値を保存する。基準値ファイル部107は、決定された基準値を保存する基準値保存部として機能する。」

イ 上記アの記載(特に下線部)より、引用例2には、次の事項(以下、「引用例2記載事項」という。)が記載されているといえる。

「プラントデータ入力部102、プラントデータ履歴ファイル部103、移動平均処理部104、移動平均データファイル部105、基準値算出部106、基準値ファイル部107を有し、
プラントデータ履歴ファイル部103は、プラントデータ入力部102で入力されたプラントデータを履歴として順次に保存し、
移動平均処理部104は、プラントデータ履歴ファイル部103に保存されたプラントデータを移動平均処理し、
基準値算出部106は、移動平均されたプラントデータに基づいて、プラントの異常を検知するための基準値を算出すること。」

3 引用例3
(1)引用例3の記載事項
当審拒絶理由通知において引用された引用例3(特開2012−89057号公報)には、図面とともに次の事項が記載されている。

ア 「【0032】
図6に、統計的異常識別部106で処理する異常識別処理フローを示す。これは、図2のステップS205とステップS206に対応する処理である。この処理フローにおいては、先ず、データベース105からステップS202で選定されたデータセットのセンサ信号102を入力し(S601)、特徴抽出を行って特徴ベクトルを作成し(S602)、特徴ベクトルのデータチェックにより使用する特徴を選択する(S603)。
【0033】
次に、ステップS203で指定された学習部のデータを切り出す(S604)。切り出された学習部データは、k個のグループに分割され(S605)、そのうち1グループを除いたデータを用いて学習を行い、正常モデルを作成する(S606)。ただし、故障・警告の発生日のデータ、ファイルまたはユーザインターフェースにより指定された除外日のデータ、正常ではないとイベント信号から判断される日のデータは学習に使用しないこととする。作成された正常モデルを用い、ステップS606で除かれた1グループのデータを入力して異常測度を算出する(S607)。
【0034】
すべてのグループのデータについて異常測度の算出が終了したかをチェックし(S608),終了していなければまだ異常測度の算出を行っていない他のグループについて(S609)、正常モデル作成(S606)と異常測度算出(S607)のステップを繰り返す。すべてのグループのデータについて異常測度の算出が終了したら次のステップに進む。
【0035】
すべてのグループのデータについて算出された学習部全体の異常測度に基づいて異常を識別するしきい値を設定する(S610)。このとき、ステップS204で得られたモード分割情報を参照してモード別にしきい値設定を行う。すべての学習部のデータを用いて学習を行い、正常モデルを作成する(S611)。作成した正常モデルを用いて評価部の異常測度を算出し(S612)、ステップS610で設定したしきい値とステップS607およびステップS612で算出した異常測度を比較することにより、各時刻における異常判定を行う(S613)。」


第6 対比・判断

1 本願発明1について
(1)対比
本願発明1と引用発明とを対比すると、次のことがいえる。

ア 引用発明の「コンピュータ実装方法」は、本願発明1の「コンピュータ実装方法」に対応する。
引用発明の「ソース130」における「データ」、当該「データ」の「列」、及び「列のデータ値」は、それぞれ、本願発明1の「データセット」、「フィールド」、及び、「データ要素」に相当する。
引用発明は、「列に割り当てられたドメインの有効性条件を列のデータ値に適用」するものであって、引用発明の「処理エンジン160」が、「ソース…中略…からデータを受信し、データを分析して、ソース内のデータの各列が属するドメインの予備判定を行い、対応する基準を各データ値に適用」するものであるところ、当該「予備判定」及び「基準を各データ値に適用」することは、上記認定を踏まえると、データセットのフィールドについての規則を決定するものといえるから、引用発明と本願発明1とは、下記の点(相違点1)で相違するものの、“データセットのフィールドについての規則を決定するためのコンピュータ実装方法であって、前記データセットは、データ要素を含む一つ以上のフィールドを有するデータ記録を含”む点で一致する。

イ 引用発明は、「データベースは多数の列とテーブルを含」むものであって、「ソース130」に含まれる「ソース130内のデータ」には、「テーブル」が含まれ、当該「テーブル」は、複数のデータレコード、すなわちデータ記録を含むことは技術常識であり、当該複数のデータレコードのうちの1つは、上記アの認定を踏まえると、“データセットのインスタンスのデータ記録”であるといえる。
引用発明の「処理エンジン」は、「列が属するドメインの自動検出…中略…などの機能を実行するための1つまたは複数のモジュールまたはユニットを含んでよ」いものであるから、複数のプロセッサにより処理されるものであるといえる。
そして、引用発明の「処理エンジン160」が、「ソース、メタデータ・リポジトリ、および参照データベースからデータを受信し、データを分析」することは、上記アの認定を踏まえると、本願発明1の「前記データセットの一つ以上のインスタンスの前記データ記録の前記フィールドに含まれている前記データ要素を、一つ以上のプロセッサにより、分析」することに相当する。
引用発明の「ドメイン」は、「1つまたは複数のドメインの有効性および完全性の基準を含」むものであるところ、「処理エンジン160」が、「ソース、メタデータ・リポジトリ、および参照データベースからデータを受信し、データを分析して、ソース内のデータの各列が属するドメインの予備判定を行い、対応する基準を各データ値に適用して統計をと」った上、「どのドメインがどの列に一致するかを決定するために、各ドメインの有効性基準を各列からの値に適用」するものであるから、当該「ドメイン」は、本願発明1の「前記データセットの前記フィールドについての基準プロファイル」に相当するものといえる。
そして、引用発明の「処理エンジン」が、「列が属するドメインの自動検出」を行うこと、すなわち、「データソースの列」を「ドメインセット141中の一致するドメインに自動的に関連付け」ることは、本願発明1の「前記データセットの前記フィールドについての基準プロファイルを決定する」ことに相当するといえるから、引用発明と本願発明1とは、“前記データセットの一つ以上のインスタンスの前記データ記録の前記フィールドに含まれている前記データ要素を、一つ以上のプロセッサにより、分析し、前記データセットの前記フィールドについての基準プロファイルを決定する”点で一致する。

ウ 引用発明の「各ドメイン」は、「1つまたは複数のドメインの有効性および完全性の基準を含み、基準は、正規表現、規則(たとえば、列に繰り返し値が含まれないという規則)、有効値のリストなどを含」むことから、当該「ドメイン」に含まれる「有効性および完全性の基準」は、本願発明1の「データ品質規則」とは、所定の“基準”である点で一致する。
そして、上記アのデータセット及びフィールドについての認定及び上記イの基準プロファイルに関する認定を踏まえると、引用発明と本願発明1とは、下記の点(相違点1、2)で相違するものの、“決定された前記基準プロファイルに基づいて、前記データセットの前記フィールドについての規則を、前記一つ以上のプロセッサにより、生成する”点で一致する。

エ 引用発明の「ドメイン有効性の基準」は、
「(i)値が超えてはならない値の範囲(最小値と最大値)
(ii)有効な値のリスト
の1つ以上として定義され」るものであるところ、上記イの基準プロファイルの認定を踏まえると、当該「(i)値が超えてはならない値の範囲(最小値と最大値)」及び「(ii)有効な値のリスト」は、それぞれ、本願発明1の「(i)前記フィールドについての前記基準プロファイルと、前記データセットの一つ以上のデータ記録の前記フィールドについてのプロファイルとの間の許容偏差」及び「(ii)前記データセットのデータ記録の前記フィールドのデータ要素についての許容値」に相当するといえるから、引用発明は、本願発明1の「前記データセットの前記フィールドについてのデータ品質規則は、
(i)前記フィールドについての前記基準プロファイルと、前記データセットの一つ以上のデータ記録の前記フィールドについてのプロファイルとの間の許容偏差、
(ii)前記データセットのデータ記録の前記フィールドのデータ要素についての許容値、又は
(iii)前記データセットのデータ記録の前記フィールドのデータ要素についての禁止値の一つ以上を示す、こと」との構成要件に対し、“前記データセットの前記フィールドについての規則”が、少なくとも、「(i)前記フィールドについての前記基準プロファイルと、前記データセットの一つ以上のデータ記録の前記フィールドについてのプロファイルとの間の許容偏差」又は、「(ii)前記データセットのデータ記録の前記フィールドのデータ要素についての許容値」を示す限りにおいて一致するといえるから、引用発明と本願発明1とは、下記の点(相違点1)で相違するものの、“前記データセットの前記フィールドについての規則”が、“(i)前記フィールドについての基準プロファイルと、前記データセットの一つ以上のデータ記録の前記フィールドについてのプロファイルとの間の許容偏差”、“(ii)前記データセットのデータ記録の前記フィールドのデータ要素についての許容値、又は”、“(iii)前記データセットのデータ記録の前記フィールドのデータ要素についての禁止値の一つ以上を示す、ことと”を含む点で一致する。

オ 以上、ア〜エの検討から、引用発明と本願発明1とは、次の一致点及び相違点を有する。

〈一致点〉
データセットのフィールドについての規則を決定するためのコンピュータ実装方法であって、前記データセットは、データ要素を含む一つ以上のフィールドを有するデータ記録を含み、
前記データセットの一つ以上のインスタンスの前記データ記録の前記フィールドに含まれている前記データ要素を、一つ以上のプロセッサにより、分析し、前記データセットの前記フィールドについての基準プロファイルを決定することと、
決定された前記基準プロファイルに基づいて、前記データセットの前記フィールドについての規則を、前記一つ以上のプロセッサにより、生成することであって、前記データセットの前記フィールドについての規則は、
(i)前記フィールドについての基準プロファイルと、前記データセットの一つ以上のデータ記録の前記フィールドについてのプロファイルとの間の許容偏差、
(ii)前記データセットのデータ記録の前記フィールドのデータ要素についての許容値、又は
(iii)前記データセットのデータ記録の前記フィールドのデータ要素についての禁止値の一つ以上を示す、ことと、
を含むコンピュータ実装方法。

〈相違点1〉
本願発明1の“規則”が、「データ品質規則」であるのに対し、引用発明は、「ドメインの有効性および完全性の基準」である点。

〈相違点2〉
本願発明1の「データ品質規則」は、「自動で生成」されるものであるのに対し、引用発明の「ドメインの有効性および完全性の基準」が自動で生成されることが特定されていない点。

〈相違点3〉
本願発明1は、「前記データ品質規則を前記データセットのインスタンスの一つ以上のデータ記録に適用し、前記データセットの前記インスタンスのデータ品質問題を識別すること」及び「前記データセットについての系列情報に基づいて、前記データセットの前記インスタンスの前記データ品質問題の潜在的原因である少なくとも一つの他のデータセットを識別すること」を含むのに対し、引用発明はそのことが特定されていない点。

(2)相違点についての判断
事案に鑑みて、上記相違点3について先に検討すると、相違点3に係る本願発明1の「前記データ品質規則を前記データセットのインスタンスの一つ以上のデータ記録に適用し、前記データセットの前記インスタンスのデータ品質問題を識別すること」及び「前記データセットについての系列情報に基づいて、前記データセットの前記インスタンスの前記データ品質問題の潜在的原因である少なくとも一つの他のデータセットを識別すること」を含むとの構成は、上記引用例1〜3には記載されておらず、本願優先日前において周知技術であるともいえない。
したがって、他の相違点について判断するまでもなく、本願発明1は、当業者であっても引用発明、並びに、引用例2に記載された引用例2記載事項及び引用例3に記載された事項に基づいて容易に発明できたものであるとはいえない。

2 本願発明2〜12について
本願発明2〜12は、本願発明1を直接または間接的に引用するものであって、本願発明1の上記相違点3に係る構成と同一の構成を備えるものであるから、本願発明1と同じ理由により、当業者であっても、引用発明、並びに、引用例2に記載された引用例2記載事項及び引用例3に記載された事項に基づいて容易に発明できたものであるとはいえない。

3 本願発明13、25及び37について
本願発明13、25及び37は、本願発明1と概ねカテゴリー表現が異なるのみであって、本願発明1の上記相違点3に係る構成と同一の構成を備えるものであるから、本願発明1と同じ理由により、当業者であっても、引用発明、並びに、引用例2に記載された引用例2記載事項及び引用例3に記載された事項に基づいて容易に発明できたものであるとはいえない。

4 本願発明14〜24、26〜36について
本願発明14〜24及び本願発明26〜36は、それぞれ本願発明13及び25を直接又は間接的に引用するものであって、本願発明1の上記相違点3に係る構成と同一の構成を備えるものであるから、本願発明1と同じ理由により、当業者であっても、引用発明、並びに、引用例2に記載された引用例2記載事項及び引用例3に記載された事項に基づいて容易に発明できたものであるとはいえない。


第7 原査定についての判断

令和6年3月21日付けの補正により、補正後の請求項1〜37は概ね、「前記データ品質規則を前記データセットのインスタンスの一つ以上のデータ記録に適用し、前記データセットの前記インスタンスのデータ品質問題を識別する」こと及び「前記データセットについての系列情報に基づいて、前記データセットの前記インスタンスの前記データ品質問題の潜在的原因である少なくとも一つの他のデータセットを識別する」ことを含むという技術的事項を有するものとなった。当該事項は、原査定における引用文献1及び2(当審拒絶理由通知における引用例2及び1)には記載されておらず、本願優先日前における周知技術でもないので、本願発明1〜37は、当業者であっても、原査定における引用文献1及び2に基づいて容易に発明できたものではない。したがって、原査定を維持することはできない。


第8 むすび

以上のとおり、原査定の理由によって、本願を拒絶することはできない。
また、他に本願を拒絶すべき理由を発見しない。
よって、結論のとおり審決する。
 
審決日 2024-05-09 
出願番号 P2020-088498
審決分類 P 1 8・ 121- WY (G06F)
最終処分 01   成立
特許庁審判長 須田 勝巳
特許庁審判官 山崎 慎一
吉田 美彦
発明の名称 データ品質分析  
代理人 稲葉 良幸  
代理人 大貫 敏史  
代理人 江口 昭彦  
代理人 内藤 和彦  

プライバシーポリシー   セキュリティーポリシー   運営会社概要   サービスに関しての問い合わせ