ポートフォリオを新規に作成して保存 |
|
|
既存のポートフォリオに追加保存 |
|
PDFをダウンロード |
審決分類 |
審判 査定不服 2項進歩性 取り消して特許、登録 G06F |
---|---|
管理番号 | 1391782 |
総通号数 | 12 |
発行国 | JP |
公報種別 | 特許審決公報 |
発行日 | 2022-12-28 |
種別 | 拒絶査定不服の審決 |
審判請求日 | 2022-01-21 |
確定日 | 2022-12-13 |
事件の表示 | 特願2020−157721「情報処理装置、システム、学習装置、情報処理方法、およびプログラム」拒絶査定不服審判事件〔令和 4年 3月31日出願公開、特開2022− 51305、請求項の数(1)〕について、次のとおり審決する。 |
結論 | 原査定を取り消す。 本願の発明は、特許すべきものとする。 |
理由 |
第1 手続の経緯 本願は,本願は,令和2年9月18日の出願であって,その手続の経緯は,概略,以下のとおりである。 令和3年 6月11日付け 拒絶理由通知 令和3年 8月 5日 意見書・手続補正書 提出 令和3年10月22日付け 拒絶査定(原査定) 令和4年 1月21日 審判請求書・手続補正書 提出 令和4年 7月20日付け 拒絶理由通知(当審拒絶理由) 令和4年 9月 8日 意見書・手続補正書 提出 第2 原査定の概要 原査定(令和3年10月22日付け拒絶査定)の概要は次のとおりである。 (進歩性)本願の特許請求の範囲の請求項1−4,7および10−12に係る発明は,以下の引用文献AおよびBに基いて,その出願前にその発明の属する技術の分野における通常の知識を有する者(以下,「当業者」という。)が容易に発明をすることができたものであり, 本願の特許請求の範囲の請求項5および6に係る発明は,以下の引用文献AないしCに基いて,その出願前に当業者が容易に発明をすることができたものであり, 本願の特許請求の範囲の請求項8および13に係る発明は,以下の引用文献A,B,Dに基いて,その出願前に当業者が容易に発明をすることができたものであるから,特許法第29条第2項の規定により特許を受けることができない。 記 A.特表2008−529105号公報 B.国際公開第2019/053844号 C.特開2011−90442号公報 D.特開2019−121352号公報 第3 当審拒絶理由の概要 令和4年7月20日付けで当審が通知した拒絶理由の概要は,次のとおりのものである。 (進歩性)本願の特許請求の範囲の請求項1−4,7および10−12に係る発明は,以下の引用文献1に記載された発明及び引用文献2に記載された事項に基づいて,その出願前に当業者が容易に発明をすることができたものであり, 本願の特許請求の範囲の請求項5および6に係る発明は,以下の引用文献1に記載された発明及び引用文献2ならびに3に記載された事項に基づいて,その出願前に当業者が容易に発明をすることができたものであり, 本願の特許請求の範囲の請求項8および13に係る発明は,以下の引用文献1に記載された発明及び引用文献2ならびに4に記載された事項に基づいて,その出願前に当業者が容易に発明をすることができたものであるから,特許法29条2項の規定により特許を受けることができない。 記 1.特表2008−529105号公報(原査定の引用文献A) 2.国際公開第2019/053844号(原査定の引用文献B) 3.特開2011−90442号公報(原査定の引用文献C) 4.特開2019−121352号公報(原査定の引用文献D) 第4 本願発明 本願請求項1に係る発明(以下,「本願発明」という。)は,令和4年9月8日提出の手続補正書によって補正(以下,「本件補正」という。)された特許請求の範囲の請求項1に記載された事項により特定される以下のとおりの発明である。(下線部が補正箇所である。) 「電子メールに関する複数の項目のデータを含むメールデータを取得する取得部と, 前記取得した複数の項目のデータを,前記複数の項目のデータを入力すると前記メールデータに係る電子メールが所定属性の電子メールであるか否かを示す分類結果を出力するように学習された分類器に入力することで,前記メールデータに係る電子メールが前記所定属性の電子メールであるか否かを示す分類結果を得る属性分類部と,を備え, 前記分類器は,前記複数の項目のデータの各々が入力されると項目ごと特徴量を出力する項目ごと子分類器と,それぞれの前記項目ごと特徴量が入力されると前記分類結果を出力する統合分類器とを含み, 前記項目ごと子分類器は,前記複数の項目のデータの各々に対応して設けられる情報処理装置と, 前記電子メールの送受信を管理し,前記情報処理装置に前記メールデータを提供するメールサーバと, を備えるシステムであって, 前記所定属性は,商品,サービス,または事業者のプロモーションを目的として送信された電子メールを示すものであり, 前記メールサーバは, 前記属性分類部によって前記所定属性を持つものと分類された電子メールのジャンルを分類するジャンル分類部と, 前記ジャンルごと,及びユーザごとに,受信された前記電子メールの総数を,開封された前記電子メールの数で除算することによって得られる開封率を算出する算出部と, 前記ジャンル分類部による分類結果と,前記算出部による算出結果とに基づいて,前記電子メールを受信した情報端末に所定の通知を送信する通知部と, を備える,システム。」 第5 引用文献 1 引用文献1 (1)引用文献1の記載 引用文献1には,以下の記載がある。(下線は,当審が付加した。以下同様。) ア 「【技術分野】 【0001】 [発明の背景] [発明の分野] 本出願は,電子データ構造体のパターンを識別することに別の方法で適用されるような符号化データの生成又は変換の分野に関する。 【背景技術】 【0002】 [従来技術の説明] 文書のクラスタリング技法及び分類技法は,概観を提供するか,又は一定の基準に基づいて一組の文書を識別することができる。これによって,その一組の文書の内容内の一定のパターンが増強(amplifies)又は検出される。これらの技法により,用途によっては,不要な電子メールがフィルタリングされるものもあれば,探索ストラテジー及び記憶ストラテジーが効果的になるものもある。識別ストラテジーは,たとえば,クラスタ内の文書が互いに類似し且つ他のクラスタの文書とはそれほど類似しないように,類似度測定に基づいて文書をクラスタに分割することができる。クラスタリング及び分類のプロセスをラベリングと呼ぶ。要求の厳しい用途では,ラベリングは,安定していて,高速で,効率的で,且つ,正確であるという条件で,特に,ストレージ及び検索の用途では,企業の効率を大きく改善することができる。 【0003】 情報技術のユーザは,数え切れないほどの不要な電子メール,不要なテキストメッセージ,並びに,非常に有害な新しいウィルス及びワームに毎日効率的に対処しなければならない。この大部分が不必要に大容量のネットワークトラフィックは,労働者の生産性を低下させ,重要なネットワークアプリケーションを低速にする。今日のデジタルエコノミーにおける最も重大な問題のうちの1つは,スパムの容量の増加に対処しなければならない。したがって,電子メールの受信者だけでなくサービスプロバイダも,ワールドワイドウェブ上でのその拡散を削減する有効な解決法を必要としている。しかしながら,スパム検出がより高性能になるにつれて,スパムの発信者は,検出を回避する新しい方法を発明する。たとえば,或る従来技術の方法論は,電子メールと比較される識別された属性を有する文書シグネチャを保持するための集中データベースを提供する。しかしながら,スパムの発信者は,今や,メッセージ自体は理解可能となるようにするが,現在使用されているさまざまなアンチスパムフィルタリング技法に基づく検出を逃れるように,電子メールの内容をわずかに又はランダムに変更する。 【0004】 現在,少なくとも30個のオープンリレーが世界を支配しており,異なるレート及び異なるレベルの構造的変化でメッセージを送信(burst)している。一定のタイプの電子メールは,スパムによって例示されるように,変化又は進化するので,スパムフィルタリング検出アルゴリズムは,有効となるように絶えず順応しなければならない。スパム電子メールの場合,たとえば,スパムコーパスのまさにその性質は,体制変化を受ける。したがって,クラスタリングの最適性は,データコーパスの性質及びデータコーパスが受ける変化に大きく依存する。 【0005】 識別された属性を有する文書の有効な検出方式又は電子メール分類方式の目的は,類似のメッセージを見つけることである。電子メールの多くのクラスタはスパム,e−vite,メーリングリストによって表される;電子メールは企業内を何度も転送される;ウェブサイトからのターゲットメーリング(targeted mailing)。企業がその後これらのクラスタで何を行うかは,その企業の裁量に委ねられている。したがって,クラスタの空間におけるメトリックの明確な概念を規定することが不可欠である。分かりやすく言えば,文書に関連する2つの電子データストリームが与えられると,システムは,2つのメッセージがどれくらい類似しているか又はどれくらい近いかを,意味のある或る方法で表す「距離」と呼ばれる数値を生成可能でなければならない。 【0006】 分類器は,電子メールの異なるカテゴリーの検出器として有効に動作するために,距離関数のパラメータ及びしきい値を慎重に確立しなければならない。たとえば,しきい値があまりにも高い場合,分類器は,あまりにも多くの誤検知を生み出すことになる。同じことは,しきい値が不当に低く選ばれた場合にも起こる可能性がある。 (中略) 【0013】 数個のフィルタを使用することによって,電子メールメッセージがより綿密な検査の対象にされ,それによって誤検知が削減される。その64個の値のそれぞれが単一のフィルタと考えられる場合,NSは一組のフィルタとみなすことができる。次に,メトリックを,各個々の数値について異なるビットの個数として規定することができる。このような方法の欠点は,このように規定された距離が4を超えることができないことである。その理由は,数値が16進数だからである。各フィルタは単独では,完全に原始的なものである。アルゴリズムの変更を通じて達成されるような基数(radix)を増加させることによるか,又は隣接するフィルタを結合してより大きな全体フィルタにし,したがって,フィルタ数を減少させることにより,この方法をより強固にすることができる。 【発明の開示】 【発明が解決しようとする課題】 【0014】 数個のフィルタを配置することに加えて,しきい値の選択が依然として要件であるという点で問題は存続する。あいにく,1つのフィルタであっても,電子メールが互いに類似するものとしてどのようにタグ付けされるかのヒューリスティックな目視検査プロセスによって,及び,何が,識別された属性を有する文書の許容可能な検出をもたらすかについての試行錯誤による以外に,そのしきい値を選択する体系的な手法は存在しない。数個のフィルタ値を考慮しなければならない場合,フィルタリングは,すべてのしきい値に依存し,したがって,このような試行錯誤プロセスによって最適なしきい値を見つけることは,非常な難事業を呈する。(1)しきい値をソフトウェアにハードコードすること,(2)手動で且つ定期的に最適化チェックを実行すること,及び/又は(3)最適化を自動的に実行すること,の3つの解決法が可能である。 【0015】 第1の解決法で成功するには,現在のスパムの傾向に基づいて最適化問題を解かなければならない。しかしながら,それが,たとえ今日の一定のタイプの電子メールをフィルタリングすることに仮に成功したとしても,明日,十分であるという保証は存在しない。第2の解決法は,骨の折れることが分かり得る。しかしながら,本発明者らは,一定のタイプの電子メール認識の最適化問題の解決法を求めた。この解決法は,学習マシン,並びに,特別なクラスの均一フィルタ及びスタック可能ハッシュの組み合わせを利用することによって従来技術の欠点を緩和する。この組み合わせは,電子データストリームの類似度又は同一性を比較して,それらの電子データストリームをクラスタ又は分類に入れるしきい値の体系的な調査,決定,及び最適化を可能にするものである。電子文書の分類及びクラスタリングに関して,本発明は,結果の安定性及び精度を最大にする一方で,コンピュータプロセスの前処理時間及び実行時間を最小にしようとさらに努力する。 【課題を解決するための手段】 【0016】 [発明の概要] 本発明は,電子データストリームを識別して分類するためのコンピュータ方法,装置,及びシステムに関し,したがって,電子メールの情報コンテンツ,画像,及びサウンドファイル(一括してデータコーパスと呼ぶ)を所定のクラスに属するものとして含む。識別するステップ及び分類するステップは,ニューラルネットワークプロセッサ(「NN」),サポートベクトルマシン(「SVM」),ナイーブベイズプロセッサ(「NB」)等のうちの1つ又は複数の学習マシンによって行われる。電子データストリームがあいまいであると判断された場合,K−NNプロセッサは,類似の電子メールストリームのクラス又はクラスタ内に入れることを可能にしようと試みる。」 イ 図1a ウ 「【0023】 図1aは,1つ又は複数の新規な文書分類方式に基づいて電子メールを分類し,分離し,そして記憶するための本発明の方法の概観を提供している。電子メールが金融,法律,及び税金に関係するものであるのか,又はワールドワイドウェブにより電子メールを送信できる任意の主題に関係するものであるのか等の識別ラベルを適用する目的で,電子メールが受信される(101)。電子メールは,1つ又は複数の学習マシンによって提供されるような,識別のためのプロセスを受ける(103)。識別情報又はラベルは,利用される各学習マシンプロセスについて生成されて記憶される(105)。各学習マシンを利用した後,学習マシンからの出力が比較され(107),多数決や他の既知の統計方法等の分析方法によって,電子メールに関連付けるラベルを決定し(109),その結果,電子メールをラベル付けする(109)。その後,分析中の電子メールは,たとえば,別のラベルが同じ電子メールに適合するか否かを確かめるために,プロセス101を再び受ける場合がある。この理由は,いくつかの電子メールでは2つ以上のクラスが,一例として,金融情報を税の問題の法解釈に関係付ける電子メールを適用する場合があるからである。」 エ 図5 オ 「【0110】 図5は,不要である可能性のある電子メールの送信を検出するための従来のインターネット501システムを示している。このシステムは,クライアントメールサーバ509を利用する複数の電子メールを観察するための手段と,図4a及び図4bに示すように,複数の電子メールの1つ又は複数の部分の特徴ベクトルを作成して,ハッシュ値及び関連するビットマスクを生成し,生成されるハッシュ値及び関連するビットマスク値が前の電子メールに関係するハッシュ値及び関連するビットマスク値と一致するか否かを判断するための手段とを備える。理解されるように,周辺サーバ503は,電子メールを分類し,図1a,図1b,図2a,及び図3cについて説明したように電子メールのクラスタを作成するように構成することができる。 【0111】 図5では,インターネット501の接続526a及び526bによって,ユーザ510は,クライアントメールサーバ509に関連するプロセッサ504及び507を通じて電子メールを送受信することが可能になる。クライアントメールサーバ509は,周辺サーバ503と共に動作する。周辺サーバ503は,ソフトウェアプログラム545,及び上述したような分類及びクラスタを記憶するデータベース511にアクセスするプログラムの制御下で動作する。ソフトウェアプログラム545は,図1a,図1b,図2a,及び図3cに示すプロセスと,本明細書で説明したハッシュ技術に従って電子データストリームを解析するためのプロセス502(a),502(b),及び502(c)とを実行するためのプロセス515を含む。サーバ503及び関連するソフトウェアは,電子メールプロセッサ507を通じて追加されたスパムセイリエンシ(spam saliency)を有する電子メールを送信するように構成することもできるし,出て行くスパムを所定のルールに基づいてブロックするように構成することもできる。メールサーバ509との接続が素早く確立されない場合に,タイムアウト513も使用することができる。電子メールの入力用の電子メール504プロセッサを利用すると,プロセス515は,本発明の技術に基づいて,クラスタリング及び分類を計算する。(当審注:「プロセス502(a),502(b),及び502(c)」は,「プロセス502a,502b,及び502c」の誤記と認める。) 【0112】 本明細書で説明したシステムによって作成されるような分類データ及びクラスタリングデータ,又は(a)外部ソース518からさらに受信されたか,(b)若しくは,インターネット接続526b及び524等のインターネット接続を通じてダウンロードされるような分類データ及びクラスタリングデータを含むデータベース511は,中央サーバ540及び関連するデータベース522から受信できるように, 【0113】 本明細書の発明は,学習マシンプロセス並びにハッシュ技術プロセス502b及び502cを含み,データベース511に記憶されているハッシングベクトル又はハッシングベクトルから導出されたものを利用して文書をクラスタリングし,電子メールを比較するために,図2a,図2d,図3c,図4a,及び図4bについて説明したような新規なプロトコルの下で動作して,本発明の特徴ベクトル及び幾何ベクトル(一括して「ハッシングベクトル」)を作成する。以下に示すものを除いて,電子メールの送信者又は受信者は通常,均一ハッシュフィルタ502aの直接制御もスタック可能ハッシュ502cの直接制御も有しない。均一ハッシュフィルタ502a又はスタック可能ハッシュ502cは通常,ゲートウェイセンドメールサーバ503内にインストールされる。(当審注:「均一ハッシュフィルタ502a」は,「均一ハッシュフィルタ502b」の誤記と認める。) 【0114】 センドメールが一旦電子メール504をサーバ503から受信すると,その電子メールは,ソフトウェア545のプログラムコールによって,学習マシン502a及び代替的にハッシュ技術プロセス502b及び502cに渡る。一実施形態では,ハッシュ技術プロセス502b及び502cは,受信コンピュータ512に直接インストールされる場合もあるし,インターネット接続501又はローカルエリアネットワーク接続528を通じてダウンロードされる場合もある。代替的に,受信コンピュータは,電子メールが,ユーザ510による処分を保留している一時停止に保持されていることに応じて,ローカルエリアネットワーク接続528を通じて直接情報を受信することもできる。 【0115】 サーバ503及び関連するソフトウェア545は,受信される電子メールのリレーであって,メッセージを変更して2値ヘッダ505を任意選択的に組み込むためのリレーとして機能する。より詳細には,学習マシン502a,均一フィルタ502b及び502cは,個々に又は代替的に電子メール504の内容を分析して,電子メール504のデータストリームにヘッダ505を追加する。このヘッダ505は,その電子メールが相対的にどれくらい危険であると考えられるかを示すスパム性(spamicity)506の尺度を含む。プログラミング手段は,任意のスケールの数値としてスパム性506を生成する。しかしながら,アドミニストレータは,プロセッサ515によって具現化されたプロセスの起動中にその大きさ又はパラメータを調節することができる。 【0116】 受信コンピュータ512のユーザ510及びサーバ503のアドミニストレータ(図示せず)は,それぞれ,スパム性506の尺度に基づいてどの動作を取るかを決定することができる。一例として或るシナリオは,デフォルトで,ハッシュ技術プロセス502a及び502bが,受信コンピュータ512の特定のユーザについてオフにされることである。ユーザ510がその後の電子メール504をフィルタリングしたい場合,ユーザは,ハッシュ技術プロセス502a及び502bをオンにする要求を送信する。ハッシュ技術プロセス502a及び502bは,すでにオンにされている場合があるが,ユーザは,スパム性のしきい値514の設定を所望する。このしきい値よりも大きい場合,電子メール504は基本的に,ハッシュ技術プロセス502a及び502bの攻撃であると判断されてユーザ510に配信されない。ユーザ510がスパム性506のしきい値514を指定しない場合,サーバのアドミニストレータによって事前に確立されたデフォルト値をプロセス502a及び502bは利用することができる。電子メール504のスパム性506がしきい値514よりも大きい場合,ユーザ510は,事前にプログラミングされたルールに基づき,1つ又は複数のフォルダに電子メール504を送信するルールを起動して電子メールを隔離し,その電子メールをスパムフォルダ516に記憶することができる。(当審注:「ハッシュ技術プロセス502a及び502b」は,「ハッシュ技術プロセス502b及び502c」の誤記と認める。) 【0117】 中央サーバ520は,ワールドワイドウェブと通信する周辺サーバ503等のクライアントサーバの統一アドレス(uniform address)を提供する。その主要な目的は,世界のすべてのサーバのキャッシュを比較し,次に,インターネットを通じて結果を配信することである。キャッシュは,ハードウェアの速度及びインターネット501のトラフィックに応じて1分以下に近い間隔で絶えずローリングしている。目的は,中央サーバ520に対する悪意のある攻撃を軽減するために,すべてのサーバのスパムリストを記憶して同期させ,クライアントサーバ509の一部とすることができるような,各企業に動的に割り当てられる確信度評定を作成することである。 【0118】 プログラム540は,原則として比較的大きい可能性があるクラスタ,分類,幾何ベクトル,及び特徴ベクトルを記憶する。基本的な例示では,特徴ベクトルはファイルに記憶される。この場合値が起動中に読み出され,その後,別のメモリに記憶される。この基本的な例示は,プロセッサ515に具現化されたプロセスを,例えばバークレイDB等のデータベースと共に統合することでよりロバストにすることができる。バークレイDBは,センドメールエイリアスファイルをエイリアスデータベースと比較する。 【0119】 図5について,ハッシュ技術プロセス502bは,特徴ベクトルを作成して,図4a又は図4bのいずれかに開示したプロセスに従い特徴ベクトルを利用するための方法を含む。したがって,図5は,電子メールのクラスの送信を検出するためのコンピュータ方法も開示する。このコンピュータ方法は,(a)1つ又は複数の電子メールメッセージを受信するステップと,(b)学習マシンを利用して電子メールを分類するステップと,(c)K−NNマシンを利用してあいまいな文書をさらにクラスタリングするステップと,(d)複数の電子メールメッセージの1つ又は複数の部分に基づいてハッシュ値を生成するステップと,(e)複数の電子メールメッセージのうちの1つ又は複数の部分に基づいて,関連するビットマスク値を生成するステップと,(f)生成されるハッシュ値及び関連するビットマスク値が,クラスタの1つ又は複数の前の電子メールメッセージに関係する,対応するハッシュ値及び関連するビットマスク値と一致するか否かを判断するステップとを含む。」 (2)引用発明 上記(1)より,特に,下線部に着目すると,引用文献1には,以下の発明(以下,「引用発明」という。)が記載されていると認められる。 「電子データストリームを識別して分類するためのシステムに関し,電子メールの情報コンテンツを所定のクラスに属するものとして識別及び分類するシステムであって, 電子メールが金融,法律,及び税金に関係するものであるのか,又はワールドワイドウェブにより電子メールを送信できる任意の主題に関係するものであるのか等の識別ラベルを適用する目的で,電子メールが受信され, 電子メールは,複数の学習マシンによって提供される識別のためのプロセスを受け, 識別情報又はラベルは,利用される各学習マシンプロセスについて生成されて記憶され, 各学習マシンを利用した後,学習マシンからの出力が比較され,多数決や他の既知の統計方法等の分析方法によって,電子メールに関連付けるラベルを決定し,その結果,電子メールをラベル付けするシステムにおいて, 周辺サーバ503は,電子メールを分類し,電子メールのクラスタを作成するように構成されており, クライアントメールサーバ509は,周辺サーバ503と共に動作しており, 周辺サーバ503は,ソフトウェアプログラム545,及び分類及びクラスタを記憶するデータベース511にアクセスするプログラムの制御下で動作しており,ソフトウェアプログラム545は,電子データストリームを解析するための(学習マシン)プロセス502aを実行するためのプロセス515を含んでおり, 学習マシン(プロセス)502aは,電子メール504の内容を分析して,電子メール504のデータストリームにヘッダ505を追加しており,このヘッダ505は,その電子メールが相対的にどれくらい危険であると考えられるかを示すスパム性の尺度を含んでおり,しきい値よりも大きい場合,電子メール504は攻撃であると判断されてユーザ510に配信されない システム。」 2 引用文献2 (1)引用文献2の記載 引用文献2には,以下の記載がある。 ア 「技術分野 [0001] 本発明は,メール検査装置,メール検査方法およびメール検査プログラムに関するものである。 背景技術 [0002] 特定の組織または人を対象として,機密情報の窃取等の攻撃を行う標的型攻撃は深刻な脅威となっている。標的型攻撃の中でも,メールをベースにした標的型攻撃メールによる攻撃は依然として重大な脅威の1つである。トレンドマイクロの調査(https://www.trendmicro.tw/cloud−content/us/pdfs/business/datasheets/ds_social−engineering−attack−protection.pdf)では,標的型攻撃メールによるマルウェア感染が企業に対する攻撃全体の76%にも上るとの結果が出ている。そのため,標的型攻撃メールを防ぐことは,被害が増加し,巧妙となってきているサイバー攻撃を防ぐ観点から重要である。 (中略) 発明が解決しようとする課題 [0008] 従来の技術では,巧妙な標的型攻撃メールを検知することができない。具体例として,すでに標的組織内の踏み台がマルウェアに感染しているとする。攻撃者が,組織の機密情報にアクセスする権限を有する者の端末等,最終目標の感染を目的とする場合に,踏み台のメールアドレスおよび情報を利用して最終目標にメールを送ることが考えられる。この場合には,攻撃者が,踏み台の特徴を踏まえたうえで攻撃のメールを送るため,従来の技術では検知が困難である。 [0009] 本発明は,巧妙な攻撃メールの検知を目的とする。」 イ 図4 ウ 「[0038] ***動作の説明*** 図1とともに図4を参照して,本実施の形態に係るメール検査装置10の動作を説明する。メール検査装置10の動作は,本実施の形態に係るメール検査方法に相当する。 [0039] メール検査装置10の動作には,大きく分けて準備フェーズS100と,運用フェーズS200との2つのフェーズがある。 [0040] 準備フェーズS100では,学習部20が,複数のメールに含まれる各メールの特徴と,各メールに付随するリソースの特徴との間の関係性を学習する。各メールに付随するリソースには,各メールに添付されたファイルと,各メールの本文中のURLによって特定されるリソースとの少なくともいずれかが含まれる。 [0041] 具体的には,準備フェーズS100では,解析対象のメールが学習部20に入力される。学習部20は,解析対象のメールのコンテキストと,解析対象のメールのコンテンツのコンテキストとの関係性を学習する。学習部20は,学習結果をデータベース40に登録する。 [0042] 運用フェーズS200では,判定部30が,検査対象のメールの特徴と,検査対象のメールに付随するリソースの特徴とを抽出し,抽出した特徴間に,学習部20により学習された関係性があるかどうかによって,検査対象のメールが不審なメールであるかどうかを判定する。 [0043] 具体的には,運用フェーズS200では,検査対象のメールが判定部30に入力される。判定部30は,データベース40を参照し,検査対象のメールに対応する関係性を特定することで,検査対象のメールが不審なメールであるかどうかを判定する。すなわち,判定部30は,データベース40に登録された情報をもとに,コンテンツを直接または間接的に含むメールが不自然であるかどうかを判定する。」 エ 図5 オ 「[0045] 図2とともに図5を参照して,準備フェーズS100の説明を行う。 [0046] ステップS110では,解析対象となる1つ以上のメール集合が用意される。これらのメール集合はすべてコンテンツを含んでいるものとする。解析対象のメール集合は,ラベル付与部21に入力される。ラベル付与部21は,キー情報によって解析対象のメール集合に含まれるメールにラベルを付していく。すなわち,ラベル付与部21は,キー情報をもとに,解析対象のメールをいくつかのメール集合に分類する。キー情報は,本実施の形態では宛先情報であるが,題名等,メールの分類に用いることのできる情報であれば,任意の情報でよい。題名が用いられる場合は,題名に特定のキーワードが含まれるかどうかによってラベルが判定される。ラベル付は,解析対象のメール集合が空になるまで行われる。キー情報は,データベースに登録される要素の索引として用いられる。 [0047] ステップS120では,ステップS110で得られた各メール集合がコンテンツ分離部22に入力される。コンテンツ分離部22は,各メール集合からメールを取り出す。コンテンツ分離部22は,取り出したメールからコンテンツを抽出する。すなわち,コンテンツ分離部22は,ラベル付与部21により分類された各メールから,コンテンツを分離する。コンテンツ分離部22は,コンテンツと,コンテンツ分離後のメールとの2種類のデータを出力する。 [0048] コンテンツが添付ファイルである場合,コンテンツ分離部22は,例えば,Pythonのemailパッケージ(http://docs.python.jp/2/library/email.parser.html)を用いて,解析対象のメールをパースすることで,添付ファイルを抽出することができる。 [0049] ステップS130では,ステップS120によるコンテンツ分離後のメールがメールフィルタ部23に入力される。メールフィルタ部23は,コンテンツ分離後のメールの題名,To,Ccおよび本文をもとに,コンテンツ分離後のメールをコンテキストが抽出できる形に整形し,整形後メールデータを得る。すなわち,メールフィルタ部23は,コンテンツ分離後のメールから,コンテキスト抽出で利用されるデータだけを抽出し,抽出したデータを整形後メールデータとして出力する。整形後メールデータは,本実施の形態では題名,宛先情報および本文の3つの要素からなるが,これら3つの要素のうち1つまたは2つの要素が省かれてもよい。本文は,元の文章から引用文および署名等が取り除かれ,解析しやすい状態に修正されていてもよい。 [0050] ステップS140では,ステップS130で得られた整形後メールデータが学習データとしてメールコンテキスト抽出部24に入力される。メールコンテキスト抽出部24は,整形後メールデータから,コンテキストを抽出する。メールコンテキスト抽出部24により抽出されたコンテキストをメールコンテキストと呼ぶ。メールコンテキストは,本実施の形態ではベクトルの形式で表現されるが,キーワード群の形式で表現されてもよい。 [0051] メールコンテキストは,メールから抽出可能な特徴ベクトルの連結によって表現される。整形後メールデータが題名,宛先情報および本文の3つの要素からなる場合,各要素が特徴ベクトルに置き換えられて3つの特徴ベクトルが得られる。その後,それらの特徴ベクトルが連結されてメールコンテキストが得られる。 [0052] 各要素から特徴ベクトルを抽出する方法を,宛先情報と,題名および本文のような文章とのそれぞれについて示す。前述したように,ここでは,キー情報に宛先情報が利用されているとする。 [0053] 宛先情報の特徴ベクトルへの変換は,キー情報の候補群に含まれる宛先の1つ1つを,宛先情報が含むかどうかによって行われる。例えば,キー情報の候補群が「xxx@ab.com」,「yyy@ab.com」,「zzz@ab.com」および「abc@xx.com」の4つであるとする。宛先情報の宛先群が「xxx@ab.com」,「zzz@ab.com」,「efg@xy.com」の3つであるとする。この場合,宛先情報は,式(1)のような特徴ベクトルに変換される。 [0054] 題名および本文のような文章の特徴ベクトルへの変換は,doc2vec(https://radimrehurek.com/gensim/models/doc2vec.html)のような自然言語処理技術を用いて行われる。なお,文章の特徴ベクトルへの変換は,TF−IDFのようなキーワード抽出技術により抽出したキーワードをBoWによりベクトル化することによって行われてもよい。「TF」は,Term Frequencyの略語である。「IDF」は,Inverse Document Frequencyの略語である。「BoW」は,Bag of Wordsの略語である。 [0055] 以上の手続きにより,式(2)のような特徴ベクトルがメールから得られる。 演算子・はベクトルの要素を結合する演算子,ベクトルvaは宛先情報の特徴ベクトル,ベクトルvbは題名の特徴ベクトル,ベクトルvcは本文の特徴ベクトルである。」 (2)引用文献2記載技術 上記(1)より,引用文献2には,以下の技術的事項(以下,「引用文献2記載技術」という。)が記載されていると認められる。 「メール検査装置に関し, 巧妙な攻撃メールの検知を目的として, 準備フェーズS100では,学習部20が,複数のメールに含まれる各メールの特徴と,各メールに付随するリソースの特徴との間の関係性を学習し, 運用フェーズS200では,判定部30が,検査対象のメールの特徴と,検査対象のメールに付随するリソースの特徴とを抽出し,抽出した特徴間に,学習部20により学習された関係性があるかどうかによって,検査対象のメールが不審なメールであるかどうかを判定するメール検査装置において, 準備フェーズS100では,解析対象となる1つ以上のメール集合が用意され, メールがメールフィルタ部23に入力され, メールフィルタ部23は,コンテンツ分離後のメールの題名,To,Ccおよび本文をもとに,コンテンツ分離後のメールをコンテキストが抽出できる形に整形し,抽出したデータを整形後メールデータとして出力し, 整形後メールデータが学習データとしてメールコンテキスト抽出部24に入力され, メールコンテキスト抽出部24は,整形後メールデータから,コンテキストを抽出し,抽出されたコンテキストをメールコンテキストと呼び,メールコンテキストは,ベクトルの形式で表現される 特徴ベクトル(宛先情報の特徴ベクトル,題名の特徴ベクトル,本文の特徴ベクトル)がメールから得られる技術。」 3 引用文献3 (1)引用文献3の記載 引用文献3には,以下の記載がある。 ア 「【0022】 (6)前記作成部は,前記分類部により分類された電子メールについて,当該分類の結果を変更する入力を受け付けた場合に,当該電子メールに対応する前記変数値,又は前記閾値を調整する(4)又は(5)に記載の電子メール分類装置。」 イ 「【0061】 また,データ登録部15は,入力部40からの所定の操作入力に応じて,分類結果を変更してメールDB22を更新する。具体的には,例えば,正常メールに分類されたメールをスパムメールのフォルダに移動したり,保留メールに分類されたメールを正常メール又はスパムメールのフォルダに移動したりといった操作を受け付けることにより,メールDB22を更新する。 【0062】 さらに,データ登録部15は,このような分類結果の変更入力を受け付けた場合に,この変更情報をルール作成部14へ提供する。ルール作成部14は,この変更情報に基づいて,ルールDB21の分類ルールを更新する。」 (2)引用文献3記載の周知技術 上記(1)より,引用文献3には,以下の周知技術(以下,「引用文献3記載周知技術」という。)が記載されていると認められる。 「メールを分類する分類器を学習させるにあたり,ユーザからのフィードバックを教師データとした機械学習を行うこと」 4 引用文献4 (1)引用文献4の記載 引用文献4には,以下の記載がある。 ア 「【0048】 1.マスターデータの作成 マスターデータ51は,メール連携部10から得られたデータと,取引データ連携部20から得られたデータを含む。メール連携部10から得られるデータは,外部サービス2で取り扱われる電子メールから抽出されたものである。取引データ連携部20から得られるデータは,複数の企業等から提供された商品の取引に関連する取引データであり,例えば,POSデータや,ポイントカードに関連する情報,クレジットカードに関連する情報等が含まれる。」 イ 「【0060】 また,サービス提供部40は,商品マスターデータベース50に格納されたマスターデータ51を分析し,ユーザにリマインドを行うサービスを提供する。例えば,予約期限や購入期限等の他,初月無料や何ヶ月間無料等,割引やその他の付加価値に関するキャンペーンの対象期間を考慮して,キャンペーンの対象期間が近づいたときにリマインドを行ったり,サブスクリプションの更新時期に更新又は退会についてのリマインドを行ったりするようにしてもよい。」 (2)引用文献4記載技術 上記(1)より,引用文献4には,以下の技術的事項(以下,「引用文献4記載技術」という。)が記載されていると認められる。 「メールから抽出されたデータに基づいて,ユーザに対してキャンペーン期間等に関するリマインド(本願の「期限に関する通知」に相当)を行うこと。」 第6 対比・判断 1 本願発明について (1)対比 本願発明と引用発明を対比すると,以下のとおりとなる。 ア 引用発明において,「電子メールをラベル付けするシステムにおいて,周辺サーバ503は,電子メールを分類し,電子メールのクラスタを作成するように構成されており,」「周辺サーバ503は,ソフトウェアプログラム545,及び分類及びクラスタを記憶するデータベース511にアクセスするプログラムの制御下で動作しており,ソフトウェアプログラム545は,電子データストリームを解析するためのプロセス502aを実行するためのプロセス515を含んで」いるとされている。 ここで,引用発明における「電子データストリーム」は,本願発明の「電子メールに関する」「メールデータ」であるといえる。 また,引用発明において「電子データストリームを解析」するために,「電子データストリーム」を取得する手段(取得部)を含んでいることは明らかである。 さらに,引用発明において,「周辺サーバ503は,ソフトウェアプログラム545,及び分類及びクラスタを記憶するデータベース511にアクセスするプログラムの制御下で動作して」いるから,引用発明の「周辺サーバ503」は,本願発明の「情報処理装置」に対応するといえる。 したがって,本願発明と引用発明とは,「電子メールに関する」{メールデータを取得する取得部」「を備え」た「情報処理装置」「を備えるシステム」である点で共通しているといえる。 しかし,本願発明の「メールデータ」は,「複数の項目のデータを含む」ものであるのに対し,引用発明の「メールデータ」がどのような内容を含んでいるのか具体的に明らかでない点で一応相違している。 イ 引用発明は,「電子メールは,複数の学習マシンによって提供される識別のためのプロセスを受け,識別情報又はラベルは,利用される各学習マシンプロセスについて生成されて記憶され,」「電子メール504の内容を分析して,電子メール504のデータストリームにヘッダ505を追加しており,このヘッダ505は,その電子メールが相対的にどれくらい危険であると考えられるかを示すスパム性の尺度を含んでおり,しきい値よりも大きい場合,電子メール504は攻撃であると判断され」るとされている。 ここで,引用発明において,「電子メールが相対的にどれくらい危険であると考えられるかを示すスパム性の尺度を含んでおり,しきい値よりも大きい場合,電子メール504は攻撃であると判断され」ることから,引用発明の「スパム性の尺度」は,本願発明の「電子メールが所定属性の電子メールであるか否かを示す分類結果」に相当するといえる。 また,引用発明の「学習マシン」は,本願発明の「学習された分類器」に対応する。 したがって,本願発明と引用発明とは,「前記取得した」「データを,前記」「データを入力すると前記メールデータに係る電子メールが所定属性の電子メールであるか否かを示す分類結果を出力するように学習された分類器に入力することで,前記メールデータに係る電子メールが前記所定属性の電子メールであるか否かを示す分類結果を得る属性分類部と,を備え」た「情報処理装置」「を備えるシステム」である点で共通しているといえる。 しかし,上記アで述べたように,本願発明の「前記取得した」「データ」は,「複数の項目のデータ」であるのに対し,引用発明の「前記取得した」「データ」がどのような内容を含んでいるのか具体的に明らかでない点で一応相違している。 ウ 引用発明において,「各学習マシンを利用した後,学習マシンからの出力が比較され,多数決や他の既知の統計方法等の分析方法によって,電子メールに関連付けるラベルを決定し,その結果,電子メールをラベル付けする」とされている。 ここで,引用発明の「各学習マシン」は,本願発明の「子分類器」に対応し,引用発明において,「多数決や他の既知の統計方法等の分析方法によって,電子メールに関連付けるラベルを決定」する手段は,本願発明の「子分類器」から,「出力」された「特徴量が入力されると前記分類結果を出力する統合分類器」に相当するといえる。 したがって,本願発明と引用発明とは,「前記分類器は,前記」「データ」「が入力されると」「特徴量を出力する」「子分類器と,」「特徴量が入力されると前記分類結果を出力する統合分類器とを含」む点で共通するといえる。 しかし,本願発明の「子分類器」は,「前記複数の項目のデータの各々に対応して設けられて」おり,「複数の項目のデータの各々が入力される」のに対し,引用発明の「子分類器」(学習マシン)は,複数の項目のデータの各々に対応して設けられていない点で相違している。 エ 引用発明において,「クライアントメールサーバ509は,周辺サーバ503と共に動作して」いるとされている。 ここで,「クライアントメールサーバ509」は,電子メールの送受信を管理するものであり,「クライアントメールサーバ509」が「周辺サーバ503」に対して,メールデータを提供していることは,当業者にとって明らかであるといえる。 したがって,本願発明と引用発明とは,「前記電子メールの送受信を管理し,前記情報処理装置に前記メールデータを提供するメールサーバ」「を備えるシステム」である点で共通するといえる。 オ 引用発明において,「電子メールの情報コンテンツを所定のクラスに属するものとして識別及び分類するシステムであって,電子メールが金融,法律,及び税金に関係するものであるのか,又はワールドワイドウェブにより電子メールを送信できる任意の主題に関係するものであるのか等の識別ラベルを適用する目的で,電子メールが受信され」るとされている。 ここで,引用発明における「金融」は,金融商品あるいは金融サービスに対応するものであり,「法律,及び税金」は,サービスに対応するものであり,「金融,法律,及び税金に関係する」電子メールは,「金融,法律,及び税金に関係する」事業者のプロモーションの電子メールであるともいえるから,引用発明の「電子メールが金融,法律,及び税金に関係するものであるのか,又はワールドワイドウェブにより電子メールを送信できる任意の主題に関係するもの」は,本願発明の「商品,サービス,または事業者のプロモーションを目的として送信された電子メールを示すもの」に対応するといえる。 したがって,本願発明と引用発明とは,「前記所定属性は,商品,サービス,または事業者のプロモーションを目的として送信された電子メールを示すものであ」る点で共通するといえる。 しかし,本願発明の「メールサーバ」は,「前記属性分類部によって前記所定属性を持つものと分類された電子メールのジャンルを分類するジャンル分類部と, 前記ジャンルごと,及びユーザごとに,受信された前記電子メールの総数を,開封された前記電子メールの数で除算することによって得られる開封率を算出する算出部と, 前記ジャンル分類部による分類結果と,前記算出部による算出結果とに基づいて,前記電子メールを受信した情報端末に所定の通知を送信する通知部と, を備え」ているのに対し,引用発明の「メールサーバ」は,これらの構成を備えていない点で相違している。 (2)一致点 本願発明と,引用発明とは,以下の点で一致する。 「電子メールに関するメールデータを取得する取得部と, 前記取得したデータを,前記データを入力すると前記メールデータに係る電子メールが所定属性の電子メールであるか否かを示す分類結果を出力するように学習された分類器に入力することで,前記メールデータに係る電子メールが前記所定属性の電子メールであるか否かを示す分類結果を得る属性分類部と,を備え, 前記分類器は,前記データが入力されると特徴量を出力する子分類器と,特徴量が入力されると前記分類結果を出力する統合分類器とを含む, 情報処理装置と, 前記電子メールの送受信を管理し,前記情報処理装置に前記メールデータを提供するメールサーバと, を備えるシステムであって, 前記所定属性は,商品,サービスを目的として送信された電子メールを示すものである, システム。」 (3)相違点 本願発明と,引用発明とは,以下の点で相違する。 ア 相違点1 本願発明の「メールデータ」は,「複数の項目のデータを含む」ものであるのに対し,引用発明の「メールデータ」がどのような内容を含んでいるのか具体的に明らかでない点。 イ 相違点2 本願発明の「子分類器」は,「前記複数の項目のデータの各々に対応して設けられて」おり,「複数の項目のデータの各々が入力される」のに対し,引用発明の「子分類器」(学習マシン)は,複数の項目のデータの各々に対応して設けられていない点。 ウ 相違点3 本願発明の「メールサーバ」は,「前記属性分類部によって前記所定属性を持つものと分類された電子メールのジャンルを分類するジャンル分類部と, 前記ジャンルごと,及びユーザごとに,受信された前記電子メールの総数を,開封された前記電子メールの数で除算することによって得られる開封率を算出する算出部と, 前記ジャンル分類部による分類結果と,前記算出部による算出結果とに基づいて,前記電子メールを受信した情報端末に所定の通知を送信する通知部と, を備え」ているのに対し,引用発明の「メールサーバ」は,これらの構成を備えていない点。 (4)相違点について 事案に鑑みて,上記相違点3について,先に検討する。 引用文献1ないし4には、いずれも、「メールサーバ」が,「前記属性分類部によって前記所定属性を持つものと分類された電子メールのジャンルを分類するジャンル分類部と, 前記ジャンルごと,及びユーザごとに,受信された前記電子メールの総数を,開封された前記電子メールの数で除算することによって得られる開封率を算出する算出部と, 前記ジャンル分類部による分類結果と,前記算出部による算出結果とに基づいて,前記電子メールを受信した情報端末に所定の通知を送信する通知部と, を備え」ている構成について、記載も示唆もなく、当該構成が本願出願前に周知であったとも認められない。 したがって,引用発明および引用文献2ないし4記載の技術事項に基づいて,本願発明の相違点3に係る「メールサーバ」が,「前記属性分類部によって前記所定属性を持つものと分類された電子メールのジャンルを分類するジャンル分類部と, 前記ジャンルごと,及びユーザごとに,受信された前記電子メールの総数を,開封された前記電子メールの数で除算することによって得られる開封率を算出する算出部と, 前記ジャンル分類部による分類結果と,前記算出部による算出結果とに基づいて,前記電子メールを受信した情報端末に所定の通知を送信する通知部と, を備え」る構成は,当業者が想到し得たものではない。 (5)小括 以上から,相違点1あるいは2について検討するまでもなく,本願発明は,引用発明および引用文献2ないし4に記載された技術的事項に基づいて,当業者が容易に想到し得たものではない。 第7 原査定についての判断 令和4年9月8日提出の手続補正書により,補正後の請求項1は,「メールサーバ」が,「前記属性分類部によって前記所定属性を持つものと分類された電子メールのジャンルを分類するジャンル分類部と, 前記ジャンルごと,及びユーザごとに,受信された前記電子メールの総数を,開封された前記電子メールの数で除算することによって得られる開封率を算出する算出部と, 前記ジャンル分類部による分類結果と,前記算出部による算出結果とに基づいて,前記電子メールを受信した情報端末に所定の通知を送信する通知部と, を備え」るという技術的事項を有するものとなった。当該技術的事項は,原査定における引用文献AないしD(当審拒絶理由における引用文献1ないし4)には記載されておらず,本願出願前における周知技術でもないので,本願発明は,当業者であっても,原査定における引用文献AないしDに基づいて容易に発明できたものではない。 したがって,原査定を維持することはできない。 第8 むすび 以上のとおり,原査定の理由によって,本願を拒絶することはできない。 他に本願を拒絶すべき理由を発見しない。 よって,結論のとおり審決する。 |
審決日 | 2022-11-25 |
出願番号 | P2020-157721 |
審決分類 |
P
1
8・
121-
WY
(G06F)
|
最終処分 | 01 成立 |
特許庁審判長 |
▲吉▼田 耕一 |
特許庁審判官 |
野崎 大進 石井 則之 |
発明の名称 | 情報処理装置、システム、学習装置、情報処理方法、およびプログラム |
代理人 | 松沼 泰史 |
代理人 | 渡辺 伸一 |
代理人 | 酒井 太一 |
代理人 | 沖田 壮男 |