本文へ移動

氏名突合支援サービス

概要

公開日

氏名突合支援サービスとは

デジタル庁が提供する氏名の「漢字・アルファベット」と「カナ」を突合・推定する業務を支援するためのAPI等を提供するサービスです。

提供コンテンツ

氏名突合支援サービスにて提供するコンテンツは次の通りです。
いずれの利用に際しても「利用規約」及び「プライバシーポリシー」をご確認いただき、規約に同意の上でご利用ください。

利用・展開のイメージ

氏名突合支援サービスの中核機能である「氏名漢字カナ突合API」は、お手持ちのメールアドレスでアカウント登録後、すぐに氏名漢字カナ突合API(デジタル庁提供方式)の利用が可能です。

ネットワーク環境の制限などにより、デジタル庁が提供するサービスをインターネット経由で直接利用できなかったり、デジタル庁による制限なく自由に利用したい場合のため「セルフホスティング方式」に必要となるコンテンツの提供もしております。セルフホスティング方式にて必要となるソースコード等は、デジタル庁が管理する「デジタル庁 GitHub(kanjikana-model)」にて配布しています。

各種詳細な仕様については「氏名突合支援サービスサポートサイト」を参照ください。
デジタル庁提供方式とセルフホスティング方式の違いに関する図です。氏名突合支援サービスの中核機能である氏名漢字カナ突合APIは、すぐに利用できるデジタル庁提供方式と、デジタル庁が提供するソースコード等を使って、占有環境を整備するセルフホスティング方式のいずれかの方法で利用可能です。セルフホスティング方式については提供サービスに合わせ、独自カスタマイズいただいて利用いただくことができます。
また、APIを容易に使い始められるよう、Excelのツールをデジタル庁から提供していますが、HTTP APIでのアクセスが可能ですので、独自のツール、アプリケーションやシステムからの利用いただくこともできます。

想定されるユースケース

本サービスを利用する業務のユースケースとしては次のようなものを想定しています。
あくまで想定であり、以下ユースケース以外での利用を妨げるものではありません。
突合作業に際し、「氏」と「名」の両方は必須ではなく、「氏だけ」「名だけ」での利用も可能です。

データ内の氏名の整合性確認

人手により入力されたデータ(自由入力可能な電子入力フォームデータや手書き書類をOCR等にて電子化したもの)の氏名・カナの整合性チェックするような業務での利用が想定されます。
データ内の氏名の整合性確認の概念図です。電子入力フォームや手書き書類内などにある、氏名とカナ、氏名と口座名義のカナの整合性をチェックするような用途で利用できます。

源泉が異なるデータ間の氏名とカナでの照合

データ(漢字氏名、カナ氏名をそれぞれ含むデータ)間の名寄せ、自治体での給付業務における漢字氏名と振込先口座名義人(=カナ氏名)の突合作業などでの利用が想定されます。
源泉が異なるデータ間の氏名とカナでの照合の概念図です。複数の別データ間で、漢字・アルファベット表記の氏名と仮名表記の氏名とを突合し、データの名寄せに利用できます。

氏名突合支援サービスの仕様

APIのリクエストパラメータやレスポンスの詳細については「氏名漢字カナ突合API」のページを参照してください。

提供するAPI機能

「氏名漢字カナ突合API」では以下4つの機能を提供しています。

機能やりたいこと
氏名突合簡易突合(simple)「漢字・アルファベット氏名」と「カナ氏名」の組合せの正確性をスピーディに確認したい
詳細突合(detail)「漢字・アルファベット氏名」と「カナ氏名」の組合せの正確性をより多くの情報に基づき確認したい
氏名推定漢字→カナ推定(kanji)「漢字・アルファベット氏名」から「カナ氏名」の候補を取得したい
カナ→漢字推定(kana)「カナ氏名」から「漢字・アルファベット氏名」の候補を取得したい

APIで入力として許容される氏名の形式

標準形式

「氏名」の場合には、スペース(全角・半角問わず)で区切って入力してください。「氏のみ」や「名のみ」でも入力可能です。
また、「氏名」にアルファベット(全角・半角問わず)を含めることも可能です。
「カナ」はカタカナでの入力を基本としていますが、ひらがなでの入力も可能です。

形式氏名(kanji)カナ(kana)
基本形氏名日本 花子ニホン ハナコ
氏だけ日本ニホン
名だけ花子ハナコ
ひらがな氏名日本 花子にほん はなこ
氏だけ日本にほん
名だけ花子はなこ
アルファベット(全角)氏名NIPPON HANAKOニッポン ハナコ
氏だけNIPPONニッポン
名だけHANAKOハナコ
アルファベット(半角)氏名NIPPON HANAKOニッポン ハナコ
氏だけNIPPONニッポン
名だけHANAKOハナコ

マイナンバーカード(券面)の氏名形式

マイナンバーカード(券面)の氏名に準拠した形式の文字列を入力として受け付けられるように構成されています。

形式氏名(kanji)カナ(kana)
漢字氏名日本 花子ニッポン ハナコ
漢字氏名+旧氏日本 [東京] 花子ニッポン ハナコ
トウキョウ ハナコ
アルファベット氏名NIPPON HANAKOニッポン ハナコ
NIPPON JAPAN HANAKOニッポン ジャパン ハナコ
HANAKO JAPAN NIPPONニッポン ジャパン ハナコ
アルファベット氏名+漢字氏名NIPPON JAPAN HANAKO_日本 花子ニッポン ハナコ
ニッポン ジャパン ハナコ
アルファベット氏名+漢字氏名+通称NIPPON JAPAN HANAKO_日本 花子(東京 花子)ニッポン ハナコ
ニッポン ジャパン ハナコ
トウキョウ ハナコ

簡易突合(simple)及び詳細突合(detail)の動作

入力として受け付けた「漢字(kanji)」と「カナ(kana)」に対し、各種マッチング処理を行い、判定結果をスコア(0から99までの値で、高いほど正しい可能性が高いことを示す。)で返却します。

簡易突合(simple)及び詳細突合(detail)の動作の概念図です。一般的な読みであれば、簡易突合でも判定可能ですが、珍しい読み方をする場合には詳細突合でないと正しく判定できないことがあります。明らかに誤った読みである場合には、簡易突合・詳細突合に関わらず、誤っているであろうという判定を行います。

返却するスコアとその意味は以下の通りです。返却スコアパターンは今後変更される可能性があります。詳細は「氏名突合支援サービスサポートサイト」を参照ください。
「50」をしきい値として、50以上を正、50未満(49以下)を誤として判定いただくことを推奨しています。

氏名突合の出力スコアの概要図です。公開時のモデル・APIでは、90・80・70・30・0の5段階で結果出力されます。

氏名推定(漢字・アルファベット⇔カナ)の動作

入力として受け付けた「漢字・アルファベット」・「カナ」に対応する、正解である可能性が高い「カナ」・「漢字」を返却します。

氏名推定機能の概要図です。氏名の漢字・アルファベットと氏名のカナを相互推定することができます。デフォルトで上位5候補、パラメータの指定により多くの候補を出力できます。

マッチング手法の概要

氏名漢字カナ突合モデルで用いているマッチング手法としては下記4種類があり、組み合わせてマッチングをしています。

詳細は「氏名突合支援サービスサポートサイト」にて説明しています。

辞書マッチング

辞書にある読み方がどうかを判断し、一致・不一致を判定しています。

辞書マッチングの概念図です。入力された氏名を辞書データを比較(マッチング)し、氏名全体が辞書データにある場合、正しいと判定する手法です。

統計マッチング

漢字氏名とカナ氏名のペアの出現頻度(回数)と設定したしきい値に基づき、一致・不一致の判定をしています。

※注:一般公開している氏名漢字カナ突合APIでのマッチング判定においては、統計マッチングによる判定はしていません。

統計マッチングの概念図です。入力された氏名を統計データを比較(マッチング)し、統計データに基づき、より多くの利用ケースがある氏名である場合、正しいと判定する手法です。

外国人名マッチング

名古屋大学の佐藤理史先生の研究成果であるアルゴリズム・システムを活用し、一致・不一致の判定をしています。

詳細は「2020東京オリンピック参加者名簿の翻訳(佐藤 理史、自然言語処理 Vol. 30 No. 2)」を参照ください。

AI推論マッチング

学習用辞書からAIエンジンを用いて生成したAIモデルを用いて、一致・不一致の判定しています。

AI推論マッチングの概念図です。学習用辞書からAIエンジンを用いて生成した、入力された氏名から対応するカナを推定するAIモデルを用い、AIモデルによる出力候補に含まれるカナである場合、正しいと判定する手法です。