本文将主要讨论知识图谱在风控领域的图谱构建过程。enjoy~
一.知识图谱和金融领域简述
什么是知识图谱?
借鉴其中一个理解:
知识图谱主要的目标是用来描述真实世界中间存在的各种实体和概念,以及它们之间的关联关系。
具体理论知识就不在此赘述,对于这个抽象的概念会有一篇文章来列举一个代表性的例子。
知识图谱起源于语义网络,最初由Google提出用与优化搜索结果,发展至今已经应用于各个垂直化领域。从商业概念上,知识图谱可分为“通用知识图谱”和“行业知识图谱”。通用知识图谱顾名思义是面向全领域的,强调的是“广度”,比较著名的知识库有Freebase,Wikidata,Yago,DBPedia等。
行业知识图谱是面向特定的垂直领域,对于数据有更严格的前置数据模式和更准确的准确度要求,强调的是“深度”。两者之间的主要区别在于前者是“自底向上”构建的知识库,后者是“自顶向下”构建的知识库。
金融领域数据是典型的具有”4V”特征的大数据。进一步,金融领域是最能把数据变现的行业。金融业类别业非常广,大类主要包括:银行类、投资类、保险类等。再小粒度可分为:货币、债券、基金、信托等资管计划、要素市场、征信贷款等。知识图谱在金融领域的应用主要包括:风控、征信、审计、反欺诈、数据分析、自动化报告等,本文主要讨论知识图谱在小微风控的应用。
a16z crypto引入Lasso和Jolt工具来增强零知识证明:金色财经报道,风险投资公司 Andreessen Horowitz 的加密货币部门 a16z crypto 推出了 Lasso 和 Jolt,这是一对基于简洁非交互式知识论证(SNARK)的新工具。SNARK 是一种零知识证明,有可能促进第 2 层空间中的可扩展 ZK Rollup,这通常被视为计算密集型。Lasso 是 a16z 两篇研究论文的主要创新,它采用了“查找参数”机制,有利于更快的零知识证明。它将特定的输入与相应的输出相匹配,而不泄露额外的信息。该团队指出,Lasso 引入了一种简化的方法来验证 SNARK,通过对大量结构化表执行查找来避免繁琐的手动优化电路。[2023/8/11 16:18:58]
风控是指如何当项目或企业在一定的风险的环境里,把风险减至最低的管理过程。它的基本程序包括风险识别、风险估测、风险评价、风险控制和风险管理效果评价等环节。
风险控制的最大两个分类为企业风险监控和个人贷款审核。企业数据包括:企业基础数据、投资关系、任职关系、企业专利数据、企业招投标数据、企业招聘数据、企业诉讼数据、企业失信数据、企业新闻数据。个人贷款的数据包括:个人的基本信息、行为信息、信用信息、社交信息、消费信息等。
a16z:零知识证明保护去中心化和隐私,将取得一系列进展:4月15日消息,a16z发文《去中心化的速度:零知识证明的进步》表示,随着区块链吸引了数以百万计的用户,并且它们所承载的应用程序的复杂性不断提高,围绕隐私和可扩展性的两个关键需求已经出现。需要识别的一个关键趋势是,虽然正在为其中许多应用开发专用硬件,但也有一项运动正在优化消费者级硬件的算法,以保护去中心化和隐私。这一趋势的一个特别好的例子是零知识证明。
我们目前正处于一个非常早期的时刻,零知识证明计划将取得一系列进展。我们已经从零知识领域中极少数面向消费者的应用程序,发展到在很短的时间内为隐私和可扩展性提供应用程序和区块链的整个生态系统。像这样的新技术最令人兴奋的一点是,很难预测另一面到底是什么样子。[2022/4/15 14:27:35]
本文将主要讨论知识图谱在风控领域的图谱构建过程。
二.风控的知识图谱构建
知识图谱的逻辑结构分为两个层次:数据层和模式层。
在知识图谱的数据层,数据如果以『实体-关系-实体』或者『实体-属性-值』作为基本表达方式,我们把这种表达方式称为“三元组”,则存储在图数据库中的所有数据将构成庞大的实体关系网络,形成知识的图谱。
焦作市工商联:瞄准区块链等前沿知识 开展民营企业学习培训活动:4月7日消息,焦作市工商联要求,要依托国内知名企业、高校和培训机构,瞄准当前世界经济形势变化和5G、区块链等前沿知识,开展“请名人、进名校、拜名师、育民企”系列学习培训活动,努力建设一支具有现代发展理念、国际战略眼光、独立创新意识的高素质企业家队伍。(焦作日报)[2020/4/7]
模式层在数据层之上,是知识图谱的核心,在模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。本体库在知识图谱中的地位相当于知识库的模具,拥有本体库的知识库冗余知识较少。
这里涉及知识图谱的另外一个重要概念是“本体(Ontology)”。本体的概念最早起源于哲学领域,指的是对客观存在系统的解释和说明。在众多概念中,维基上的定义更加通俗些:本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达。具体到金融风控领域,本体目的就是对风控领域的知识术语进行分类,同时规定各个分类之间的关系和它们自身的属性。
本体可以采用人工编辑的方式手动构建,也可以以数据驱动的自动化方式构建本体。自动化构建包含3个阶段:实体并列关系相似度计算、实体上下位关系抽取、本体的生成。在领域本体构建的实际工程中,领域本体所涉及的实体类型非常有限,与其花很高的成本去做自动化,不如人工构建本体。所以本章节也主要讨论风控领域的手动本体构建过程。
动态 | 浙商产业区块链促进联盟成立,将推动区块链知识普及和产业落地:据证券日报消息,12月20日,在2019第十二届《浙商》年会之第二届中国产业区块链发展高峰论坛上,“浙商产业区块链促进联盟”正式成立。据报道,联盟是由国内区块链行业头部企业及行业专家共同发起的非营利性社会自治组织,旨在团结区块链领域的实干者,共同推动区块链基础知识普及以及产业区块链在国内的落地发展。接下来,浙商产业区块链促进联盟将基于自身优势,开展区块链知识传播,区块链技术、服务对接,搭建国内外技术交流平台等工作。[2019/12/22]
本体和知识图谱的构建方法有很多,这里分享一个在实际工作中初略的知识图谱构建流程:
本体库构建;知识图谱构建;知识图谱应用。
提到知识图谱通常认为重点在于算法和开发,实际知识图谱的构建和传统关系型数据库的构建情况一样,重点在于具体业务流程的理解和本体的设计,知识图谱的构建过程的工作占比如下:
三.风控的本体构建
如前所述,构建风控领域知识图谱的首要工作是构建本体模型,即定义行业的通用概念为实体,以及实体之间的关系。
信贷最核心的主体就是贷款申请者,贷款申请者可能是个人也可能是公司,通过申请者的基本信息、行为信息、经营状况、社会关系等评估贷款的风险。因此可以列举信贷相关的核心实体为:人、企业、银行账户、银行、抵押物、申请事件、诉讼事件等,以及基本信息实体:电话、邮件、地址等。实体与实体之间的关系为亲属、任职、所有权、事件参与方等。如图所示为一个简化版的信贷风控本体模型。
声音 | 北京大学彭波:数字科技时代可以利用人工智能及区块链技术保护知识产权:据人民网消息,北京大学新闻传播学院讲席教授彭波表示,随着人工智能、大数据、云计算、区块链、物联网、5G等技术发展,互联网正在进入一个全新阶段,即数字科技。互联网上半场是IT(信息技术)时代,下半场则是DT(数字科技)时代。 彭波还谈到DT时代人工智能及区块链技术对知识产权的保护。区块链方面,彭波认为,可通过“区块链”技术打造一个低费用、无法篡改的、互联互通的环球公开数据库,将每一个已经注册的知识产权、商标的信息作为一个“区块”嵌入“区块链”,“区块”被永久确认之后,就不再需要向每个国家都进行知识产权和商标注册。 彭波还提到香港国际新经济研究院高级研究员付饶关于利用区块链保护知识产权的观点:区块链赋能知识产权保护主要应用于以下三个领域: 1. 知识产权原创性证明。将专利以及文化产品的原创作者信息、作品内容信息、创作时间信息以及最初传播信息加密上传至区块链,明确著作权、商标和专利权的归属; 2. 知识产权交换凭证。将知识产权原创者信息、产权获得者信息,以及转移时间和方式上传至区块链,可有效缩减知识产权交易程序,降低交易成本; 3. 知识产权维权举证。[2019/6/15]
为什么要将人和公司的电话地址设计为单独的实体节点,是基于风控的业务关注点,当两个贷款申请者有相同的电话或者地址时候,可能就是一个需要关注的风险点。把这两个信息作为单独的节点,基于图谱理论,当统计“电话”类型节点的边数量超过一个就能很方便找出高风险申请者。
本体构建完成后,需要对比实际业务对本体进行验证,确保本体能够正确描述当前业务,并且包含了所有的业务流程。
四.风控的图谱构建
知识图谱的构建是图谱应用的前提,构建的主要工作是把数据从不同的数据源中按照本体模型所规定的规则抽取出来。对于垂直领域的知识图谱来说,数据的主要来源是是业务本身的数据,其通常是机构自己的私有数据以结构化的形式存储。通过ETL处理,将数据抽取转换为图谱数据。图谱数据的存储形式目前有两种:基于RDF等存储和图数据库存储。两者的比较如下所示:
RDF图数据库存储三元组节点和关系拥有属性符合W3C标准图的遍历和扩展方便有标准的推理引擎拥有事务管理数据可移植性高工程化程度高多用于学术场景可视化效果好。
在实际工程应用中主要采用图库的方式对知识图谱进行存储,当前比较流行的图数据库为Neo4j,本篇不再详细介绍图数据库和Neo4j,重点在于如何根据本体将数据映射成为Neo4j要求的数据格式。Neo4j提供了多种加载数据的方式,对于小规模数据,可以采用加载CSV的方式进行,CSV的格式要求如Neo4j官网的操作手册所示。
假设数据源是关系型数据库,其中中有三张表及其字段如下所示,company表中字段“legal_person”和“manager”是外键关联到person表:
我们要从源数据中抽取出多个实体和多条关系,这里部分举例如下:
实体:
personcompanyaccountbankphoneNoaddress
关系:
person–lsLegalPersonOf->companyperson–lsManagerOf->companyperson–isOwnerOf->accountaccount–belongsTo->bankperson–hasPhoneNo->phoneNocompany–hasAddress->address
根据Neo4j的要求将源数据进行ETL处理,映射成为Neo4j要求的CSV格式文件,简单列举如下:
person节点:
personId:ID,personName,:LABEL001,“personA”,person002,“personB”,person
法人关系:
:START_ID,:END_ID,:LABEL001,101,isLegalPersonOf002,102,isLegalPersonOf
五.图谱的应用
当前,小微贷款和个人小额贷款还处于“蛮荒时代”,甚至出现了各种中介机构通过各种伪造的虚假信息帮助客户申请贷款。所以对于放贷方而言,借贷风险控制面临非常巨大的挑战。
1.贷款申请方画像
可以在图谱中直接搜索某个具体的人名字或者公司名字,获取该人或者公司的基础信息画像,如电话,地址,关联方的信息。如图所示:
2.关联方探查
通过图谱可以调查某个人或者某家申请贷款公司的关联方信息。在贷款审核期间,申请贷款主体的关联方信息中有借贷纠纷的诉讼事件,担保方过多等可关注的风险点。在贷款发放后,有时出现贷款方失联的情况,无法通过申请贷款时提交的信息联系到借款方,可以通探寻更“深远”的关联方找到失联的贷款方。
3.反欺诈调查
在实际场景中,有不少人利用各种渠道而来身份证进行贷款申请。还有公司通过循环转账等方式提供虚假的经营流水信息。通过知识图谱可以识别以上风险点。如多个贷款申请人提供的身份证号吗不同,但是却有相同的联系电话号吗或者联系地址。银行作为借贷机构,可以调查申请人账户资金往来情况,识别是否存在循环转账等异常资金往来信息识别风险点。
在图谱中,通过条件搜索指定的节点可以筛选调查风险节点,如:“电话号码”节点的关联方大于1的节点。
4.风险指标报告
在风控处理中,贷款风险比率是衡量商业银行风险最重要的指标之一,主要包括不良贷款比率、贷款加权风险度、贷款分散化比率、不良贷款拨备覆盖率等。将知识图谱中贷款人节点和相关指标相结合,设定报警阈值,通过机器学习等技术,找到隐蔽的风险结构,指标特征,能够快速找出相关责任方和其关联方,形成报告供业务人员进行调。
总结
本文主要介绍了知识图谱在风控中的应用和风控领域知识图谱的构建方法。知识图谱的构建前提是清晰的业务场景和良好的数据治理。很多著名的知识图谱构建案例中,大部分时间都是用在数据治理和数据映射上。借用一句别处看来的话:
A“graph”—thatunderstandsreal-worldentitiesandtheirrelationshipstooneanother:things,notstrings。
本文由@Eric_Xie原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自Pixabay,基于CC0协议
8月15日,加密货币市场出现复苏迹象,几乎所有加密货币出现上涨,比特币报收6300美元。截至发稿,过去24小时内比特币上涨2.93%,报收6361美元,尽管比特币依然在6000美元附近盘旋了一段.
1900/1/1 0:00:00目前区块链的共识机制出现了很多,下面给大家列举几个比较典型的共识机制 工作量证明共识机制 1、工作量证明PoW 依赖机器进行数学运算来获取记账权,相比其他共识机制,资源消耗多,可监督性弱.
1900/1/1 0:00:00区块链日报:马恩岛收紧区块链政策,美国比特币ATM数量暴增早间行情:BTC于6468USDT附近震荡主流币种普跌据火币全球站行情显示,今日凌晨BTC尝试突破6500USDT未成功后回落.
1900/1/1 0:00:00作者:互链脉搏专栏作家·链十三根据CoinMarketCap网站统计,海外加密货币交易所共有1736种加密货币交易,但其中充斥大量无实际价值的“空气币”、“山寨币”.
1900/1/1 0:00:00来源:链得得 链得得App编辑查看,追踪多家平台加密数字货币的Coinmarketcap网站显示,截至27日零点左右,除稳定币USDT外,市值排在前40位的数字货币最近24小时内集体上涨.
1900/1/1 0:00:00张志刚的矿场正在施工中,外墙散热器透着冷峻的科幻感这是中国西南最偏僻贫困的山区之一。山腰上,皮肤黝黑的彝族孩子在挖土豆,山坳里,贾诺的水电站在昼夜不眠地挖矿——矿藏隐匿在互联网最深处.
1900/1/1 0:00:00