9.13. 知识图谱

知识图谱是一种基于语义网络的知识结构表达,通过将真实世界中的实体对应到语义网络中,构建该实体与其他实体的关系。其不仅可以应用在智能搜索中,还可以应用于智能问答或者社交平台以及垂直行业中。

从数据的挖掘效率层面来说,人工智能的发展离不开技术的不断创新,传统机器学习、深度学习、自然语言处理、语音图像识别、知识图谱是现阶段人工智能的五大核心技术,很多场景落地并产生价值,需要数据+多种技术的结合,也包括与传统专家规则的结合。其中,知识图谱与自然语言处理,是2019到2020年的热点落地技术,这两项技术也是相互交融的关系,构建从感知智能向认知智能的必要条件,两者最终目的都是往让机器能够更好的认知这个世界,朝着更加智能化的方向去发展。2

../_images/knowledge_map_in_AI.png

Fig. 9.13.1 知识图谱与AI的关系

9.13.1. 知识图谱的必要性

在黑天鹅事件发生时,机器学习和自然语言处理会失效。2015年中国证监会公布的熔断机制就属于该类事件。由于人工智能系统内没有载入类似事件及后果,无法从历史数据中学习到相关模式。此时,由人工智能决策的投资就会出现较大风险。虚假关联性对人工智能处理数据的影响不小于黑天鹅事件。人工智能善于发现变量间的相关性,而非因果性。强相关性的变量间并不一定具备经济学关联,而人工智能的机器学习无法区分虚假关联性。为了降低黑天鹅事件及虚假关联性对于人工智能自学习过程的干扰,需要专家设置相应的规则来避免。知识图谱是一种语义网络,基于图的数据结构,根据已设计的规则及不同种类的变量连接所形成的关系网络。

知识图谱提供了从关联性角度去分析问题的能力,将规则、关系及变量通过图谱的形式表现出来,进行更深层次的信息梳理和推测。以投资关系为例,知识图谱可以将公司的股权变更沿革串联起来,清楚展示某家PE机构于某一年进入某家企业、进入价格是多少、是否有对赌协议等等。这些信息可以用以判断PE机构进入时的估值及公司的成长节奏,同时该图谱还可以用来学习投资机构的投资偏好及逻辑的发展。目前,知识图谱并未进行大规模的应用。其难点在于如何让行业专家承担部分程序员的的工作,将行业逻辑等关系通过计算机建模,输入计算机以供机器进行学习和验证。可见,开发形成简易编程的界面及系统是目前应用推广的关键。3

要实现真正的类人智能,机器需要掌握大量的常识性知识,以人的思维模式和知识结构来进行语言理解、视觉场景解析和决策分析。6

9.13.2. 知识建模

知识建模定义知识描述方式,通过本体描述目标知识的类别体系、概念及实体、属性关系以及推理规则等。理解知识建模需要理解资源描述框架——RDF,知识图谱采用RDF数据模型进行描述,包括资源、谓词、陈述三个对象类型。资源对应RDF可表示的对象,包括实体、概念、事件等。谓词描述资源特征及资源的关系。陈述表示包括“主谓宾”的三元组。使用资源描述框架RDF能够让计算机认识理解数据以及数据间的语义关联。5

9.13.3. 深度神经网络与知识图谱技术加速融合发展

一方面, 知识图谱试图在不颠覆深度学习理论的基础之下,弥补小样本训练与理解推理能力不足的技术天花板。目前,面向垂直领域的专业知识图谱加速发展,已在金融、医疗、司法多个行业初步应用, 显著提升垂直行业应用中知识自动关联、 自动获取的智能化水平。

如金融消费领域,蚂蚁金融知识图谱平台已经广泛应用在蚂蚁内部以及合作伙伴的微贷、保险智能理赔和智能理财等业务领域中;药物研发领域,亚马逊开发药物重定位知识图谱( DRKG)预测药物与疾病靶点结合的可能性,缩短药物研发周期并降低成本,已用于新冠病毒药物研发。4

TODO: http://www.woshipm.com/pmd/2816130.html

知识图谱领域 的 KBGAN 等算法都需要长时间的预训练 https://github.com/cai-lw/KBGAN

9.13.4. 应用

9.13.5. 行业知识图谱

行业知识图谱以领域或企业内部的数据为主要来源,通常要求快速扩大规模,构建行业壁垒,知识结构更加复杂,通常包含本体工程和规则型知识。知识抽取的质量要求很高,较多的依靠从企业内部的结构化、非结构化以及半结构化数据进行联合抽取需要依靠人工进行审核校验,来保证质量。通常需要融合多来源的领域是数据扩大规模的有效手段。应用形式更加全面,除搜索问答外,还包括决策分析、业务管理等,并对推理的要求更高,并有较强的可解释性要求。主要领域有电商、金融、农业、安全、医疗等等.6

9.13.5.1. 金融行业知识图谱

https://www.bobinsun.cn/ai/2019/06/15/finance-kg/

9.13.5.2. 智能投研

如果说金融数据、另类数据是智能投研的原料,那么知识图谱就是智能投研的大脑。所谓“知识图谱”是将实体、属性、关系等非结构化数据固联起来,进而为投资决策提供逻辑支持。体现在投资行业,就是研究员可以将相关的行业、产品和公司等多方因素联系在一起,当观察到某个因素发生变化时,即可以根据关系链推理出观点和预测,为投资决策提供支撑。

完善的知识图谱是AI在投资研究中应用的必要条件,金融行业最不缺的就是海量的高质量研究资料,通过对研报、公告等文本信息的深入挖掘,形成能够自我生长、自我学习的知识图谱体系,这是智能投研的重中之重。1

中国人工智能发展报告:知识工程(2019—2020)

https://www.zhihu.com/pub/book/120098973