基于自动化引擎的知识图谱实践案例分享
前言知识自动化是基于大数据和人工智能的基础性技术,赋能予知识工作者,使得他们工作过程更加自动化,更加智能化,极大地提升效率(Efficiency)和功效(Efficacy)。知识自动化是智能制造的重要部分,是未来最重要的颠覆性技术。本本通过KAE((Knowledge Automation Engine))知识自动化系统实现大数据的机器学习,知识计算,对浩瀚无序的知识库进行了智能的分类,聚类,关联,对每个概念(关键词)和每个文章进行了解析,建立了智能的主题图谱,知识图谱,对用户的输入(关键词,上传文章)进行实时推断,从一开始的输入,智能的启发式式输入词联想功能--近义词及相关词的自动提示,提醒启发帮助用户找到合适的检索入口,期间也可以学习到相关的关联专业术语,开阔思路,关联发散思维,实现知识整体化、结构化并自动思维导图,以便于知识挖掘和智能分析。一知识图谱定义和理解
让机器学会思考,要靠“谱”。这个“谱”被称为知识图谱,意在将人类世界中产生的知识,构建在机器世界中,进而形成能够支撑类脑推理的知识库。
从2012年Google公司提出“知识图谱(Knowledge Graph)”到今天,知识图谱技术发展迅速,而伴随着大数据与人工智能技术的飞速发展,知识图谱的内涵也越来越丰富。
狭义的知识图谱特指一类知识表示,本质上是一种大规模语义网络。在提出之初特指Google公司为了支撑其语义搜索而建立的知识库。随着知识图谱技术应用的深化,知识图谱已经成为大数据时代最重要的知识表示形式。作为一种知识表示形式,知识图谱是一种大规模语义网络,包含实体(Entity),概念(Concept)及其之间的各种语义关系。如下图1所示的就是一个知识图谱的片段。
图1 知识图谱片段
广义的知识图谱是大数据时代知识工程一系列技术的总称,在一定程度上指代大数据知识工程(Big Data Knowledgef Engineering, BigKE)这一新兴学科。知识图谱发展到今天,其内涵已经远远超出了语义网络的范围,在实际应用中被赋予了越来越丰富的内涵。
技术关键:把数据转化成知识。
知识是比数据更重要的企业资产(如图)。如果说数据是石油,那么知识就好比石油的萃取物。如果我们直接从数据中获取价值,就好比直接输出石油获利。而石油更大的价值蕴藏在石油深加工的萃取物中。石油萃取的过程与知识加工的过程也是相似的,都有着复杂的流程,都是大规模系统工程。
图2 信号-数据-信息-知识二基于自动化引擎的知识图谱技术致力于智能知识应用
KAE AI知识自动化引擎,是一款国内自主研发的,全新的基于AI技术并以启发式可视化交互式方式来实现的智能知识自动化系统。
KAE专注于大数据知识工程领域的应用,可用于各专业领域知识图谱系统的自动化创建,是适用于各种系统平台的AI中台(AI Midware)。可赋能企业不同维度的知识/情报应用,知识结构化,知识自动化,认知智能化。
图3 KAE技术结构图
KAE系统主要包含几个核心功能模块:异构数据采集系统,智能语义网络系,AI核心引擎,专业领域知识图谱系统,和搜索结果在线分析系统。以实现从各种结构化数据、半结构化数据,实时自动进行各专业领域知识图谱建模,知识计算,进一步实现认知层各种场景驱动的知识应用,如智慧搜索。智能推荐、主题导航、交叉碰撞、在线分析等,用户可以通过上层的智能助手等入口来体验。应用层强调的是深耕细作的垂直细分领域,比如在知识管理、科技情报研究、竞争情报研究、智库专题研究嵌入应用等。
从功能角度讲,KAE主要功能要点又可以分为知识层,语义功能,主题功能,交互功能,和分析功能,如图4所示。
图4 KAE功能要点三KAE知识图谱技术的价值3.1知识整体化
学习领域知名专家斯科特•扬在他的《如何高效学习》一书中提出了整体性学习法,他的核心观点是: 在知识之间创造联系 ,形成结构,会记得越牢、理解得越好,也越容易掌握并应用这些知识。
知识整体化在于创造知识的网络,而不是孤立的知识点(概念、定义、公式、问题、观念、理念等)都需要建立联系。一个知识与另一个知识相互关联,那些相互关联的知识网络是你真正做到对知识的完全理解,从而轻松地驾驭知识。如图5的KAE全景图谱,自动为用户呈现整体化知识,不仅体现关键知识,并且呈现知识与知识间产生关联,知识与关键研究人员之间的关联。知识整体化,能够强化记忆力,提高分析判断能力,并且进一步构建更高级、更复杂的知识体系。
3.2知识结构化
结构化的知识构成了整体知识。结构就是一系列紧密联系的知识。
把这些知识通过一定的规则关联, 形成结构化模块,方便我们理解记忆。同时这些知识模块更是一个个小工具包,方便以后调取使用。古典在《跃迁》一书中把这些模块称为“知识晶体”,他认为积累知识晶体是最高效的学习途径。
KAE能够自动帮助我们建立这些模块化的知识,并用多样化的图形进行表达,如图6所示。
3.3自动思维导图
思维导图又称脑图、心智地图,是一种图像式思维的工具以及一种利用图像式思考辅助工具。思维导图是使用一个中央关键词或想法引起形象化的构造和分类的想法;它用一个中央关键词或想法以辐射线形连接所有的代表字词、想法、任务或其它关联项目的图解方式。
KAE通过机器学习,主题分类聚类,能够以概率化的形式帮助用户自动形成思维导图,关联发散思维,以便于知识挖掘、情报洞察。如图7所示,左边显示的列表是与当前主题“飞参”相关的数量最多的主题排列,右边显示的是关联性最高的主题排列。
图7 KAE主题细览3.4智能分析和深度挖掘
在知识结构化的基础上,KAE可根据各个学科之间的知识关联和交叉进行跨学科知识融合,对跨学科的知识进行学习和重构,通过深层次的智慧搜索,将结果重塑成知识呈现给用户。
图8 KAE深度学习知识图谱
如图9所示,英文结冰智能关联图谱是通过机器学习NASA约26万个技术报告,生成的关于结冰主题ID2554的智能关联图谱,其中113主题(clouds,cloud,cloud physics,ice clouds,clouds meteorology等)是第二个相关的研究主题,是研究云成冰的,而在中文数据库中生成的结冰主题关联图谱中,没有相应研究云成冰的主题,这揭示了中国在结冰研究领域的一个短板与空白,这两个主题关联图是基于大数据机器学习抽象出来的,是一种创新的科学发现。
图9 KAE中外知识交叉碰撞四KAE知识图谱技术的典型应用案例
随着科学技术的迅猛发展,知识呈爆炸式增长,导致海量信息、数据的出现,由此也给相关的研究人员、预研工作和管理等带来了知识与信息选择上的诸多困难。
4.1企业面临的挑战:一、内容管理/知识管理
海量数据
数据采集种类增加
人工处理困难,效率低下
人员流动大,知识沉淀难
二、分散的数据难以统一利用
系统繁多
使用复杂,方式各异
难以获得全面的信息:内部资料、专业网站、期刊材料等
三、数据/知识访问高度专业化
较难通过通用To C搜索工具获得满意的内容
四、多源/异构数据的融合使用/管理
KAE AI自动化引擎的核心技术基于无监督机器学习,实现了全自动化建模,无人工干预。利用神经网络算法自动对语料进行训练,无需人工参与自动生成专业领域词表。通过KAE知识图谱技术,可以实现高自动化程度的各类知识智能化应用。
4.2典型应用案例:某公司-面向研发的综合型研究性数据平台升级平台功能设计导图如下图10:
图10 KAE某客户面向研发的综合型研究性数据平台
1.数据采集系统
数据,是任何知识应用的的基础,没有数据,一切应用都无从谈起。对于研发体系而言,数据源主要来自于所内自由资源存储平台所包含的动态数据,期刊、会议、及其他会议文献,集团图书馆的文献数据库,包括但不限于专业微博、知乎、今日头条、公众号等,特定行业可能还会有更特定的垂直网站来源。其中,科技情报研究还需要从某些网站中获取动态数据,获取的数据可能会关注行业和市场相关的词、自己品牌相关的词、自己产品相关的词。比如一个从事汽车行业、卖汽车的企业,它会去关注国家政策对汽车行业的变化(排放标准)、地方对汽车相关的政策措施(限号、新能源补贴)、某个品牌汽车的丑闻、某款汽车型号的最新研究(中保研碰撞测试)等等。监测的内容可以包括以下几个方面:
1)技术层面:领域内出现的新技术、新概念、新进展和新动向等;
2)战略层面:领域内对未来行业战略、国家战略方向等;
3)方向层面:领域内未来技术发展、装备发展的规划等;
4)政策层面:政府部门制定的涉及领域内的各项政策规定。
2. 知识处理与分析系统
KAE基于内容,利用大数据、云计算,阅读所有的数据源,通过神经网络、机器学习、自然语言处理,读懂每篇文档,建立起基于整个语料库的细颗粒的专业主题图谱和高度专业化的知识图谱,对用户实际的场景下业务需求(样本)进行智能推理,从而从众多文献中推荐出语义最接近的相关专业文献,另一方面基于协同过滤,同一专业小组(室)科技人员感兴趣过的,阅读过的文献,也优先推送。最终形成一个具有单位组织属性(专业院系科室分工,细分的每个研究子领域)协同个性化的知识自动化智能系统。
KAE AI自动化引擎的核心技术基于无监督机器学习,实现了全自动化建模,无人工干预。利用神经网络算法自动对语料进行训练,无需人工参与自动生成专业领域词表。故非常适合企业不同维度的知识/情报智能化应用,且便于数据/知识的更新。
图11 KAE相关联主题研究热点分布
3. 前端用户体验入口
智慧搜索
借助于自动分类,聚类,文本解析,推断,通过知识图谱,主题图谱等多个入口,通过主题导航可以迅速找到感兴趣的内容。
智能推荐
基于用户历史行为的推荐:
KAE结合每个科研人员的使用习惯和浏览数据信息(关键词、主题等),利用智能语义分析,协同过滤,可实现个性化推荐,使得知识应用更有针对性、更个性化。
基于文章语义分析的推荐:
KAE对每篇文章的内容进行语义分析,对样本文章(上传的样本文章和设置的样本文章)利用语义相似推荐,使推荐更精准。
在线分析
针对搜索出的结果进一步机器学习,进行智能分析、自动分类。
4. 后台管理系统
可以实现前台页面展示的设置,可设置信息公告,提醒等功能。可对用户进行管理,用户角色管理,用户历史行为数据管理,如点击下载等。
结束语通过主题图谱,知识图谱和主题导航等可视化交互方式,使得研发人员能迅速找到感兴趣的文献,同时又能使研发人员了解关联知识点和关联主题,既有微观的精准,又有宏观的全局,既见树木又见森林,点面结合,交叉融合,开阔视野,使得传统的费时费力的关键词搜索变成一个智能高效的知识发现和知识学习过程。
作者简介江祺琦, 北京银景科技有限公司KAE总监, 上海交通大学,机械工程硕士;10年+CAE仿真市场开拓,技术服务经验;先后担任韩国RecurDyn多体动力学产品经理,达索公司动力学产品亚太区经理,新收购产品线高级经理,达索SIMULIA大中华区技术总监;现致力于KAE产品技术及市场升级。联系邮箱:Qiqi.jiang@ka-engine.com
更多相关文章
- 【PHP 面向对象】面向对象(OOP)编程之PDO对象操作数据库知识点归
- 【PHP 面向对象】面向对象(OOP)编程之解读命名空间使用知识点归
- 详解服务器处理器基础知识
- Flash闪存颗粒和SSD知识深度解析
- 详谈NVMe和NVMe-oF架构和知识点
- 实战: 如何掌握Oracle和业务IO知识
- 知识干货: GPU关键参数和应用场景
- 关于InfiniBand架构和知识点漫谈
- 【PHP 面向对象】面向对象(OOP)编程之魔术方法实现重载知识点归