项籍是下相人,字羽。开始起事的时候,他二十四岁。项籍的叔父是项梁,项梁的父亲是项燕,就是被秦将王翦所杀害的那位楚国大将。项氏世世代代做楚国的大将,被封在项地,所以姓项。
(原文:项籍者,下相人也,字羽。初起时,年二十四。其季父项梁,梁父即楚将项燕,为秦将王翦所戮者也。项氏世世为楚将,封于项,故姓项氏。)
如果对这段话进行信息提取,得到的核心信息是:姓名:项籍/项羽
籍贯:下相(今江苏宿迁)
出道:24岁
叔父:项梁
叔父的爹(爷爷):项燕
仇家:秦国王翦
姓氏由来:项家世世代代为楚国大将,被封在项地,所以姓项
现在请在20秒时间内看一下上面的信息并给别人介绍一下项羽,可以选择看原文,也可以选择看提取之后的信息。相信很多人会选择看后一种。这是因为后一种行文方式其核心信息不丢失,但是内容更简练,逻辑性更强,更容易记忆。这就是信息提取的意义。接下来的篇章将用更通俗的方式介绍一下文本信息提取技术的产业应用。
一.信息披露背景下的金融文档提取信息披露是金融改革发展的长期趋势。从年4月的资管新规发布,再到年的科创板和注册制。信息披露一直是监管层强调的重点。以上市公司为例,需要披露的信息包括首次披露(IPO招股说明书),定期报告(年度报告、中期报告、季度报告)和临时报告等多种文档。随着上市企业的不断增多和信息披露机制的不断加强,给监管层、资本市场、普通投资者都带来了新的压力。对监管层来说,信息披露的审核量加大;对资本市场和投资者来说,投研要求更高,对企业的分析从个体的财务经营状况到产业链竞争力,不一而足。
下图是达观数据文档智能审阅系统(以下简称:IDPS)对招股书进行提取的示例,通过将文档上传到文档智能审阅系统中,一份大几百页的招股书被快速提取成右边上千个核心要素,包括董监高信息、财务信息、专利情况、募集资金与应用、上下游企业、重大合同、发行人所处行业等。同时支持点击跳转功能,比如点击右侧董事基本情况,除了直接提取出董事的姓名、出生年月、国籍、学历等信息外,左侧窗口页面也会滚动到招股书原文的对应位置。
图1利用IDPS对招股书进行提取
图2利用IDPS对招股书中董监高信息进行提取
这种信息提取和阅读的方式,对于监管层去审核信息披露是否完备,可以大幅提升效率。对于投资者来说,也可以利用信息提取技术解析上市公司公告,了解其基本面状况。图3利用IDPS表格提取对PDF格式的财报进行提取
你可能会问,企业的经营状况尤其是财务状况在其公告中都有非常详细的报表(资产负债表,利润表,现金流量表),为什么还要做提取呢?这是因为信息提取解决的并不是有与无的问题,而是解决效率和标准的问题,比如同样是年的上市财报,各家的格式、排版都不一样。所以人工阅读一份财报了解一家企业的基本面状况,同样的时间,借助信息提取了解的可能是一个行业几十家企业的基本面状况。这种有效信息量的巨大差异,对于投资决策的影响必定不同,带来的投资回报一定也是不一样的。
你可能还会问,能否自上到下推广一套统一的财报标准,所有企业都按照这个标准来披露财务状况,这样就不会有“代沟”了。其实行业内已经存在了,这里补充一个小插曲。
XBRL,年美国人提出,被誉为财务报表领域内的条形码。XBRL是在XML的基础上发展而来的,专门用于财务报告编制、披露和使用的计算机语言。XBRL通过对商业报告中的数据增加特定的标签和分类标准,以支持数据信息的识别、处理与交流。XBRL主要由技术规范、分类标准和实例文档三部分组成。技术规范是XBRL的总纲,定义了各类专业术语,规范XBRL文档结构。分类标准是根据XBRL技术规范对商业报告中的元素及其关系进行标记和描述的“业务词典”,是编制XBRL实例文档的具体规范。XBRL实例文档是依据前两个制作的实际财务或商业数据文件,是XBRL数据的载体。
在XBRL推出前,财务信息披露的数据格式包括TXT、PDF、WORD、EXCEL等。这些财务数据披露格式很难实现不同形式数据间自由转换的功能,从而增加了信息使用者对信息对比分析的难度。XBRL打破了这一瓶颈,为财务信息提供了一个统一的标准化格式,可以实现财务信息的跨空间、跨时间对比。
在我国,XBRL推广主要包括证监会和财政部。证监会在上市公司财报披露,财政部在大型国资企业信息披露都有试点。但截止到目前,XBRL真正的潜力和作用并没有被完全发挥。这其中的原因较为复杂,从设立标准角度看,建立一套接轨国际同时满足行业、地域、监管要求的标准何其难;从推广使用角度看,上市公司、资本市场尚未对XBRL有足够的重视。所以,尽管大家都能理解XBRL是个好东西。但是要到普遍的推广应用,还有很长的道路要走。
证监会是XBRL在国内最早的推广者。上证交易所