8月2日,苏州美能华智能科技有限公司在2019全国知识图谱和语义计算大会(CCKS2019)组织的系列评测中,一举夺得“公众公司公告信息抽取”评测竞赛冠军。
业内人士表示,构建中文知识图谱是自然语言处理领域的重要环节,也是当前学术界和企业界的研究热点。中文知识图谱的构建对于中文领域的自然语言处理具有重要的价值。美能华能够获得这一单项赛事的冠军,意味着该企业构建知识图谱的技术能力已处于国内领先水准。

                                                                       美能华参赛团队
       据介绍,本次竞赛非常激烈,共有92支参赛队伍256名参赛队员报名参赛,其中包括达观数据、北京理工大学、大连理工大学、深圳证券等一批强劲对手。最终在评测环节共有43支队伍提交接口参与角逐,美能华公司由侯绍东领衔的参赛队伍最终凭借强劲的实力拔得头筹。当天,CCKS2019组委会特意给美能华公司发来邮件表示祝贺并称:“我们对您和队员的表现致以崇高的敬意。”CCKS是国内最大的自然语言处理专家学者的学术类社团团体——中国中文信息学会主办的前沿学术会议,今年的大会将于今年8月下旬在杭州召开,主题是“知识计算与语言理解”。

      根据惯例,在大会开幕前, CCKS2019组委会经过前期征集和筛选,公布并开展了6个相关主题评测任务,除了苏州美能华公司参加的公众公司公告信息抽取评测以外,其余五项评测任务还包括面向中文电子病历的命名实体识别、面向中文短文本的实体链指任务、人物关系抽取、面向金融领域的事件主体抽取以及开放领域的中文问答等。根据CCKS2019发布的官方公告,美能华公司参加的“公众公司公告信息抽取”评测任务,主要目的是增强金融科技的智能分析和监管能力。
       据了解,随着金融科技的发展和全球资本市场的不断扩大,在金融领域,每一天都有海量的数据产生,而与之形成强烈对比的是有限的人力以及人脑所能处理信息的极限能力。因此,依靠传统的人工方式已经无法应对投研分析、风险控制、金融监管和事件关联等需求,而亟需引入新的技术来提高信息处理效率,包括大数据分析、自然语言处理、知识图谱等技术,都已经开始被积极用于金融分析和金融监管领域。在监管方面,每一家公众公司都具有相关信息披露义务,由此也产生了大量的公告阅读和信息抽取需求。

       据不完全统计,以沪深股市为例,2017年共披露公告44万余篇,2018年共27万余篇,并且随着上市公司数量的增加这一数字也在逐年增加。每年3月底、4月底、8月底、10月底为定期报告披露高峰期,最多的一天所发布公告达 10297 篇。本次评测竞赛的主要目标是针对公告文件(均以PDF或扫描件的方式发布)中的信息抽取。作为知识图谱构建的基础,结构化数据是必不可少的。由此,如何通过自动化的技术来从各类公告中抽取信息,将非结构化数据转化为结构化数据是知识图谱领域所面临的一大挑战。此次评测包括了两个任务:一是公众公司定期报告表格中的信息点提取,二是文本段落中的信息点提取。

                                                     苏州人工智能产业园(苏州国际科技园载体)
       美能华是首批入驻苏州国际科技园(SISPARK)旗下载体——苏州人工智能产业园的高科技企业,公司目前专注于自然语言处理方面的研究和相关产品的研发及推广,致力于用自然语言处理技术赋能客户,使之成为智慧企业。公司创始人童先明是原微软AI和研究院事业部首席研发总监,原微软苏州研究院副院长,在自然语言处理、大数据、大规模系统工程方面有深入的行业经验,曾参与主导微软人工智能在中国的应用落地,微软搜索广告平台,微软在线支付平台,雅虎电邮系统,KLA半导体芯片良率大数据分析平台等产品。
      “我们目前要做的是以自然语言处理为基础,让每一个企业都能更快速和高效的拥抱AI技术。”童先明表示,与计算机视觉相比,目前自然语言处理技术领域蕴含着巨大的市场机遇,特别是在文本理解挖掘这一块。

                                           2019年7月24日,美能华与中科大共建“自然语言处理联合实验室”
       据了解,美能华推出的第一个产品——智能文本信息抽取已经在金融和财会领域实现了文档和表格信息的自动抽取,目前正在扩展到更多领域。业内人士表示,自然语言处理涉及跨学科协同,难度极大,被誉为“人工智能皇冠上的明珠”。目前在苏州国际科技园周边,已经集聚了包括微软、科大讯飞、美能华、思必驰等一批在国内自然语言处理领域处于领先地位的高科技企业。