售前电话
135-3656-7657
售前电话 : 135-3656-7657
【摘要】:众所周知,新冠肺炎在全球传播。由于其传染性强,全球新冠肺炎感染人数与日俱增。目前普通民众学习新冠肺炎知识的兴趣越来越浓,特别是对症状和治疗方面知识的需求越来越高,如期望通过智能问答、在线辅助咨询等方式自学新冠肺炎医学知识。新冠肺炎知识图谱构建以一些开放的医疗公共领域知识图谱为基础,把百科网站中与新冠肺炎相关的词条作为知识的主要数据来源智能医疗问答系统,并将卫计委官方网站上的《新型冠状病毒肺炎诊疗方案》和《新型冠状病毒肺炎流行病学知识110问》作为补充,形成新冠肺炎知识图谱。为了保证知识融合的有效性,对多源数据的知识获取后,采用规则和实体对齐方法构建一套医疗同义实体库,并以此为基础通过实体映射技术对多源知识库进行融合。新冠肺炎知识图谱的实体内容比较复杂且关联数据量较大,宜选用Neo4j图数据库进行存储。采用Neo4j图数据库还可以将实体和关系以关联网络的形式进行可视化展示。以新冠肺炎知识图谱为数据源智能医疗问答系统,采用语言进行开发设计智能问答系统。系统设计流程及相关技术如下:针对常见的新冠肺炎问题输入系统后,系统首先使用双向最大匹配算法对问题进行分词,根据分词结果提取关键词,划分问句类型,用以后期匹配不同类别的查询模板;然后利用基于BERT-Bi LSTM-CRF模型来识别医疗实体,并采用LTP-工具对问句作依存句法分析,得到句中各词语与实体的关系,进而生成问题三元组;再将问题三元组与对应类别的查询模板进行匹配,生成的查询语句,通过在知识图谱内执行查询得到答案三元组;最后根据不同类别的答案三元组,系统会按汉语语法规则对其语义进行优化后得到一个通俗易懂的自然语言答案反馈给用户。
本文主要研究内容及创新点有:(1)新冠肺炎知识图谱智能问答系统的构建。为了能够提供实时的新冠肺炎咨询服务,本研究以百科网站作为主要知识来源,并以卫计委官方网站上的《新型冠状病毒肺炎诊疗方案》和《新型冠状病毒肺炎流行病学知识110问》作为补充,形成新冠肺炎知识图谱。并利用中文分词、命名实体识别、依存句法分析和Neo4j图数据库等关键技术,针对新冠肺炎症状、检查以及治疗等常见问题,采用语言开发,初步实现了基于新冠肺炎知识图谱的智能问答系统。(2)中文常见医疗问题命名实体识别研究。鉴于目前缺少中文常见医疗问题领域的标注语料,本研究采用人工方式构建标注语料库,为医疗领域知识图谱智能问答系统奠定基础。命名实体识别采用BERT-Bi LSTM-CRF模型,该模型通过引入BERT可提取文本全局特征和局部特征从而生成表义更加丰富的字向量,同时还具备了Bi LSTM网络捕获上下文语义信息和CRF标注偏置纠错的能力。实验结果表明,BERT-Bi LSTM-CRF模型的医疗实体识别效果远高于传统的Bi LSTM-CRF模型;BERT-Bi LSTM-CRF模型在基于BIOE标注方案下实体识别效果较好,P值(准确率)、R值(召回率)和F1值(F1-score)分别达到了98%、97%和97%。