304 / 2024-09-13 18:11:35
启程智医-基于此编码双向LSTM-CRF的大数据智慧医疗系统
全文待审
时慧鲲 / 长春建筑学院
林博涵 / 长春建筑学院
肖伊 / 长春建筑学院
赵一宁 / 长春建筑学院
刘伟婧 / 长春建筑学院
我们的项目是一个基于大数据、利用深度学习方法解析问题,采用知识图谱存储并查询医疗领域的相关知识点的智慧医疗咨询系统。
当前,互联网信息检索主要采用谷歌、百度等搜索引擎的关键词搜索模式。


该模式需要用户自行设计并提炼出关键词,若关键词不准确或不完整,则会导致搜索结果与查询意图不匹配。此外,搜索引擎的检索结果仅是一长串网页列表, 用户还需要耗费时间进行阅读和筛选,并且要辨别广告和垃圾信息。综上所述,这些缺点使得搜索引擎的检索效率相对较低。


相对于搜索引擎,问答系统具有更为便捷优势。用户可以以自然语言的方式直接描述问题,并将其作为输入传入问答系统中,无需进行关键词提炼即可获得答案。此外,问答系统能够自动分析问题并从多个候选答案中选择出最为准确和简洁的答案,从而带来更好的用户体验。

我们分别从问答系统四个方向的已知问题入手解决了如下四类问题


(1)


设定网络模型的参数值

(2)


设定嵌入模型的稳定性参数

(3)


确保系统具有可扩展性


(4)


避开网站的反爬虫机制


解决了搜索引擎的关键词搜索模式存在的问题,当关键词不准确或不完整时我们会嵌入人工特征进而解决搜索结果与查询意图不匹配的问题。此外,启程慧医问答系统会有针对性地提供用户搜索的相关内容而不是如搜索引擎的检索结果是一长串网页列表,解决了用户还需要耗费时间进行阅读和筛选并且要辨别广告和垃圾信息的问题

在数据分析中,从网页获取所需数据是一个重要的前提。为此,我们可以利用多种爬取工具,其中基于 Scrapy 框架的爬虫工具是备受推崇的一种选择,该工具具有快速爬取、自动调节爬取机制以及大吞吐量等优点。因此,我们选用 Scrapy 框架进行网络爬取,并从医疗信息提供平台寻医问药网站获取基础数据。


运行流程如下:


(1) 引擎从调度器中取出一个链接(URL)用于接下来的抓取,包括过滤器和对列,过滤后的url


(2) 引擎把 URL 封装成一个请求(Request)传给下载器


(3) 下载器把资源下载下来,并封装成应答包(Response)


(4) 爬虫解析 Response


(5) 解析出实体(Item),则交给引擎,在提交到管道进行进一步的处理(持久化存储处理)


(6) 解析出的是链接(URL),则把 URL 交给调度器等待抓取都会经过引擎进行调度

数据采集模块的主要任务是爬取目标数据,并根据后续模块的需求进行相应的处理。对于用作训练语料的部分,我们需要去除其中的标签并进行中文自然语言处理,而对于用作种子语料的部分,则需要将其转化为结构化的三元组形式。在此基础上,知识抽取处理模块发挥着承上启下的关键作用,为后续的知识图谱建立问答系统提供了必要的前置条件

我们使用内置算法,利用数据采集模块处理后的资源,分别训练了限定类型 的关系抽取器和非限定类型的关系抽取器两种抽取模型。这些模型可以将大量非结构化文本转换成高质量的关系三元组形式。在系统应用模块中,我们直接面向用户,通过 Neo4j 图形数据库实现了关系三元组存储结构化组织。



我们的问答系统首先接收用户输入语句,然后将其加载到问句生成模块中进行 分析,随后交给医疗实体识别和实体/问句关系抽取模块进一步处理。最终,系统会 根据业务需求将结果汇集到 Neo4j 构建的图形数据库中,以便进行知识库答案检索并返回相应的回复。我们的问答系统采用了深度学习方法,但由于缺乏足够的问句训练语料,我们使用自制的问句生成器来产生训练数据。在这个过程中,我们首先对生成的问句进14行分词,并对每个词进行嵌入,以得到一个由词向量组成的问句,作为输入进行进一步的命名实体识别和实体/问句关系抽取(也称为问句分类),从而实现对问句的语义解析。

在医疗问答系统中,分词质量的好坏将直接影响后续自然语言处理任务的效果。目前主流的分词方法基于传统的机器学习模型,但随着深度学习神经网络的不断发展,长短期记忆(LSTM)神经网络模型已经成功解决了普通循环神经网络模型无法长期依赖信息的问题,并广泛应用于自然语言处理领域。在本项目中,18我们对经典单向 LSTM 模型进行了如下改进:

(1) 为了进一步提高文本分词的准确性,我们在经典单向 LSTM 模型中增加了自后向前的反向 LSTM 层。通过这种方式,我们设计出了 BI-LSTM 模型,并对双层网络的权重进行了调整,使其能够更好地影响后续的文本分词过程。这种改进可以帮助我们更全面地捕捉文本序列的特征,提高分词的精度和效果。


(2) 考虑到医疗领域文本的特点,我们对 BI-LSTM-CRF 组合网络的标注集进行了扩充。具体地,我们将原来的 4 词位标注集扩充为 6 词位标注集,并相应调整了标注层的结构和参数了置。这种改进可以更好地反映医疗文本中存在的各种实体和关系类型,提高分词和实体/关系抽取的准确性和效果。


(3) 由于混合语料的特殊性,原有的中文分词神经网络模型参数值并不能完全 适用于我们设计的 BI-LSTM-CRF 组合网络。因此,在测试和比较不同网络参数的过程中,我们对该网络进行了一系列的修改和调整,以得到更适用于医疗文本分词的 BI-LSTM-CRF 网络。这种改进可以使网络更加准确地识别和标注各种实体和 关系类型,并提高分词的精度和效果







 
重要日期
  • 会议日期

    10月30日

    2024

    10月31日

    2024

  • 11月30日 2024

    初稿截稿日期

主办单位
中国虚拟现实大赛组委会
中国虚拟现实大赛指导委员会
承办单位
长春大学
VR中国
联系方式
历届会议
移动端
在手机上打开
小程序
打开微信小程序
客服
扫码或点此咨询