CN115620886B - 一种数据审核方法和装置 - Google Patents

一种数据审核方法和装置 Download PDF

Info

Publication number
CN115620886B
CN115620886B CN202211628930.2A CN202211628930A CN115620886B CN 115620886 B CN115620886 B CN 115620886B CN 202211628930 A CN202211628930 A CN 202211628930A CN 115620886 B CN115620886 B CN 115620886B
Authority
CN
China
Prior art keywords
information
attribute
diagnosis
sample
medicine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211628930.2A
Other languages
English (en)
Other versions
CN115620886A (zh
Inventor
闫盈盈
徐晓涵
翟所迪
杨帅
张亚
周谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Peking University Third Hospital Peking University Third Clinical Medical College
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Peking University Third Hospital Peking University Third Clinical Medical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Peking University Third Hospital Peking University Third Clinical Medical College filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202211628930.2A priority Critical patent/CN115620886B/zh
Publication of CN115620886A publication Critical patent/CN115620886A/zh
Application granted granted Critical
Publication of CN115620886B publication Critical patent/CN115620886B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种数据审核方法和装置,涉及智慧医疗技术领域。该方法的一具体实施方式包括:获取待审核的处方数据,从所述处方数据中提取药品信息和诊断信息,确定样本诊断信息库中与所述诊断信息相似的样本诊断信息;查询与所述药品信息对应的药品向量,以及查询与所述样本诊断信息对应的诊断向量;计算所述药品向量和所述诊断向量的相似度,响应于所述相似度大于或等于预设相似度阈值,确定所述处方数据通过审核。该实施方式基于知识图谱挖掘药品信息与药品信息、药品信息与诊断信息、诊断信息与诊断信息之间的关系,能够解决处方数据中诊断描述多样化的问题。

Description

一种数据审核方法和装置
技术领域
本发明涉及智慧医疗技术领域,尤其涉及一种数据审核方法和装置。
背景技术
由于医疗资源分配的不均,导致部分医院药师的专业领域知识缺乏,对医院开具的处方审核不够完善及准确。为解决这一问题设置了处方审核系统,以基于客观的药学规则审查处方中适应症部分。
目前主要基于药品说明书中的适应症描述进行审查,但多数处方中诊断的描述与药品说明书中的适应症描述不同,且随着医疗技术的发展,出现很多超出药品说明书用药的使用方式。另外,目前适应症审查功能需基于药师手工维护,当处方中涉及全新的诊断或者是药品说明书适应症的同义词时,现有处方审核系统无法有效解决上述技术问题。
发明内容
有鉴于此,本发明提供一种数据审核方法和装置,至少能够解决现有技术中由于诊断描述的多样性,导致准确地对处方适应症进行审查异常困难的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种数据审核方法,包括:
获取待审核的处方数据,从所述处方数据中提取药品信息和诊断信息,确定样本诊断信息库中与所述诊断信息相似的样本诊断信息;
查询与所述药品信息对应的药品向量,以及查询与所述样本诊断信息对应的诊断向量;其中,药品向量和诊断向量通过元路径训练得到,元路径表示知识图谱中从药品信息到诊断信息之间的路径;
计算所述药品向量和所述诊断向量的相似度,响应于所述相似度大于或等于预设相似度阈值,确定所述处方数据通过审核。
可选的,在获取所述处方数据之前,还包括:
接收输入的样本药品诊断配对关系;其中,样本药品诊断配对关系包括匹配的样本药品信息和样本诊断信息;
查询与所述样本药品信息对应的药品说明书信息,从所述药品说明书信息中提取药品特征信息,以及从所述样本诊断信息中提取诊断特征信息;
基于所述药品特征信息和所述诊断特征信息构建知识图谱,使用所述知识图谱对机器学习模型进行训练,得到词向量模型,以基于所述词向量模型得到药品向量和诊断向量。
可选的,所述从所述药品说明书信息中提取药品特征信息,包括:调用药品属性提取模型,从所述药品说明书信息中提取药品通用名、第一属性、第二属性和第三属性,以构建药品特征信息;
所述从所述样本诊断信息中提取诊断特征信息,包括:调用诊断属性提取模型,从所述样本诊断信息中提取诊断名称、第四属性、第五属性和第六属性,查询与所述第四属性对应的第七属性,以构建诊断特征信息。
可选的,所述基于所述药品特征信息和所述诊断特征信息构建知识图谱,包括:
基于药品通用名、第一属性、第七属性、第四属性、诊断名称,构建第一元路径;以及
基于药品通用名、第二属性、第五属性、诊断名称,构建第二元路径;以及
基于药品通用名、第三属性、第六属性、诊断名称,构建第三元路径;
基于所述第一元路径、所述第二元路径和所述第三元路径构建知识图谱。
可选的,所述确定样本诊断信息库中与所述诊断信息相似的样本诊断信息,包括:
分别计算所述诊断信息和样本诊断信息库中每个样本诊断信息的相似度,将相似度最高的样本诊断信息,作为与所述诊断信息相似的目标样本诊断信息。
可选的,所述确定样本诊断信息库中与所述诊断信息相似的样本诊断信息,包括:
调用诊断属性提取模型,从所述诊断信息中提取第四属性、第五属性和第六属性;
确定所述样本诊断信息库中与所述诊断信息的第四属性相似的第一样本诊断信息集合、与第五属性相似的第二样本诊断信息集合、以及与第六属性相似的第三样本诊断信息集合;
对所述第一样本诊断信息集合、所述第二样本诊断信息集合、所述第三样本诊断信息集合做交集,响应于交集集合中的样本诊断信息数量仅为一个,得到与所述诊断信息相似的目标样本诊断信息;或
响应于交集集合中的样本诊断信息数量为多个,分别计算所述诊断信息和交集集合中每个样本诊断信息的相似度,将相似度最高的样本诊断信息,作为与所述诊断信息相似的目标样本诊断信息。
为实现上述目的,根据本发明实施例的另一方面,提供了一种数据审核装置,包括:
提取模块,用于获取待审核的处方数据,从所述处方数据中提取药品信息和诊断信息,确定样本诊断信息库中与所述诊断信息相似的样本诊断信息;
查询模块,用于查询与所述药品信息对应的药品向量,以及查询与所述样本诊断信息对应的诊断向量;其中,药品向量和诊断向量通过元路径训练得到,元路径表示知识图谱中从药品信息到诊断信息之间的路径;
计算模块,用于计算所述药品向量和所述诊断向量的相似度,响应于所述相似度大于或等于预设相似度阈值,确定所述处方数据通过审核。
可选的,还包括训练模块,用于:
接收输入的样本药品诊断配对关系;其中,样本药品诊断配对关系包括匹配的样本药品信息和样本诊断信息;
查询与所述样本药品信息对应的药品说明书信息,从所述药品说明书信息中提取药品特征信息,以及从所述样本诊断信息中提取诊断特征信息;
基于所述药品特征信息和所述诊断特征信息构建知识图谱,使用所述知识图谱对机器学习模型进行训练,得到词向量模型,以基于所述词向量模型得到药品向量和诊断向量。
可选的,所述训练模块,用于:调用药品属性提取模型,从所述药品说明书信息中提取药品通用名、第一属性、第二属性和第三属性,以构建药品特征信息;
所述训练模块,用于:调用诊断属性提取模型,从所述样本诊断信息中提取诊断名称、第四属性、第五属性和第六属性,查询与所述第四属性对应的第七属性,以构建诊断特征信息。
可选的,所述训练模块,用于:
基于药品通用名、第一属性、第七属性、第四属性、诊断名称,构建第一元路径;以及
基于药品通用名、第二属性、第五属性、诊断名称,构建第二元路径;以及
基于药品通用名、第三属性、第六属性、诊断名称,构建第三元路径;
基于所述第一元路径、所述第二元路径和所述第三元路径构建知识图谱。
可选的,所述提取模块,用于:
分别计算所述诊断信息和样本诊断信息库中每个样本诊断信息的相似度,将相似度最高的样本诊断信息,作为与所述诊断信息相似的目标样本诊断信息。
可选的,所述提取模块,用于:
调用诊断属性提取模型,从所述诊断信息中提取第四属性、第五属性和第六属性;
确定所述样本诊断信息库中与所述诊断信息的第四属性相似的第一样本诊断信息集合、与第五属性相似的第二样本诊断信息集合、以及与第六属性相似的第三样本诊断信息集合;
对所述第一样本诊断信息集合、所述第二样本诊断信息集合、所述第三样本诊断信息集合做交集,响应于交集集合中的样本诊断信息数量仅为一个,得到与所述诊断信息相似的目标样本诊断信息;或
响应于交集集合中的样本诊断信息数量为多个,分别计算所述诊断信息和交集集合中每个样本诊断信息的相似度,将相似度最高的样本诊断信息,作为与所述诊断信息相似的目标样本诊断信息。
为实现上述目的,根据本发明实施例的再一方面,提供了一种数据审核电子设备。
本发明实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一所述的数据审核方法。
为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一所述的数据审核方法。
根据本发明所述提供的方案,上述发明具有如下优点或有益效果:将基于知识图谱的推荐算法引入处方适应证审查场景,挖掘药品通用名与诊断之间的关系,最终构建药品通用名向量和诊断向量,后续使用可以基于药品通用名的唯一性直接查询到相应向量,而对于诊断信息,则通过属性相似度计算、文本相似度计算、关键词相似度计算方式,确定与其相似的样本诊断信息、查询该样本诊断信息的诊断向量,以提升本次使用的诊断向量查询的高效性和准确性,整体摒弃现有应用时仍依赖模型计算向量的方式,能够解决诊断描述多样化的问题。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的一种数据审核方法的主要流程示意图;
图2是类比知识图谱的推荐算法示意图;
图3是根据本发明实施例的一种可选的数据审核方法的流程示意图;
图4(a)是药品知识图谱和疾病知识图谱的结构图;
图4(b)是知识图谱样例示意图;
图5是根据本发明实施例的另一种可选的数据审核方法的流程示意图;
图6是根据本发明实施例的一种数据审核装置的主要模块示意图;
图7是本发明实施例可以应用于其中的示例性系统架构图;
图8是适于用来实现本发明实施例的移动设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不冲突的情况下,本发明中的实施例以及实施例中的特征可以互相组合。本申请技术方案中对数据(如用户个人信息)的获取、存储、使用、处理等均符合国家法律法规的相关规定,且不违背公序良俗。
参见图1,示出的是本发明实施例提供的一种数据审核方法的主要流程图,包括如下步骤:
S101:获取待审核的处方数据,从所述处方数据中提取药品信息和诊断信息,确定样本诊断信息库中与所述诊断信息相似的样本诊断信息;
S102:查询与所述药品信息对应的药品向量,以及查询与所述样本诊断信息对应的诊断向量;其中,药品向量和诊断向量通过元路径训练得到,元路径表示知识图谱中从药品信息到诊断信息之间的路径;
S103:计算所述药品向量和所述诊断向量的相似度,响应于所述相似度大于或等于预设相似度阈值,确定所述处方数据通过审核。
上述实施方式中,药品说明书适应症的同义词,比如脑卒中和中风,说明书里可能描述的是脑卒中,但诊断中可能写的是中风,普通的字符串匹配无法解决这种问题,需要维护同义词表或者依靠知识图谱的推荐算法。
处方适应症审核的目的在于判断药品与处方中的诊断是否匹配。参见图2所示,若将药品比作消费者,那么药品的属性就可以类比为消费者的喜好,若将诊断比作物品,那么疾病的相关属性就可以类比为物品的属性。因而,处方适应症审核可以转化为物品推荐问题,亦即判断消费者对推荐的物品是否感兴趣。在物品推荐的应用领域中,推荐算法中的物品可以指代视频、文章、商品、新闻等一切内容对象,也可用项目指代。
对于步骤S101,用户的医疗处方数据,为在用户就诊过程中所采集的数据,具体包括药品信息和诊断信息。诊断信息是用于表征诊断结果的数据,比如感冒、发热、咽痛,至少包括问诊信息、诊断结果和用药医嘱,而用药医嘱是医师根据临床场景对药物的调整使用备注,基于该备注可以使用药物适用症与当前诊断结果匹配度不是很高的药品,从而提高了药品的适应性使用,提高了医疗资源的利用率。
本方案中的药品信息主要指的是药品通用名。药品通用名,指列入国家药品标准的药品名称,在全世界都可通用的名称,如阿司匹林,任何药品说明书上都应标注通用名,具有强制性和约束性。商品名是药品生产厂商自己确定,经药品监督管理部门核准的产品名称,具有专有性质,不得仿用。一个药品通用名下由于生产厂家的不同,可有多个商品名称,如头孢哌酮钠说明书标注:【通用名称】头孢哌酮钠;【商品名称】先抗;【别名】先锋必素、头孢氧哌唑、先锋必、先锋哌酮、氧哌羟苯唑、头孢菌素钠、先锋哌唑酮、先锋松、头孢氧哌羟苯唑、氧哌嗪头孢。处方中通常会药品有通用名,所以不涉及商用名的概念。
对于步骤S102~S103,本方案预先构建药品通用名向量表和诊断向量表,药品通用名向量表以存储药品通用名向量,诊断向量表用以存储诊断向量,且该过程为离线操作,参见后续图3、图4(a)和图4(b)所示。
从药品通用名向量表中,查询与本次药品通用名对应的药品通用名向量表示,以及从诊断向量表中,查询与本次诊断信息对应的诊断向量表示。通过计算两个向量的相似度,在一些可行的实施方式中,相似度的计算可以基于皮尔逊相关系数(PearsonCorrelation Coefficient)、欧几里德距离(Euclidean Distance)等,本方案优选余弦相似度。当所得相似度如果超过一定的阈值(例如0.7),可认为用户医疗处方数据中的药品信息和诊断信息匹配,该处方通过审核,否则不通过。本实施方式为在线操作,如前述获取用户的医疗处方数据,输入的是药品通用名和诊断信息,输出则是处方数据是否通过审核。
上述实施例所提供的方法,摒弃现有应用时仍依赖模型计算向量的方式,本方案预先设置药品通用名向量和诊断向量,以基于药品通用名的唯一性直接查询到向量,诊断向量通过相似度计算方式查询,解决了诊断描述多样性问题,进一步提升对处方数据审核的效率和准确率。
参见图3,示出了根据本发明实施例的一种可选的数据审核方法流程示意图,包括如下步骤:
S301:接收输入的样本药品诊断配对关系;其中,样本药品诊断配对关系包括匹配的样本药品信息和样本诊断信息;
S302:查询与所述样本药品信息对应的药品说明书信息,从所述药品说明书信息中提取药品特征信息,以及从所述样本诊断信息中提取诊断特征信息;
S303:基于所述药品特征信息和所述诊断特征信息构建知识图谱,使用所述知识图谱对机器学习模型进行训练,得到词向量模型,以基于所述词向量模型得到药品向量和诊断向量。
上述实施方式中,对于步骤S301~S302,本实施方式在训练机器学习模型之前,需要根据样本药品信息和样本诊断信息,获取结构化的药品说明书信息和诊断信息,样本药品诊断配对关系可以从药师审核通过的处方获取得到。
基于药品通用名调取出对应的药品使用说明书。结构化的药品说明书信息包括药品通用名、功效属性(即第一属性)、治疗部位属性(即第二属性)和治疗适应症属性(即第三属性),可通过药品属性提取模型从药品说明书中获得。
结构化的诊断信息包括病理过程属性(即第四属性)、发病部位属性(即第五属性)和子症状属性(即第六属性),可通过诊断属性提取模型获得。预先设置治法属性表(如对疼痛的治法为止疼),可以从该表中查询对该病例过程属性的治法属性(即第七属性)。
以药品通用名为根痛平颗粒、诊断名称为左肩周炎为例,所得药品特征信息包括:药品通用名为根痛平颗粒、功效属性为止痛、治疗部位属性为肩、治疗适应症属性为肩颈疼痛,所得诊断特征信息包括:诊断名称为左肩周炎、病理过程属性为疼痛、发病部位属性为肩、子症状属性为肩颈疼痛,查询到对疼痛的治法属性为止痛。
对于步骤S303,本方案在已构建好的知识图谱上训练药品通用名和诊断的向量,知识图谱的具体构建流程不在本方案的讨论范围内,在此不做详细阐述。使用的推荐算法优选基于元路径的推荐算法,以进一步提升模型的可解释性。元路径也可以认为是一组文本内容,在自然语言处理领域,统计语言模型(即机器学习模型)是所有自然语言处理技术的基础,被广泛应用于文本处理、语音识别、机器翻译、分词、词性标注和信息检索等任务。简单来说,统计语言模型是用来计算一个句子的概率的概率模型,通常基于一个语料库来构建。基于神经网络来构建统计语言模型时,会将文本转换为数值张量,也即词向量化。
参见图4(a)所示,本方案构建的知识图谱包括三条元路径,分别为:1)药品通用名-功效属性-治法属性-病理过程属性-诊断名称;2)药品通用名-治疗部位属性-发病部位属性-诊断名称;3)药品通用名-治疗适应症属性-子症状属性-诊断名称。参见图4(b)所示,基于根痛平颗粒、止痛、止痛、疼痛、左肩周炎构建第一元路径,基于根痛平颗粒、肩、肩、左肩周炎构建第二元路径,基于根痛平颗粒、肩颈疼痛、肩颈疼痛、左肩周炎构建第三元路径。
在训练模型时,首先需要确定用于训练模型的滑动窗口尺寸,根据所确定的滑动窗口尺寸获取训练样本对,每组训练样本对包括输入样本和输出样本。根据训练样本对训练模型,从而得到模型的隐含层的参数。当模型训练好以后,并不会用这个训练好的模型处理新的任务,真正需要的是这个模型通过训练数据所学得的参数,以便获得文本的向量表示。利用训练模型对上述第一元路径、第二元路径和第三元路径进行训练,在构建并训练好词向量模型后,可以利用已训练好的词向量模型得到药品通用名向量(即药品向量)和诊断向量,该过程为离线操作。
以图4(b)为例,输出为根痛平颗粒和左肩周炎两个的向量表示,分别是为1*256维度的向量。图谱中有多少个药品通用名、诊断的实体,输出就有多少个1*256的向量。所得药品通用名向量和诊断向量,可以存储在MySQL中,或者其他任意数据库中。可以预先设置药品通用名向量表和诊断向量表,药品通用名向量表用以存储药品通用名向量,诊断向量表用以存储诊断向量。两者不需要存储匹配关系,因为该匹配关系可以实时计算,计算方式就是两者的余弦相似度。余弦相似度是一个[-1, 1]的数值,越趋近于1,表示两者存在治疗关系。
上述实施例所提供的方法,将基于知识图谱的推荐算法引入到处方适应症审查场景中,以进一步挖掘药品通用名与诊断之间的关系,能够解决诊断描述多样化的问题。
参见图5,示出了根据本发明实施例的另一种可选的数据审核方法流程示意图,包括如下步骤:
S501:调用诊断属性提取模型,从诊断信息中提取第四属性、第五属性和第六属性;
S502:确定样本诊断信息库中与所述诊断信息的第四属性相似的第一样本诊断信息集合、与第五属性相似的第二样本诊断信息集合、以及与第六属性相似的第三样本诊断信息集合;
S503:对所述第一样本诊断信息集合、所述第二样本诊断信息集合和所述第三样本诊断信息集合做交集;
S504:响应于交集集合中的样本诊断信息数量仅为一个,得到与所述诊断信息相似的目标样本诊断信息;
S505:响应于交集集合中的样本诊断信息数量为多个,分别计算所述诊断信息和交集集合中每个样本诊断信息的相似度,将相似度最高的样本诊断信息,作为与所述诊断信息相似的目标样本诊断信息。
上述实施方式中,对于步骤S501~S505,药品通用名通常为一个词,且根据前述描述,其为全世界通用词,通常不变,因而可以直接根据药品通用名从药品通用名向量表中查询到对应的药品通用名向量。但诊断信息通常涵盖信息较多,且考虑描述的多样性,即使针对同一症状的描述也会存有差异,因而需要采用一定的手段获取。
实际操作中,可以计算本次诊断信息与样本诊断信息库中每个样本信息的文本相似度。也可以从两者记载的信息中提取关键词,以计算关键词之间的相似度,提升计算效率。将文本相似度最高的一个样本诊断信息,作为与本次诊断信息相似的目标样本诊断信息。
根据前述描述,本方案主要考虑诊断信息的病理过程属性、发病部位属性和子症状属性,因而为进一步提升计算效率,还可以再次调用诊断属性提取模型,从本次诊断信息中提取这三个属性。同样考虑诊断信息描述的多样性,可能同样功效的诊断信息这三个属性会存在不同的情况,因而优选从这三个属性角度分别计算诊断信息属性相似度,例如疼痛和疼、肩膀和肩,得到三个集合:病理过程属性-第一样本诊断信息集合、发病部位属性-第二样本诊断信息集合、子症状属性-第三样本诊断信息集合。
这三个集合的交集中,若仅存在一个样本诊断信息,则直接将其确定为与本次样本信息相似的样本诊断信息,之后从诊断向量表中查询与该样本诊断信息对应的诊断向量即可。但若存在两个及以上样本诊断信息,则采用文本相似度计算方式或关键词相似度计算方式,计算本次诊断信息与交集中每个样本诊断信息的相似度,最终筛选出相似度最高的一个样本诊断信息。
上述实施例所提供的方法,通过属性相似度计算、文本相似度计算、关键词相似度计算方式,确定与本次诊断信息相似的样本诊断信息,直接查询该样本诊断信息的诊断向量,以进一步解决诊断信息描述多样性的问题,提升诊断向量查询的高效性和准确性。
参见图6,示出了本发明实施例提供的一种数据审核装置600的主要模块示意图,包括:
提取模块601,用于获取待审核的处方数据,从所述处方数据中提取药品信息和诊断信息,确定样本诊断信息库中与所述诊断信息相似的样本诊断信息;
查询模块602,用于查询与所述药品信息对应的药品向量,以及查询与所述样本诊断信息对应的诊断向量;其中,药品向量和诊断向量通过元路径训练得到,元路径表示知识图谱中从药品信息到诊断信息之间的路径;
计算模块603,用于计算所述药品向量和所述诊断向量的相似度,响应于所述相似度大于或等于预设相似度阈值,确定所述处方数据通过审核。
本发明所述的数据审核装置还包括训练模块,用于:
接收输入的样本药品诊断配对关系;其中,样本药品诊断配对关系包括匹配的样本药品信息和样本诊断信息;
查询与所述样本药品信息对应的药品说明书信息,从所述药品说明书信息中提取药品特征信息,以及从所述样本诊断信息中提取诊断特征信息;
基于所述药品特征信息和所述诊断特征信息构建知识图谱,使用所述知识图谱对机器学习模型进行训练,得到词向量模型,以基于所述词向量模型得到药品向量和诊断向量。
本发明所述的数据审核装置中,所述训练模块用于:调用药品属性提取模型,从所述药品说明书信息中提取药品通用名、第一属性、第二属性和第三属性,以构建药品特征信息;
所述训练模块用于:调用诊断属性提取模型,从所述样本诊断信息中提取诊断名称、第四属性、第五属性和第六属性,查询与所述第四属性对应的第七属性,以构建诊断特征信息。
本发明所述的数据审核装置中,所述训练模块用于:
基于药品通用名、第一属性、第七属性、第四属性、诊断名称,构建第一元路径;以及
基于药品通用名、第二属性、第五属性、诊断名称,构建第二元路径;以及
基于药品通用名、第三属性、第六属性、诊断名称,构建第三元路径;
基于所述第一元路径、所述第二元路径和所述第三元路径构建知识图谱。
本发明所述的数据审核装置中,所述提取模块601用于:
分别计算所述诊断信息和样本诊断信息库中每个样本诊断信息的相似度,将相似度最高的样本诊断信息,作为与所述诊断信息相似的目标样本诊断信息。
本发明所述的数据审核装置中,所述提取模块601,用于:
调用诊断属性提取模型,从所述诊断信息中提取第四属性、第五属性和第六属性;
确定所述样本诊断信息库中与所述诊断信息的第四属性相似的第一样本诊断信息集合、与第五属性相似的第二样本诊断信息集合、以及与第六属性相似的第三样本诊断信息集合;
对所述第一样本诊断信息集合、所述第二样本诊断信息集合、所述第三样本诊断信息集合做交集,响应于交集集合中的样本诊断信息数量仅为一个,得到与所述诊断信息相似的目标样本诊断信息;或
响应于交集集合中的样本诊断信息数量为多个,分别计算所述诊断信息和交集集合中每个样本诊断信息的相似度,将相似度最高的样本诊断信息,作为与所述诊断信息相似的目标样本诊断信息。
另外,在本发明实施例中所述装置的具体实施内容,在上面所述方法中已经详细说明了,故在此重复内容不再说明。
图7示出了可以应用本发明实施例的示例性系统架构700,包括终端设备701、702、703,网络704和服务器705(仅仅是示例)。
终端设备701、702、703可以是具有显示屏并且支持网页浏览的各种电子设备,安装有各种通讯客户端应用,用户可以使用终端设备701、702、703通过网络704与服务器705交互,以接收或发送消息等。
网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
服务器705可以是提供各种服务的服务器,需要说明的是,本发明实施例所提供的方法一般由服务器705执行,相应地,装置一般设置于服务器705中。
应该理解,图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图8,其示出了适于用来实现本发明实施例的终端设备的计算机系统800的结构示意图。图8示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括提取模块、查询模块、计算模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,查询模块还可以被描述为“向量查询模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行上述任一所述的数据审核方法。
本发明的计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本发明实施例中的数据审核方法。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (7)

1.一种数据审核方法,其特征在于,包括:
获取待审核的处方数据,从所述处方数据中提取药品信息和诊断信息,确定样本诊断信息库中与所述诊断信息相似的样本诊断信息;
查询与所述药品信息对应的药品向量,以及查询与所述样本诊断信息对应的诊断向量;其中,药品向量和诊断向量通过元路径训练得到,元路径表示知识图谱中从药品信息到诊断信息之间的路径;
计算所述药品向量和所述诊断向量的相似度,响应于所述相似度大于或等于预设相似度阈值,确定所述处方数据通过审核;
所述确定样本诊断信息库中与所述诊断信息相似的样本诊断信息,包括:
分别计算所述诊断信息和样本诊断信息库中每个样本诊断信息的相似度,将相似度最高的样本诊断信息,作为与所述诊断信息相似的目标样本诊断信息;
调用诊断属性提取模型,从所述诊断信息中提取第四属性、第五属性和第六属性;
确定所述样本诊断信息库中与所述诊断信息的第四属性相似的第一样本诊断信息集合、与第五属性相似的第二样本诊断信息集合、以及与第六属性相似的第三样本诊断信息集合;
对所述第一样本诊断信息集合、所述第二样本诊断信息集合、所述第三样本诊断信息集合做交集,响应于交集集合中的样本诊断信息数量仅为一个,得到与所述诊断信息相似的目标样本诊断信息;或
响应于交集集合中的样本诊断信息数量为多个,分别计算所述诊断信息和交集集合中每个样本诊断信息的相似度,将相似度最高的样本诊断信息,作为与所述诊断信息相似的目标样本诊断信息;
所述的第四属性为病理过程属性;
所述的第五属性为发病部位属性;
所述的第六属性为子症状属性。
2.根据权利要求1所述的方法,其特征在于,在获取所述处方数据之前,还包括:
接收输入的样本药品诊断配对关系;其中,样本药品诊断配对关系包括匹配的样本药品信息和样本诊断信息;
查询与所述样本药品信息对应的药品说明书信息,从所述药品说明书信息中提取药品特征信息,以及从所述样本诊断信息中提取诊断特征信息;
基于所述药品特征信息和所述诊断特征信息构建知识图谱,使用所述知识图谱对机器学习模型进行训练,得到词向量模型,以基于所述词向量模型得到药品向量和诊断向量。
3.根据权利要求2所述的方法,其特征在于,所述从所述药品说明书信息中提取药品特征信息,包括:调用药品属性提取模型,从所述药品说明书信息中提取药品通用名、第一属性、第二属性和第三属性,以构建药品特征信息;
所述从所述样本诊断信息中提取诊断特征信息,包括:调用诊断属性提取模型,从所述样本诊断信息中提取诊断名称、第四属性、第五属性和第六属性,查询与所述第四属性对应的第七属性,以构建诊断特征信息;
所述的第一属性为功效属性;
所述的第二属性为治疗部位属性;
所述的第三属性为治疗适应症属性;
所述的第七属性为治法属性。
4. 根据权利要求3所述的方法,其特征在于,所述基于所述药品特征信息和所述诊断特征信息构建知识图谱,包括:
基于药品通用名、第一属性、第七属性、第四属性、诊断名称,构建第一元路径;以及
基于药品通用名、第二属性、第五属性、诊断名称,构建第二元路径;以及
基于药品通用名、第三属性、第六属性、诊断名称,构建第三元路径;
基于所述第一元路径、所述第二元路径和所述第三元路径构建知识图谱。
5.一种数据审核装置,其特征在于,包括:
提取模块,用于获取待审核的处方数据,从所述处方数据中提取药品信息和诊断信息,确定样本诊断信息库中与所述诊断信息相似的样本诊断信息;
查询模块,用于查询与所述药品信息对应的药品向量,以及查询与所述样本诊断信息对应的诊断向量;其中,药品向量和诊断向量通过元路径训练得到,元路径表示知识图谱中从药品信息到诊断信息之间的路径;
计算模块,用于计算所述药品向量和所述诊断向量的相似度,响应于所述相似度大于或等于预设相似度阈值,确定所述处方数据通过审核;
所述确定样本诊断信息库中与所述诊断信息相似的样本诊断信息,包括:
分别计算所述诊断信息和样本诊断信息库中每个样本诊断信息的相似度,将相似度最高的样本诊断信息,作为与所述诊断信息相似的目标样本诊断信息;
所述确定样本诊断信息库中与所述诊断信息相似的样本诊断信息,还包括:
调用诊断属性提取模型,从所述诊断信息中提取第四属性、第五属性和第六属性;
确定所述样本诊断信息库中与所述诊断信息的第四属性相似的第一样本诊断信息集合、与第五属性相似的第二样本诊断信息集合、以及与第六属性相似的第三样本诊断信息集合;
对所述第一样本诊断信息集合、所述第二样本诊断信息集合、所述第三样本诊断信息集合做交集,响应于交集集合中的样本诊断信息数量仅为一个,得到与所述诊断信息相似的目标样本诊断信息;或
响应于交集集合中的样本诊断信息数量为多个,分别计算所述诊断信息和交集集合中每个样本诊断信息的相似度,将相似度最高的样本诊断信息,作为与所述诊断信息相似的目标样本诊断信息;
所述的第四属性为病理过程属性;
所述的第五属性为发病部位属性;
所述的第六属性为子症状属性。
6.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一项所述的方法。
7.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-4中任一项所述的方法。
CN202211628930.2A 2022-12-19 2022-12-19 一种数据审核方法和装置 Active CN115620886B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211628930.2A CN115620886B (zh) 2022-12-19 2022-12-19 一种数据审核方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211628930.2A CN115620886B (zh) 2022-12-19 2022-12-19 一种数据审核方法和装置

Publications (2)

Publication Number Publication Date
CN115620886A CN115620886A (zh) 2023-01-17
CN115620886B true CN115620886B (zh) 2023-04-28

Family

ID=84880014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211628930.2A Active CN115620886B (zh) 2022-12-19 2022-12-19 一种数据审核方法和装置

Country Status (1)

Country Link
CN (1) CN115620886B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116936021A (zh) * 2023-09-18 2023-10-24 万链指数(青岛)信息科技有限公司 一种基于区块链的医疗电子病历信息管理方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782998A (zh) * 2019-10-12 2020-02-11 平安医疗健康管理股份有限公司 数据审核方法、装置、计算机设备和存储介质
CN111191020A (zh) * 2019-12-27 2020-05-22 江苏省人民医院(南京医科大学第一附属医院) 基于机器学习和知识图谱的处方推荐方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8059001B2 (en) * 2009-05-22 2011-11-15 Bio-Rad Laboratories, Inc. System and method for automatic quality control of clinical diagnostic processes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782998A (zh) * 2019-10-12 2020-02-11 平安医疗健康管理股份有限公司 数据审核方法、装置、计算机设备和存储介质
CN111191020A (zh) * 2019-12-27 2020-05-22 江苏省人民医院(南京医科大学第一附属医院) 基于机器学习和知识图谱的处方推荐方法和系统

Also Published As

Publication number Publication date
CN115620886A (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
US10496748B2 (en) Method and apparatus for outputting information
CN108920453A (zh) 数据处理方法、装置、电子设备及计算机可读介质
US20200279147A1 (en) Method and apparatus for intelligently recommending object
CN113254542B (zh) 数据可视化处理方法及装置、电子设备
CN110265099B (zh) 用于输出病历的方法和装置
US20160188701A1 (en) File recognition system and method
Chou et al. Integrating XBRL data with textual information in Chinese: A semantic web approach
CN113707299A (zh) 基于问诊会话的辅助诊断方法、装置及计算机设备
CN113782195A (zh) 一种体检套餐定制方法和装置
CN111986793A (zh) 基于人工智能的导诊处理方法、装置、计算机设备及介质
CN115620886B (zh) 一种数据审核方法和装置
CN112309565A (zh) 用于匹配药品信息和病症信息的方法、装置、电子设备和介质
CN115862840A (zh) 关节疼痛疾病的智能辅助诊断方法和装置
CN109086438B (zh) 用于查询信息的方法和装置
CN111523309A (zh) 药品信息归一化的方法、装置、存储介质及电子设备
CN114882985B (zh) 基于数据库和ai算法识别的医药多媒体管理系统及方法
US20220293253A1 (en) Systems and methods using natural language processing to improve computer-assisted coding
Iyengar et al. Big data analytics in healthcare using spreadsheets
CN113220896A (zh) 多来源知识图谱生成方法、装置、终端设备
CN113821641A (zh) 基于权重分配的药品分类的方法、装置、设备及存储介质
CN114116838B (zh) 数据处理方法、装置、电子设备以及存储介质
CN113053522B (zh) 用于处理医疗数据的方法、装置、设备、介质和产品
CN112786132B (zh) 病历文本数据分割方法、装置、可读存储介质及电子设备
CN112925876B (zh) 跨场地迁移的结构化病历的处理方法、装置、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant