Are you sure you want to delete this task? Once this task is deleted, it cannot be recovered.
yongshuai 19169a38d5 | 11 months ago | |
---|---|---|
data | 11 months ago | |
README.md | 11 months ago |
自然语言处理开源算法库涵盖了机器翻译、情感计算、文本推理、知识抽取、医学NLP、文本推理等多个子领域的开源算法。
以下是开源算法库的索引信息。
ID | 类别 | 算法 | 支持框架 | 算法介绍 | 贡献人 | 算法状态 |
---|---|---|---|---|---|---|
1 | 机器翻译 | 使用语言特定的重调序改进 多语言机器翻译 |
Pytorch MindSpore | 使用重调序的方法来缓解不同语言之间的词序差异性,从而提升多语言机器翻译的性能。 | 黄毅翀 | 已开源 |
2 | 机器翻译 | ACL-MT | Pytorch MindSpore | 中心语言迁移,针对非英语语言(例如:中文)的语料稀缺问题,采用迁移学习的方式,利用英语为中心的多语言翻译模型中蕴含的翻译能力来提升非英语中心的多语言机器翻译模型。 | 黄毅翀 | 已开源 |
3 | 机器翻译 | 基于轨迹范数的 多语言机器翻译 |
Pytorch MindSpore | 基于轨迹范数最小化以极大化不同语言的embedding layer之间的相似度,从而促进多语言翻译模型中跨语言的信息流通。 | 黄毅翀 | 已开源 |
4 | 机器翻译 | 基于语言特定自蒸馏的 多语言机器翻译 |
Pytorch MindSpore | 使用语言特定自蒸馏算法缓解多语言机器翻译中的收敛不一致性问题。对应我们发表的一篇EMNLP论文:https://aclanthology.org/2022.emnlp-main.458 | 黄毅翀 | 已开源 |
5 | 机器翻译 | 基于图的多语言机器翻译 词对齐初始化 |
Pytorch MindSpore | 本算法通过词表和双语词典构建词表图,利用图神经网络来学习词表图中token得表示,利用这些表示来初始化多语言机器翻译模型。 | 付成鹏 | 已开源 |
6 | 情感分析 | AAGCN-ABSA | Pytorch MindSpore | 研究方面类别情感分析任务,探索一个基于外部知识的Beta分布引导的方面感知图构造。 | 丁可阳 | 已开源 |
7 | 情感分析 | CAER-ABSA | Pytorch MindSpore | 基于方面的细粒度情感分析网络,输入样本句子,方面是样本句子的某个词,输出对句子中某个方面的情感判断(正面/负面/没有倾向) | 丁可阳 | 已开源 |
8 | 情感分析 | GIN-ABSA | Pytorch MindSpore | 基于方面的细粒度情感分析网络 | 丁可阳 | 已开源 |
9 | 情感分析 | InterGCN-ABSA | Pytorch, MindSpore | 基于方面的细粒度情感分析网络 | 丁可阳 | 已开源 |
10 | 情感分析 | Scon-ABSA | Pytorch, MindSpore | 细粒度情感分析+有监督对比学习,由于很多公共数据集中的aspects(句子中的词,一般为名词)对于训练集是未知的,导致对未知的aspects推断情感极性时,表现出现有 ABSA 模型的高精度。因此该团队部署了有监督对比学习框架,用不同情感极性、不同情感pattern间的相关性和差异,来优化网络。 | 丁可阳 | 已开源 |
11 | 情感分析 | SenticGCN-ABSA | Pytorch, MindSpore | 依赖树上的图神经模型被广泛应用于基于方面的情感分析。但是现有的大部分着作都是基于句子的依存树来学习从语境词到体词的依存信息,缺乏对特定体的语境情感知识的挖掘。该网络是一种基于SenticNet的图卷积网络,根据句子的具体方面来利用句子的情感依赖,称为SenticGCN。通过整合SenticNet中的情感知识来构建图神经网络来增强句子的依存图。新的情感增强图模型既考虑了语境词和方面词的依赖关系,也考虑了意见词和方面词之间的情感信息 | 丁可阳 | 已开源 |
12 | 情感分析 | MTST-ECE | Pytorch, MindSpore | 与trans-ece一样基于BERT处理ECPE问题的情感分析网络,输入样本文本(多个句子组成)输出文本中存在的情感-原因关系,MTST的创新点在于没有用前作的shared encoder来解决multi-task(可解释性差,不稳定),而是使用sequence tagging | 丁可阳 | 已开源 |
13 | 情感分析 | Trans-ECE | Pytorch, MindSpore | 基于bert的ECPE情感原因关系挖掘,与ECE emotion cause extract不同的是ECPE emotion cause pair extraction没有输入标注,直接输入整段文本 输入样本文本(多个句子组成)输出文本中存在的情感-原因关系 ,用逗号分割开的从句clause作为emotion/cause的样本单位, 应用图结构代表文本中情感与原因的关系, 使用LSTM计算文本中原因与情感的long-term dependency | 丁可阳 | 已开源 |
14 | 情感分析 | BIGCN-ABSA | MindSpore | 基于双层交互式图形卷积网络的方面级情感分析 | 梁绎天 | 已开源 |
15 | 情感分析 | ASGCN-ABSA | MindSpore | 基于特定方面图卷积网络的方面级情感分析 | 梁绎天 | 已开源 |
16 | 情感分析 | AEGCN-ABSA | MindSpore | AEGCN | 梁绎天 | 已开源 |
17 | 情感分析 | example-ABSA | MindSpore | 方面级情感分析的MindSpore代码样例算法 | 梁绎天 | 已开源 |
18 | 立场检测 | AnswerStance | Pytorch MindSpore | 立场检测是提取听众(或读者)对事件主张的反应和态度。本算法包含TPDG算法(WWW21),它为每个句子针对给定的目标构建异构目标自适应语用依赖图。 | 王乾龙 | 已开源 |
19 | 立场检测 | Multi-task-Contrastive | Pytorch MindSpore | 立场检测是提取听众(或读者)对事件主张的反应和态度 | 王乾龙 | 已开源 |
20 | 立场检测 | TPDG | Pytorch MindSpore | 立场检测是提取听众(或读者)对事件主张的反应和态度 | 王乾龙 | 已开源 |
21 | 立场检测 | JointCL | Pytorch MindSpore | 一种用于零样本立场检测的联合对比学习框架 | 孙洋 | 已开源 |
22 | 立场检测 | PT-HCL | Pytorch MindSpore | 基于对比学习的零样本立场检测 | 孙洋 | 已开源 |
23 | 讽刺检测 | ADGCN | Pytorch MindSpore | 讽刺检测任务的研究目标是挖掘目标语句的讽刺倾向。本算法包含四个算法:GRNN算法(COLING16)、MIARN算法(ACL18)、SMSD算法(WWW19)、ADGCN算法(SIGIR21) | 王乾龙 | 已开源 |
24 | 讽刺检测 | GRNN | Pytorch MindSpore | 讽刺检测任务的研究目标是挖掘目标语句的讽刺倾向。 | 王乾龙 | 已开源 |
25 | 讽刺检测 | MIARN | Pytorch MindSpore | 讽刺检测任务的研究目标是挖掘目标语句的讽刺倾向。 | 王乾龙 | 已开源 |
26 | 讽刺检测 | SMSD | Pytorch MindSpore | 讽刺检测任务的研究目标是挖掘目标语句的讽刺倾向。 | 王乾龙 | 已开源 |
27 | 论辩挖掘 | BERT-Trans | Pytorch MindSpore | 论辩挖掘的目标是从自然语言文本中自动提取和识别论辩结构。本算法库包含BERT-Trans(ACL21)算法,它是一种基于神经转换的论证挖掘算法。 | 王乾龙 | 已开源 |
28 | 论辩挖掘 | MGF | Pytorch MindSpore | 通过互指导和句间关系图的论辩对抽取 | 孙洋 | 已开源 |
29 | 命名实体识别 | Lable_enhanced_NER | TensorFlow | label增强的生物医学命名实体识别 | 熊英 | 已开源 |
30 | 命名实体识别 | ADR | TensorFlow | 药物副作用抽取 | 熊英 | 已开源 |
31 | 命名实体识别 | KG_NER | Pytorch MindSpore | 多源知识增强的生物医学命名实体识别 | 熊英 | 已开源 |
32 | 命名实体识别 | gen-ner | Pytorch MindSpore | 生成式命名实体识别 | 熊英 | under review |
33 | 命名实体识别 | SetGNER | Pytorch MindSpore | 集合生成 | 熊英 | under review |
34 | 关系抽取 | Family_History_Extraction | Pytorch MindSpore | 家族关系史抽取 | 熊英 | 已开源 |
35 | 关系抽取 | Document_RE | Pytorch MindSpore | 文档级关系抽取 | 熊英 | 已开源 |
36 | 关系抽取 | saal-fsre | Pytorch MindSpore | 小样本关系抽取 | 熊英 | under review |
37 | 关系抽取 | promptre | Pytorch MindSpore | 基于prompt小样本关系抽取 | 熊英 | 已开源 |
38 | 实体标准化 | chinese-nen | Pytorch MindSpore | 基于阅读理解的实体标准化 | 熊英 | under review |
39 | 实体标准化 | entity_normalization | Pytorch MindSpore | 有监督和无监督候选筛选结合的的实体标准化 | 熊英 | under review |
40 | 医疗事件预测 | RGNN-TG-GAT | TensorFlow | MEP任务,根据患者历史时序信息构建医疗事件图,预测下一个时刻的医疗事件 | 刘思岑 | 已开源 |
41 | 医疗事件预测 | MCF | Pytorch MindSpore | MEP任务,根据患者历史信息进行融合预测下一个时刻的医疗事件 | 刘思岑 | 已开源 |
42 | 医疗事件预测 | CATNet | Pytorch MindSpore | MEP任务,通过task-unaware和task- aware的方式对医疗事件进行细粒度建模。预测下一个时刻的医疗事件 | 刘思岑 | under review |
43 | 实体链接 | BioPRO | Pytorch MindSpore | 通过Prompt Learning增强生物医学实体链接的实体表示 | 朱田恬 | 已开源 |
44 | 关系抽取 | PACNN_RL | TensorFlow | 使用分段注意卷积神经网络和强化学习的远程监督生物医学关系提取 | 朱田恬 | 已开源 |
45 | 医学文本匹配 | HiCapsRKL | Pytorch MindSpore | 该存储库包含论文“Leveraging Capsule Routing to Associate Knowledge with Medical Literature Hierarchically”的源代码。基本上,该程序以医学文献、RCor文本片段、KImp文本片段和知识为输入,预测一个标签来表示医学文献与知识的相关程度。有关底层模型的更多详细信息,请参见提交的论文。 | 刘欣 | 已开源 |
46 | 医学文本预训练模型 | Med-BERT | Pytorch MindSpore | 大规模医学文本预训练模型 | 相洋 | 已开源 |
47 | 医学文本预训练模型 | MedM-PLM | Pytorch MindSpore | 预训练模型。利用电子病历中的结构化与非结构化数据互补与共存的特点,通过构建两种文本模态的交互,对电子病历进行预训练。 | 刘思岑 | 已开源 |
48 | 文本推理 | Causformer | Pytorch MindSpore | 自然语言推理、文本分类,对自注意力网络的映射进行因果独立性假设,提高Transformer的分布外泛化能力 | 蒋硕然 | under review |
49 | 文本推理 | AdaLMM | Pytorch MindSpore | 适用于预训练模型的fine-tuning下游任务,通过fine-tuning预训练过程中加入自适应掩码和对比学习目标,提高模型在下游任务中的泛化能力 | 蒋硕然 | under review |
50 | 文本推理 | ADBlur4SPC | Pytorch MindSpore | 适用于文本分类的领域泛化,通过模糊不同域样本的表示空间中的边界,提高模型的领域泛化能力 | 蒋硕然 | under review |
51 | 文本推理 | MHGCN | Pytorch MindSpore | 在神经网络中实现高阶图卷积网络的近似,提高多跳图关系推理,并在文本分类和自然语言推理任务中验证 | 蒋硕然 | 已开源 |
52 | 文本推理 | ATTATTR | Pytorch MindSpore | 注意力网络贡献分析以及对抗攻击方法,通过对self-attention网络的saliency map设计对抗样本 | 蒋硕然 | 已开源 |
53 | 多模态翻译 | GlyphNMT | Pytorch MindSpore | 基于字形输入的机器翻译算法 | 侯永帅 | 已开源 |
54 | 云际NLP | JointLearningNLP | PaddlePaddle | 云际学习NLP算法,基于PaddlePaddle框架实现的支持云际学习的文本分类算法。 | 侯永帅 | 已开源 |
55 | 基础算法 | NLPTL | TensorLayer | TensorLayer实现的3个文本分类算法 | 侯永帅 | 已开源 |
56 | 机器翻译 | 基于自适应跨语言迁移的 多语言机器翻译 |
Pytorch MindSpore | 自适应的跨语言知识迁移,根据训练过程中不同语言之间的相关性、差异性实现自适应的参数分配以及跨语言知识蒸馏,从而极大化跨语言之间的正向迁移,减少负向迁移。 | 霍文帅 | 已开源 |
57 | 机器翻译 | 多语言机器翻译 平衡训练算法 |
Pytorch MindSpore | 从数据分配的角度解决多语言机器翻译中语言冲突的问题,根据语言之间的相关程度动态分配每个batch中各个语言数据量的占比。 | 霍文帅 | 已开源 |
58 | 机器翻译 | 多语言机器翻译语言 特定子网络算法 |
Pytorch MindSpore | 通过剪枝的方法给多语言机器翻译中的每个语言方向设定子网络,从而在保留语言间共享知识的同时减少语言之间的冲突。 | 霍文帅 | 已开源 |
59 | 机器翻译 | 机器翻译知识蒸馏算法 | Pytorch MindSpore | 通过知识蒸馏算法,将大型教师模型的知识传递给轻量级学生模型,从而在保持较低计算资源需求的同时,显著提高学生模型的性能。 | 李宝航 | 已开源 |
60 | 机器翻译 | 机器翻译模型集成算法 | Pytorch MindSpore | 通过结合多个独立训练的模型来提高整体预测性能和稳定性。这种方法通过减少单个模型的偏差和方差,实现更准确可靠的预测结果。 | 李宝航 | 已开源 |
PCL开源NLP算法库信息汇总
other
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》