Synonyms Chinese Synonyms for Natural Language Processing and Understanding. 更好的中文近义词:聊天机器人、智能问答工具包。 synonyms可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。 Table of Content: Install Usage Quick Get Start Valuation Benchmark Statement References Fr…

2020年2月24日 0条评论 8点热度 阅读全文

TextCNN 短文本分类案例分享,学习更多工业界案例:数据分析可视化技术、TextCNN论文原理、词向量技术、tensorboardx效果可视化工具、TextCNN 短文本分类案例分享总结,让大家彻底掌握TextCNN 在文本分类领域应用,有任何问题请留言或者加入交流群:NLP技术交流群 ,让我们一起学习NLP。 自然语言处理(NLP):08 TextCNN在短文本分类应用介绍 自然语言处理(NLP):08-01 数据分析和文本分类效果对比 自然语言处理(NLP):08-02 CNN文本分类论文讲解及TextCN…

2020年2月17日 0条评论 12点热度 阅读全文

无论是做科学研究,还是工程项目,我们总是会碰上要比较字符串的相似性,比如拼写纠错、文本去重、上下文相似性等。度量的方法有很多,到底使用哪一种方法来计算相似性,这就需要我们根据情况选择合适的方法来计算。这里把几种常用到的度量字符串相似性的方法罗列一下,仅供参考,欢迎大家补充指正。 1、余弦相似性(cosine similarity) 余弦相似性大家都非常熟悉,它是定义在向量空间模型(VSM)中的。它的定义如下: 其中,A,B为向量中间中的两个向量。 在使用它来做字符串相似性度量的时候,需要先将字符串向量化,通常使用词…

2020年1月5日 0条评论 9点热度 阅读全文

要使得计算机能高效的处理真实文本,就必须找到一种理想的形式化表示方法,这种表示一方面能真实的反映文档内容(主题、领域或结构等),另一方面也要有对不同文档的区分能力。   目前文本表示通常采用向量空间模型(vector space model, VSM) 。VSM是20世纪60年代末期由G. Salton等人提出的,是当前自然语言处理中常用的主流模型。   下面首先给出VSM设计的基本概念: (1) 文档(document): 通常是文章中具有一定规模的字符串。文档通常我们也叫文本。 (…

2019年12月7日 0条评论 13点热度 阅读全文

Joint Learning of Hierarchical Word Embeddings from a Corpus and a Taxonomy Abstract 文中提出了一种层次word embedding去检测上意词(hypernymy) hypernym是指,例如 鸟是哺乳动物,那么哺乳动物是鸟的上意词。 提出的方法不仅考虑了上意词关系,也考虑了上下文语义信息。 介绍与相关工作 Hypernymy关系一直是NLP研究任务的重点 抽取出名词之间的hypernymy关系可以有效的用于其他任务之中。 传统的…

2019年12月6日 0条评论 11点热度 阅读全文

1. BiLSTM-CRF 1.1 模型                                         对于一个中文句子,这个句子中的每个字符都有一个属于集合{O,B-PER,I-PER,B-LOC,I-LOC,B-ORG,I-ORG}的标记。 第一层,look-up layer,旨在将每个字符表示从…

2019年11月16日 0条评论 13点热度 阅读全文

  词向量的表示可以分成两个大类1:基于统计方法例如共现矩阵、奇异值分解SVD;2:基于语言模型例如神经网络语言模型(NNLM)、word2vector(CBOW、skip-gram)、GloVe、ELMo。   word2vector中的skip-gram模型是利用类似于自动编码的器网络以中心词的one-hot表示作为输入来预测这个中心词环境中某一个词的one-hot表示,即先将中心词one-hot表示编码然后解码成环境中某个词的one-hot表示(多分类模型,损失函数用交叉熵)。CBOW是反过来的,分别用环境中…

2019年8月4日 0条评论 16点热度 阅读全文

word2vec 1 算法的基本思想 1.1 什么是word2vec 1.2 counting编码举例 1.3 Skip-gram 和 CBOW 模型 2 举例说明 2.1 构造训练数据 2.2 数字化表示单词对 2.3 定义网络结构 2.4 隐藏层 2.4 输出层 3 直觉的启示 4 训练技巧 4.1 将词组和短语看作独立的单词 4.2 对高频词进行抽样 4.3 负抽样 4.4 负抽样应当抽谁的样? 总结 本文是一篇翻译的文章,原文链接是:http://mccormickml.com/2016/04/19/wor…

2019年7月1日 0条评论 10点热度 阅读全文

主要是看了知乎上面一位作者写的解析,然后自己在看的过程中顺带记录一下,流程差不多,自己写的话复习比较直观快速         1、Query是用户输入的问题   2、DM(对话管理模块)层:       这一模块分为:状态追踪(对句子进行处理CQU+UU+SU)+对话策略(确定使用后续哪个功能) 状态追踪=s=(Qc,C,eQ,eR)=CQU(带背景query理解)+UU(用户理解)+SU(系统理解) C是对话背景; Qc是利…

2019年5月23日 0条评论 11点热度 阅读全文

在我之前的博客中我们介绍了文本的多分类的方法,我们还尝试了各种分类模型,比如朴素贝叶斯、逻辑回归、支持向量机和随机森林等并且都取得了非常不错的效果。今天我们使用深度学习中的LSTM(Long Short-Term Memory)长短期记忆网络,来尝试一下中文文本多分类,LSTM它是一种时间循环神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。 LSTM 已经在科技领域有了多种应用。基于 LSTM 的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别图像识别、手写识别、控制聊天机器人、预测…

2019年5月6日 0条评论 11点热度 阅读全文