博主github:https://github.com/MichaelBeechan 博主CSDN:https://blog.csdn.net/u011344545 ============================================ 概念篇:https://blog.csdn.net/u011344545/article/details/89525801 技术篇:https://blog.csdn.net/u011344545/article/details/89526149 人才篇:http…

2019年4月26日 0条评论 9点热度 阅读全文

分词和词性标注是自然语言处理领域的重要组成部分,尤其对于中文而言,作为整条自然语言处理pipeline的源头,分词和词性标注更是起到了关键的作用。我整理这篇文章,主要来源于这几个问题: 一、理解中文词性是否有意义? 问题:前几天跟几个刚认识的朋友谈自然语言处理的相关问题时,遇到一问题让我觉得很有意思,这位朋友说,中文没有词性可言,因为中文的词性兼类太过于严重,动副兼类,名动兼类等等,理解中文词性没有任何意义。当然,这位朋友知识从一个汉语本身的特点来说出的这个结论,但说理解中文词性没有任何意义,这个不太赞同。中文的词…

2019年4月8日 0条评论 10点热度 阅读全文

审校:龙心尘 作者:Jay Alammar 编译:张秋玥、毅航、高延 https://blog.csdn.net/longxinchen_ml/article/details/89077048 原文链接: https://jalammar.github.io/illustrated-word2vec/ 嵌入(embedding)是机器学习中最迷人的想法之一。 如果你曾经使用Siri、Google Assistant、Alexa、Google翻译,甚至智能手机键盘进行下一词预测,那么你很有可能从这个已经成为自然语言处…

2019年4月8日 0条评论 11点热度 阅读全文

文本分类一般可以分为二分类、多分类、多标签分类三种情况,二分类是指将一组文本分成两个类(0或1),比较常见的应用如垃圾邮件分类、电商网站的用户评价数据的正负面分类等,多分类是指将文本分成若干个类中的某一个类,比如说门户网站新闻可以归属到不同的栏目中(如政治、体育、社会、科技、金融等栏目)去。多标签分类指的是可以将文本分成若干个类中的多个类,比如一篇文章里即描写政治又描写金融等内容,那么这篇文章可能会别贴上政治和金融两个标签。今天我尝试使用Python和sklearn来实现一下文本的多分类实战开发。   数…

2019年3月2日 0条评论 12点热度 阅读全文

Protege的下载安装与使用 本文是王昊奋老师《知识图谱》系列笔记第2.1篇。 文章目录 Protege的下载安装与使用 0 相关介绍 0.0 Protege相关介绍 0.1 Protégé的特点 0.2 Protégé的用途 1 Protege的下载 1.1 准备工作:安装配置JAVA环境 1.2 官网下载 2 Protege的安装 2.1 直接解压缩 2.2 双击运行 3 Protege的使用实例-创建类和实体 3.1 新建本体(一个体系) 3.2 创建类(Class) 3.3 构建类之间的关系 3.4 (重…

2019年3月1日 0条评论 10点热度 阅读全文

NLP 中,文本匹配技术,不像 MT、MRC、QA 等属于 end-to-end 型任务,通常以文本相似度计算、文本相关性计算的形式,在某应用系统中起核心支撑作用,比如搜索引擎、智能问答、知识检索、信息流推荐等。本篇将纵览文本匹配的技术发展,并重点介绍文本语义相似度计算技术,以及多轮对话场景中的文本语义相似度计算技术。 1、文本匹配任务 在真实场景中,如搜索引擎、智能问答、知识检索、信息流推荐等系统中的召回、排序环节,通常面临的是如下任务: 从大量存储的 doc 中,选取与用户输入 query 最匹配的那个 doc…

2019年1月13日 0条评论 10点热度 阅读全文

事件、事件抽取与事理图谱     人类社会是一个静态事物进行动态活动所创造形成的世界,人类的命题记忆是以“事件”为存储单位的,存储的是组成事件的概念及其之间的关系以及事件及其之间的关系,以事件作为知识的基本单元更能反映客观世界的知识,特别是知识的动态性,从认知心理学的角度来看,事件更符合人类的理解与思维习惯。知识库是机器实现认知智能的根本前提之一,如何让机器能够以一种更为接近于人脑知识结构体系的方式武装自己,是信息抽取以及知识工程领域一直致力攻克的方向。目前,以“事件”为核心…

2019年1月4日 0条评论 8点热度 阅读全文

内容提要 分类概述 分类流程 数据采集 爬虫技术 页面处理 文本预处理 英文处理 中文处理 去停用词 文本表示 特征选择 分类模型 分类概述   分类(Classification)是指自动对数据进行标注。人们在日常生活中通过经验划分类别。但是要依据一些规则手工地对互联网上的每一个页面进行分类,是不可能的。因此,基于计算机的高效自动分类技术成为人们解决互联网应用难题的迫切需求。与分类技术类似的是聚类,聚类不是将数据匹配到预先定义的标签集合,而是通过与其他数据相关的隐含结构自动的聚集为一个或多个类别。文本分类是数据挖…

2018年11月5日 0条评论 8点热度 阅读全文

内容提要 分类概述 分类流程 数据采集 爬虫技术 页面处理 文本预处理 英文处理 中文处理 去停用词 文本表示 特征选择 分类模型 分类概述   分类(Classification)是指自动对数据进行标注。人们在日常生活中通过经验划分类别。但是要依据一些规则手工地对互联网上的每一个页面进行分类,是不可能的。因此,基于计算机的高效自动分类技术成为人们解决互联网应用难题的迫切需求。与分类技术类似的是聚类,聚类不是将数据匹配到预先定义的标签集合,而是通过与其他数据相关的隐含结构自动的聚集为一个或多个类别。文本分类是数据挖…

2018年11月5日 0条评论 10点热度 阅读全文

自然语言处理(NLP)是一种在计算机领域中以理论为驱动,用于人类语言的自动分析和表示的技术。NLP研究从打卡和批量处理的时代发展而来(其中一句话的分析可能就需要7分钟),到现在的谷歌时代和它的推荐系统(可在不到一秒的时间内处理数百万个网页)。本综述文章借鉴了NLP研究的最新进展,以全新的视角审视NLP技术的过去、现在和未来。借鉴商业管理和营销预测领域的“跳跃曲线”范式,这篇调查文章将NLP研究的演变重新解释为三条重叠曲线的交集-即句法、语义和语用曲线,这将最终导致NLP研究演变为自然语言理解。 1. 介绍 在互联网…

2018年9月12日 0条评论 12点热度 阅读全文