`
eric_weitm
  • 浏览: 233809 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

自然语言处理概览

 
阅读更多

自然语言处理研究的是词、句、文档等几个层次的内容。

一、层次概念

理论流派

1、形式语法(复杂特征集)

2、词汇主义方法(WordNet、ConceptNet、FrameNet), 人工总结和整理概念、层次、结构等 

3、统计语言模型(语言有统计规律性,让机器去自己学习规律)

 

统计语言模型的细化(怎么描述语言的结构构成,比如词语怎么构成短语,句子,文章)

1、单词的组合形成短语(没有顺序和上下文信息),使用词袋来描述短语(one-hot representation)

2、组合+序列组成短语。分布表示:包含顺序和上下文信息。

 

分布表示的形式

1、矩阵描述,比如一个词和所有n个词上下文的矩阵(维度太大)

2、神经网络表示n-gram,用网络结构来描述每一个词的上下文环境

3、CBOW(Continuous Bag-of-Words)和 Skip-gram,用深度学习的方式抽取特征,简化了网络结构

 

CBOW 和skip-gram的训练方式

word2vec

 

简单说:统计模型->词袋->n-gram->CBOW->word2vec

语句描述为词向量的序列构成的向量

 

二、预处理

1、去除html tag 

2、编码 

3、doc --》句子--》单词(词性tag等)

4、去掉标点、太短的单词

5、去掉停用词 

6、抽取词干(stemming )分词,原型,过去式,近义词 统一成一个

 

二、分析(拆分,之后汇总理解):

1、分词、标注、统计词频等

2、信息提取(识别短语+识别entity+提取关系),非结构化->结构化(知识表达)

3、自动抽取 关键词、摘要;相似度比较(文档层面)

4、主题抽取(单文档) Gensim LDA:基于词袋的模型来进行主题抽取,所以效果不如基于CBOW的

5、分类、聚类(多文档)

6、情感分析

7、消除歧义

8、句法分析(谓词逻辑(sql)-》 问答和翻译)

9、抽象含义?言外之意?推理规则?

 

概括:摘要、主题、情感、分类(都是语义层面的)

 

三、应用

推荐系统

问答系统

对话系统

机器翻译

 

四、基本概念

1、TF(词频):某个单词在整个文档中出现的频率

2、IDF(逆向文件频率):总文件数目除以包含该词语之文件的数目,之后取对数,(描述是否在比较少的文件中存在)

TF-IDF(term frequency–inverse document frequency):TF与IDF的乘积,可以作为文件的特征。TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

3、命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

4、n-gram 搜索n个词的上下文来确定词性和含义,即下一个词与前面的n-1个词有关系

5、wordnet 近义词典

五、相关库

传统基于词袋的库:

抽取主要的词和句子 xiaoxu193/PyTeaser (比较相似性)

相似度比较  nhirakawa/BM25

情感分析 sloria/TextBlob

NLTK

snownlp 集成

 

基于深度学习的

生成标题 https://github.com/rockingdingo/deepnlp/tree/master/deepnlp/textsum

主题抽取 Gensim 

情感分析 xiaohan2012/twitter-sent-dnn  wendykan/DeepLearningMovies

 

分享到:
评论

相关推荐

    自然语言处理数据集-某外卖平台收集的用户评价,正向 4000 条,负向 约 8000 条.rar

    某外卖平台收集的用户评价,正向 4000 条,负向 约 8000 条 情感/观点/评论 倾向性分析 某外卖平台 中文短文本情感分析语料 外卖评价

    HCIP-AI-MindSpore Developer V1.0视频.zip

    目录网盘文件永久链接 1.1 人工神经网络 .zip 1.2 卷积神经网络 .zip 1.3 循环神经网络 .zip ...5.3 自然语言处理应用系统与基于MindSpore的实践.zip 5.4 自然语言处理实验 .zip ....................

    来看看GPT-4技术概览

    GPT-4是一款表现非常出色的人工智能语言模型。它在多项测试和基准上的表现非常出色,如Uniform Bar Exam、LSAT、SAT数学和SAT基于阅读与写作的证据等考试,GPT-4在这些考试中的得分百分位在88%以上。这意味着GPT-4...

    pretrained-models:开放语言预训练模型动物园

    这是由追一科技有限公司推出的一个预训练模型合集,主要发布自研的预训练语言模型,推动自然语言处理技术的进步。预训练语言模型通过在大规模文本上进行预训练,可以作为下游自然语言处理任务的模型参数或者模型输入...

    xmnlp:小明NLP:提供中文分词,词性标注,拼写检查,文本转拼音,情感分析,文本摘要,偏旁部首

    / xmnlp /小明NLP —轻量级中文自然语言处理工具轻量级中文自然语言处理工具包v 0.2.3 RIP 0.2.3版是xmnlp最后一个兼容Python 2.7的版本功能概览中文分词和词性标注支持繁体支持自定义词典中文拼写检查文本摘要&...

    NLP介绍&心得&项目&相关练习

    本文是对自然语言处理(NLP)领域的一次全面而深入的探索,涵盖了NLP的基本概念、学习心得、项目实践以及相关练习等多个方面。无论你是NLP的初学者还是有一定经验的从业者,都能从中获得宝贵的启示和收获。 文章...

    基于人工智能的智能电网研究应用.pptx

    录音 音频模板 特征提取 噪声消除 声纹图谱 辅助参数 声纹图谱库 分布式存储 模式匹配 客户档案 信誉等级 历史通话记录 声学特征 声学模型 语言模型 深度学习引擎 语音识 别引擎 自然语言处理引擎 训练 质检 场景...

    kagami:日语输入法(客户端和服务器)

    火神 概览 概览 日语输入法(客户端和服务器) Emacs 客户端 C++ 中的服务器 适合技术写作的模型 我们很快就会写一个安装手册。 设置 !... git 上的文件还有一些不完整!...2015 年自然语言处理学会第 21 届年会。

    浅说深度学习之:序列学习

    而这一篇当中,我们将一起认识自然语言处理领域的核心:序列学习。图1:长短期记忆(LSTM)单元。 LSTM有四个输入权重和四个循环权重。Peepholes是记忆细胞和门之间的额外连接,但他们对性能提升帮助不到,所以常被...

    快速数据挖掘数据分析实战RapidMiner工具应用第12章 文本挖掘V1.1.pdf

     语言种类检测  客户反馈分析、微博评论情感分析  … 12.2学习目标 在学习完本章后,您应能够:  解释什么是文本挖掘、如何使用文本挖掘,以及使用文本挖掘有哪些好处。  识别文本可能采取的各种格式,...

    sent:Hackbright 4 周顶点项目

    当通过 Zendesk 导出 API 从 Zendesk 提取票证时,消息的内容将通过自然语言处理和情感分析进行分析,使用 scikit-learn 机器学习算法分配一个类别,并根据情感在收件箱中排名,来源(电子邮件与社交媒体)和时间。...

    《人工智能基础与应用》教学课件—认知人工智能的基础支撑.pptx

    自然语言处理:情感分析、神经机器翻译、自然语言推理 典型应用场景 在线视频、4K/8K业务、车联网、无人驾驶、远程医疗、智慧城市等 图像、声音等媒体数据;动作、姿态等行为数据;位置、天气等环境数据 实现物体与...

    GPT-4再掀AI研发热潮,从CADD到AIDD药物「智造」进展如何?

    结合人工智能(AI)、机器学习(ML)和深度学习(DL)等技术,可以处理大量的生物数据,从而在药物开发过程中减少时间和成本;根据蛋白质或配体的3D结构的可用性使用两种不同的技术,它们被称为基于结构的药物设计...

    人工智能自动问答系统方案设计.pptx

    在计算机视觉、语音识别、自然语言理解等领域取得了突破 思想就是堆叠多个层,一层的输出作为下一层的输入,输入信息分级表达 一堆输入I(如一堆图像或者文本) 一个系统S(有n层),通过调整系统中参数,使得它的...

    人工智能法律服务研究报告.pptx

    人工智能 法律 自然语言处理 知识图谱 代理诉讼 法律咨询 案件审理 文书处理 法律文书 合同 判决书 庭审记录 语音转录 语音识别 大数据 同案分析 起诉状 5 人工智能法律服务研究报告全文共28页,当前为第5页。...

    【清华】 软件工程(完) 视频.txt

    4.3.1自然语言描述 4.3.2结构化描述 4.4需求工程过程 4.5需求导出和分析 4.5.1需求发现 4.5.2采访 4.5.3脚本 4.5.4用例 4.5.5深入实际 4.6需求有效性验证 4.7需求管理 4.7.1需求管理规划 4.7.2需求变更管理 要点 ...

    人工智能基础与应用课件.pptx

    人工智能的研究领域 包括语音识别、图像识别、机器学习、深度学习、自然语言处理、知识图谱、脑机互动等等。 一、机器能思考吗? 人工智能拟人能力图 人工智能基础与应用课件全文共246页,当前为第9页。 人工智能的...

    从J2SE到J2EE知识点介绍

    (二).java语言基础 6 1.标识符 6 2. 基本数据类型 6 (三).面向对象 6 1.类和对象 6 2.类的声明 7 3.成员变量的声明 8 4成员方法的声明 8 5.创建对象 9 6.对象的使用 9 7.对象的初始化 10 8.类的封装 11 9.实例...

Global site tag (gtag.js) - Google Analytics