e8体育网 自然语言处理
项目期限:2018 年春/夏
这个自然语言处理 (NLP) 项目是对现有 NLP 资源和算法的研究/调查,可用于我们 ACE 项目空间合作伙伴之一正在开发的商业应用。
这个项目是对机器学习的一次有趣尝试,ACE 项目空间的教师认为非常适合该领域的商业技术管理 (BTM) 学生。我们非常幸运,我们的一名学生正在攻读商业信息技术 (BIT) 和 BTM 文凭。凭借强大的编程和分析能力,他确实能够充分利用这个项目。该项目的总体目标是探索如何使用 NLP 根据用户使用的语言来确定用户意图。
刚开始这个项目时,我们的学生不知道什么是 NLP,也没有任何 Python 知识。幸运的是,我们的研究协调员 Elsanussi Mneina 精通机器学习,专门研究语言学和 NLP。经过我们的协调员和学生的介绍,我们的学生感到对这个新的、不确定的项目的支持。 Elsanussi 在向我们的学生介绍 NLTK 库等资源方面发挥了重要作用,并分享了他自己与数据科学和 NLP 相关的一些经验。
在最初的几周内,我们的学生能够依靠 BIT 的编程技能以及应用在 BIT 和 BTM 项目中学到的面向对象编程原理自学 Python。在学习 Python 时,他使用 BeautifulSoup、Tweeter API 和 JSON 中的资源来理解从各种来源读取和获取数据。
我们的学生能够识别和探索情感分析领域,将其作为一种对文本进行分类、对句子、段落和单词进行评级(无论是负面、中性还是正面等)的方法。我们的学生使用 NLTK 进行了探索对文本进行标记,识别停用词(与句子无关的单词),并确定句子中哪些词性最重要。他还探索并测试了类似的分类器及其对项目范围的适用性,包括NLTK SentiWordNet、NLTK VADER 情感强度分析器、NTLK 情感分析器和 Textblob 情感分析。他的目标是确定是否有任何分类器是可定制的,是否可以用于对文本进行分类,以及是否可以进行训练。
使用的技术: NLTK、TextBlob、BeautifulSoup4、Pandas、Jupyter、JSON、Unicode、Notepad++、python 3.5(32 位)
