盛大创新院和搜狗研究员:自然语言处理的应用

【TechWeb报道】6月26日消息,盛大创新院搜索主题院研究员贾文杰和搜狗语言处理>自然语言处理助理研究员张帆今天做客第165期IT龙门阵,分享了关于语言处理>自然语言处理的应用和难点。

盛大创新院搜索主题院研究员贾文杰:面向搜索的中文分词系统

盛大创新院搜索主题院研究员贾文杰做了《面向搜索的中文分词系统》的主题演讲。他认为“无论是搜索还是推荐,做中文的互联网智能化处理,分词就是一个必不可少的步骤。”

分词应用的地方第一个是搜索,使用分词使得词表大大扩大,基于词做索引,后面的链条会大幅减少,倒排列表缩减会减少时间;第二个应用是上下文广告,比如推荐系统,“不管是做阅读、视频还是图片,或者是电商,基于内容相似度做推荐,不管是基于空间模型还是短本做推荐,第一步分词。”

贾文杰介绍,中文分词的难点第一个是切分歧义,对于语言单位有多种方法,第二个难点是未登录词,做分词系统没有的词或者是没有出现的词。

基于此,中文分词目前常见的算法包括无指导切分、基于词典的机械分词、基于语言模型的切分,基于字标注的切分。其中基于语言模型的方法是最常用的方法。

“做这样的分词系统有哪些核心工作要做呢?第一个,原子词识别,一些简单的命名实体,包括网址、时间、数字、日期,难点是规则整理,比如时间的表达非常多。第二个模块命名实体识别,除了前面的命名实体,剩下的主要是人名、地名、机构名,基于正则表达式写不出来,怎么来做?基于序列标注方法做,用一些方法把不在词典的词找出来。”

训练语言模型需要收集分词的语料库,目前的语料库有富士通和北京大学做的人民日报语料库,宾州中文树库,台北中研院的树库。

人民日报语料库有1400万词,是最大语料库,但是问题是缺少新词,创立年限太久,表达方式语序发生了很大变化,还有规模仍然不够大。

贾文杰介绍了盛大创新院推出的盛大云分词,它的优点是是分词结果较好,分词更快、而且是活的分词,分词保持不断更新,再者针对搜索进行了优化,最后还支持中英文之外的其他语言分词。

搜狗语言处理>自然语言处理助理研究员张帆:搜索查询意图识别

搜狗语言处理>自然语言处理助理研究员张帆做了《搜索查询意图识别》的主题演讲,他认为意图识别是知道用户想干什么,以便更好地满足用户需求。

现有的搜索引擎分为两类:通用搜索引擎和垂直搜索引擎,两种搜索引擎各有特点。通用搜索引擎抓取互联网上一切有价值的东西、统一建立索引,以关键字匹配为基本检索方式,以网页title和summary为展现方式。通用搜索引擎以百度、谷歌、搜狗、搜搜、有道为代表。

垂直搜索引擎以一定类别为主题,只抓取与主题相关的信息,更具主题特点有针对性的建立相应的索引检索方式,筛选方式以及展现方式,以机票搜索、地图搜索、购物搜索等为代表。

“通用搜索引擎的缺点是通用,不够准确,垂直搜索引擎的缺点是用户需要记住多个网站。有没有办法将二者结合?”张帆如此表示,“识别查询词对应的垂直搜索,并从中获取结果嵌入到通用搜索引擎中,可以为用户提供很好的体验。”这也就是意图识别用途。

意图识别的难点包括:输入不规范、意图太多、意图强度的区分、语料持续准确获取、搜索结果的可靠性、时效性的问题。

张帆提出了进行意图识别的几个方法:

词表穷举法,最简单直接的方法,通过词表的直接匹配来获取查询意图,它的实现方法是建立白名单系统、建立词表扩展系统、建立词表预处理系统,这种方法优点是简单易实现,缺点是召回比较低,人工比例较高。

规则解析法,适用于一些查询索然不集中淡非常符合规则的类别,通过规则解析查询来做一同识别和关键信息提取的。比如汇率查询、计算器、度量衡等。它的优点是信息提取准确,不足是只适用于规则性较强的类别。

统计模型分类法,一般有两种分类,一种是基于查询词本身的分类,另一种是基于查询词结果进行分类,这种方法适用于一些查询较为分散,且规则不明确的类别。这是最常用的方法,覆盖面最大的方法。这种方法的不足是实现较为复杂,数据获取、更新困难。

张帆介绍称,除此之外,还有一些特殊的意图识别方法,比如微博类意图识别,实现方法是对搜索结果进行时效性判断。

张帆认为,意图识别未来的发展的几个方向是无类别概念的意图识别,个性化意图识别,精准意图识别以及语音应用的意图识别。(张睿)


http://www.niftyadmin.cn/n/1534806.html

相关文章

3.nginx反向代理

如上配置,我们监听 80 端口,访问域名为 www.123.com(注意需要在host文件进行配置),不加端口号时默认为 80 端口,故访问该域名时会跳转到 127.0.0.1:8080 路径上。在浏览器端输入 www.123.com 结果如下&…

基于nginx的去中心化的mesh系统(nmesh)的设计(基于区块链技术的mesh系统(nmesh)的设计)...

nmesh作为每一个节点的代理nmesh同步所有的数据(全部冗余)nmesh是一个去中心化的nosql数据库(兼容redis协议)每一个应用需要提供注册自己的主机端口到nmesh上面应用需要提供/health等接口用于健康检查等nmesh是一个json-rpc(msgpack-rpc|grpc&#xff5c…

国务院智囊建议全面放开二胎:越晚越被动

核心提示:国务院发展研究中心社会发展研究部葛延风、喻东、张冰子三位专家在《中国经济时报》发表文章《完善社会政策需要着重解决的关键体制机制问题》,提出尽快调整完善人口和计划生育政策。北京、上海等大城市按户籍人口计算则出现了低于1的超低水平。…

4.nginx负载均衡配置

轮询:每个请求按时间顺序逐一分配到不同的后端服务器,如果后端服务器 down 掉,能自动剔除 upstream myserver {server 127.0.0.1:8082;server 127.0.0.1:8081;}weight:weight 代表权,重默认为 1,权重越高被分配的客户端越多 upst…

怎样查看一个端口有无开启

有时候我们需要确定一下某个端口有无开启,有两种方法。 方法 1:查看一个端口有无开启的最简单方法 查看端口有无开启,需要在dos里使用命令来完成。这个命令就是: netstat -ano这个命令能显示当前电脑有哪些端口正在使用&#xff0…

LCA的在线与离线算法

在线:链接 离线:链接转载于:https://www.cnblogs.com/cnblogs321114287/p/7770413.html

5.nginx动态分离

文章目录第一步&#xff1a;创建对应的文件mkdir /data/image mkdir /data/www第二步&#xff1a;创建a.html&#xff0c;并放到www文件夹中 <h1>hello world</h1>第三步&#xff1a;找一个go.jpg放到image中 第四步&#xff1a;开始编辑nginx.conf 文件 第五步…

cookie的使用以及cookie的跨域名获取

cookie存放容量4k左右&#xff0c;可设置过期时间。 1、cookie的封装使用 //设置cookiesfunction setCookie(name, value) {var Days 30;var exp new Date();exp.setTime(exp.getTime() Days * 24 * 60 * 60 * 1000);document.cookie name "" value ";ex…