识别一段由字母组成的字符串是拼音还是英文单词

aloiswei 2018-05-01 原文

环境：win10 python3.6

先说一下算法思想：

首先建立本地拼音库(不带声调)。使用贪婪算法将字符串从左向右扫描，将字符串与本地拼音库进行匹配，当发现匹配成功时继续扫描，直到又变得不匹配或者遇到结尾为止。

下面是python代码：

def pinyin_or_word(string):
    '''
    judge a string is a pinyin or a english word.
    pinyin_Lib comes from a txt file.
    '''
    string = string.lower()
    stringlen = len(string)
    temp_result = []
    temp_result_len = []
    while True:
        i_list = []
        for i in range(1,stringlen+1):
            if string[0:i] in pinyin_Lib:
                i_list.append(i)
        if len(i_list) == 0:
            print("这是一个英语单词！")
            temp_result = []
            break
        else:
            temp = max(i_list)
            temp_result.append(string[0:temp])
            temp_result_len.append(len(string[0:temp]))
            string = string.replace(string[0:temp],'')
            stringlen = len(string)
            if stringlen == 0:
                print("这是一个拼音！")
                print(temp_result)
                break
    return temp_result,temp_result_len

这里我封装成了一个函数：传参为字符串，输出“拼音+拼音长度”或者判定英文。

其实这个算法是有缺陷的：

①比如你输入一个英文单词’open’，将返回拼音’o’+’pen’

②虽说是判断拼音或单词，但是主要应该说是判断拼音，不能判断单词，想要精确判断，需添加单词库。

关于第二点这个容易修复，第一点暂时想不到，倘若哪位大侠可以想到，还望指教。

版权声明：本文为aloiswei原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/aloiswei/p/8976596.html

识别一段由字母组成的字符串是拼音还是英文单词的更多相关文章

Flask开发微电影网站(二)
1.安装数据库连接依赖包 pip install flask-sqlalchemy 2.创建movie数据库 […]...
如何优雅地过滤敏感词
敏感词过滤功能在很多地方都会用到，理论上在Web应用中，只要涉及用户输入的地方，都需要进行文本校验，如：XSS […]...
Javascript 手写 LRU 算法
LRU 是 Least Recently Used 的缩写，即最近最少使用。作为一种经典的缓存策略，它的基本思想是长期不被使用的数据，在未来被用到的几率也不大，所以当新的数据进来时我们可以优先把这些数据替换掉。一、基本要求固定大小：限制...
机器学习算法 — SVM (Support Vector Machine)
一、SVM的简介　　SVM(Support Vector Machine，中文名：支持向量机)，是一种非常常 […]...
leetcode-填充同一层的兄弟节点Ⅱ
给定一个二叉树 struct TreeLinkNode { TreeLinkNode *left; TreeL […]...
买卖股票专题系列1—买卖股票的最佳时机1
题目：　　给定一个数组 prices ，它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的 […]...
「算法与数据结构」从入门到进阶吐血整理推荐书单
笔者正在学算法，从一个算法初学者的角度推荐一下「算法与数据结构」从入门到进阶的书单。一.入门系列这些书 […]...
乘法逆元
求解逆元有如下几种方式： 1. 如果 mod 为素数，那么可以使用费马小定理+快速幂求解 2. 如果 gcd […]...

随机推荐

51单片机—Keil C语言
一、数据类型 sbit、sfr、sfr16属于C51的扩展数据类型;1、sbit:定义可位寻址类型的变量,用于 […]...
Google在线深度学习神器Colab
Colab是google最近推出的一项Python在线编程的免费服务, 有了它,不学Python编程的理由 […]...
每周学算法/读英文/知识点心得分享 2.25 – 3.1
每周学算法/读英文/知识点心得分享 2.25 – 3.1 每周一个 Algorithm，Revi […]...
微信小程序的登陆流程详解
小程序登陆和登陆状态维护 1.客户端调用 wx.login() ，获得返回参数 code 2.客户端调用 wx […]...
nginx使用replace-filter-nginx-module实现内容替换
有时候我们想对响应（例如PHP接口）返回的内容做些字符串，虽然可以使用各语言代码相关方法（例如PHP的str_ […]...
苹果内存管理
https://developer.apple.com/library/mac/documentation/C […]...
基于FPGA的视频格式转换系统设计
摘要: 针对电视制式PAL /NTSC 信号输出VGA 显示格式的解决办法，详细讲述了基于FPGA 视频格式 […]...
Python 中的注释规范
在Python中，分为单行注释，多行注释，特殊注释特殊注释: 　　#!/usr/bin/env python […]...

展开目录

目录导航